Está en la página 1de 787

Métodos, 

Aplicaciones y Ejercicios  

 
 

DIAGNOSTICAR 
 
Estimación de parámetros 
DESCONOCIDA
FUNCIONES  DEL MUESTREO  y visualización del 

INFERENCIA ESTADÍSTICA 
 
comportamiento de sus 
distribuciones 
  (ESTIMACIÓN) 
 
ESTRUCTURA  SITUACIÓN
DE LA   
PROBLEMA 
REALIDAD  Comprobar el 
 
comportamiento de las 

VERIFICAR 
estimaciones de los 
  parámetros y sus 
CONOCIDA distribuciones 
  (PRUEBA DE HIPÓTESIS) 

 
RAFAEL KLINGER ANGARITA
 

 
Distribuciones del Estimador 
 

V (θˆ1 ) < V (θˆ2 )


f (θˆ) θˆ
 

1  

θˆ2
Frecuencia 

θ θˆ
 

 
Facultad de ingeniería
Escuela de Ingeniería Industrial y Estadística
 

 
 
 
El propósito de este libro es el de presentar de una manera amigable y sencilla los
  del Muestreo Probabilístico desde una
diferentes conceptos involucrados en la Teoría
 
óptica clásica.
 
 
Siendo el muestreo una de las formas básicas   de la Estadística para obtener
  información con el propósito de satisfacer necesidades establecidas en proyectos de
investigación de diferente índole y cobertura,
  se constituye en el mundo de hoy con
  más fuerza en una metodología científica para la toma de decisiones mediante el uso
de la Inferencia Estadística. Basta con considerar
  el tamaño de los colectivos objeto de
  estudio, la dificultad en tiempo y dinero para llegar a todos los elementos que los
componen y en algunos casos los riesgos por   la destrucción a la que se llegaría para
 
poder observarlos (medirlos) así como la dificultad de su acceso; situaciones éstas que
obligan en cualquier campo del conocimiento   a la toma de una muestra probabilística
 
de dicho colectivo.
 
 
Tres aspectos son de suma importancia en la obtención de una muestra desde el punto
 
  de vista práctico: por una parte la forma como serán obtenidas las unidades que
conformarán la muestra la cual debe estar regida
  por la aleatoriedad con el propósito
  de evitar sesgos de selección; en segundo lugar, el tamaño de dicha muestra soportada
sobre la base de supuestos teóricos para  la distribución (comportamiento) del
  estimador asociado al parámetro investigado, el error asumido con la estimación
debido a la diferencia entre el estimador y el  parámetro objeto de estimación y el nivel
 
de confianza en términos de probabilidad que se desea tenga el cumplimiento de dicho
error y en tercer lugar los costos involucrados
  en la obtención de dicha muestra pues
 
nadie niega la importancia de trabajar con muestras económicas.
 
 
El libro está dirigido a estudiantes y profesionales de la Estadística y demás áreas del
 
  conocimiento que posean elementos de matemáticas a nivel medio para entender las
demostraciones presentadas en algunos de los  capítulos.
 
Se presentan los distintos aspectos relacionados
  con la Teoría del Muestreo así como
  los diferentes métodos para la obtención de una muestra, poniendo especial cuidado a
lo largo del libro en su aplicabilidad a través  de ejemplos alusivos a situaciones reales.
 
El lector podrá mediante el uso del MINITAB   14 o algún otro software de que
 
disponga, aplicar los diferentes conceptos presentados al usar la base de datos que se
anexa. Así mismo, podrá poner en práctica   los conceptos aprendidos mediante la
 
solución de los ejercicios que aparecen al final de cada capítulo.
 
 
 
  RAFAEL KLINGER ANGARITA
 
  Profesor Titular de la Escuela de Ingeniería Industrial y Estadística de la Universidad
del Valle. Asesor y consultor en el campo de  la Estadística Aplicada con especialidad
  en muestreo.
 
 

 
MUESTREO ESTADÍSTICO:
Métodos, Aplicaciones y Ejercicios
RAFAEL KLINGER ANGARITA

MUESTREO ESTADÍSTICO:
Métodos, Aplicaciones y Ejercicios

Universidad del Valle


Facultad de Ingeniería
Escuela de Ingeniería Industrial y Estadística

Santiago de Cali, 2010.


A Dios por concederme el don de la vida
A mi madre por el legado de valores que conservo
A mis hijos y mi esposa por el tiempo que este material les robó
A mis estudiantes porque día a día me hacen mejor docente.
 
ÍNDICE GENERAL

PRÓLOGO…………………………………………………………………………………………..…..xix

1 MUESTREO ESTADÍSTICO E INVESTIGACIÓN

1.1 Introducción……………………………………………………………………………………... …3

1.2 Soportes de una investigación de calidad………………………………………………………… ..3

1.3 La investigación y el modelo estadístico………………………………………………………..…. 4

1.3.1 Elementos del proceso estadístico en una investigación……………………………............ 5

1.3.2 Objetivo de una encuesta o estudio estadístico…………………………………………..… 6

1.3.3 Tipos de investigación……………………………………………………………………....7

1.4 Características que diferencian el censo y el muestreo……………………………………………..7

1.5 Datos estadísticos…………………………………………………………………………………...8

1.6 La validez de un estudio estadístico………………………………………………………………...9

1.7 El muestreo una necesidad en el mundo de hoy…………………………………………………...12

1.7.1 Porqué muestrear…………………………………………………………………………...13

1.7.2 Muestreo e inferencia .…………………………………………………………………….14

1.7.3 Muestreo teoría y empirismo………………………………………………………….........15

1.7.4 Características deseables de una investigación por muestreo……………………………...16

1.8 Los métodos de muestreo………………………………………………………………………….16

1.8.1 Muestreo probabilístico……………………………………………………………. ……...17

1.8.2 Muestreo no probabilístico……………………………………………………………........25

1.8.3 ¿Qué tipo de muestreo usar?.................................................................................................25

1.9 Caracterizando la población: Censo o muestreo…………………………………………………...27

1.10 Escalas de medición datos y muestreo…………………………………………………………….28

1.11 Marcos muestrales…………………………………………………………………………………29

1.11.1 Aspectos que determinan la calidad de un marco muestral………………………………..30


 
1.11.2 Algunos problemas de los marcos muestrales……………………………………………...30

1.11.3 Ejemplos de marcos muestrales……………………………………………………………31

1.11.4 Delimitando la población objeto de estudio………………………………………………..32

1.11.5 Algunas relaciones entre la población objetivo y el marco muestral…………………........32

1.12 Insumos básicos para la elaboración de un plan de muestreo……………………………………..34

1.13 Parámetros y estimadores………………………………………………………………………….36

1.13.1 La distribución del estimador…………………………………………………………........38

1.13.2 La validez y la fiabilidad de un estimador…………………………………………………40

1.13.3 Propiedades básicas de los estimadores…………………………………………………....41

1.14 Errores en la investigación por muestreo………………………………………………………….44

1.14.1 Errores no muestrales……………………………………………………………………....44

1.14.2 Errores de muestreo………………………………………………………………………...45

1.14.3 Error total en una investigación por muestreo……………………………………………..46

1.14.4 El sesgo en el muestreo…………………………………………………………………….47

1.14.5 Tres sesgos que se deben evitar…………………………………………………………….48

1.15 Formas básicas de obtención de información……………………………………………………...49

1.15.1 Etapas básicas en el diseño de un cuestionario…………………………………………….52

1.16 Etapas en una encuesta por muestreo……………………………………………………………...52

1.16.1 La imputación de datos…………………………………………………………………….57

1.16.2 La ficha técnica…………………………………………………………………………….58

Ejercicios…………………………………………………………………………………………..58

2 MUESTREO ALEATORIO SIMPLE (MAS)

2.1 Introducción………………………………………………………………………………………..63

2.2 Definición del muestreo aleatorio simple (MAS)………………………………………………….63

2.3 Hipótesis sobre las que se fundamenta el MAS……………………………………………….......64

2.4 Formas de realizar un MAS………………………………………………………………………..64

ii 
 
2.5 Muestreo aleatorio simple sin reemplazo…………………………………………………….……65

2.6 Procedimiento para seleccionar una muestra aleatoria simple sin reemplazo……………………..67

2.7 Muestreo aleatorio simple sin reemplazo para variables…………………………………………..68

2.7.1 La media poblacional y su estimador…………………………………………………........68

2.7.2 El total poblacional y su estimador………………………………………………………...69

2.7.3 Propiedades relacionadas con el estimador de la media y el total poblacionales…………..70

2.7.4 Intervalos de confianza……………………………………………………………………..83

2.7.5 El cociente de dos variables (razón)………………………………………………………..87

2.7.6 Propiedades del cociente de dos variables……………………………………………........87

2.7.7 Estimación de la media y el total cuando la población está dividida en dominios………...91

2.7.8 Propiedades de los estimadores de la media y el total en el muestreo por dominios…........92

2.8 Muestreo aleatorio simple sin reemplazo para atributos…………………………………………..95

2.8.1 La proporción poblacional y su estimador……………………………………………........96

2.8.2 Propiedades del estimador de la proporción poblacional…………………………………..97

2.8.3 El total poblacional y su estimador para atributos……………………………………......102

2.8.4 Propiedades del estimador del total para atributos………………………………………..102

2.8.5 Estimación de la proporción cuando la población esta divida en más de dos


clases……………………………………………………………………………………...103

2.8.6 Propiedades del estimador de la proporción cuando la población está


dividida en más de dos clases (situación1)……………………………………………….104

2.8.7 Propiedades del estimador de la proporción cuando la población está


divida en más de dos (situación2)………………………………………………………...106

2.8.8 Propiedades del estimador del total para atributos cuando la población está
divida en más de dos clase (situación 2)………………………………………………….106

2.8.9 Proporciones y totales en subpoblaciones…………………………………………….......108

2.8.10 Estimación de la proporción y el total cuando la población está


divida en dominios……………………………………………………………………......109

2.8.11 Propiedades del estimador de la proporción y del total cuando la población está
divida en dominios………………………………………………………………………..109

iii 
 
2.8.12 Estimaciones de la proporción y el total cuando la población está dividida en
dominios…………………………………………………………………………………..110

2.8.13 Propiedades del estimador de la proporción y del total cuando la población está
divida en dominios………………………………………………………………………..110

2.9 Muestreo aleatorio simple con reemplazo………………………………………………………..111

2.9.1 Estimador para la media y el total en el MAS con reemplazo……………………………114

2.9.2 Propiedades del estimador de la media y el total en el MAS con reemplazo…………….114

2.9.3 La proporción y el total en el MAS con reemplazo………………………………………119

2.9.4 Propiedades del estimador de la proporción y el total en el MAS con reemplazo………..120

2.10 El método de bootstrap…………………………………………………………………………...123

Ejercicios…………………………………………………………………………………………126

3 ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA

3.1 Introducción…………………………………………………………………………………...….145

3.2 Ecuaciones fundamentales para la determinación de n (tamaño de la muestra…………………145


3.3 Estimaciones adelantadas de la cuasivarianza poblacional ……………………………………...146

3.3.1 Muestreo en dos pasos…………………………………………………………………….146

3.3.2 Por conocimiento parcial de la distribución de la característica analizada……………….147

3.4 Tamaño de muestra para variables……………………………………………………………….151

3.4.1 Tamaño de muestra para estimar la media poblacional con varianza deseada
para el estimador igual a V0 ……………………………………………………………...151

3.4.2 Tamaño de muestra para estimar el total poblacional con varianza deseada
para el estimador igual a V0 ……………………………………………………………...152

3.4.3 Tamaño de muestra para estimar la media poblacional con un error relativo
deseado r ………………………………………………………………………………...153

3.4.4 Tamaño de muestra para estimar el total poblacional con un error relativo
deseado r …………………………………………………………………………………155

3.4.5 Tamaño de muestra para estimar la media poblacional con un coeficiente


del estimador deseado igual a C 0 ……………………………………………………..….156

iv 
 
3.4.6 Tamaño de muestra para estimar el total poblacional con un coeficiente
del estimador deseado igual a C 0 …………………………………...................................157

3.5 El estimador de la media poblacional en presencia de la suma de dos muestras


diferentes de la misma población………………………………………………………………...159

3.6 Tamaño de muestra para atributos……………………………………………………………......163

3.6.1 Estimación anticipada de P ………………………………………………………… ......163

3.6.2 Tamaño de muestra para estimar la proporción P poblacional cuando se


desea una varianza del estimador igual a V0 ………………………………………….. ...165

3.6.3 Tamaño de muestra para estimar el total poblacional cuando se desea una
varianza del estimador igual a V0 ………………………………………………………...167

3.6.4 Tamaño de muestra para estimar la proporción poblacional cuando se desea


un error relativo r ……………………………………………………………………......168

3.6.5 Tamaño de muestra para estimar la proporción P poblacional cuando se desea


un coeficiente de variación para el estimador igual a C 0 ………………………………..169

3.6.6 Tamaño de muestra para estimar el total poblacional cuando se desea un


error relativo r …………………………………………………………………………...170

3.6.7 Tamaño de muestra para estimar el total poblacional cuando se desea un


coeficiente de variación para el estimador igual a C 0 …………………………………...170

3.7 Errores asumidos por las estimaciones de los parámetros en variables que no definen
el tamaño de la muestra………………………………………………………………………..... 172

3.8 La sensibilidad de la varianza del estimador……………………………………………………..176

3.9 Tamaño de muestra en subpoblaciones o dominios de estudio…………………………………..177

3.9.1 Los dominios se pueden identificar por adelantado………………………………………177

3.9.2 Los dominios no se pueden identificar por adelantado…………………………………...180

3.10 Tamaño de muestra en subdivisiones poblacionales o dominios de estudio para atributos……...182

3.10.1 Los dominios se pueden identificar por adelantado………………………………………182

3.10.2 Los dominios no se pueden identificar por adelantado…………………………………..183

3.11 La sensibilidad del tamaño de una muestra……………………………………………………....186

3.11.1 Falsa creencia sobre el comportamiento del tamaño de una muestra………………….....187

3.11.2 Relación entre el tamaño de muestra y el tamaño de la población……………………….188


 
3.11.3 El tamaño de muestra como función de cada uno de los elementos que la definen ……...188

3.12 Costos y tamaño de muestra……………………………………………………………………...191

3.12.1 La precisión dependiendo del costo de recolección de información……………………...192

3.12.2 El costo de recolección de información dependiendo de la precisión del estimador……..192

3.13 Ajustes al tamaño de muestra debidos a la no respuesta y los costos del trabajo de campo……..196

Ejercicios…………………………………………………………………………………………196

4 MUESTREO ALEATORIO ESTRATIFICADO

4.1 Introducción………………………………………………………………………………………213

4.2 Hipótesis fundamentales del Muestreo Aleatorio Estratificado (MAE)………………………….213

4.3 Representación gráfica del MAE…………………………………………………………………213

4.4 Procedimiento para seleccionar una muestra aleatoria estratificada………………………… ….214

4.5 Razones para el uso del muestreo aleatorio estratificado…………………………………….......214

4.6 Tres preguntas que se deben contestar antes de realizar un MAE………………………………..215

4.7 Muestreo aleatorio estratificado para variables…………………………………………………..216

4.7.1 La media poblacional y su estimador……………………………………………………..216

4.7.2 El total poblacional y su estimador……………………………………………………….218

4.7.3 Propiedades relacionadas con el estimador de la media y el total poblacionales…………218

4.7.4 Asignación o afijación de la muestra…………………………………………………......223

4.7.5 Determinación del tamaño de la muestra para la estimación de la media y el


total poblacionales. Caso general…………………………………………………………229

4.7.6 Determinación del tamaño de la muestra para la estimación de la media y el


total poblacionales según el tipo de asignación ………………………….........................233

4.7.7 Tamaño de la muestra para satisfacer un presupuesto establecido C


dependiendo del tipo de asignación ……………….………………..................................238

4.8 Muestreo aleatorio estratificado para atributos………………………………………………......242

4.8.1 La proporción poblacional y su estimador……………………………………………......243

4.8.2 El total poblacional y su estimador……………………………………………………….244

vi 
 
4.8.3 Propiedades relacionadas con los estimadores de la proporción y el total
poblacionales ……………………………………………………………………………..245

4.8.4 Asignación de la muestra para atributos………………………………………………….253

4.8.5 Determinación del tamaño de la muestra para la estimación de la proporción


y el total poblacionales. Caso general…………………….................................................256

4.8.6 Determinación del tamaño de la muestra para la estimación de la proporción


y el total poblacionales según el tipo de asignación………................................................257

4.8.7 Tamaño de la muestra para satisfacer un presupuesto establecido C dependiendo


del tipo de asignación …………………………….............................................................263

4.9 ¿Qué hacer cuando la asignación de la muestra en uno o varios de los estratos supera el
tamaño de ellos?.............................................................................................................................266

4.10 Comparando el MAS con el MAE…………………………………………………………….....269

4.11 La ganancia en la estimación de la media o la proporción debida a la estratificación de una


población........................................................................................................................................273

4.12 La construcción de los estratos…………………………………………………………...……....279

4.12.1 El número de estratos y su efecto en la estimación de la media poblacional……………..282

4.12.2 El número de estrato al suponer que la variable analizada se distribuye uniforme……….284

4.13 Dominios de estudio en el MAE………………………………………………………………….288

4.13.1 La Media Poblacional para el dominio j-ésimo sobre todos los estratos y
su estimador se conoce N hj ………… …………………………………………………..288

4.13.2 La media Poblacional para el dominio j-ésimo sobre todos los estratos y
su estimador no se conoce N hj . Este estimador es sesgado………………………………289

4.14 Post-estratificación……………………………………………………………………………….292

4.14.1 Post estratificación para variables: La media y el Total…………………………………..292

4.14.2 Propiedades de los estimadores de la media y el total en la Post estratificación


para variables…………………………………………………………...............................293

Ejercicios……………………………………………………………………………….………...297

5 ESTIMADORES DE RAZÓN

5.1 Introducción………………………………………………………………………………………314

5.2 Objetivo fundamental de los estimadores indirectos……………………………………………..314

vii 
 
5.3 Procedimiento para el uso de los estimadores de razón………………………………………….315

5.4 Definición de la razón entre dos variables………………………………………………………..316

5.4.1 La razón poblacional de Y sobre X y su estimador en el MAS………………………..316

5.4.2 Propiedades relacionadas con el estimador de razón en el MAS…………………………316

5.5 Condiciones bajo las cuales el estimador de razón puede considerarse insesgado……………... 326

5.6 Cuando usar estimadores de razón……………………………………………………………….329

5.7 Estimadores para el total y la media poblacional con base en estimadores de razón…………….331

5.7.1 El total poblacional y su estimador……………………………………………………….331

5.7.2 La media poblacional y su estimador……………………………………………………..331

5.7.3 Propiedades relacionadas con los estimadores de la media y el total…………………. ...332

5.8 Tamaño de muestra para la estimación de una razón poblacional……………………………….340

5.9 Estimadores de razón en el MAE………………………………………………………………...346

5.9.1 Estimador de razón separada………………………………………………………… .. ...346

5.9.2 Propiedades del estimador de razón separada…………………………………………….346

5.9.3 Estimador de razón combinada…………………………………………………………...348

5.9.4 Propiedades del estimador de razón combinada………………………………………….348

5.10 Estimadores para la media y el total en el MAE con base en la razón……………………… ......351

5.10.1 Estimador de razón separada para la media y el total…………………………………….351

5.10.2 Propiedades del estimador de razón separada…………………………………………….352

5.10.3 Estimador de razón combinada para la media y el total…………………………………..354

5.10.4 Propiedades del estimador de razón combinada………………………………………….354

5.11 Comparación del estimador de razón separada con el estimador de


razón combinada para la media…………………………………………………………………..360

5.12 Tamaño de muestra para la estimación de la media y el total en al MAE


con base en la razón………………………………………………………………………………362

Ejercicios…………………………………………………………………………………………365

viii 
 
6 ESTIMADORES DE REGRESIÓN

6.1 Introducción……………………………………………………………………………………....382

6.2 Forma del estimador de regresión lineal……………………………………………………… …383

6.3 Procedimiento para el uso de los estimadores de regresión……………………………………...384

6.4 El estimador de regresión con b conocido (pre asignado)……………………………………... .384

6.4.1 La media poblacional y su estimador de regresión con b conocido (pre asignado)


esto es b b0 …………………………………………………………………………..384

6.4.2 El total poblacional y su estimador de regresión con b conocido………………………...384

6.4.3 Propiedades relacionadas con el estimador de la media y


del total poblacionales para la variable y, usando la regresión lineal…………………….385

6.5 Estimadores de la media y el total para la variable Y, utilizando el método de


regresión con b desconocido………………………………………………………………….......394

6.5.1 Propiedades relacionadas con el estimador de la media y del total poblacionales


para la variable Y , usando la regresión lineal con b estimado………………………. ….394

6.6
ˆ ˆ ˆ
Comparaciones de las varianzas: V (Y ) , V (YR ) y V (YRE ) , bajo el supuesto
de muestras grandes………………………………………………………………………………403

6.7 Tamaño de muestra para la estimación de la media poblacional y la estimación


del total para la variable y, mediante el uso del modelo de regresión
simple en el MAS……………………………………………………………………………. ….404

6.8 Estimación de regresión en el muestreo estratificado. ………………………………………. …408

6.8.1 Estimación separada para la media y el total poblacionales de la variable Y ……………408

6.8.2 Propiedades del estimador de la media y del total poblaciones por el método
de regresión separada con b pre asignado para la variable Y ……………………………408

6.8.3 Estimación combinada para la media y el total poblacionales de la variable Y ……. ….414

6.8.4 Propiedades del estimador de la media y del total poblacionales por el método
de regresión combinada con b pre asignado………………………………………………414

6.9 Comparación de la V (YˆRES ) MIN y V (YˆREC ) MIN ………………………………………………419

6.10 Tamaño de muestra para el uso de los estimadores de regresión


separada y combinada en el MAE………………………………………………………………..421

Ejercicios…………………………………………………………………………………………427

ix 
 
7 MUESTREO SISTEMÁTICO

7.1 Introducción………………………………………………………………………………………444

7.2 Procedimiento para seleccionar una muestra aleatoria sistemática (MSIS)…………………. ….444

7.3 Definición del MSIS…………………………………………………………………………. ….444

7.4 Muestreo sistemático MSIS y muestreo aleatorio simple MAS………………………………….444

7.5 Ventajas del muestreo sistemático………………………………………………………………..446

7.6 Desventajas del muestreo sistemático……………………………………………………………447

7.7 Perturbación del MSIS……………………………………………………………………………447

7.8 Alternativas que originan estimadores insesgados cuando k no es un entero………………......448

7.9 Relación del muestreo MSIS con el muestreo por conglomerados MCON……………………...448

7.10 Muestreo sistemático (MSIS) para variables…………………………………………………. …449

7.10.1 Estimadores de la media y el total poblacionales bajo el MSIS…………………… …..449

7.10.2 Propiedades del estimador de la media y del total poblacionales al usar


el MSIS para la variable Y …………………………………………………………......450

7.11 Cuando usar el MSIS…………………………………………………………………………......471

7.12 Algunos casos especiales de aplicación del MSIS…………………………………………… ....473

7.13 La estimación de la varianza del estimador de la media poblacional de la variable


analizada en el MSIS…………………………………………………………………………….475

7.14
ˆ
Estimación de V (YSIS ) , cuando no se tiene certeza de la existencia de orden
aleatorio entre las unidades poblacionales en el marco de muestreo…………………………. …476

7.15 Tamaño de muestra en el MSIS para variables (forma práctica aproximada)……………………477

7.16 ¿Qué hacer cuando W 0y WST 0 ?.................................................................................479

7.17 Muestreo sistemático (MSIS) para atributos………………………………………………… .....483

7.17.1 Estimadores de la proporción y el total vía proporción bajo el MSIS……………… .....483

7.17.2 Algunas propiedades del estimador de la proporción y del total vía


proporción al usar MSIS para atributos…………………………………………………484

Ejercicios………………………………………………………………………………………... 487


 
8 MUESTREO POR CONGLOMERADOS (MCON)

8.1 Introducción…………………………………………………………………………………...….505

8.2 Definición………………………………………………………………………………………...505

8.3 Procedimiento para seleccionar una muestra aleatoria por conglomerados (MCON )……… .....506

8.4 Ejemplos de unidades conglomeradas y sus respectivas unidades elementales………………….506

8.5 Diferencias y similitudes entre el MCON y el MAE………………………………………… ….506

8.6 Conglomerados de igual tamaño……………………………………………………………... ....507

8.7 Muestreo por conglomerados de igual tamaño para variables……………………………….. ....507

8.7.1 Los estimadores para la media poblacional por conglomerado y la media


poblacional por unidad elemental ……………………………………………………....511

8.7.2 El estimador para el total poblacional por unidad elemental………………………..….511

8.7.3 Propiedades de los estimadores de la media por unidad elemental y el total


en el MCON de tamaño igual……………………………………………………...……511

8.8 Comparación del MCON de igual tamaño con él MAS………………………………………. ...521

8.9 Tamaño de muestra en el MCON para variables…………………………………………………521

8.10 Muestreo por conglomerados para atributos…………………………………………………. …526

8.10.1 Estimadores para la proporción y el total vía proporción para la característica C … …529

8.10.2 Propiedades del estimador de la proporción y del total vía proporción en


MCON de igual tamaño…………………………………………………………………529

8.11 Tamaño de muestra para la estimación de la proporción y del total en el


MCON para atributos…………………………………………………………………………….533

8.12 Tamaño óptimo para M y n en la estimación de Y ………………………………… ...........534


8.13 El efecto de diseño………………………………………………………………………………..537

8.14 Muestreo unietapico de conglomerados de igual tamaño con probabilidades diferentes


de selección y con reemplazo…………………………………………………………………….539

8.14.1 Estimadores para el total y la media por unidad elemental para la variable Y ………...539

8.14.2 Propiedades de los estimadores para el total y la media por unidad elemental
para la variable Y ……………………………………………………………………....540

xi 
 
8.14.3 Estimadores para el total y la proporción………………………………………….……540

8.14.4 Propiedades de los estimadores para el total y la proporción…………………………...541

8.15 Conglomerados de tamaño diferente……………………………………………………………..541

8.16 La efectividad del MAE y la efectividad del MCON…………………………………………… 544

8.17 Conglomerados de tamaño diferente (poco variables sus tamaños entre sí)……………………..545

8.17.1 Estimadores de la media por unidad conglomerada y media por unidad


elemental para la variable Y ……………………………………………………………545

8.17.2 Propiedades del estimador de la media por unidad elemental ………………………….546

8.17.3 Propiedades del estimador del total para variables……………………………………...547

8.18 Tamaño de muestra para estimar la media por unidad elemental Y al estudiar la
variable Y ………………………………………………………………………………………..548

8.19 Conglomerados de tamaño diferente (muy variables sus tamaños entre sí) …………………......549

8.19.1 Estimador de la media y el total en el MCON de diferente tamaño cuando


se estudia la variable Y ………………………………………………………………...549

8.19.2 Propiedades relacionadas con el estimador de la media por unidad elemental


y del total en el MCON de tamaño diferente, con tamaños de los
conglomerados muy diferentes………………………………………………………….550

8.20 Tamaño de muestra para la estimación de la media por unidad elemental y la


estimación del total……………………………………………………………………………….552

8.21 Estimador de la media por unidad elemental cuando la selección del


conglomerado se obtiene mediante probabilidades variables relacionadas
con el tamaño del mismo y con reemplazo……………………………………………………….552

8.22 Estimador de la proporción y del total para una característica C analizada……………………..554

8.22.1 Estimador de la proporción y del total para la característica C analizada……………..554

8.22.2 Propiedades del estimador de la proporción y del total en el MCON de tamaño


diferente con tamaños de los conglomerados altamente variables……………………...554

8.23 Tamaño de muestra para la estimación de la proporción y del total de unidades que
pertenecen a la clase C ………………………………………………………………………. …556

Ejercicios…………………………………………………………………………………………557

9 MUESTREO EN VARIAS ETAPAS

9.1 Introducción………………………………………………………………………………………571

xii 
 
9.2 Definición………………………………………………………………………………………...571

9.3 Procedimiento para seleccionar una muestra bietápica……………………………………… ….572

9.4 Teorema de Madow………………………………………………………………………………572

9.5 Ventajas y desventajas del muestreo bietápico (MBI)…………………………………………...574

9.6 Muestreo bietápico en unidades conglomeradas de igual tamaño……………………………. …575

9.6.1 Estimador para la media por unidad elemental y estimador para el total……………..575

9.6.2 Propiedades relacionadas con el estimador de la media por unidad elemental


y el estimador del total en el MBI ……………………………………………………...576

9.7 Tamaño de muestra en el MBI de unidades conglomeradas de igual tamaño


para variables…………………………………………………………………………………. …586

9.8 Muestreo bietápico para atributos en conglomerados de igual tamaño………………………. …591

9.8.1 Estimador para la proporción y el total en el MBI de unidades


conglomeradas de igual tamaño………………………………………………………...591

9.8.2 Propiedades del estimador de la proporción y el total en el MBI


de unidades conglomeradas de igual tamaño…………………………………………...592

9.9 Muestreo estratificado de unidades conglomeradas de igual tamaño ……………………………598

9.9.1 El estimador de la media por unidad elemental en el MAE de unidades


conglomeradas de igual tamaño………………………………………………………...598

9.9.2 Propiedades del estimador de la media por unidad elemental en el MAE


de unidades conglomeradas de igual tamaño…………………………………………...598

9.10 Tamaño de muestra en el MAE para unidades conglomeradas de igual tamaño………………...600

9.11 Muestreo bietápico para variables en conglomerados de diferente tamaño……………………...606

9.11.1 Estimador de la media por unidad elemental y estimador para el total…………………606

9.11.2 Propiedades relacionadas con el estimador de la media por unidad elemental


y el estimador del total……………………………………………………………… …606

9.12 Muestreo bietápico para variables usando el estimador de razón al tamaño


del conglomerado………………………………………………………………………………...615

9.12.1 Estimador de la media por unidad elemental y estimador para el total…………………615

9.12.2 Propiedades del estimador del total y del estimador de la media por unidad
elemental al usar estimadores de razón al tamaño del conglomerado…………………..616

9.13 Muestreo bietápico para atributos en conglomerados de diferente tamaño………………………622

xiii 
 
9.13.1 Estimador de la proporción y estimador para el total…………………………………...622

9.13.2 Propiedades del estimador de la proporción y el estimador


del total para atributos…………………………………………………………………..623

9.14 Cálculo del m y n óptimos en el MBI para conglomerados de diferente tamaño,


utilizando razón al tamaño………………………………………………………………………..630

9.15 Muestreo bietápico con selección del conglomerado con probabilidades diferentes
mediante reemplazo………………………………………………………………………………634

9.15.1 Estimador del total y la media por unidad elemental…………………………………...635

9.15.2 Propiedades de los estimadores del total y la media por unidad elemental …………. ...635

9.16 Muestreo trietápico……………………………………………………………………………. ...637

9.16.1 Estimador para el total y la media en unidades conglomeradas de


igual tamaño…………………………………………………………………………….638

9.16.2 Propiedades del estimador del total en el muestreo trietápico de unidades


conglomeradas de igual tamaño………………………………………………………...638

9.17 Tamaño de muestra en el muestreo trietápico de unidades conglomeradas de igual tamaño….....641

9.18 Muestreo trietápico con unidades conglomeradas de diferente tamaño………………………….645

9.18.1 Estimado del total ………………………………………………………………………645

9.18.2 Propiedades del estimador del total en el muestreo trietápico de unidades


conglomeradas de diferente tamaño………………………………………………… ....646

9.19 Muestreo trietápico para atributos en unidades conglomeradas de diferente tamaño……………653

9.19.1 Estimador del total para atributos……………………………………………………….653

9.19.2 Propiedades del estimador del total en el muestreo trietápico para atributos
con unidades conglomeradas de diferente tamaño……………………………………...653

9.20 Un comentario final………………………………………………………………………………657

Ejercicios…………………………………………………………………………………………660

10 MUESTREO DOBLE

10.1 Introducción………………………………………………………………………………………674

10.2 Dos situaciones de aplicación para el muestreo doble…………………………………………...674

10.3 Un primer análisis sobre la base de costos……………………………………………………. ...675

xiv 
 
10.4 Muestreo en dos fases para estratificación en variables………………………………………. ...676

10.4.1 Estimación de la media para la variable Y …………………………………………. …677

10.4.2 Propiedades del estimador de la media por unidad para la variable Y ……………… ..678

10.5 Muestreo en dos fases para estratificación en atributos……………………………………… …680

10.5.1 El estimador de la proporción poblacional en el muestreo en dos fases


para estratificación………………………………………………………………………681

10.5.2 Propiedades del estimador de la proporción poblacional en el muestreo


en dos fases para estratificación………………………………………………………...681

10.6 Tamaño de muestra y asignaciones en el muestreo en dos etapas para estratificación……… .....683

10.7 Muestreo en dos fases para la aplicación de estimadores de razón……………………………. ..687

10.7.1 Estimador de la media para la variable Y en el muestreo de dos fases


para estimadores de razón………………………………………………………………688

10.7.2 Propiedades del estimador de la media para la variable Y en el muestreo


de dos fases para estimadores de razón…………………………………………………689

10.8 Tamaño de muestra para la estimación de la media poblacional en el muestreo


de dos fases para razón…………………………………………………………………………...698

10.9 Muestreo en dos fases para la aplicación de estimadores de regresión…………………………..701

10.9.1 Estimador de la media para la variable Y en el muestreo de dos fases


para estimadores de regresión………………………………………………………. …701
10.9.2 Propiedades del estimador de la media para la variable Y en el muestreo de dos
fases para estimadores de regresión con b0 preasignado……………………………….701

10.10 Tamaño de muestra para la estimación de la media poblacional en el muestreo de dos


fases para regresión………………………………………………………………………………709

10.11 Muestreo en dos fases para la aplicación de estimadores PPT………………………………. ….711

10.11.1 Estimador del total para la variable Y en el muestreo de dos fases para la
obtención de estimadores PPT…………………………………………………………..713

10.11.2 Propiedades del estimador del total para la variable Y en el muestreo


de dos fases para la obtención de estimadores PPT…………………………………….713

Ejercicios……………………………………………..…………………………………………..721

xv 
 
11 MUESTREO E INGENIERÍA

11.1 Introducción………………………………………………………………………………………730

11.2 Glosario de términos relacionados con el muestreo para prácticas de laboratorio……………….730

11.3 Aspectos que deben considerarse en el tratamiento de un problema de ingeniería que


implique el análisis de muestras de materiales…………………………………………………...732

11.4 ¿Qué es y en qué consiste un plan de muestreo?............................................................................733

11.5 Cuidados en la manipulación de las muestras……………………………………………………733

11.6 Tipos de muestras industriales……………………………………………………………...…….734

11.7 Métodos y equipos para la toma de muestras………………………………………………….…735

11.7.1 Muestra de materiales sólidos……………………………………... …………………..735

11.7.2 Muestra de materiales líquidos………………………………………………………….738

11.7.3 Muestra de materiales gaseosos…………………………………………………………741

11.8 Almacenamiento y transporte de muestras…………………………………………………….…742

11.9 Pre-tratamiento de las muestras sólidas ……………………………………………………….…743

11.10 Algunas limitaciones del pre-tratamiento de una muestra………………………………………..746

11.10.1 Limitaciones en la trituración o pulverización de una muestra……………………..…..746

11.10.2 Aspectos a tener en cuenta en la disolución de una muestra……………………..……..746

11.11 Incertidumbre y tamaño de de muestra probabilística para laboratorio………………………….746

11.12 Posibles fuentes de error para los resultados con base en muestras de laboratorio………………747

11.13 Aproximación estadística para la obtención de muestras representativas de materiales o


residuos peligrosos en suelos……………………………..………………………………………748

11.14 Diseños de muestreo probabilístico sobre el espacio y el tiempo para ser usados en
investigación medioambiental……………………………………………………………..……..749

11.15 Muestras representativas para el control de la calidad de agua…………………………………..750

11.16 Muestras representativas para la calidad de aire…………………………………………………751

11.17 Muestras de suelo para análisis…………………………………………………………………..752

11.18 Tamaño de muestras homogéneas y heterogéneas en el laboratorio……………………………..753

xvi 
 
11.19 Muestreo en biología animal y vegetal…………………………………………………………...754

11.20 Capturando y marcando las unidades muestreadas para determinar el tamaño


poblacional…………………………………………………………………..……………………756

Ejercicios…………………………………………………………………………………….…...758

APÉNDICES

Descripción de la población RAKAN……………………………………………………………………763

Tabla de números aleatorios……………………………………………………………………………..765

Tabla de la distribución Normal…………………………………………………………………………768

Tabla de la distribución t-student………………………………………………………………………...771

REFERENCIAS BIBLIOGRÁFICAS………………………………………………………………...781

xvii 
 
PRÓLOGO

El propósito de este libro es el de presentar de una manera amigable y sencilla los diferentes conceptos involucrados en la
Teoría del Muestreo Probabilístico desde una óptica clásica.

Siendo el muestreo una de las formas básicas de la Estadística para obtener información con el propósito de satisfacer
necesidades establecidas en proyectos de investigación de diferente índole y cobertura, se constituye en el mundo de hoy con
más fuerza en una metodología científica para la toma de decisiones mediante el uso de la Inferencia Estadística. Basta con
considerar el tamaño de los colectivos objeto de estudio, la dificultad en tiempo y dinero para llegar a todos los elementos
que los componen y en algunos casos los riesgos por destrucción a la que se llegaría para poder observarlos (medirlos) así
como la dificultad de su acceso, situaciones éstas que obligan en cualquier campo del conocimiento a la toma de una muestra
probabilística de dicho colectivo.

Tres aspectos son de suma importancia en la obtención de una muestra probabilística desde el punto de vista práctico: por una
parte la forma como serán obtenidas las unidades que conformarán la muestra la cual debe estar regida por la aleatoriedad
con el propósito de evitar sesgos de selección; en segundo lugar, el tamaño de dicha muestra soportada sobre la base de
supuestos teóricos para la distribución (comportamiento) del estimador asociado al parámetro investigado; el error asumido
con la estimación debido a la diferencia entre la estimación y el parámetro objeto de estimación y el nivel de confianza en
términos de probabilidad que se desea tenga el cumplimiento de dicho error y en tercer lugar los costos involucrados en la
obtención de dicha muestra pues nadie niega la importancia de trabajar con muestras económicas.

El libro está dirigido a estudiantes y profesionales de la estadística y demás áreas del conocimiento que posean elementos de
matemáticas a nivel medio para entender las demostraciones presentadas en algunos de los capítulos. Se presentan los
diferentes aspectos relacionados con la Teoría del Muestreo así como los diferentes métodos para la obtención de una
muestra probabilística, poniendo especial cuidado a lo largo del mismo en su aplicabilidad a través de ejemplos alusivos a
situaciones reales. El lector podrá mediante el uso del MINITAB 14 o algún otro software de que disponga, aplicar los
diferentes conceptos presentados de una manera práctica al usar la base de datos que se anexa, y que contiene 2600 registros
de 17 variables. Así mismo podrá poner en práctica los conceptos aprendidos mediante la solución de los ejercicios que
aparecen al final de cada capítulo.

El libro está integrado por 11 capítulos, de los cuales el primero tiene como misión presentar la importancia de una buena
muestra en términos generales y el papel que ella juega en todos los aspectos de una investigación sobre la base de datos
estadísticos. El segundo capítulo está dedicado al muestreo aleatorio simple al ser este método la base sobre la cual los demás
métodos cobran vida pues todos ellos desembocan en un muestreo aleatorio simple. El tercer capítulo presenta la sensibilidad
de una muestra a través del estudio de los diferentes aspectos que la definen siendo lo presentado en éste la base
metodológica para la obtención de una muestra en cualquiera de los métodos presentados en los restantes capítulos.

Son varios los aspectos que se deben tener presente a la hora de usar un método específico de muestreo: la presencia o no de
una marco muestral y su bondad; el tipo de estimador involucrado en la investigación sobre el parámetro; los costos; la forma
como se encuentran en el marco muestral las unidades investigadas y la disponibilidad o no de información auxiliar sobre
ellas. El lector debe tener presente que en muchas oportunidades será posible usar diferentes métodos para la estimación del
mismo parámetro con el mismo error y nivel de confianza asumidos; en todo caso desde luego debe usarse el menos costoso
y más práctico.

El capítulo cuarto está dedicado al muestreo aleatorio estratificado, el cual requiere que las unidades estén agrupadas (o se
puedan agrupar) de acuerdo con otras variables conocidas para producir estimaciones más homogéneas en cada grupo y por
ende estimaciones poblacionales más precisas con tamaños de muestra menores a los obtenidos mediante un muestreo
aleatorio simple. Las unidades al interior de cada grupo llamado estrato deben ser lo más homogéneas entre sí respecto de la
variable analizada y altamente heterogéneas de un grupo a otro para conformar la muestra final como el agregado de las
muestras de cada grupo en que se divida la población.

xix 
 
En muchas oportunidades se dispone de información sobre alguna variable altamente correlacionada con la variable objeto de
estudio permitiendo que el conocimiento de ésta en cada unidad y de sus parámetros asociados produzcan estimaciones más
precisas para los parámetros involucrados en la variable analizada, metodología ésta conocida como estimadores indirectos
por el método de razón capítulo cinco y estimadores de regresión capítulo sexto.

El capítulo séptimo está dedicado al muestreo sistemático; método usado fundamentalmente para lograr una selección
aleatoria de las unidades que conformarán la muestra en encuestas complejas desde el punto de vista práctico ya que con un
buen marco muestral en el cual las unidades aparezcan en forma aleatoria, la selección de la primera unidad determina o
define de acuerdo con dicho marco las restantes unidades que conformarán la muestra.

En un buen número de situaciones las unidades investigadas aparecen agrupadas en el marco o se hace necesario agruparlas
en conjuntos de igual o diferente tamaño para favorecer los costos de trabajo de campo ya que la muestra queda definida al
seleccionar unos cuantos grupos que deben ser lo más heterogéneos en su interior de acuerdo con la variable analizada y lo
más parecidos entre ellos logrando de esta manera que pocos grupos representen muy bien la población investigada
obteniendo muestras eficientes a costos razonables. El investigador puede realizar censo al interior de cada grupo
seleccionado, metodología conocida como muestreo por conglomerados de una etapa estudiada en el capítulo octavo o
realizar al interior de cada grupo a su vez un muestreo.

Si para llegar a la unidad que será medida se hace necesario realizar varios muestreos mediante el uso de múltiples marcos de
muestreo correspondientes a poblaciones de unidades (grupos) con diferente rango (de mayor a menor) como por ejemplo
para obtener una muestra de jefes de hogar en una ciudad se parte de una muestra de sectores (grupos de manzanas de la
ciudad) para luego seleccionar en ellos una muestra de manzanas y dentro de éstas una muestra de viviendas para finalmente
encuestar al jefe del hogar, se utiliza un muestreo de varias etapas capítulo nueve, de mucha aplicabilidad en encuestas
complejas.

El capítulo diez fue reservado al método de muestreo denominado muestreo doble o en dos fases mediante el cual se obtiene
una muestra grande que sirve de referencia para la aplicación de un muestreo estratificado o el uso de estimadores indirectos
para obtener la estimación mediante una submuestra de la primera aprovechando los bajos costos de la obtención de aquella.
En algunas oportunidades se podrá obtener una muestra independiente de la primera.

Finalmente en el capítulo once se referencian los cuidados y el tipo de muestras que se manejan en el campo de la ingeniería
y de los recursos naturales. A manera de ilustración se presentan algunos dispositivos usados para el muestreo de materiales
plantas y animales; recursos fundamentales para la aplicación de la ingeniería.

Todos los métodos pueden ser mezclados para mejorar las estimaciones solo que, las expresiones para los estimadores y sus
varianzas pueden hacerse muy extensas y complejas pero su aplicación se facilita después de realizar un buen algoritmo en
Excel o mediante el uso de software estadístico; en todo caso, el diseño muestral que se adopte debe procurar al menor costo
posible la menor varianza deseable para el estimador.

El autor

xx 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

 
 
MUESTREO ESTADÍSTICA E INVESTIGACIÓN

 
Introducción.
Soportes de una investigación de calidad.
La investigación y el modelo estadístico.
Elementos del proceso estadístico en una investigación.
Objetivo de una encuesta o estudio estadístico.
Tipos de investigación.
Características que diferencian el censo y el muestreo.
Datos estadísticos.
La validez de un estudio estadístico.
Muestreo una necesidad en el mundo de hoy.
Porqué muestrear.
Muestreo e inferencia.
Características deseables de una investigación por muestreo.
Muestreo teoría y empirismo.
Los métodos de muestreo.
Muestreo probabilístico.
Muestreo no probabilístico.
¿Qué tipo de muestreo usar?
Escalas de medición datos y muestreo.
Marcos muestrales.
Aspectos que determinan la calidad de un marco muestral.
Algunos problemas de los marcos muestrales.
Ejemplos de marcos muestrales.
Delimitando la población objeto de estudio.
Algunas relaciones entre la población objetivo y el marco muestral
Parámetros y estimadores.
La distribución del estimador.
La validez y la fiabilidad de un estimador.
Propiedades básicas de los estimadores.
Errores en la investigación por muestreo.
Errores no muestrales.
Errores de muestreo.
Error total en una investigación por muestreo.
El sesgo en el muestreo.


 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Tres sesgos que se deben evitar.
Formas básicas de obtención de información estadística.
Etapas básicas en el diseño de un cuestionario.
Etapas en una encuesta por muestreo.
La imputación de datos.
La ficha técnica.
Ejercicios propuestos sobre las temáticas estudiadas en el capítulo.

   
 
 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 


 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
 
1.1 INTRODUCCIÓN

El profesional y el ciudadano de hoy, están inmersos cada vez más en resultados de encuestas y estudios estadísticos.
Podríamos decir que la casi totalidad de las decisiones investigativas están basadas en datos estadísticos que por supuesto
provienen del análisis, observación o medición de unas cuantas unidades estadísticas que han sido llevadas al laboratorio o
seleccionadas para ser encuestadas.

El propósito de la Estadística es, obtener información acerca de las poblaciones involucradas en una investigación. Esta
información que se obtiene de la población(s) se resume en indicadores de tendencia central, de variabilidad y mediante
gráficos. Existen dos estrategias posibles para la recopilación de información inherente a las unidades investigadas que son:
examinar todas las unidades de la población (censo) o examinar, según unos planes establecidos con anterioridad, ciertas
unidades de la población (muestra), y suponer que los resultados obtenidos son representativos de toda la población.
Utilizando la primera de las estrategias, se puede describir “perfectamente” el comportamiento de las características
analizadas en la investigación, mientras que con la segunda estrategia se hace necesario extrapolar las conclusiones obtenidas
en la muestra a toda la población. Esta extrapolación (Inferencia) siempre supone un riesgo por lo que cabría preguntarnos
entonces ¿el porqué de su amplio uso hoy en día frente a la “seguridad” que supone el censo?

No es difícil pensar que hay ocasiones en las que no queda otra alternativa que la selección de una muestra para la viabilidad
de realización de una investigación debido a que:

La población es tan grande que excede las posibilidades del investigador.


La población es suficientemente homogénea como para que cualquier muestra dé una buena representación, o
El proceso de medida hace que se destruya la unidad investigada.

Aparte de los tres casos anteriormente expuestos, existen otras razones que pueden hacer ventajoso el muestreo, como son:
Costo reducido,
Mayor rapidez, o
Mayor exactitud debido a un mejor control.

En resumen, la decisión óptima entre muestra y censo consiste en minimizar la pérdida total en que se incurre, por una parte
con respecto a los recursos empleados (tiempo, dinero, recursos y esfuerzos) y por otra, el error en que se pueda incurrir al
usar una muestra y la probabilidad de cometerlo.
Para hacer muestreo se requiere del conocimiento de la teoría básica del muestreo y de su correcta aplicación. Este capítulo
relaciona de una forma sencilla y amena, la importancia y la necesidad del muestreo así como, algunos de los elementos
básicos sobre los cuales se sustenta su aplicación que serán la base del estudio de los diferentes métodos de muestreo en los
siguientes capítulos; se ilustran así mismo, los principios fundamentales de una buena muestra que permiten a un investigador
garantizar la validez de las conclusiones halladas.

1.2 SOPORTES DE UNA INVESTIGACIÓN DE CALIDAD

Todo investigar en cualquier campo del conocimiento debe tener presente que sus realizaciones investigativas deben tener
una buena calidad, lo cual significa que estas están soportadas por los siguientes pilares: Estar basadas en el trabajo de otros
investigadores, ser repetitivas, poder generalizarse a otras situaciones, usar razonamientos lógicos y estar vinculadas a una
teoría, generar nuevas preguntas y ser de naturaleza cíclica, ser incremental y finalmente deben emprenderse con el fin de
mejorar la sociedad. La Investigación Estadística tiene como hipótesis de trabajo afirmaciones relativas a distribuciones de
variables aleatorias y el trabajo alrededor de estas hipótesis está soportado por los pilares anteriormente expuestos. La figura
1.1, resume el significado de cada uno de los pilares que soportan una investigación de calidad.


 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

ESTÁ BASADA EN EL TRABAJO DE OTROS Examina la bibliografía existente sobre la temática estudiada
INVESTIGADORES

Se puede verificar
ES REPETITIVA

Da resultados válidos en situaciones diferentes relacionadas


PUEDE GENERALIZARSE A OTRAS
con la estudiada
SITUACIONES

USA RAZONAMIENTOS LÓGICOS Y ESTÁ Proporciona respuestas que ayudan a llenar vacios existentes
VINCULADA A UNA TEORÍA

Su realización genera respuestas sobre lo investigado pero


GENERA NUEVAS PREGUNTAS Y ES DE también preguntas complementarias e incluso nuevas
NATURALEZA CÍCLICA preguntas

Crece con lo que ya existe


DEBE SER INCREMENTAL

DEBE EMPRENDERSE CON EL FIN DE Tanto el investigador como lo investigado debe regirse por un
código ético
MEJORAR LA SOCIEDAD

Figura 1.1. La Investigación y el Modelo Estadístico.

Para saber más, véase Wimmer, 2000.

1.3 LA INVESTIGACIÓN Y EL MODELO ESTADÍSTICO

El trabajo estadístico es mucho más que una acumulación de datos para tomar decisiones frente a una situación analizada.
Siempre se requerirá de la implementación de un modelo estadístico para analizar la realidad en cuestión; pero el uso de
dicho modelo, debe permitirle al investigador tomar decisiones correctas. Esto es acordes con la realidad, lo cual requiere de
alguna o varias de las acciones mostradas en la figura 1.2.

En una investigación en particular se debe considerar (Méndez, 1992) un modelo estadístico, el cual debe ser construido a
partir de los siguientes aspectos:

Las conjeturas derivadas de las preguntas o teorías que proponga el investigador


La información sobre la forma como serán colectados los datos, llamado propiamente “El diseño” de investigación
La información adicional y/o las conjeturas que existan sobre la naturaleza del fenómeno que se investiga o modela

Toda investigación parte siempre de la Realidad y mediante el análisis de esta, se puede formular El Diseño de la
investigación (Estructura de la forma como serán colectados los datos), pasando luego a los Modelos Estadísticos a través de
los cuales finalmente se realiza el Análisis de la Información recogida o colectada.

Es importante tener presente que mientras se está en la fase del Análisis de la Información se deben permanentemente
valorar los Modelos Estadísticos. Una vez terminada esta valoración (Certeza de Compatibilidad), se realiza una nueva
valoración, ahora entre el Análisis de la Información y el Diseño de la Investigación o Estructura, lo cual permitirá tener
igualmente certeza sobre lo adecuado del Diseño de la Investigación o Estructura. El paso siguiente y final permitirá
obtener las conclusiones después de cruzar el Análisis de la Información con la Realidad analizada o fenómeno estudiado,
muy seguramente este proceso tendrá que ser realizado varias veces en la misma investigación buscando optimizar al máximo


 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
el modelo estadístico planteado. Si en el Diseño de la Investigación se usa un muestreo probabilístico, las conclusiones sobre
la realidad se llamaran inferencias.

Figura 1.2. La Investigación y el Modelo Estadístico.

1.3.1 Elementos del proceso estadístico en una investigación

La figura 1.3, muestra la secuencia los elementos básicos (representados por cuadros) del proceso estadístico en la
investigación y sus relaciones, las cuales se representan por flechas. En éste esquema se supone que el problema objeto de
estudio en la investigación que se realiza está completamente definido y que las características o variables involucradas en él,
están igualmente definidas y clasificadas.

Toda investigación estadística por lo regular, involucra básicamente 6 elementos fundamentales a saber: La POBLACIÓN
OBJETO DE ESTUDIO en la investigación; la cual está conformada por las unidades objeto de análisis sobre las cuales se
aplicarán las conclusiones de la investigación. Esta población puede ser de diferente naturaleza (individuos, hogares, barrios,
parcelas cultivadas, productos manufacturados, entidades bancarias, etc.), La NUESTRA; la cual se forma con una parte de
unidades estadísticas extraídas de la población mediante un muestreo probabilístico y que serán medidas o encuestadas en la
investigación. La muestra está relacionada con la población mediante un proceso de muestreo que consiste en la forma como
éstas unidades serán seleccionadas de entre la población, los DATOS; que son el resultado de la medición o encuesta
realizada a las unidades de la muestra. Estos datos muestrales recogidos midiendo o encuestando las unidades integrantes de
la muestra son organizados y/o tabulados, dando como resultado las ESTADÍSTICAS DESCRIPTIVAS. Este elemento que
está conformado por gráficas e indicadores (medidas de tendencia central, variabilidad, asociación, etc.) tiene como propósito
describir el comportamiento en la muestra de las variables medidas o analizadas.

La Inferencia Estadística, es la otra parte fundamental de la metodología estadística y mediante ella aparece en el proceso
estadístico el elemento MODELOS DE PROBABILIDAD. Un modelo de probabilidad, es un modelo matemático que
cumple con determinadas propiedades y que sirve de base para hallar la probabilidad de que un grupo de unidades
estadísticas posean determinado suceso o aspecto particular con relación a una característica o variable medida en ellos. Estos
modelos de probabilidad explican el comportamiento de la variable analizada en la investigación para toda la población de la


 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
cual se obtuvo la muestra, permitiendo así el planteamiento de soluciones a los problemas objeto de estudio en dicha
población. Llegar al convencimiento de que la variable analizada, utilizando los resultados de la muestra se comporta
mediante un determinado modelo probabilístico, permite al investigador utilizar dicho modelo para la estimación de
parámetros poblacionales.

Recolección 
Muestreo  /Medición 
POBLACIÓN 
MUESTRA DATOS

Inferencia 
Organización / 
Tabulación 

Inferencia  Inferencia ESTADÍSTICA 


PRUEBA DE  MODELOS 
HIPÓTESIS DESCRIPTIVA 
PROBABILÍSTICOS

Figura 1.3. El Proceso Estadístico en la Investigación.

Finalmente aparece el elemento PRUEBA DE HIPÓTESIS, el cual está relacionado de una parte con los modelos de
probabilidad mediante la Inferencia Estadística y por otra con la población mediante el proceso de muestreo. La prueba de
hipótesis cierra el círculo del proceso estadístico en la investigación y mediante éste elemento se confronta con la realidad el
modelo a que se ha llegado en el proceso al igual que la estimación de sus parámetros.

1.3.2 Objetivo de una encuesta o estudio estadístico

El objetivo de una encuesta o estudio estadístico es el de colectar (reunir) información acerca de una población o muestra con
el propósito de satisfacer necesidades previamente definidas. Existen dos formas básicas de colectar información para
propósitos estadísticos, ellas son: CENSO y MUESTREO.

Estudio estadístico  Acopio de información para  Formas de acopiar 


satisfacer necesidades del estudio información

Investigación Histórica 
Investigación Descriptiva  Investigación experimental 
Investigación Correlacional  Investigación cuasi experimental 
POR OBSERVACIÓN POR EXPERIMENTACIÓN
Estudio de Caso 
Investigación “Ex post Facto”  
sobre hechos cumplidos 

¿La investigación se realiza  SI
MUESTREO  NO
sobre toda la población  CENSO 
investigada?

Se obtienen las estimaciones de los  Se obtienen los parámetros  
INFERENCIA poblacionales  “valores 
parámetros  poblacionales  de las 
características analizadas. verdaderos”  de las características 

Figura 1.4. El propósito de un estadístico.


 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Mediante un censo observamos o medimos las características de interés en la investigación para todas las unidades que
conforman la población objeto de estudio, mientras que si utilizamos un muestreo, observamos o medimos las características
de interés solo en una parte de dicha población, lo cual permite entonces pensar en la forma en que se debe seleccionar esta
parte de la población.

La situación anterior induce los llamados METODOS DE MUESTREO que por ahora definiremos como procedimientos
científicos y objetivos que permiten seleccionar una parte de la población que se está investigando. La figura 1.4 presenta un
panorama más amplio del propósito de un estudio estadístico.

1.3.3 Tipos de investigación

A continuación en la tabla 1.1, se presenta un resumen que define los principales tipos de investigación, estableciendo para
cada uno de ellos las características principales (Aprender a Investigar ICFES).

LA INVESTIGACIÓN
Tipo de Investigación/ Definición Características
Histórica
Busca construir el pasado de manera objetiva, con base en Depende de fuentes primarias y secundarias.
evidencias documentales confiables. Somete los datos a crítica interna y externa.
Descriptiva Se interesa en describir.
Describe características de un conjunto de unidades o áreas de No está interesada en explicar.
interés.
Correlacional Indicada para establecer relaciones estadísticas entre
Determina variaciones de unos factores en relación con otros características o fenómenos, pero no conduce directamente a
(covariación). establecer relaciones de causa – efecto entre ellos.
Permite comprender a profundidad lo estudiado.
Estudio de Caso Sirve para planear después investigaciones más extensas y
Estudia intensivamente un sujeto ó situación. rigurosas.
No sirve para hacer generalización.

Ex post facto A partir de un efecto observado, se indaga por su causa en el


Busca establecer relaciones de causa efecto, después de que este pasado.
último ha ocurrido y su causa se ubica en el pasado. Útil en situaciones en las que no se puede experimentar.
No es muy segura para establecer relaciones causales.

Usa grupos experimentales y grupos de control.


Experimental El investigador manipula el factor supuestamente causal.
Es aquella que permite con más seguridad establecer relaciones Usa procedimientos al azar para seleccionar y asignar sujetos y
de causa efecto. tratamientos.
Es artificial y restrictivo.

Cuasi - experimental Apropiado en situaciones naturales en donde no es plausible el


Estudia relaciones de causa efecto, pero no en condiciones de control experimental riguroso.
control riguroso de todos los factores que pueden afectar el
experimento.
Tabla 1.1. Los tipos de investigación y sus características.

1.4 CARACTERÍSTICAS QUE DIFERENCIAN EL CENSO Y EL MUESTREO

DIFERENCIAS ENTRE EL CENSO Y EL MUESTREO


FACTOR ANALIZADO CENSO MUESTREO
COSTO MUY COSTOSO MÁS ECONÓMICO
DURACIÓN DEMORADO MENOS DEMORADO
PROCEDIMIENTO COMPLICADO MÁS SIMPLE
ERROR MUESTRAL* NO TIENE SI TIENE
ERROR NO MUESTRAL** PUEDE SER NUY GRANDE MUCHO MENOR (MÁS CNTROLADO)
IMPACTO AFECTA A TODA LA POBLACIÓN AFECTA A UNA PARTE DE LA POBLACIÓN
Tabla 1.2. Diferencias entre el censo y el muestreo.


 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
*Error Muestral: Diferencia entre la realidad (Parámetro) y la estimación de dicho parámetro basada en la muestra.
**Error No-Muestral: Generado por el procedimiento de censo o muestreo durante la operación de recolección de
información como por ejemplo: Preguntas mal formuladas, mediciones mal realizadas, marcos imperfectos e inadecuados,
etc.

La tabla 1.2 ilustra las diferencias existentes entre los dos métodos de recolección de información, censo y muestreo para los
siguientes factores: costo; duración; procedimiento; error muestral (se definirá más adelante); error no muestral e impacto.
Estas diferencias están precisamente determinadas por la naturaleza de cada uno de los métodos, lo que permite
caracterizarlos aún más.

1.5 DATOS ESTADÍSTICOS

En presencia de cualquier situación problema que surja en la industria o en la naturaleza debemos antes que todo decidir si
esta amerita estudio (investigación) o no, lo cual dependerá de la magnitud de ella, de qué tan trascendentales sean sus
consecuencias y de su duración.

Una vez que se ha decidido estudiar el problema, éste debe clasificarse en ESTUDIO DESCRIPTIVO o ESTUDIO
INFERENCIAL. Un estudio será descriptivo cuando su objetivo es describir las características de una población o muestra.
De otro lado se dirá que el estudio es inferencial cuando basado en los resultados obtenidos mediante una muestra se infieren
por extrapolación algunas características poblacionales. La realización de ambos estudios genera DATOS ESTADÍSTICOS
los cuales pueden ser de naturaleza numérica (variables) o no numérica (atributos). Ver la figura 1.5. Los datos de naturaleza
numérica se clasifican a su vez en variables discretas y variables continuas.

Nota: Los datos cualitativos pueden ser numéricos pero por asignación, nunca por naturaleza.

Inferencial NUMÉRICOS 
Variable discreta 
Variable continua 

Situación     ESTUDIO 
DATOS  
Problema  ESTADÍSTICO ESTADÍSTICOS

NO NUMÉRICOS 
(Atributos) 
Descriptivo

Figura 1.5.Clasificación de los datos estadísticos.

Ejemplo 1.1
A continuación se relacionan algunas situaciones que generan datos estadísticos.

Variables discretas

Número de pernos de aluminio defectuosos por caja. Cada caja contiene 12 unidades.
Número de árboles muertos en determinada plantación de pino.


 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Número de vehículos accidentados en determinada autopista a las 12 del día.
Número de automóviles que pasan todas las revisiones en cada uno de los turnos de 8 horas en una ensambladora.

Número de frutos de un árbol.


Número de remaches defectuosos por m2 de lámina de una aeronave.
Número de especímenes (Muestra de tamaño o cantidad específica de tierra) contaminados con Cianuro en determinada
zona de vocación agrícola.
Número de secciones de 24 pies de tubo cilíndrico de hormigón pre-esforzado (PCCP) que presentan grietas por esfuerzo
en la observación de un grupo de 20 secciones.
Número de fusibles defectuosos de un grupo de 100 revisados cada hora en un período de 25 horas.
Número de tubos de rayos catódicos defectuosos encontrados en una muestra de 50, realizada diariamente durante un
mes.

Variables continuas

Peso neto de un determinado producto al ser empacado.


Longitud de un trozo de fibra de madera macerado y visto al microscopio.
Longitud de una viga de acero tipo SAE 210.
Diámetro de un tubo de PVC en pulgadas.
Contenido de gas carbónico (CO2) en volumen por botella de cerveza.
Contenido de cemento de una bolsa cuya capacidad se especifica en 50 Kg.
Resistencia al corte en libras de una lámina de acero utilizando soldadura de punto ultrasónica.
Tiempo de oxidación – inducción en minutos para cierta cantidad de aceite comercial.
Diámetro de un álamo temblón a la altura de pecho en determinado bosque boreal.
Concentración de plomo en miligramos/ litro para una muestra de agua.

Atributos

Calidad del agua potable de una ciudad (Excelente, Buena, Regular, Mala).
Variedad de un árbol encontrado en determinada región natural.
Calificación del daño sufrido por un automóvil como E: Estructural o NE: no estructural después de ser sometido a un
choque a la velocidad de 5 millas por hora.
Presencia o ausencia de cáncer en un niño que vivió más de 8 años en una casa prefabricada con materiales en cuya
fabricación se detecto la presencia de Radón.
Determinar para un producto terminado la respectiva máquina en el cual fue llenado y sellado. Hay 5 máquinas llenadoras
– selladoras.
Determinar para un producto si la queja del usuario se debe a un aspecto del producto, a la dificultad de adquisición o a la
garantía establecida.
Un concreto de micro sílice, reforzado con fibra de acero y mezclado en húmedo se dice que cumple a satisfacción si falla
después de 60 días de ser sometido a una compresión de 9000 psi. Determinar para una muestra de dicho concreto si
cumple o no a satisfacción.
Determinar si un sello de caucho que resiste más de 3000 libras por pulgada cuadrada fue fabricado mediante un proceso
A, B, C o D.
Clase de metal del cual está hecho determinado eje.

1.6 LA VALIDEZ DE UN ESTUDIO ESTADÍSTICO

Para la realización de una investigación de calidad es básico que la realidad investigada quede representada correctamente en
la estrategia de investigación utilizada o de lo contrario la investigación carecerá de validez, el investigador deberá en todo
momento realizar el análisis bidireccional representado en la figura 1.6.


 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

Definición de
variables Publicación
Planteamiento de resultados ¿LA ESTRATEGIA DE
de objetivos 1 INVESTIGACIÓN INTERPRETA
FIELMENTE LA REALIDAD?
ESTRATEGIA DE 1
Definición de
la población INVESTIGACIÓN REALIDAD
2
¿LA REALIDAD ESTÁ
Definición de la 2 EXACTAMENTE REPRESENTADA
forma de medición EN LA ESTRATEGIA?
Estrategia de
Definición de la
análisis
forma de tratamiento
de la información

Figura 1.6. Análisis bidireccional realizado en toda investigación estadística.

Una vez que se ha definido y planteado muy bien el problema objeto de estudio; esto es, se tengan claros los objetivos y
definiciones así como las preguntas que lo resumen al igual que la forma de medir y resumir las características que le
permitirán al investigador dar respuesta a los objetivos planteados, es necesario reflexionar sobre la validez (credibilidad y
confianza) de la investigación pues se quiere que los resultados que se obtengan sean de muy buena calidad para que así
mismo las decisiones sobre la población implicada en la investigación estén lo más cercanas posibles a las ideales. La validez
de una investigación estadística tiene las siguientes componentes básicas: Validez externa; la cual tiene que ver con la forma
de muestrear, la validez de constructo; relacionada con la forma de medir las características analizadas, la validez interna;
justificada con la forma de modelar los fenómenos, la validez de las conclusiones; fundamentada por la forma como razona el
investigador y finalmente la validez de la comunicación; alimentada por la forma de presentación de los resultados de la
investigación. La figura 1.7 muestra las principales faces consecutivas del desarrollo de un proyecto y sus relaciones con los
diferentes componentes de la validez.

La validez de un estudio puede mirarse esquemáticamente como un proceso, cuya materia prima son los datos, que están
sometidos a un proceso (de pensamiento) y del cual saldrá un producto, que es la información que será puesta en contexto
para dar solución a interrogantes del problema planteado (Behar et al., 2000).

La validez externa

Este tipo de validez está relacionada con la selección de las unidades estadísticas que serán medidas o encuestadas, aquí la
muestra debe ser representativa de la población de la cual se extrajo y para ello se necesita que la forma como ella sea
seleccionada no tenga sesgos lo cual se garantiza mediante el uso del muestreo probabilístico.

El otro aspecto que se debe controlar en el estudio para garantizar la validez externa es el de buscar por todos los medios que
las mediciones resultantes sean confiables es decir, que no tengan sesgos de ninguna naturaleza. La validez externa da en
buena medida la capacidad de generalizar permitiendo la utilización de las técnicas estadísticas las cuales tienen su base y
efectividad en el muestreo probabilístico. El control que se establezca para garantizar la validez externa determina así mismo
el diseño de la investigación, así por ejemplo para mejorar la validez externa se debe centrar la atención en el tipo de
muestreo y su tamaño, la necesidad de replicar el experimento y el uso de teoría estadística. En la búsqueda para garantizar
ésta componente de la validez debe tenerse claridad sobre la respuesta a las siguientes preguntas:

a) ¿A quién se aplican los resultados de la investigación?


b) ¿Hasta dónde pueden generalizarse los resultados de la investigación?

10 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

VALIDEZ VALIDEZ DE VALIDEZ


POBLACIÓN  EXTERNA MUESTRA  CONSTRUCTO DATOS  INTERNA RESULTADOS DE 
ANALIZADA  SELECCIONADA  OBTENIDOS LA MODELACIÓN 
Forma de  Forma de  Forma de 
muestrear  medir modelar
VALIDEZ DE LAS Forma de 
CONCLUSIONES razonar
Toma de  VALIDEZ DE LA
decisiones  INFORMES/  COMUNICACIÓN CONCLUSIONES 
acordes con la  PRESENTACIÓN Y DEDUCCIONES 
realidad  Forma de 
presentar 

Válido
CONOCIMIENTO 
CIENTÍFICO 

Útil-aplicable en diferentes niveles


Replicable
Con poder de generalización
Con incertidumbre cuantificable 

Figura1.7. La validez en la generación de conocimiento.

La validez de constructo

Este tipo de validez hace referencia a lo que se desea medir y la forma de medirlo; se hace necesario en este caso tener muy
claros los conceptos involucrados en las diferentes preguntas o mediciones que se realizaran.
Una buena pregunta o medición se garantiza que tiene valides cuando:

a) Las respuestas a la pregunta por “individuos iguales” son parecidas (fiables): El instrumento mide lo que se
quiere es decir es fiable.
b) Las respuestas a la pregunta por “individuos iguales” no deben presentar tendencias (sesgo) que las alejen de la
verdad.

La validez interna

Esta se refiere a qué tan apropiado para la investigación es el análisis que se está realizando; qué tan válidas son las
comparaciones que se hacen y a la existencia o no en el estudio de los posibles factores de confusión que necesariamente
invalidan las conclusiones obtenidas.

Los factores de confusión, son variables que se encuentran presentes en las muestras o en las unidades que van a compararse,
de tal forma que su presencia modifica la relación de causalidad buscada o contrastada mediante el estudio. Así por ejemplo,
al comparar dos estudiantes respecto de su rendimiento escolar al ser sometidos al mismo método de enseñanza, hace
necesario que los dos estén controlados respecto de los siguientes aspectos: sexo, salud, alimentación, edad, horas de estudio,
profesor, materiales de apoyo, relación familiar, etc. De lo contrario, alguno de los aspectos ejerce influencia en uno de los
dos estudiantes invalidando así la fuerza de la comparación de ellos respecto del método de enseñanza. La validez interna
intenta entonces garantizar que las comparaciones se hagan entre individuos y situaciones comparables.
 
La validez de las conclusiones

La falta de validez en las conclusiones tiene que ver con el uso de herramientas de análisis inapropiadas por parte del
investigador para el diseño planteado o simplemente sacar conclusiones equivocadas, alterar o desconocer los supuestos
metodológicos así como aplicar equivocadamente los conceptos de la metodología estadística.

11 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
La validez de la comunicación

La validez de la comunicación tiene que ver con la forma y el contenido de los informes realizados por el investigador:
escritura, gráficas, cuadros etc.

1.7 EL MUESTREO UNA NECESIDAD EN EL MUNDO DE HOY

Uno de los problemas que afronta el mundo de hoy, es el de que los conjuntos de cosas son demasiado grandes y resulta
supremamente difícil conseguir la información que sobre ellos se requiere para tomar decisiones. Basta con analizar unas
pocas situaciones para darse cuenta de la importancia de la metodología del muestreo en el mundo de hoy ante la
imposibilidad de medir o encuestar a todas las unidades sobre las cuales se desea actuar. Ver la figura 1.8.

Ejemplo 1.2
Situación N° 1: Se desea planificar el desarrollo de una gran ciudad y para ello se debe realizar un estudio socioeconómico
en su área metropolitana y en sus áreas rurales de influencia.

Situación N° 2: Se desea controlar la calidad de los productos manufacturados por una gran empresa con el fin de garantizar
los estándares de calidad de dichos productos para ser competitivos en el mercado.

Situación N° 3: Se desea conocer la producción total de determinado producto agrícola en una gran extensión territorial
compuesta por una gran cantidad de predios con vocación agrícola.

Como se muestra, en los tres ejemplos anteriores sería muy dispendioso, costoso y demorado obtener y procesar toda la
información que resultaría de medir las características deseadas en cada elemento de estos conjuntos (censar) haciendo
realmente imposible tal procedimiento.
Lo anterior pone de manifiesto que es mucho más práctico desde todo punto de vista tomar una parte de estos conjuntos
(MUESTRA) y con sus medidas, hacerse una idea (ESTIMAR) lo que se quiere saber sobre todo el conjunto (POBLACIÓN).

MUESTREO POR NECESIDAD


¿Para examinar la calidad de las semillas de  ¿Para  un examen de sangre será necesario 
PREUNTAS DE INTERÉS

cebada, será necesario examinar todas las  extraerle toda la sangre a un paciente? 
semillas de todos los bultos de un cargamento? 

¿Para conocer la duración  promedio de los  ¿Para anticipar quién será el ganador de las 
bombillos, es necesario ponerlos todos  a  próximas elecciones en el país, es necesario 
funcionar hasta que se fundan? preguntarle a todos los que van a votar? 

¿Para conocer  aspectos fundamentales del 
universo es necesario observarlo y medir cada 
uno de sus rincones? 

Figura 1.8. Algunas situaciones que obligan el uso del muestreo.

Es bueno tener presente que al tener dos poblaciones muy diferentes en su tamaño, por dar un ejemplo N1 de 3000 unidades y
N2 de 10000 unidades de las mismas esto no implica que al requerir para un correcto estudio de 80 unidades en la población
#1, entonces se necesite debido al tamaño de la #2 más de 80 para ella. Es posible que una unidad más (81) tomada para las
dos poblaciones no agregue diferencia significativa a lo que ya se sabía sobre las poblaciones con las 80 unidades estudiadas.
Así mismo, se debe tener presente que cuando las unidades de una población son muy homogéneas en las características que
se desean estudiar, este hecho hace que necesariamente el número de unidades o muestra que se requiera para el estudio sea
relativamente pequeño. Sobre estos conceptos se volverá más adelante.

12 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

1.7.1 ¿Porqué muestrear?

Son muchos los factores que determinan que en una investigación sobre una población determinada se requiera del uso de la
metodología del muestreo para llevarla a cabo. Entre las razones que obligan a ello, se pueden enumerar las siguientes:

La población objeto de estudio es infinita o muy grande.


La observación o medición de la característica analizada pone en peligro la existencia de la unidad misma
El costo de la medición.
La dificultad de ubicación de las unidades objeto de estudio.
El tiempo requerido para la realización del trabajo de campo (ubicación y medición de las unidades objeto de estudio).
La ausencia de marcos muestrales específicos en los cuales se puedan ubicar detalladamente las unidades investigadas.

Una vez determinada la necesidad de utilización del muestreo para la realización de una investigación se deben balancear de
una parte la precisión deseada (diferencia entre la estimación lograda por el muestreo y el verdadero valor del parámetro
investigado), situación esta que quedará definida más adelante como la ecuación de precisión. Es lógico pensar que entre más
unidades de la población se observen, más cerca estará la estimación del parámetro. La otra parte integrante del balance son
los costos totales de medición los cuales son directamente proporcionales a la cantidad de unidades elementales investigadas.
La figura 1.9 combina el comportamiento de la precisión con el comportamiento de los costos mostrando un balance que
haga eficiente la investigación.

Cuando se realiza un muestreo de acuerdo con la estructura de la realidad analizada frente a una situación particular si ella es
desconocida, la función del muestreo es la de diagnosticar (estimación de parámetros y visualización del comportamiento de
su distribución; por el contario si la situación es conocida (o se tiene algún supuesto de su valor o comportamiento) la función
del muestreo será la de verificar un diagnostico lo que equivale a la realización de pruebas de hipótesis basadas en las
muestras. Ver la figura 1.10.

Figura 1.9. Balance para la obtención de una buena muestra.

13 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

DIAGNOSTICAR 
Estimación de parámetros
y visualización del
comportamiento de sus

INFERENCIA ESTADÍSTICA 
FUNCIONES  DEL MUESTREO 

DESCONOCIDA distribuciones
(ESTIMACIÓN)

ESTRUCTURA 
SITUACIÓN 
DE LA 
PROBLEMA 
REALIDAD 

Comprobar el
comportamiento de las

VERIFICAR 
estimaciones de los
CONOCIDA parámetros y sus
distribuciones
(PRUEBA DE HIPÓTESIS)

Figura 1.10. Funciones del muestreo.

1.7.2 Muestreo e inferencia

El objetivo de la Inferencia Estadística, es precisamente el de obtener o formular predicciones o decisiones sobre una
población con base en la información obtenida de una MUESTRA seleccionada por métodos probabilísticos.

Suponga que en una fábrica de llantas para vehículos livianos se desea controlar el peso de los neumáticos de las llantas de
código A0001 y para ello, se toma una muestra de 100 neumáticos. Se desea saber si el peso de los neumáticos procede de
una población normal y cuáles son los parámetros de dicha población. Igualmente se desea conocer ¿Qué fracción de
neumáticos serán rechazados en el mercado por exceso y por defecto si se sabe que el peso correcto del neumático debe ser
1500 grs X 1600 grs ?.

Las respuestas a estas preguntas son obtenidas mediante el uso de la Inferencia Estadística, la cual a su vez, se alimenta de
los resultados obtenidos mediante la aplicación de la Estadística Descriptiva a los datos que fueron obtenidos de la muestra
seleccionada.

Suponga también que la empresa necesita revisar el proceso de fabricación y especialmente los parámetros que inciden en el
peso del neumático tales como: longitud; ancho y espesor, para que la calidad mejore y así disminuir el consumo de material
y por ende el costo por neumático. Se tiene entonces que la decisión que se tomará sobre la producción (Población total de
neumáticos) depende fundamentalmente de los resultados de la Inferencia, los cuales a su vez, deben tener como base una
muestra probabilística correctamente diseñada.

La figura 1.11 muestra la clasificación de las preguntas claves que debe hacerse todo investigador a la hora de inferir con
base en una muestra.

14 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

DISEÑO MUESTRAL
Figura 1.11. Preguntas básicas a la hora de inferir.

1.7.3 Muestreo teoría y empirismo

Del análisis de los datos procedentes de un estudio estadístico aplicado a una determinada población obtenidos mediante una
MUESTRA de unidades, se generan interrogantes, los cuales son a su vez motivo para el surgimiento de nuevas teorías que
darán respuesta a dichos interrogantes.

Modelos Nueva
Teoría
TEORÍA
CONOCIMIENTOS

Población

MUESTRA
  EMPIRISMO

Ensayos Aplicación

Figura 1.12. La teoría y el empirismo en la generación de conocimiento.

15 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Pero por otro lado los modelos teóricos generados mediante investigación teórica son implementados a través del análisis de
datos, produciendo aplicaciones concretas de la teoría. Existe de esta manera un estrecho vínculo entre la teoría y el
empirismo, a través del análisis de datos, los cuales son obtenidos mediante la aplicación correcta de la teoría del muestreo.
La relación entre la teoría y el empirismo teniendo como centro el análisis de datos puede apreciarse en la figura 1.12.

1.7.4 Características deseables de una investigación por muestreo

Cuando se realiza una investigación por muestreo es deseable que ella, cumpla con unas características básicas, las cuales se
relacionan y explican someramente en la figura 1.13.

EXACTITUD
CARACTERÍSTICAS DESEABLES DE UNA INVESTIGACIÓN POR MUESTREO

Se refiere a la proximidad que debe haber entre las estimaciones obtenidas y los parámetros estimados
correspondientes. Por esto la muestra debe reproducir las características poblacionales de la manera más exacta
posible e igualmente el estimador debe ser preciso e insesgado, o hacer que su sesgo sea despreciable.

OPORTUNIDAD

Se refiere a la utilidad de los resultados estadísticos obtenidos en función del tiempo, vale decir estos deben ser
de actualidad y obtenidos en forma rápida.

PERTINENCIA

Se refiere a la capacidad de las conclusiones obtenidas para cubrir vacíos en el comportamiento de los
fenómenos.

ACCESIBILIDAD

Se refiere a la posibilidad de obtención que deben tener los datos y los resultados según la legalidad vigente.

DETALLE Y COBERTURA

Se refiere a la profundidad y al alcance o cubrimiento de las conclusiones obtenidas.

ECONOMÍA

Se refiere a los costos involucrados en todas y cada una de las etapas de la investigación por muestreo.

INTEGRACIÓN

Se refiere a la capacidad de integración y comparabilidad de los resultados obtenidos con los resultados de otras
investigaciones similares ya realizadas.
Figura 1.13. Características deseables de una investigación por muestreo.

1.8 LOS MÉTODOS DE MUESTREO

Gracias a las muestras, el ser humano adquiere conocimientos para desarrollarse en su vida cotidiana y científica, mucho de
lo que hoy sabemos ha sido deducido mediante el análisis de una muestra “típica”, la cual podemos definir como aquella en

16 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
la cual su contenido de información reproduce en lo fundamental las tendencias, variaciones y características generales de la
población de la cual se extrae.

La tipicidad de una muestra se puede lograr mediante un adecuado procedimiento de selección de las unidades que la
conformaran. En este sentido, se dice que un procedimiento de selección de las unidades de la muestra puede basarse o no en
mecanismos aleatorios mediante los cuales se conozca con anticipación la probabilidad de que cada unidad poblacional
pertenezca o no a la muestra.

El hecho de que la selección de una muestra este basada en el cálculo de probabilidades permitirá la aplicación de las
herramientas de la Inferencia Estadística haciendo que las conclusiones obtenidas del tratamiento de la información recogida
de esta, tengan carácter científico y puedan aplicarse a toda la población de la cual se extrajo la muestra.

Dependiendo de sí la selección de la unidades muestrales está basada o no el cálculo de probabilidades el muestreo se


clasifica en MUESTREO PROBABILISTICO o MUESTREO NO PROBABILISTICO. Para saber más, ver Sierra 1994.

1.8.1 Muestreo probabilístico

En estos métodos todas las unidades seleccionadas para la muestra, tienen una probabilidad conocida de inclusión en ella y su
selección se realiza mediante procesos aleatorios. Un proceso de selección aplicado a un conjunto de datos o unidades se dice
que es aleatorio si este da a cada uno oportunidad igual de ser elegido, esto puede lograrse mediante el uso de una tabla de
números aleatorios, dispositivos manuales (papeletas marcadas o fichas/ balotaras, dados) o dispositivos electrónicos
mediante el uso de software, etc.

1.8.1.1 Propiedades del muestreo probabilístico

Los métodos de selección probabilística cumplen con las siguientes propiedades básicas:

Dada una población de tamaño N y apoyándose en un marco de muestreo es siempre posible definir un conjunto de k
muestras de tamaño n, ( n < N ).

Si u1 , u 2 , u3 , .., u n ; i 1, 2, 3, ...., k
Donde:
Si : Muestra i,
u j : Elemento j de la muestra,
k : Todas las muestras posibles.

A cada una de las k muestras es posible asignarle una probabilidad conocida de selección:

i 0, i
Pr ( S i ) i, i 1, 2, 3, ,.....k , k
i 1
i 1

El proceso de selección de cada una de las muestras es aleatorio y depende de su probabilidad i.

17 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
El proceso de selección de una muestra garantiza que todo elemento de la población tenga una probabilidad diferente de
cero de pertenecer a una muestra seleccionada

El procedimiento para obtener cualquier estimación con base en la muestra, debe estar definido y conducir a un único
valor respecto de dicha muestra.
Nota:

Se llama diseño muestral al conjunto D Si , Pr (Si ); θˆ (Si ) , i 1, 2, 3,..k donde:

Si : Muestra i-ésima de tamaño n,

Pr (Si ) : Probabilidad de seleccionar la muestra i,


θ̂ : Estimador del parámetro θ.

Las anteriores propiedades permiten que el investigador conozca el grado de representatividad de la muestra seleccionada y
estime el error cometido al realizar inferencias sobre la población con base en su muestra.

1.8.1.2 Fundamentos del muestreo probabilístico

El muestreo probabilístico o científico tiene como base los siguientes enunciados o principios: Dos axiomas, un teorema y
dos leyes.

AXIOMAS

Los axiomas son:

Axioma N°1

La muestra como se ha definido antes, es un conjunto de eventos casos o unidades que son tomadas o extraídas de una
población, siguiendo determinados procedimientos los cuales buscan que las unidades muestreadas representen fielmente lo
más que se pueda la población de la cual se extraen. En este sentido, el diseño óptimo de una muestra, en particular la
determinación previa de su tamaño, solo puede conseguirse a partir del conocimiento de la población.

De acuerdo con lo anterior podemos establecer el siguiente axioma:

Todo trabajo con mustras para obtener inferencias requiere del conocimiento previo del
universo o población de la cual se extraen dichas muestras

Axioma N° 2

Una de las etapas básicas de una encuesta por muestreo, es la determinación o definición de la población objeto de estudio en
la investigación. En la definición de la población objeto de estudio, es el propio investigador quien determina cuales de las
características presentes en las unidades del universo permiten definir la población objeto de estudio como tal. Lo anterior
significa que: a) la propiedad de ser Población Objeto de Estudio, no está dada, si no que, es declarada por el investigador y
b) Para definir o determinar una población objeto de estudio, se requiere al menos de una característica, la cual debe aparecer

18 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
en todas las unidades que la conforman. Estas características permiten tener claridad si una unidad en particular pertenece o
no a la población objeto de estudio.

De acuerdo con lo anterior se puede establecer el siguiente axioma:

La similitud entre las unidades que conforman una población objeto de estudio son distinciones
hechas por el investigador.

TEOREMA

La propiedad más importante entre todas las propiedades que tiene la distribución de la media muestral de datos, es el
Teorema del Límite Central.

TEOREMA DEL LÍMITE CENTRAL

Si X1, X 2 , X3, ...X n son n variables aleatorias independientes, distribuidas idénticamente (todas tienen la misma función de
2
probabilidad en el caso discreto o función de densidad en el caso continuo) con media y varianza finitas, entonces para
la suma SMn se cumple que:
n b
SMn X1 X 2 X 3 ..... X n Xi , lim SM n n. 1 t2
Pr a b e 2
dt
i 1 n . n 2. a

SM n 2
Es decir que la variable aleatoria X n N( , n ) , cuando n se hace muy grande. “A medida que aumenta el
n
tamaño de la muestra, la media muestral, se distribuye normal sin importar la distribución de la población, de la cual procede
la muestra”.

Para efectos prácticos este hecho, generalmente ocurre cuando n 30. La figura 1.14a y 1.14b, muestran el significado del
teorema del límite Central para tres distribuciones muy comunes en el trajinar estadístico como lo son las distribuciones:
Normal ( = 0, = 1); Uniforme ( = 0.5, = 0.29) y Exponencial Negativa ( = 1, = 1).

Tamaño  Distribución Normal  Distribución Uniforme  Distribución Exponencial 


de la  Negativa 
muestra  0; 1 0.5; 0.29 1; 1
f (x) f (x) f (x)
Frecuencia 
Frecuencia 

Frecuencia 

n 1

x 4 x
2 1 0 1 2 0 0.50 1 x 0 1 2 3

f (x) f (x) f (x)

n 2
Frecuencia 
Frecuencia 
Frecuencia 

x x x
2 1 0 1 2 0 0.50 1 0 1 2 3 4

Figura 1.14a. Teorema del Límite Central y la distribución de la media muestral. Fuente: Estadística para Administradores; William Mendenhall.

19 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

Tamaño  Distribución Normal  Distribución Uniforme Distribución Exponencial 


de la  Negativa 
muestra  0; 1 0.5; 0.29 1; 1
f (x) f (x) f (x)

n 5
Frecuencia 

Frecuencia 

Frecuencia 
x x x
2 1 0 1 2 0 0.50 1 0 1 2 3 4

f (x)
f (x) f (x)

n 10
Frecuencia 

Frecuencia 

Frecuencia 
x x x
2 1 0 1 2 0 0.50 1 0 1 2 3 4

f (x) f (x) f (x)


Frecuencia 

Frecuencia 

Frecuencia 
n 25
x x x
2 1 0 1 2 0 0.50 1 0 1 2 3 4

Figura 1.14b. Teorema del Límite Central y la distribución de la media muestral. Fuente: Estadística para Administradores; William Mendenhall.

LEYES

LA PRIMERA LEY DE LOS GRANDES NÚMEROS

Si X1, X 2 , X3, ...X n , son n variables aleatorias independientes, distribuidas idénticamente (Todas tienen la misma función
de probabilidad en el caso discreto) con valor esperado y varianza iguales respectivamente a:

0
E( X i ) P , V(Xi ) P.(1 P) P.Q, X i
1
n
La variable SMn X1 X 2 X 3 ..... X n Xi ; n 1 puede tomar los valores 0, 1, 2,…n y tiene distribución
i 1

Binomial con E(SMn ) n.P y V(SMn ) n.P.(1 P) n.P.Q . Entonces si c es un número real positivo; tal que:
=1. Es decir que cuando n aumenta, la variable SMn n ; tiende cada vez a P . La variable
SMn n Pˆ es la frecuencia relativa de valores 1 llamada comúnmente “proporción muestral”. En estos términos se dice

que la variable SMn n Pˆ es consistente, significando con ello que a medida que n aumenta, P̂ se acerca cada vez
más a la proporción poblacional P.

20 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

LA SEGUNADA LEY DE LOS GRANDES NÚMEROS

Si Xi ; i 1 es una secuencia de variables idénticamente distribuidas con media y varianza respectivas iguales a
n
2
E(Xi ) y V ( Xi ) . Al considerar la variable SMn X1 X 2 X 3 ..... X n Xi ; n 1 con media
i 1
igual a:
n
Xi
SM n X1 X 2 .... X n i 1
Xn
n n n

Se cumple que para : ; significando con ello que la media muestral es consistente, es
decir que al aumentar el tamaño de la muestra, la media muestral se acerca cada vez más a la media poblacional.
lim Xn Xn
Se dice que: “ en probabilidad”, significando que: cuando n se hace muy grande entonces se hace
n
igual a .

1.8.1.3 Principales métodos de muestreo probabilístico

Los métodos probabilísticos de muestreo están soportados por las estructuras del azar cuyos méritos son dos (Silva, 2000), de
una parte los procedimientos probabilísticos satisfacen la exigencia de eliminar o mitigar la subjetividad que podría influir en
la elección de las unidades que integrarán la muestra y de otro lado sólo cuando se aplica un método probabilístico se podrá
medir el grado de precisión de las estimaciones. A continuación se explican los métodos de muestreo probabilísticos básicos.

Muestreo Aleatorio Simple

Este método de muestreo es el método probabilístico más estudiado y gracias a las propiedades que él posee con relación a la
estimación de parámetros y los errores de muestreo, se ha convertido en el método base para la realización de los otros
métodos probabilísticos de muestreo.

Definimos el método de muestreo aleatorio simple como el método que consiste en seleccionar una muestra de n elementos
uno a uno de una población N , de tal forma que cada unidad poblacional tenga una probabilidad idéntica y conocida de
pertenecer a la muestra. Aquí cada elemento se selecciona en forma independiente de los demás y su extracción se realiza
mediante un proceso aleatorio a partir de un marco de muestreo.

Existen dos tipos de muestreo aleatorio: a) Muestreo con reposición: cuando una unidad cualquiera que ha sido seleccionada
se repone (se devuelve) a la población antes de seleccionar la siguiente unidad, manteniendo constante la estructura de la
población. b) Muestreo sin reposición en cuyo caso la muestra se obtiene elemento por elemento, sin reponer estos (no se
devuelven) a la población antes de cada extracción, aquí cambia en cada extracción la estructura de la población.

21 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

Ejemplo 1.3
Suponga que se desea realizar una encuesta al interior de una unidad residencial compuesta por 200 apartamentos con el
objetivo de tomar decisiones sobre el manejo administrativo y de servicios que tiene la unidad. Para ello, se toma el listado de
todas las familias propietarias o inquilinas de los apartamentos y después de asignarles un código desde el 001 hasta el 200
se procede a generar tantos números aleatorios comprendidos en este rango como tamaño tenga la muestra aleatoria de
familias que se haya definido.

Muestreo Aleatorio Estratificado

En este método se divide la población en subpoblaciones o partes llamadas ESTRATOS, en los cuales se debe buscar la
homogeneidad de sus unidades y la heterogeneidad entre grupos. Posteriormente se selecciona en forma independiente de
cada estrato una muestra aleatoria simple y finalmente la muestra total será la suma de las muestras de cada uno de los
estratos.

Ejemplo 1.4
Los vehículos destinados al servicio de las diferentes dependencias del municipio de Cali, se agrupan en las siguientes
categorías o estratos de acuerdo con su naturaleza y uso: Categoría 1: buses y camiones; Categoría 2: automóviles; Categoría
3: Maquinaria pesada y Categoría 4: motos. Con el fin de realizar un estudio técnico y de mantenimiento sobre estos
vehículos se realiza un muestreo aleatorio proporcional en cada categoría conformando de esta manera una muestra con
participación de todas las categorías. Los vehículos así seleccionados serán enviados a los talleres para su evaluación técnica.

Muestreo Aleatorio por Conglomerados

En éste método, las unidades elementales se encuentran formando grupos de unidades más grandes llamadas
CONGLOMERADOS (por razones administrativas, geográficas, o de proceso y manejo). Se selecciona un grupo de
conglomerados usando un muestreo aleatorio simple o estratificado y en cada conglomerado se analizan o miden todas las
unidades elementales que la componen o bien una parte de ellas utilizando nuevamente un muestreo aleatorio simple dentro
de cada conglomerado. Es importante tener presente que la eficiencia de este método se presenta cuando al interior de cada
grupo o conglomerado hay alta heterogeneidad entre las unidades y al comparar los grupos respecto de sus medias hay alta
homogeneidad.

Ejemplo 1.5
En una fábrica de refrescos se desea medir el contenido promedio de líquido por botella, para mantener el estándar de
calidad. El producto se empaca en canastillas de 12 unidades c/u. Para tal propósito se toma una muestra aleatoria de 5 cajas
de refrescos y se determina en cada una de las botellas de cada caja el contenido exacto de líquido. Este análisis debe ser
realizado al comienzo de cada turno en la planta con el fin de calibrar las máquinas embotelladoras del refresco.

Muestreo Sistemático

Las unidades elementales aparecen en listas o presentan una secuencia que permite la selección de una muestra a saltos. Para
ello, se elige un punto aleatorio (primera unidad seleccionada) dentro de un grupo de k unidades y posteriormente las
restantes unidades se escogen a saltos cadak unidades de la lista o secuencia. Aquí: N , es el tamaño de la población; n ,
el tamaño de la muestra y k un entero tal que N n.k .

22 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Ejemplo1.6
Con el objetivo de medir el nivel de contaminación de metales pesados en un terreno de forma irregular aledaño a una
empresa industrial la cual deposita en él sus desechos industriales, se ha levantado un plano del terreno y en él se ha
construido una rejilla que permite dividirlo en 50 unidades muestrales de determinada área (Estas unidades tienen cómo
mínimo la tercera parte de terreno incluido en la rejilla). Se selecciona una muestra de tamaño 10 de cinco en cinco partiendo
de la unidad # 2 y siguiendo una ruta estipulada. Posteriormente una vez en el terreno se selecciona una muestra de lodo de
un punto correspondiente a la unidad determinada en el plano. Finalmente las 10 muestras de lodo son enviadas al laboratorio
para su respectivo análisis

Muestreo Multietápico (Muestreo con Submuestreo)

En este método de muestreo, se selecciona una muestra aleatoria simple de conglomerados o unidades primarias (primera
etapa) y entre estas unidades, se seleccionan aleatoriamente otras unidades secundarias (segunda etapa) y así sucesivamente
hasta completar todas las etapas que se hayan previsto en el diseño hasta llegar a la unidad que finalmente será encuestada o
medida. Lo más frecuente en este método es dos etapas, en cuyo caso hablamos de Muestreo Bietápico.

Ejemplo 1.7
Con el fin de controlar la explotación del atún, en temporada alta en un determinado puerto marítimo, se realiza un muestreo
por conglomerados en dos etapas de la siguiente manera: Se seleccionan aleatoriamente 20 embarcaciones pesqueras de entre
400 que llegan a dicho puerto para el desembarco del atún. Posteriormente dentro de cada una de las embarcaciones
escogidas se realiza un muestreo aleatorio de algunas de sus bodegas (cada nave tiene entre 5 y 9 bodegas) y se determina el
número de unidades de pescado que no tienen el tamaño establecido para su pesca.

Unidades Primarias Unidades secundarias


Variable de Interés
UPM UPS
Habitantes por
Municipios Viviendas
vivienda
Cantidad total de
Fincas ganaderas Ganado vacuno
carne
Nº de estudiantes que Estudiantes
Colegios de secundaria
viven con sus padres matriculados
Nº de estudiantes en
Colegios Salones de clase
una ciudad
Nº mascotas en un
Manzanas Viviendas
municipio

Tabla 1.3. Ejemplos de unidades primarias y secundarias en un muestreo Bietápico.

Algunos ejemplos de unidades primarias y sus respectivas unidades elementales (objeto de análisis) o secundarias para la
realización de un muestreo Bietápico se muestran en la tabla 1.3.

El área de aplicación, la forma y la mezcla de los diferentes tipos de muestreo generan algunas variedades específicas de
métodos probabilísticos (Muestreo Polifásico, Muestreo de Paneles, Muestreo por áreas, Muestreo de Selección Controlada,
Muestreo Simulado, etc.) se debe tener presente que todos los métodos probabilísticos tienen como base el MAS. La tabla
1.4, presenta un resumen de los métodos básicos de muestreo que serán objeto de estudio en los capítulos siguientes. En las
ciencias sociales, el muestreo se ha desarrollado de la mano de los sondeos políticos, lo cual se debe sin duda a que estos son
una de las pocas posibilidades que tienen los científicos sociales de descubrir la exactitud de sus cálculos; el día de las
elecciones averiguan cuán bien o mal lo hicieron (Babbie, 1999).

23 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

 
Procedimiento Metodológico Observaciones

   
   
probabilidad en la muestra

Muestreo Aleatorio Simple


Todas las combinaciones

elementales tienen igual

1) Determinar  un marco de muestreo  Cada elemento se elige en forma independiente de los demás. 
posibles de unidades

adecuado,  Garantiza igual probabilidad de inclusión en la muestra  para cualquier individuo. 
2) Asignar un número a cada  unidad  Muy eficiente en poblaciones homogéneas (muestra representativa). 
(MAS)

poblacional de 1 a N,  Es la base para diseños muestrales complejos. 
3) Mediante una tabla de números  El procedimiento de selección de las unidades es fácil. 
aleatorios o un procedimiento  Se requiere un listado de todas las unidades que conforman la población, lo cual puede 
equivalente seleccionar las  ser muy inconveniente cuando esta es muy grande.  
Todos los individuos o elementos de la población objeto de estudio tienen una probabilidad diferente de cero para pertenecer a la muestra

unidades  que van a constituir la  Puede producir alto costo en la ubicación de la unidad seleccionada debido al tiempo 
muestra de trabajo.  invertido en la ubicación de la unidad. 

   
  El primer elemento de la muestra se selecciona aleatoriamente, los restantes n 1 
1) Determinar un marco de  quedan determinados por el primero. 
muestreo adecuado  (lista de  Todas las unidades poblacionales deben pertenecer a la ruta elegida o marco muestral. 
unidades del universo) o,  La selección de las unidades es sencilla. 
establecer la ruta que estas  La selección puede en muchos casos ser más representativa que la obtenida mediante 
unidades deben seguir,  un MAS. 
Sistemático

Cuando la población aparece en el marco o la ruta ordenada en forma aleatoria, este 
(MSIS) 

2) Seleccionar la primera unidad 
Necesariamente no todas las combinaciones posibles de unidades elementales tienen igual probabilidad.

aleatoriamente en un intervalo  método se asimila al MAS. 
entre 1 y  k.(cociente de  dividir  El procedimiento de selección de las unidades no es costoso. 
N entre n),  Si  hay algún tipo de sesgo en el marco (lista) o ruta, que esté afectando al primer 
3) Seleccionar cada unidad  individuo seleccionado, pueden verse afectadas el resto de unidades debido a la 
restante después de la primera a  periodicidad de selección. 
saltos cada k unidades siguiendo  El cálculo de la varianza de las estimaciones no es fácil de estimar adecuadamente. 
la lista o la ruta.  Da buena precisión cuando las unidades poblacionales están en el marco o ruta 
ordenada según la variable observada. 
 
   
  Utiliza el MAS o el MSIS como soporte. 
1) Determinar un marco muestral  Requiere información auxiliar de una o varias variables preferiblemente 
adecuado para cada estrato,  correlacionadas con la variable objeto de estudio. Estas variables servirán de base para 
2) Dividir el universo o población  la estratificación de la población de unidades. 
objeto de estudio en grupos  Garantiza la representatividad  de todas las clases de unidades  establecidas (estratos). 
(estratos) internamente  Se reduce el error de muestreo. 
homogéneos y entre ellos  La selección se hace de grupos homogéneos. 
Estratificado

heterogéneos,  Si los estratos son bastante homogéneos  será posible una muestra pequeña y por lo 
(MAE) 

3) Seleccionar dentro de cada  tanto habrá más economía. 
estrato un grupo de individuos   Puede ser difícil la ubicación o conformación de estratos homogéneos en algunos 
en forma aleatoria,  casos. 
4) Las fracciones de muestreo  Se requiere un conocimiento previo de la población seleccionada (más variables). 
(representatividad) en cada  Si la incidencia es baja (pocos con la característica analizada) puede ser difícil 
estrato pueden ser diferentes  encontrar la muestra en algún estrato. 
según la necesidad.  Puede ser costosa la consecución de los marcos muestrales (listas) de unidades en 
  cada estrato. 
Puede demandar más tiempo que los métodos anteriores. 
Muy útil cuando la población es heterogénea. 
Es más costoso que el MAS y el MSIS. 
Utiliza el MAS o el MSIS como soporte. 
1) Determinar marco muestral  No se requiere de listados para todas las unidades poblacionales (elementales). 
adecuado,  Requiriéndose solo para aquellas que pertenecen al conglomerado seleccionado. 
2) Dividir el universo en grupos  Ahorra dinero y tiempo al permitir la concentración de las unidades en áreas próximas 
(clúster) de igual o diferente  (clúster). 
Conglomerados

tamaño de unidades elementales,  Los costos se reducen si los clúster están bien definidos. 
(MCON) 

3) Los clúster deben ser altamente  Puede exigir tratamientos estadísticos más complejos. 
heterogéneos,  Hay pérdida de precisión en las estimaciones. 
4) Se selecciona una muestra de  Si los clúster son heterogéneos habrá una buena representación de la población. 
clúster basada en el marco,  Puede ser difícil la ubicación de cada unidad elemental en el clúster. 
5) Dentro de cada clúster puede  Muy impreciso cuando los conglomerados son homogéneos internamente. 
realizarse censo o a su vez  Por lo general aumentar el número de conglomerados seleccionados, disminuye la 
seleccionar una muestra de ellos.*  varianza del estimador. 
 
Tabla 1.4. Los métodos de muestreo y sus características.

24 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
*Si al interior de cada clúster se toma un subconjunto de unidades se habla entonces de un muestreo bietapico y si se
definen varios subconjuntos de diferente jerarquía y nivel en cada clúster (unidad primaria de muestreo) hasta llegar a
las unidades que serán medidas se hablara de muestreo multietápico.

1.8.2 Muestreo no probabilístico

En muchas circunstancias la información que obtiene de una población basada en una muestra se realiza sin el uso
de metodologías aleatorias y sin el uso de marcos de muestreo muchas veces por la no tenencia de estos o por la
imposibilidad de su levantamiento. Este tipo de muestreo puede dar resultados útiles solo cuando la
representatividad de la muestra sea satisfactoria, hecho que ocurre cuando la población es altamente homogénea. Sin
embargo, en estos diseños no se puede utilizar la teoría del cálculo de probabilidades para darle objetividad a las
conclusiones obtenidas.
El muestreo no probabilístico presenta ventajas en comparación con el muestreo probabilístico en el aspecto
económico ya que exige personal menos entrenado y menos costoso, pero presenta una seria desventaja en
comparación con el muestreo probabilístico y es su imposibilidad para generar inferencias (poder de
generalización).

 
  MUESTREO POR
MUESTREO NO PROBABILÍSTICO

Ej. Personas paradas en la Iglesia de la Ermita en Cali, a las 10AM un día lunes.
  AGRUPACIÓN CASUAL
 
Un profesional basado en su conocimiento sobre la población, selecciona la muestra (No
  MUESTREO DE EXPERTOS usa marcos ni generación aleatoria). (Izcara, 2007)
 
  Se determinan unas categorías o cuotas de control sobre la población y luego el
MUESTREO POR encuestador selecciona las unidades, cumpliendo con las cuotas: Ej. Estudiantes de la
  CUOTAS Universidad (categorías Hombres/ Mujeres), seleccionar 100 de c/u.
 
 
  Se selecciona un grupo inicial, el cual se entrevista y estos a su vez proporcionan
MUESTREO
información sobre la ubicación de otras unidades, las cuales se entrevistan y así
  BOLA DE NIEVE
sucesivamente (FORMA DE PIRÁMIDE).
 
  MUESTREO DE VOLUNTARIOS, Ej. Enfermos de SIDA.
MUESTREO DE UNIDADES DE FACIL ACCESO: Ej. Sacos de maíz de un gran
  cargamento o muestra de carbón de una volqueta.
OTROS
  MUESTREO DE CONVENIENCIA: Ej. Un grupo de personas que asiste a una
  reunión.

 
Figura 1.15. Métodos de muestreo no probabilístico.
 
 
La figura 1.15, relaciona los métodos de muestreo no probabilísticos más conocidos planteando algunos ejemplos.

1.8.3 ¿Qué tipo de muestreo usar?

Debe tenerse presente que cada método de muestreo conduce por lo general a resultados diferentes al abordar la estimación
del mismo parámetro en la misma población, la aplicación de uno u otro presenta dificultades diferentes en la práctica.

25 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

Realizar un
muestreo

Realizar un ¿Se dispone Realizar un


No Si
muestreo no de marco muestreo
Probabilístico muestral? Probabilístico

¿La población es
¿Se conoce el Realizar un Si homogénea
Realizar un
tamaño de los MAS respecto de lo que
muestreo Si
Por cuotas Subgrupos en que se estudia?
se divide la
población
No

No
¿Hay subgrupos o
No
estratos
identificables?
Realizar un
muestreo Si ¿El participante
De voluntarios decide si
participa o no?
Si

No

¿Los subgrupos
Realizar un Realizar un
son internamente
¿Se requiere muestreo Si
muestreo De Si homogéneos y
expertos controlar Estratificado
entre ellos
variables?
heterogéneos?

No

No

Realizar un El encuestado Realizar un


Realizar un
muestreo por bola Si Facilita la No muestreo por
muestreo por
de nieve ubicación de agrupación casual
conglomerados
otros informantes

Figura 1.16. Flujo-grama para la escogencia de un método de muestreo.

Por esta razón, se recomienda realizar un análisis de cada método para evaluar la característica objeto de estudio en la
investigación a la luz de su practicidad, y del cumplimento del error y nivel de confianza establecidos al menor costo posible.
La figura 1.16 ilustra algunas situaciones particulares que inducen a la escogencia de un método de muestreo específico.

26 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

La escogencia del método de muestreo adecuado a una situación investigada depende del análisis de la problemática misma,
de los costos involucrados para su realización, de las restricciones metodológicas y de orden legal y por sobre todo de la
experiencia del investigador.

1.9 CARACTERIZANDO LA POBLACIÓN: CENSO O MUESTREO

En las investigaciones estadísticas una vez definido el problema de investigación, este debe traducirse básicamente en seis
objetivos medibles para lo cual es bueno dar respuesta a las siguientes preguntas: ¿A quién medir?, ¿cuándo medir?, ¿dónde
medir?, ¿qué medir?, ¿cómo medir? y para ¿qué medir?. Las preguntas: ¿a quién medir?, ¿cuándo medir? y ¿dónde medir?
están dirigidas a definir claramente la población investigada. Las preguntas ¿qué medir? y ¿cómo medir? soportan el tipo de
instrumento de medición que se empleará y la pregunta ¿para qué medir? representa el propósito para el cual se realiza la
investigación con respecto a la población involucrada el cual es desde el punto de vista estadístico caracterizarla a través de
sus parámetros. Es muy frecuente que el análisis de las unidades que conforman la población deba realizarse mediante una
muestra debido a: costos, cantidad de unidades, dificultad de acceso a ellas y la posibilidad de destrucción de estas al
medirlas; en este orden de ideas, para caracterizar la población mediante una muestra; esta debe ser representativa es decir
estar basada en un diseño probabilístico de muestreo para inferir dicha caracterización sobre la población con un margen de
error y nivel de confianza. Las muestras obtenidas sin soporte probabilístico son llamadas muestras no representativas y
mediante su uso se hace imposible estimar el error asumido al caracterizar la población, razón por la cual este tipo de muestra
solo permite describir con base en los indicadores hallados únicamente la muestra obtenida. La figura 1.17, sintetiza las
formas de caracterización de la población investigada mediante el censo o el muestreo.

Figura 1.17. La caracterización de una población: censo o muestreo

27 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
1.10 ESCALAS DE MEDICIÓN DATOS Y MUESTREO

La materia prima de la Estadística son los DATOS, los cuales son el resultado de la observación de alguna característica a un
conjunto de unidades objeto de estudio en una población o muestra.

Materia Prima de la Estadística

La naturaleza de una característica y el


instrumento usado para registrarla Son el resultado de la observación de
básicamente definen el tipo de Escala DATOS  las características en las unidades
de Medición, que se debe ajustar a ella. poblacionales o muestrales.

NO NUMÉRICAS (ATRIBUTOS) 
ESCALA NOMINAL (Etiqueta o Nombre): Los números se usan Calidad de un producto: Bueno = 0, Malo = 1

MUESTREO PARA VARIABLES 
para dar nombre a las unidades que han sido clasificadas en Sexo: Hombre = 1. Mujer = 0
diferentes grupos, clases o categorías de acuerdo con alguna Estado civil: Soltero = 0, Casado = 1, Viudo =
2, Separado =3, Unión Libre = 4.
propiedad cualitativa. Estadísticas de trabajo: No para-métricas.

ESCALA ORDINAL (Nombre y Orden): Los números clasifican


ESCALAS DE MEDICIÓN

Clasificación de una familia según su tamaño:


las unidades de una nuestra o población y son la base para realizar Grande =3, Mediana =2, Pequeña = 1.
comparaciones de la forma: “Más grande que”, “Igual a”, “Menor Estado del Agua potable de un Municipio:
que”, etc. Estadísticas de trabajo: No para-métricas. Excelente = 4, Buena = 3, Regular = 2, Mala =1

ESCALA DE INTERVALO (Nombre, Orden y Distancia): Los La temperatura de un cuerpo: F° = 9/5 C° + 32.

MUESTREO PARA VARIABLES 
números clasifican, ordenan y establecen una distancia entre El Coeficiente de Inteligencia de una persona
mediciones: Aquí se puede restar entre categorías (El punto cero y El tiempo según el calendario: Judío,
Gregoriano, Islámico.

NUMÉRICAS  
la distancia son arbitrarios). Estadísticas de trabajo: Para-métricas
Calificación de la agresividad : 0 (Nula) - 10
y No para-métricas. (alta)

ESCALA DE RAZON (Nombre, Orden, Distancia entre categorías Edad


y cero absoluto): El número clasifica, ordena, establece distancias Peso
entre categorías y permite hallar la razón o cociente entre ellas. Volumen
Longitud.

Objetivo: Asociar números a las características


con el propósito de manipularlas y obtener
nuevos conocimientos sobre éstas.

Figura 1.18. Caracterización de las escalas de medición de datos estadísticos.

Según la naturaleza, el instrumento usado para registrar la observación y la clase de operaciones matemáticas que se puedan
realizar con los números asignados a la característica estudiada en las unidades bajo análisis en una investigación, se pueden
diferenciar los siguientes niveles o escalas de medición: Escala Ordinal, Escala Nominal, Escala de Intervalo y Escala de
Razón.

Mediante la figura 1.18, se caracteriza cada una de las escalas de medición usadas para la clasificación de los datos
estadísticos sirviendo de base para su posterior procesamiento.

28 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
De acuerdo con lo anterior, los datos provenientes de una investigación pueden ser: DATOS CUALITATIVOS
(CATEGÓRICOS), en los cuales los números son identificadores o simplemente nombres asignados al atributo investigado
en cada unidad objeto de análisis. En este caso se desea investigar el número total, la proporción o el porcentaje de unidades
estadísticas en la población que poseen dicha característica, o que caen dentro de alguna clase definida.
En esta clasificación caen todas las características que de acuerdo con su naturaleza deben ser medidas utilizando las escalas
Nominal y Ordinal, éste hecho permite clasificar el muestreo probabilístico como un MUESTREO PARA ATRIBUTOS.

De otro lado los datos que son el resultado de la observación de una característica que mide la cantidad de algo haciendo que
la naturaleza de ésta sea esencialmente numérica se denominan VARIABLES; en éste caso deseamos investigar promedios,
totales, razones, etc. y en ésta clasificación caen todas las características que de acuerdo con su naturaleza deben ser medidas
utilizando las escalas de Intervalo y de Razón, permitiendo clasificar el muestreo probabilístico como MUESTREO PARA
VARIABLES.

Si una característica esencialmente numérica se clasifica en categorías como por ejemplo al definir que viejo es una persona
mayor de 60 años y se está interesado en la proporción de personas que en una población pertenecen a tal categoría, entonces
hablamos de un muestreo para atributos. Aquí el atributo investigado es ser viejo.

1.11 MARCOS MUESATRALES

El marco de muestreo es un medio físico o magnético que permite ubicar e identificar las unidades que pertenecen a la
población objeto de estudio en una investigación. La importancia del marco de muestreo es tal que en ausencia de este, es
imposible realizar una investigación usando un muestreo probabilístico, lo cual niega de plano la posibilidad de hacer
Inferencia Estadística, para la obtención de las generalizaciones hacia la población investigada. Se puede decir que la
tenencia o no de un marco de muestreo determina el tipo de muestreo que se utilizará. El muestreo probabilístico
precisamente necesita dar a cada unidad de la población objeto de estudio una probabilidad diferente de cero para que ella sea
seleccionada en la muestra que finalmente será estudiada o media. Esta circunstancia es la que genera la necesidad de
disponer de un medio que permita ubicar y acceder a cualquiera de las unidades seleccionadas.

  Población investigada Marco muestral

***  **  *  **         

*  ***  *  ***         

Unidad de
**  **  **  ***          muestreo

***
    **    *   **   
Unidad de
estudio Cada unidad objeto de estudio 
*   ***  *   ***
    está representada en una y solo 
una unidad del marco muestral 

  **  **    **    ***


   

 
Figura 1.19. Relaciones del marco de muestreo con otros elementos de la investigación.

29 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Un marco de muestreo es en el sentido más general una lista de las unidades ya que en ella deben estar todas las unidades
objeto de estudio constituyéndose así en el medio que facilita su ubicación sin ambigüedad.

Las características fundamentales de un marco muestral son:


Proporciona un medio para identificar y localizar las unidades de muestreo.
Proporciona la información adicional que permite realizar agrupamientos de unidades elementales (estratos,
conglomerados).
Se constituye en el primer paso para la determinación de las probabilidades de inclusión de las unidades en la muestra.
Disponer de un buen marco de muestreo, permite obtener buenas estimaciones sobre la población objeto de estudio,
basándose en la muestra que se ha obtenido a través de éste. Ver la figura 1.19.

Puede decirse que aquella unidad objeto de estudio que no se encuentre representada en el marco muestral, no existe para la
investigación ya que tendrá probabilidad cero de ser seleccionada.

1.11.1 Aspectos que determinan la calidad de un marco muestral

Se pueden relacionar los siguientes:

Un buen marco debe tener la propiedad de ser exhaustivo.


Debe contener información auxiliar que permita mejorar el diseño muestral.
No debe contener unidades extrañas al estudio.
No debe contener unidades traslapadas (que aparezcan varias veces en diferentes unidades muestrales).
De fácil uso.
Debe estar organizado sistemáticamente.
Debe permitir la identificación no ambigua de las unidades que serán incluidas en la muestra.
Cada unidad debe tener una probabilidad igual o conocida.
La regla de asociación entre unidades objeto de estudio y unidades de muestreo debe ser de fácil comprensión.

1.11.2 Algunos problemas de los marcos muestrales

Entre las situaciones más comunes que originan la ineficiencia de un marco muestral están las siguientes:

En el marco no aparecen algunas unidades de la población investigada.


En el marco existen unidades extrañas (aquellas que aparecen en el marco y no están relacionadas con la población objeto
de estudio).
En el marco hay unidades vacías (unidades muestrales relacionadas con la población objeto de estudio pero no hay razón
para que estén en el marco por ejemplo una casa desocupada).
En el marco hay unidades repetidas (un nombre o código aparece varias veces).
El marco contiene unidades traslapadas (por ejemplo una misma persona es encuestada en dos casas diferentes).

Las anteriores situaciones obligan necesariamente a revisar y actualizar los marcos de muestreo antes de seleccionar la
muestra utilizándolos como soporte para ello.

Algunas veces no es posible llegar a la unidad objeto de estudio directamente ya que ésta, se encuentra al interior de otras
unidades muestrales intermedias, las cuales a su vez, se encuentran inmersas en otras y así sucesivamente. En estos casos se
trata de un muestreo multietápico y se debe disponer de varios marcos de muestreo. A manera de ejemplo, suponga que se
quiere realizar una investigación en la cual la población objeto de estudio son las viviendas de una determinada ciudad. Aquí
no se dispone desde luego de un listado de dichas unidades de estudio pero se puede llegar a ellas mediante un esquema como
el mostrado en la figura 1.20.

30 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Es bueno aclarar que aquí a medida que se van seleccionando las unidades mayores se va así mismo conformando el marco
de muestreo para las unidades menores, las cuales están contenidas en las primeras, hasta llegar al listado de casas dentro de
las cuadras seleccionadas.

1.11.3 Ejemplos de marcos muestrales

Los marcos muestrales más usados son: listados, registros y directorios, archivos, planos cartográficos, mapas, fotografías
aéreas e imágenes satelitales. Es bueno tener presente que una de las funciones de los CENSOS es la servir también de marco
muestral para múltiples investigaciones socioeconómicas.

Figura 1.20. Múltiples marcos de muestreo para múltiples poblaciones.

31 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

Listado de comunas en que se divide el área urbana


1 Marco muestral de unidades de primer orden
de Santiago de Cali

2 Marco muestral de unidades de segundo orden Listado de barrios que conforman la comuna

3 Marco muestral de unidades de tercer orden   Listado de manzanas del barrio

 
4 Marco muestral de unidades de cuarto orden Listado de lados de manzana
 
Marco muestral de unidades de quinto orden Listado de casas que conforman el lado
5  

  Unidad elemental seleccionada


6
Vivienda

Figura 1.20. Múltiples marcos de muestreo para múltiples poblaciones (continuación).

1.11.4 Delimitando la población objeto de estudio

En la determinación de una población objeto de estudio involucrada en una investigación estadística suelen intervenir tres
elementos fundamentales que a su vez contribuyen a la validez de la investigación. Ellos son: El tiempo en el cual debe
realizarse el estudio; El espacio que ocupan las unidades físicas que serán medidas y las Características que deben cumplir
las unidades que serán medidas. La Figura 1.21, presenta la población objeto de estudio como un subconjunto de los tres
aspectos antes mencionados.

   
DELIMITACIÓN DELIMITACIÓN
DEL OBJETO DE ESTUDIO GEOGRÁFICA O ESPACIAL
  (CARCATERÍSTICAS)  

 
POBLACIÓN
OBJETO DE
  ESTUDIO DELIMITACIÓN
TEMPORAL
 
Figura 1.21. Elementos que delimitan la población objeto de estudio en una investigación.

A su vez la población objeto de estudio se puede clasificar hipotéticamente en cuatro dominios a) unidades que responderán;
b) unidades que no responderán, c) unidades que no se localizarán y d) unidades que son incapaces de responder. En la
planeación del trabajo de campo deben reducirse al mínimo los porcentajes de existencia de los tres últimos dominios ya que
esta situación afecta a las estimaciones de los parámetros involucrados en las características analizadas.

1.11.5 Algunas relaciones entre la población objetivo y el marco de muestreo


 
Al utilizar uno o varios marcos muestrales sobre los cuales se obtendrán las unidades que finalmente serán medidas, la
situación ideal se presenta cuando dichos marcos coinciden exactamente con la población objeto de estudio y no se presentan

32 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
unidades faltantes, unidades extrañas o unidades traslapadas. La figura 1.22, representa la situación ideal que relaciona el
marco muestral con la población objetivo de estudio.

  POBLACIÓN OBJETIVO

      

  MARCO MUESTRAL MARCOS MUESTRALES


COMPLEMENTARIOS

  El marco muestral y la población 
El marco muestral y la población 
objetivo coinciden totalmente 
objetivo coinciden totalmente 
  (Se usa un solo marco muestral) 
(Se usan dos marcos muestrales) 

Figura 1.22. Situaciones ideales de la relación entre la población y los marcos muestrales.

Al utilizar los marcos muestrales para seleccionar la muestra de la población objetivo, se debe tener mucho cuidado con las
aberraciones contenidas en ellos las cuales favorecen la existencia de unidades traslapadas, unidades faltantes o unidades
extrañas. Cualquier aberración existente en el marco muestral utilizado debe ser corregida oportunamente. La figura 1.23,
muestra algunas aberraciones existentes entre la población objetivo y el marco muestral utilizado.

Unidades El marco permite llegar a


  Extrañas unidades que no son objeto de
estudio
 
 
 
 
DEFECTOS
  DEL MARCO
  MUESTRAL
 
  Unidades Unidades
Faltantes Repetidas
 
 
El marco no permite llegar a El marco contiene
unidades que son objeto de unidades referenciadas
estudio varias veces.

Figura 1.23. Situaciones aberrantes de la relación entre la población y los marcos muestrales.

33 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Ejemplo 1.9
Para un estudio realizado en la ciudad de ABC sobre la calidad del servicio prestado por las EPS radicadas en dicha ciudad,
se cuenta con un listado de todas las personas afiliadas menores de 50 años por empresa prestadora del servicio y su fecha de
afiliación. En total se tienen para la ciudad ABC 875.000 afiliados.
Sin embargo por múltiples razones el estudio se pospone y ocho meses después se continua bajo el mismo marco muestral.
¿Dé algunas razones que establezcan diferencias entre la población objetivo y la población muestreada en este estudio?

Problemas de Marco: A la fecha de realización del estudio habrá nuevas personas afiliadas y habrá otras que han cambiado de
empresa EPS o simplemente no están afiliadas a ninguna EPS. Puede haber nuevas empresas prestadoras del servicio.

No colaboración: Algunos afiliados pueden negarse a colaborar con el estudio por creer que le aumentará el costo del
servicio.

Imposibilidad de la toma de Información: Puede ser imposible o difícil la ubicación de algunos afiliados.

Falla en la cobertura del estudio: Se deja por fuera a las personas mayores de 50 años.

1.12 INSUMOS BÁSICOS PARA LA ELABORACIÓN DE UN PLAN DE MUESTREO

Una vez que se ha decidido que la investigación se realizará tomando una muestra de la población objeto de estudio se debe
realizar un plan de muestreo cuyos insumos básicos son: La población objeto de estudio (PO), siendo esta aquella para la
cual sus unidades serán medidas y sobre la que se aplicarán las conclusiones (inferencias) a las que se llegue mediante la
investigación como por ejemplo las familias residentes en una barrio de la ciudad de Cali; La población muestreada (PM)
significando con ella el conjunto de unidades de muestreo o sea aquellas unidades que aparecen en el marco muestral que
siguiendo con el ejemplo, serían los códigos (direcciones) de las viviendas que conforman el barrio en el cual habitan las
familias investigadas; el marco muestral (MM) constituido por el conjunto de códigos o direcciones de las viviendas (medio
físico o electrónico mediante el cual se pueden ubicar las unidades seleccionadas; en este caso puede ser el listado de
direcciones o un plano urbanístico de la ciudad. Los otros dos insumos básicos para elaborar dicho plan son el tamaño de la
muestra y la forma como esta debe ser seleccionada con base en el marco muestral. Ver figura 1.24. La relación entre la
población objetivo, la población muestreada y el marco muestral es de suma importancia hasta el punto de que cada unidad
objeto de estudio tiene su correspondiente unidad en la población muestreada, las cuales a su vez se encuentran representadas
en el marco muestral. Ver figura 1.25.

INSUMOS BÁSICOS PARA


ELABORAR UN PLAN DE MUESTREO

LA POBLACIÓN OBJETO DE ESTUDIO (PO)


LA POBLACIÓN DE MUESTREO (PM)
EL MARCO MUESTRAL (MM)
EL TAMAÑO DE LA MUESTRA
LA FORMA DE SELECCIONAR LA
MUESTRA

Figura 1.24. Insumos básicos para elaborar un plan de muestreo

34 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Al muestrear las unidades del marco se determinan las unidades físicas que conformarán la muestra. Unidad objeto de estudio
que no esté relacionada en la población muestreada no aparecerá en el marco muestral y por ende nunca será seleccionada. Es
bueno tener presente que a una misma unidad de muestreo (vivienda) pueden corresponder varias unidades objeto de estudio
que sería el caso en el cual en una vivienda resida más de una familia.

POBLACIÓN
PO OBJETO DE ESTUDIO

MARCO   POBLACIÓN
MUESTRAL MM PM MUESTREADA

Muestra de unidades Muestra de unidades


MUESTRA de la población de la población objeto
muestreada de estudio

Figura1.25. Relación bidireccional entre la población objeto de estudio, la población muestreada y el marco muestral.

Finalmente es bueno aclarar que a cada unidad objeto de estudio le debe corresponder una única unidad de muestreo, pero el
caso contrario no siempre es cierto; esto es una unidad de muestreo puede contener varias unidades objeto de estudio.

La Figura 1.26 muestra los tipos de unidades problema presentes en la población objetivo (PO) y la población muestreada
(PM) o población presente en el marco muestral.

1: Unidades no localizables
2: Unidades que no responden
POBLACIÓN OBJETIVO

3: Unidades incapaces de responder.


POBLACIÓN DEL MARCO

Unidades no
2
incluidas en el 1
marco
MUESTRAL

Unidades no
3 elegibles para la
muestra

Figura 1.26.Tipos de unidades problema presentes en PM y PO

35 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

1.13 PARÁMETROS Y ESTIMADORES

Un Parámetro es la obtención de un valor único “verdadero” mediante una fórmula que depende de los valores obtenidos al
observar determinada característica en todas las unidades estadísticas que conforman una población, por ejemplo si
consideramos como población todos los estudiantes de la Universidad del Valle matriculados en el segundo período de 2010
y si se observa en la oficina de registro el valor de la matrícula para cada uno de ellos, entonces la matrícula promedio
(Media poblacional) de un estudiante de la Universidad del Valle en ese período será obtenida mediante la fórmula:

N
xi Valor de la matrícula para el
estudiante i - ésimo
Matricula promedio de un estudiante
de UV en ese período
X i 1
N Tamaño de la Población

Un parámetro se mide (estima) mediante un Estimador, que se define como una fórmula que depende de todos los valores
obtenidos al observar determinada característica en todas las unidades seleccionadas en una muestra. Un estimador
proporciona diferentes valores para el mismo parámetro, dependiendo de las unidades que conformen la muestra, vale decir
que dos muestras diferentes pueden dar valores diferentes para el mismo parámetro de la misma característica analizada en la
población de la cual fueron extraídas. El valor obtenido mediante el uso de un estimador en una muestra determinada recibe
el nombre de Estimación. En el ejemplo que se trae, el estimador correspondiente al parámetro analizado, es la media
muestral, la cual viene definida por:
n
Valor de la matrícula para el
xi estudiante i-ésimo


Estimación de la Matricula promedio de un
estudiante de UV en ese período ˆ i 1

n Tamaño de la muestra

La figura 1.27, establece la diferencia entre parámetro y estimador en términos generales.

Se dice que una investigación por muestreo es una investigación multipropósito debido a que mediante ella por lo general,
entre otras cosas se desea estimar varios parámetros. En este sentido una misma población física objeto de estudio, contiene
varias poblaciones de datos y para cada una de ellas muchas veces se desea conocer varios parámetros.

A continuación se relacionan los parámetros básicos en el análisis estadístico y su correspondiente estimador. Ver tabla 1.5a,
1.5b y 1.5c.
 
2 1
Nota: La relación existente entre la varianza y la cuasi-varianza poblacionales viene dada por 1 .S 2 , lo cual
N
establece que ellas son iguales en presencia de poblaciones grandes.
 
Característica
Nombre Parámetro Estimador
Analizada
N n
yi yi
Variable R i 1   Rˆ i 1  
Razón poblacional
numérica N n
de dos variables xi xi
i 1 i 1
 
Tabla 1.5a. Parámetros y estimadores para variables.

36 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

SE ANALIZA PARTE DE LA POBLACIÓN SE ANALIZA TODA LA POBLACIÓN

MUESTREO  POBLACIÓN=N 
CENSO

MUESTRA=n 

PARÁMETRO= θ INFERENCIA ESTIMADOR= θˆ

Valor “único”, obtenido mediante Valor obtenido mediante una fórmula


una fórmula que depende de todos que depende de los valores muestrales.
ESTIMACIÓN= θˆ n
los valores poblacionales Cada muestra da una estimación

DISTRIBUCIÓN DEL ESTIMADOR Comportamiento de los valores


dados por θ̂   al considerar todas
E(θˆ); ECM(θˆ) las posibles muestras

 
Figura 1.27. Parámetro vs estimador.

 
Característica
Nombre Parámetro Estimador
Analizada
Media poblacional 1 N

(Base razón) Y yi   Yˆ R Rˆ X (*) 


N i 1
Total poblacional N
(Base razón) Y yi   YˆR RˆX (*) 
i 1
Media poblacional 1 N

Variable (Base regresión) Y


N
yi   YˆRe Yˆ Bˆ 0 ( X Xˆ ) (*) 
i 1
numérica
N .YˆRe (*) 
Total poblacional N

(Base regresión) Y yi   YˆRe


i 1
Media poblacional 1 N
1 n
simple Y yi Yˆ yi
N i 1 ni1  
Total poblacional N  
simple Y yi
i 1
Yˆ N.Yˆ
Tabla 1.5b. Parámetros y estimadores para variables.
 
(*) Se requiere muy buena correlación entre las variables X e Y. La variable X recibe el nombre de variable auxiliar y de ella
deben conocerse sus parámetros. Los estimadores en este caso se llaman estimadores indirectos precisamente porque están
utilizando la información de la variable auxiliar X; en algunos casos dicha variable auxiliar es la misma variable analizada

37 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
medida en situaciones anteriores. Debido a la correlación existente entre X e Y, se espera que las estimaciones de los
parámetros de la variable analizada sean más precisos.  
 
 
Característica
Nombre Parámetro Estimador
Analizada
Proporción poblacional A a
P Pˆ
Atributos n
N
(variables no
numéricas)
Total poblacional A N.P Aˆ N .Pˆ
(Base proporción)
Tabla 1.5c. Parámetros y estimadores para atributos.

Nota
En la tabla 1.5c:
A : Total de unidades que poseen determinada característica en la población,
a : Total de unidades que poseen determinada característica en la muestra.

1.13.1 La distribución del estimador

Supóngase que una población está formada por seis unidades, las cuales al ser medidas en la característica Y generan el
conjunto de datos: .

Si se obtienen todas las posibles muestras aleatorias simples de tamaño n 4 de esta población y en cada se calcula la
media muestral (estimador de la media poblacional) se tendrá el siguiente resultado. Ver figura 1.28.
 
 
N 6 6!
  Número de Muestras 15
  n 4 4!.(6 4)!
 
Conjunto de
estimaciones

 
Figura 1.28. La distribución de la media muestral para la característica Y analizada, obteniendo muestras de tamaño n=4.

38 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
 
 

Figura 1.28. La distribución de la media muestral para la característica Y analizada,


obteniendo muestras de tamaño n=4.(continuación).

Como puede apreciarse la distribución del estimador está formada por todos los valores de la variable aleatoria media
muestral resultante de aplicar el estimador de la media poblacional a todas las posibles muestras de tamaño cuatro de la
población analizada.

POBLACIÓN 

Conjunto de todas las 
Muestra Muestra Muestra posibles muestras 
1 2 * * * k

θˆi , Pr (θˆi )
Distribución 
del estimador

ESTIMADOR 
INSESGADO 
θˆ : Variable aleatoria θˆ : Estimador ESTIMADOR  
SESGADO

E(θˆ) θ E (θˆ) θ
E (θˆ ) : Valor esperado del estimador 2
2   V (θˆ) E θˆ E (θˆ)
V (θˆ)E θˆ E(θˆ) V (θˆ ) : Varianza del estimador 2
ECM (θˆ) V (θˆ) ECM (θˆ) V (θˆ) B (θˆ)
ECM (θˆ ) : Error cuadrático medio del estimador
B (θˆ ) : Sesgo del estimador E (θˆ ) θ

Figura 1.29. La distribución de un estimador.

39 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

La figura 1.29, generaliza el ejemplo anterior y relaciona los indicadores más importantes que se desprenden de la
distribución probabilística de un estimador. En esta figura se debe tener presente:

θˆ : Estimador del parámetro θ , Pr (θˆi ) : Probabilidad del valor i-ésimo de estimador.

N
Nota: Si la probabilidad de c/u de las muestras es la misma, entonces Pr (θˆi ) 1 1 , y en éste contexto se tiene lo
n K
siguiente:
K K K
θˆi (θˆi E (θˆ)) 2 (θˆi θ ) 2
E (θˆ) i 1
, V (θˆ) i 1
y ECM(θˆ) i 1
K K K

1.13.2 La validez y la fiabilidad de un estimador

Al usar un estimador para conocer (medir o estimar) el verdadero valor de un parámetro, se desea de una parte que las
estimaciones aportadas por el estimador se correspondan en alto grado con el verdadero valor del parámetro, en este sentido
se habla de la validez o exactitud del estimador.

Situación 
ideal 

 
 
 
 
 
 
 
 
 
 
 
 
Figura 1.30. Fiabilidad vs validez de un estimador.

40 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

Por otro lado, se desea que dichas estimaciones del parámetro que se está analizando caigan cerca unas de otras al tomar
varias muestras del mismo tamaño, esto es, se quiere que exista entre las diferentes estimaciones poca variabilidad. A este
último hecho se le denomina fiabilidad del estimador o sea que su reproducibilidad tiene precisión. La figura 1.30, muestra
la situación ideal para la distribución de un estimador.

1.13.3 Propiedades básicas de los estimadores


 
Siendo el estimador, la fórmula o expresión mediante la cual se trata de medir “estimar” un parámetro desconocido en la
investigación, es bueno que estos tengan algunas propiedades deseables que permitan un mejor manejo de ellos y más
confianza en las estimaciones que entregan.

Estimador Insesgado

Un estimador se dice que tiene la propiedad de ser insesgado si para la distribución de él se cumple que E(θˆ) θ , es decir
que; el valor esperado de dicho estimador es igual a parámetro (El promedio de todas las estimaciones es igual al valor del
parámetro). La figura 1.31, muestra la diferencia entre una distribución insesgada y otra sesgada, vale decir la diferencia entre
un estimador insesgado y otro sesgado, bajo el supuesto de normalidad.

Los dos estimadores θˆ1 y θˆ2 del parámetro θ, difieren en que la distribución del estimador θˆ1 es insesgada mientras que la

del estimador θˆ2 es sesgada. Este hecho clasifica los estimadores respectivamente como insesgado y sesgado.

Figura 1.31. Estimador sesgado vs insesgado.

Estimador Consistente

Un estimador θˆ , se dice que es consistente cuando a medida que aumenta el tamaño de la muestra, el valor de las
estimaciones para ese tamaño se acerca más al parámetro. En definitiva si n N entonces θˆN θ. Siendo más
rigurosos, se dice que un estimador es consistente, si converge en probabilidad al parámetro que se está estimando, lo cual
significa que:

41 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

lin lin
P θˆn θ 0 P θˆn θ < 1 (*)
n n

Las consecuencias que se desprenden de esta propiedad, se pueden ver utilizando la Desigualdad de Chébischev en la
variable aleatoria θ̂ .
Expresando el teorema de Chévischev en términos de ECM ( θˆn ) de tiene:

1 2
Pr θˆn θ k. ECM (θˆn ) , ECM (θˆn ) E θˆn θ
k2
Haciendo:
ECM (θˆn )
k. ECM (θˆn ) Pr θˆn θ 2

Pero se sabe que:


2
ECM (θˆn ) V (θˆn ) B (θˆn )

Tomando límites a la desigualdad de Chévischev, se tiene:

ECM(θˆn ) 1
lin Pr θˆn θ lin lin 2
2 2
V (θˆ ) B (θˆ )
n n n

Luego para que se cumpla la expresión (*), se requiere que:

lin V (θˆn ) 0 Y  lin B(θˆn )


2
0
n n

Lo cual se presenta cuando θˆN .

Estimador Eficiente

Eficiencia es sinónimo de precisión y significa que en la distribución probabilística del estimador θ̂ se cumple que los
diferentes valores de θ̂ están cercanos al promedio de todos ellos, vale decir están cercanos a su valor esperado E(θˆ) . En
otras palabras la varianza del estimador θ̂ es pequeña. Lógicamente se requiere comparar ésta varianza con la de otro
estimador para el mismo parámetro, y así poder decir cuál de los dos estimadores es más eficiente. La figura 1.32, compara
dos estimadores θˆ1 y θˆ2 para el mismo parámetro desde la propiedad de eficiencia.

42 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

Figura 1.32. Estimador eficiente.

La Precisión y el Insesgamiento son dos propiedades muy deseables en los estimadores, pero se debe tener presente que hay
situaciones en las cuales solo se dispone de estimadores sesgados y una buena manipulación de estos con muestras más o
menos grandes dan buenas estimaciones de los parámetros investigados. Las anteriores propiedades se resumen en la figura
1.33 y de acuerdo con ella, la situación ideal para el comportamiento de un estimador será preciso (varianza pequeña) e
insegado ( ). Es bueno tener presente que algunas veces el único estimador que podemos usar es sesgado por
naturaleza; en estos casos se deben tomar muestras suficientemente grandes para reducir el efecto del sesgo sobre la
estimación (hacer que el sesgo sea despreciable).

Impreciso Preciso
Insesgado Insesgado

Preciso Impreciso
Sesgado Sesgado

Figura 1.33. Estimaciones de un parámetro en un tablero de tiro al blanco.

43 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Ejemplo 1.10
En cada una de las siguientes situaciones determine cuál de los dos estimadores θˆ1 o θˆ2 utilizaría para conocer el valor del
parámetro θ objeto de estudio en una investigación.

a) θˆ1 y θˆ2 son insesgados pero V (θˆ1 ) V (θˆ2 ) . R/ θˆ2


b) θˆ1 es insesgado con varianza grande y θˆ2 es segado con varianza pequeña y sesgo pequeño. R/ θˆ2

c) θˆ1 y θˆ2 son segados pero ECM(θˆ1) < ECM(θˆ2 ) . R/ θˆ1


d) θˆ1 es insesgado y θˆ2 es segado pero V (θˆ1 ) < V (θˆ2 ) . R/ θˆ1

1.14 ERRORES EN LA INVESTIGACIÓN POR MUESTREO

Los errores en la investigación por muestreo son de dos tipos: Los errores debidos al muestreo y los errores no muestrales.
Los primeros corresponden a la diferencia entre un parámetro poblacional y la estimación de este obtenida mediante una
muestra; mientras que los segundos se deben a la diferencia entre el valor verdadero de una unidad estadística analizada y su
correspondiente valor consignado en la encuesta que se le ha realizado. Estos últimos están presentes en todo tipo de
investigación. La figura 1.34, caracteriza más a fondo las dos clases de errores:

Son de naturaleza sistemática 
ERRORES NO No son cuantificables 
MUESTRALES Se acumulan en la muestra entera 
ERRORES EN LA  Se pueden prevenir con medidas administrativas 
INVESTIGACIÓN 
POR MUESTREO  Se presentan solo en investigaciones por muestreo 
Se pueden limitar en magnitud usando mejores métodos de 
ERRORES muestreo y/o muestras grandes 
MUESTRALES
Se pueden medir usando modelos de probabilidad 
Se deben publicar conjuntamente con los resultados de la 
encuesta 

Figura 1.34. Errores en la investigación por muestreo.

1.14.1 Errores no muestrales

Como antes se definió en términos generales, el error no muestral es la diferencia entre el valor verdadero de una unidad
investigada y su correspondiente valor reportado en la encuesta. Las causas o fuentes que determinan estos errores se pueden
clasificar en tres:

Las debidas a una preparación inadecuada de la investigación.


Las debidas a la recolección de la información.
Las debidas al tratamiento de la información recogida y a la publicación de resultados.

Los errores no muestrales debidos a una preparación inadecuada de la investigación, pueden clasificarse en dos: a) los que
se generan de procedimientos sesgados debidos a la medida de una característica, a la selección de una unidad o a la
estimación de un parámetro. Estos sesgos se analizan más adelante. b) los que se generan al usar instrumentos sesgados: que
pueden provenir de la conformación o mal uso de tablas de números aleatorios, cuestionarios con preguntas mal redactadas o

44 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
diseñadas, instrucciones equivocadas impartidas a los recolectores y los que provienen del uso equivocado de un marco de
muestreo o de las deficiencias de este.

De selección
De medición
Procedimiento sesgado De estimación
ERRORES DEBIDOS A
UNA PREPARACIÓN
INADECUADA DE LA Tablas de números aleatorios
INVESTIGACIÓN  Instrumento sesgado Cuestionarios
Manuales de campo
Marcos muestrales
ERRORES NO MUESTRALES 

Conformación del marco


Uso inadecuado del marco
Defectos de marco

ERRORES DEBIDOS A Unidades que no contestan


Datos faltantes Unidades que no cooperan
LA RECOLECCIÓN DE 
LA INFORMACIÓN  Unidades que no se encuentran
Etc.
Errores de respuesta

Diseño del cuestionario


Elección del informante
Errores de tabulación Falta de conocimiento del informante
Olvido del Informante
Falta de interés del informante
Equivocación consciente del informante
Errores de revisión Equivocación inconsciente del informante
Errores de registro de datos
ERRORES DEBIDOS AL
Errores de cálculo realizados por el informante
PROCESAMIENTO/ Errores de procedimiento
El encuestador induce la respuesta.
PUBLICACIÓN  Etc.
Errores de codificación

Errores de interpretación

Figura 1.35. Clasificación de los errores no muestrales.

Los errores no muestrales debidos a la recolección de la información, pueden clasificarse en tres a saber: a) los debidos a
los defectos del marco de muestreo, que pueden darse por el uso de marcos ineficientes o a un mal uso de estos b) los
llamados DATOS FALTANTES, que son un tipo especial de errores y que ocurren cuando para una unidad estadística
investigada no se tiene la información solicitada total o parcialmente (ejemplo: La unidad no se puede ubicar, la unidad no
quiere contestar (Bethlehem, 2009), etc.) y c) los debidos a los errores en las respuestas, los cuales pueden ser: humanos
(ejemplo: fatiga, falta de interés, etc.); de temporada (ejemplo: festividades, vacaciones, etc.) o de tendencia (la memoria del
entrevistado, la experiencia del encuestado).

Los errores no muestrales debidos al tratamiento de la Información recogida y a la publicación de resultados, pueden
deberse a: mala revisión de cuestionarios, equivocaciones en la codificación, tabulación, procesamiento, interpretación,
publicación etc. La figura 1.35, resume los errores no muestrales.

1.14.2 Errores de muestreo

Si se representa una estimación del parámetro θ mediante θˆn m , este valor puede ser menor, igual o mayor al parámetro.
Existe entonces una desviación de la estimación con respecto al parámetro que puede ser positiva o negativa, la cual puede
deberse a una o varias de las siguientes razones: a) el tamaño de la muestra que se utiliza, b) la variabilidad de población de la

45 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
cual se extrae la muestra (variabilidad o heterogeneidad de la variable analizada), c) el método de muestreo utilizado para la
obtención de la muestra y d) la forma del estimador utilizado (fórmula).

El error de muestreo que suele llamarse error de estimación se define entonces como el valor absoluto entre la estimación y el
parámetro.

EM
  Estimación Parámetro m θ

Generalmente la diferencia entre la estimación y el parámetro se mide por la varianza del estimador V (θˆ) y se puede
controlar tomando muestras más grandes, mejorando el diseño de muestreo utilizando la información suministrada por el
marco (estratos, grupos, probabilidades de selección, etc.) ó perfeccionando los métodos de estimación. La figura 1.36
muestra el efecto del error de muestreo en la estimación del parámetro media poblacional.

x<

POSIBLES RESULTADOS DE
DISTRIBUCIÓN DE LA
VARIABLE EN LA MUESTRA

<x

DISTRIBUCIÓN DE LA POBLACIÓN DE LA
VARIABLE EN LA POBLACIÓN

Figura 1.36. Efecto del error de muestreo en la estimación de la media poblacional.

1.14.3 Error total en una investigación por muestreo

El error total cometido en una investigación por muestreo tiene dos componentes, a saber: El error estándar de estimación
( EEE ) y los errores ajenos al muestreo ( EAM ).

46 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
De un lado los errores ajenos al muestreo y del otro los errores muestrales que van a estar aquí representados por lo que comúnmente se
llama error estándar de estimación que no es más que la raíz cuadrada de la varianza del estimador, permiten utilizar un triángulo
rectángulo para representar el error total en función de los otros dos errores. Ver figura 1.37.

ET ET Error total
EEE ET 2 EEE2 EAM 2 EEE V (θˆ)
EAM Errores ajenos al muestreo

EAM Figura 1.37. El error total en la investigación por muestreo.

Figura 1.38. El error total en la investigación por muestreo (continuación).

Como puede verse en la figura 1.38, es fundamental reducir tanto los errores no muestrales como los errores de muestreo para
tener un menor error total en provecho de la investigación.

Nota: El error estándar de estimación suele llamarse error de muestreo.

1.14.4 El sesgo en el muestreo

Reconocer los sesgos en una investigación estadística y realizar su control es fundamental para la validez de la misma
investigación. Las principales fuentes de sesgo (Velasco et al., 2002) son:

No respuesta, que es la no participación de personas que originalmente se encontraban incluidas en el estudio, por no
haberse presentado, por negarse a responder o participar, o por cualquier otra causa. Se sugiere para evitarlo a) Probar y
reestructurar todos los instrumentos del trabajo de campo para asegurar la participación de todos los convocados, b)

47 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
realizar varias visitas para lograr su cooperación, c) averiguar las diferencias entre los no cooperantes y los cooperadores,
d)estimar la no cooperación para considerar el número adicional de entrevistas. Todo estudio estadístico debe mencionar
la tasa de no respuesta y plantear como ésta situación puede influir en los resultados del estudio.
Estudio de voluntarios. Esta situación no garantiza la representatividad de la muestra ni su aleatoriedad.
Muestreo solo de registrados. Utilizar solo las personas registradas en directorios u otros marcos muestrales no garantiza
la cobertura del estudio a no ser que estos sean completos.
Perdida de casos por corta duración. Esta situación se presenta en estudios médicos y biológicos.
Sesgo estacional. Se presenta cuando el fenómeno estudiado tiene patrón estacional.
Accesibilidad a las áreas de estudio. No se tendría en este caso la cobertura geográfica adecuada para el estudio

1.14.5 Tres sesgos que se deben evitar.

En un buen diseño de muestreo se deben eliminar o reducir al mínimo los siguientes sesgos los cuales se ilustran mediante la
figura1.39.

Parte de la población no tiene oportunidad de quedar


DE SELECCIÓN representada en la muestra. Unidades con probabilidad cero.
Ver figura 1.40.

El Instrumento de medición tiene una tendencia a aumentar


DE MEDICIÓN o disminuir el parámetro que se investiga (Ej.: Balanza
SESGO  descalibrada, Pregunta mal formulada o mal interpretada).

El uso indebido o el mismo diseño del estimador (fórmula)


mediante el cual se estima el parámetro hace que el
DE ESTIMACIÓN
promedio de las estimaciones no de como resultado el valor
que se investiga o parámetro.

Figura 1.39. Sesgos que deben evitarse.

A: Distribución poblacional de la variable analizada. B: Distribución muestral de la variable analizada

GRUPOS POBLACIONALES “sesgo de selección” 


IMPOSIBLES DE MEDIR La  distribución  de  la  muestra 
solo  estará  basada  en  las  clases 
poblacionales  susceptibles  de 
medición. 

A B
? ?

Figura 1.40. Error de cobertura o de selección

48 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
La figura 1.41, presenta un panorama general de las componentes del error total que se presenta en las investigaciones por
muestreo.
ELEMENTOS  BÁSICOS EN DONDE SE GENERAN  

PPOBLACIÓN 
DEFECTOS DEBIDOS AL MARCO SESGOS NO 
OBJETIVO 

COMPONENTES DEL ERROR 
DEBIDOS AL 
 COMPONENTES DEL ERROR TOTAL 

LA NO RESPUESTA
MUESTREO 
ERRORES DE MEDICIÓN
PPOBLACIÓN 
LOS PRINCIPALES 

MUESTREADA 
SESGO DE SELECCIÓN SESGOS  DEBIDOS 
SESGO DE ESTIMACIÓN
AL MUESTREO 
DISTRIBUCIÓN 
MUESTRAL 
TAMAÑO DE LA MUESTRA VARIABILIDAD DE 
HOMOGENEIDAD DE LA MUESTRA
LA MUESTRA 
MUESTRA 
SELECCIONADA 

Figura 1.41. Los componentes del error total en una investigación por muestreo y sus centros de generación.

Ejemplo 1.11
El siguiente es un ejemplo sencillo que representa cada uno de los sesgos anteriormente enumerados. Suponga que la
población objeto de estudio son los estudiantes de un salón de clase del colegio ABC y se quiere estimar en este grupo, la
altura promedio de ellos.

SESGO DE La muestra se selecciona un día que hay paro de buses y muchos estudiantes del grupo no asisten, entonces
SELECCIÓN muy probablemente algunos estudiantes altos no van al colegio y no quedan representados en la muestra

SESGO DE Para medir las alturas de los estudiantes, se usa un metro que no empieza en cero y quien realiza las
MEDICIÓN mediciones no se percata de ello.

SESGO DE Una vez que se obtienen las alturas de los estudiantes de la muestra, se eliminan las 3 alturas más pequeñas
ESTIMACIÓN encontradas y se calcula el promedio aritmético de las restantes.

1.15 FORMAS BÁSICAS DE OBTENCIÓN DE INFORMACIÓN

Una vez se ha definido claramente el problema de investigación y de establecer los objetivos del proyecto, el investigador
deben plantearse las siguientes preguntas ¿Qué información se requiere para dar respuesta a los objetivos planteados? ¿De
qué información se dispone y cuál es su calidad e idoneidad en caso de que esta exista?. Si no se dispone de información o en
presencia de información imposible de usar se debe plantear la pregunta ¿Cuál es el procedimiento más adecuado para la
obtención de la misma? Ver Aldridge et al (2003).

Observación

Directa o personal
Técnicas de obtención de Telefónica
Encuesta Por correo
información 
Auto-administrada
Iteractiva /correo electrónico

Registro
Administrativo

Figura 1.42. Las técnicas básicas de obtención de información.

49 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

En la práctica pueden presentarse dos situaciones a) La información que requiere el proyecto ya existe y b) la información no
existe, y debe ser recolectada. Es bueno tener presente que es posible que se den las dos situaciones al tiempo. La figura 1.42
relaciona las técnicas de recolección de información existentes para el manejo de la situación b).

Una buena definición de lo que es una encuesta es la que presenta García Fernando y que retoma Rojas et al (1998) que dice:
“La encuesta es una técnica que utiliza un conjunto de procedimientos estandarizados de investigación mediante los cuales se
recogen y analizan una serie de datos de una muestra de casos representativa de una población o universo más amplio, del
que se pretende explorar, describir, predecir, y/o explicar una serie de características”.

Las herramientas más frecuentes para la realización de una encuesta son la entrevista y el cuestionario. La entrevista se
caracteriza por estar diseñada sobre la base de preguntas generales, presentadas de manera poco rigurosa y no preestablecida,
el entrevistador y el entrevistado se expresan con libertad y sin límite de tiempo. De otro lado el cuestionario se caracteriza
por estar realizado sobre la base de preguntas claras y concretas, presentadas en un orden rígido y preestablecido, hay poca
libertad de comunicación entre el entrevistado y el entrevistador además de disponer de límite en el tiempo de realización.
Con el cuestionario puede obtenerse información de varias personas al tiempo (grupos grandes).

En lo que sigue, se sintetizan las ventajas y desventajas para cada una de las técnicas de realización de una encuesta. Ver
tablas 1.6, 1.7, 1.8, 1.9 y 1.10. (D’Anacona, 2004), (García, 2002) y (Rojas, et al., 1998)

VENTAJAS Y DESVENTAJAS DE LA ENCUESTA DIRECTA O PERSONAL


Ventajas Desventajas
Es flexible en cuanto a la cantidad de preguntas Costosas
La presencia del encuestador permite profundizar y realizar
Demandan mucho tiempo.
preguntas complejas.
Cada encuestador solo realiza un número muy limitado de
Una buena relación entre el encuestador y el entrevistado hace que
encuestas. No se puede establecer una cuota fija de encuestas para
se tenga mejor calidad en las respuestas.
cada encuestador.
El encuestador puede manejar el orden de las preguntas a su
Los costos limitan la cobertura geográfica del estudio.
antojo.
El encuestador puede inducir sesgos involuntariamente al realizar
Es muy fácil realizar preguntas abiertas.
comentarios o explicaciones a preguntas.
El entrevistador puede percibir las indicaciones no verbales del La presentación personal del encuestador puede influir en el
entrevistado (asombro etc.). entrevistado.
La presencia del encuestador puede hacer que el entrevistado altere
El encuestador puede hacer uso de ayudas visuales.
las respuestas.
Permite que otras personas requeridas en el estudio participen en
No puede garantizarse anonimato.
la entrega de información.
El encuestador requiere sentirse seguro físicamente en presencia
del encuestado sobre todo si está solo.
Tabla 1.6. Ventajas y desventajas de la encuesta directa.

VENTAJAS Y DESVENTAJAS DE LA ENCUESTA TELEFÓNICA


Ventajas Desventajas
Costos bajo en comparación con la encuesta cara a cara. Debe evitarse las preguntas complejas.
Amplia cobertura geográfica. Los grupos sin medio telefónico quedarán sub representados.
Como la recogida de datos es rápida se pueden realizar muchas
No se pueden realizar preguntas comprometedoras.
encuestas en corto tiempo.
No hay tiempo de desplazamiento y se sabe de inmediato si el Las respuestas son breves y las indagaciones tienen efectos
encuestado desea participar o no. limitado.
Es flexible para el orden de realización de las preguntas. No se pueden utilizar ayudas visuales.
La influencia del encuestador es menor que en la entrevista carca a
Es más fácil que el encuestado rechace al encuestador.
cara.
El encuestador está seguro físicamente. No puede garantizarse el anonimato.
El encuestado puede fácilmente ser suplantado.
Tabla 1.7. Ventajas y desventajas de la encuesta telefónica.

50 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

VENTAJAS Y DESVENTAJAS DE LA ENCUESTA POR CORREO


Ventajas Desventajas
Costo relativamente bajo. Baja tasa de respuesta.
Se puede realizar con la participación de poco personal y con El encuestado no dispone de ayudas y/o aclaraciones de un
pocos recursos. encuestador.
Permite llegar a participantes muy dispersos y/o que no tienen
Se requiere el listado de direcciones bien depurado.
teléfono.
Los encuestados tienen tiempo de revisar y corregir sus
respuestas.
Favorece el anonimato.
Tabla 1.8. Ventajas y desventajas de la encuesta por correo.

VENTAJAS Y DESVENTAJAS DE LA ENCUESTA AUTO-ADMINISTRADA


Ventajas Desventajas
El costo de distribución y reproducción de los cuestionarios puede
Los cuestionarios deben ser cortos.
ser considerable.
Se pueden realizar preguntas complejas es difícil y su respuesta
Los cuestionarios pueden recogerse con rapidez.
tomará demasiado tiempo.
Buena cobertura geográfica. No pueden realizarse muchas preguntas abiertas.
Se pueden encuestar muchas personas en poco tiempo o La tasa de respuesta puede ser baja si no se tiene buena motivación
simultáneamente. para participar.
El encuestador no puede sesgar las respuestas. No se sabe quien realmente contesta la encuesta (suplantación).
Las personas con problemas de visión y/o lectura tienen problemas
El encuestador no puede realizar ningún comentario.
para realizar la encuesta.
El entrevistador no puede percibir las indicaciones no verbales del
El encuestador actúa sin prejuicios.
entrevistado (asombro etc.).
Dada la no presencia del entrevistador el encuestado puede
afrontar preguntas comprometedoras.
Tabla 1.9. Ventajas y desventajas de la encuesta auto-administrada.

VENTAJAS Y DESVENTAJAS DE LA ENCUESTA POR CORREO ELECTRÓNICO


Ventajas Desventajas
Se pueden programar las preguntas de tal manera que el
Los grupos con más educación, jóvenes y de mejor posición
encuestado no pueda avanzar hasta tanto no conteste la pregunta
económica quedaran sobre-representados.
(orden rígido).
De acuerdo con el punto anterior aquí se garantiza que todas las Se requiere de programadores y software para el diseño del
preguntas serán contestadas. cuestionario.
El sistema puede alertar al encuestado cuando éste comete algún Los encuestados deben estar familiarizados con los computadores y
error. conocer el software utilizado.
La información queda prácticamente disponible para análisis (más El encuestado puede sentirse desconfiado frente a la seguridad de
fácil conformar las bases de datos). los datos enviados por internet.
No hay retrasos debidos a la distribución y recolección de
El anonimato no puede garantizarse.
formularios.
El encuestado puede ser suplantado.
Tabla 1.10. Ventajas y desventajas de la encuesta por correo electrónico.

Realizar una buena encuesta requiere estudio, experiencia y mucha dedicación. Sus resultados son el producto de varios pasos
que involucran aspectos teórico- prácticos. Una investigación puede requerir la utilización de diferentes tipos de encuesta
buscando mejorar la cobertura y la calidad de la información obtenida al menor costo posible.

Una de las situaciones que le restan validez a un estudio estadístico es la falta de cobertura alimentada por la no respuesta o
colaboración por parte de los encuestados. La figura 1.43 presenta esquemáticamente algunas estrategias para mejorar los
índices de respuesta en las encuestas.

51 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

Reducir las visitas a casas de


personas que no se Llamar antes de la visita
encuentran.
Estrategias para mejorar
los índices de respuesta Realizar una notificación previa.
en las encuestas
Motivar al entrevistado.
Dar incentivos.
Reducir las negativas de los
Realizar seguimiento a los no respondientes.
seleccionados.
Ser cuidadoso en el diseño y aplicación del cuestionario.
Otros facilitadores: Envío de cartas a personas claves, envío
de recordatorios, dejar el cuestionario y volver a recogerlo,
concertar otras citas, permitir que sea devuelto por internet.

Figura 1.43. Estrategias para mejorar la participación del encuestado.

En un estudio por muestreo buscando el cumplimiento de la cobertura deben mezclase diferentes técnicas para
obtener la información requerida. Una de las aplicaciones de la metodología del muestreo son los sondeos de
opinión electoral en los cuales (Behar et al., 2004) hay varios tipos de procesos involucrados, y en muchos de
ellos la sociología, la psicología o la politología juegan un papel más protagonista que la propia estadística. En
cualquier caso, el uso apropiado de esta, la seriedad con que se realice el trabajo de campo, la supervisión del
mismo y el conocimiento sociológico del grupo humano de interés (población a encuestar), son factores claves en
el éxito de las predicciones obtenidas mediante los sondeos.

1.15.1 Etapas básicas en el diseño de un cuestionario

Realizar un análisis detallado del problema objeto de investigación,


Identificar temas y subtemas con base en el análisis anterior. Formulación de preguntas por tema,
Construcción de la primera versión del cuestionario (discusión en el grupo de trabajo),
Realización de la prueba piloto,
Realizar ajustes y nuevas pruebas de ser necesario.

1.16 ETAPAS DE UNA ENCUESTA POR MUESTREO.

En lo que sigue se presentan las etapas básicas en la realización de una encuesta por muestreo. Cabe aclarar que aunque
dichas etapas están referidas en un orden lineal, no necesariamente en la práctica ellas se ejecutan en este orden, ya que
muchas de ellas pueden realizarse en forma simultánea de acuerdo con las necesidades que vayan surgiendo en la realización
misma de la investigación y la lógica del proceso.

Etapa n° 1: Planteamiento del problema

Se dice comúnmente que el planteamiento de un problema es la fase más importante en cualquier investigación y un
proverbio chino establece igualmente que precisamente esta fase es la mitad de su solución. Un problema se podrá definir
siempre como una pregunta, surgida de observaciones más o menos estructuradas acerca de una realidad existente. Se puede
decir que el problema no es más que formular claramente la idea misma de investigación.
Etapa N° 2: Especificación de los objetivos

En esta etapa se determinan los objetivos de una manera clara buscando que den respuesta a las preguntas: ¿Qué?, ¿Cómo?,
¿Cuándo? y ¿Dónde? investigar. Es una buena metodología a la hora de fijar objetivos para una investigación hacer las
siguientes preguntas:

52 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
¿Qué información se necesita para cumplir con los objetivos del estudio?
¿Qué motiva la encuesta que se realizará?
¿Qué información complementaria se tiene o se necesita? (Resultados de estudios y encuestas anteriores, ¿se realizará una
encuesta piloto?).
¿De qué tipo de información se dispondrá?
¿Qué limitación(s) presupuestal(s) y temporal(s) se tienen?
¿Qué restricciones de tipo administrativo y legal se tienen?
¿Qué flexibilidad temporal para el cumplimiento de plazos se tiene?
Etapa N° 3: Elaboración de cuadros de resultados

El investigador reflexiona y determina el tipo de cuadros de resultados que se esperan.

Etapa N° 4: Definición de datos a colectar

Aquí se determinan las características de interés que se van a medir y para eso, el investigador debe preguntarse: ¿qué tipo de
información dará respuesta a los objetivos planteados?, así mismo, establecer los indicadores asociados a estas características.
Etapa N° 5: Definición de la población objetivo y de la población investigada

Aquí, se debe aclarar la cobertura de la encuesta, eliminando de la población objetivo la parte de la población ideal que no es
accesible para obtener así la población investigada realmente. Al definir la población objeto de estudio y la población
investigada, se deben definir claramente los siguientes tipos de unidades:
Unidad de Muestreo (UM): Es cada uno de los elementos que componen la población muestreada. Estas unidades deben
cubrir toda la población objeto de estudio y no traslaparse (Cada elemento de la población objeto de estudio debe pertenecer a
una y solo una unidad de muestreo). Las unidades de muestreo conforman el marco muestral.
Unidad de Estudio (UE): Es cada uno de los elementos de la población objeto de estudio sobre los cuales se realizaran las
mediciones u observaciones.

Etapa N° 6: Definición de los métodos de medida

La definición de los métodos de medida depende de las necesidades, dificultades, ventajas y desventajas de ellos con respecto
al estudio que se realiza. Los principales métodos de medida o de recolección de información son: entrevista personal,
entrevista telefónica, cuestionario auto administrado en forma directa o por correo y la observación directa (medición u
observación) como se vio en el apartado anterior. Dependiendo de las necesidades del estudio será pertinente obtener la
información mediante la mezcla de varios de métodos anteriormente relacionados.
Etapa N° 7: Marcos de muestreo

Aquí se define y confronta el medio físico a través del cual se llegará a las unidades objeto de estudio.
Ejemplos de marcos de muestreo son: censos, planos o mapas cartográficos, listas, archivos, registros, etc. Se debe buscar
siempre la más alta eficiencia del marco y para ello se hace necesario analizarlo y actualizarlo profundamente.

Etapa N° 8: Precisión y confiabilidad

Antes de calcular el tamaño de la muestra que se requiere para adelantar la investigación, se hace necesario determinar dos
elementos fundamentales en la definición de dicho tamaño de muestra: la precisión y la confiabilidad. La precisión, se

53 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
define como el máximo alejamiento que se está dispuesto a tolerar entre el parámetro y su estimación. Debe tenerse presente
que la muestra que se use, puede subestimar o sobreestimar el parámetro que se está midiendo con el estimador. Lo anterior
se resume en la llamada ecuación de precisión:

: Error absoluto de muestreo


Parámetro investigado
: Estimador del parámetro

La confiabilidad (1- ).100%, con 0 < < 1 , está definida como la seguridad de que se cumpla la precisión estipulada y
está medida en términos de probabilidad. Al considerar conjuntamente la precisión y la confiabilidad se tiene la siguiente
expresión llamada ecuación de precisión y confiabilidad.

Estandarizando (Dividiendo la ecuación de precisión por la raíz cuadrada de la varianza del estimador V ( ˆ) ), bajo el
supuesto de normalidad, se obtiene la ecuación fundamental para el tamaño de la muestra definida de la siguiente manera:

: Error absoluto de muestreo


Nivel de confianza
: Varianza del estimador

Nota:

Z , es la abscisa que se obtiene para una confiabilidad especificada (1- ) 100%, usando la distribución normal.
2

Etapa N° 9: Determinación del tamaño de la muestra

INSUMOS PARA EL TAMAÑO DE


MUESTRA

Método de muestreo Tamaño de la población


investigada

Tipo de parámetro que se


desea investigar Variabilidad de la
característica analizada
Función de costos
establecida Máximo error tolerable

Nivel de confianza
Información adicional

Figura 1.44. Insumos para la definición del tamaño de una muestra.

54 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Antes de determinar finalmente el tamaño de muestra que requiere la investigación, es necesario analizar ¿cuál de los
métodos de muestreo es el más conveniente para la obtención de la información?, esto depende de la información que se
tenga y que se requiera así como de la factibilidad del método, el nivel de confianza utilizado, los costos relativos de cada
método, el tiempo que se gastará la recolección de información y la existencia o no de marcos muestrales.
La figura 1.44, relaciona los diferentes insumos para la obtención de una muestra un poco más en detalle. Es bueno aclarar
que de acuerdo con los insumos se debe seleccionar el método de muestreo más adecuado a la situación investigada.

Etapa N° 10: Encuesta piloto o estudio piloto.

El estudio piloto se define como un estudio previo mediante el cual se prueban todos los pasos de la investigación o encuesta;
las condiciones de su realización no deben ser muy diferentes de aquellas en las que se realizará la investigación o encuesta
finales. La encuesta o estudio piloto sirve básicamente para lo siguiente:

Comprobar la idoneidad de la encuesta respecto de los objetivos del estudio.


Permitir que los encuestadores adquieran habilidad en las funciones que realizaran.
Se pueden estimar los costos del trabajo de campo.
Permite el cálculo de estimadores adelantados para la muestra.
Es una base para el cálculo del porcentaje de la no respuesta.
Permite decidir sobre cambios.
Permite el conocimiento de errores en la confección del cuestionario (problemas de redacción, preguntas ambiguas,
ubicación de las preguntas etc.).
Permite cerrar preguntas abiertas.
Permite saber si los encuestadores comprenden las instrucciones del manual de campo y si tienen una correcta
comprensión de los conceptos involucrados en las preguntas.
Permite estimar el tiempo de duración de una encuesta.
Permite conocer la idoneidad del marco muestral.

Etapa N° 11: Organización del trabajo de campo

Una vez realizada la encuesta piloto y con base en sus resultados, se entrena todo el personal que realizará el trabajo de
campo aclarándose aspectos fundamentales como los objetivos de la encuesta, los métodos de medición que se emplearán,
etc. Igualmente se planea la no respuesta y se prueban todos los manuales de la encuesta al igual que la administración en sí
de la misma (Seijas, 1993)

Etapa N° 12: Edición y procesamiento de la información

Aspectos que se deben tener en cuenta en esta etapa son:


Editar los cuestionarios para desechar o corregir datos equivocados.
Tomar decisiones sobre la no respuesta.
Procesamiento de datos mediante software.
Cálculo de las estimaciones y sus errores para los parámetros involucrados en la investigación.

Etapa N° 13: Evaluación de resultados

Aquí se realizan entre otras las siguientes actividades:


Se contrasta el diseño teórico que se aplicó con los resultados.
Se evalúan los errores de no respuesta así como su incidencia en el estudio.

55 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
Se estudian los costos adicionales en que incurrió el estudio.
Se plantean cambios y/ o ajustes para próximos estudios similares.

Etapa N° 14: Presentación y difusión de resultados.

Se analiza y decide lo concerniente a la elaboración de la ficha técnica del estudio realizado, así como la mejor manera de
difundir los resultados de toda la investigación.
Marco de Referencia: Disposiciones Legales Teoría Metodología

Determinación Realización 
Determinación
del tamaño de de la 
del tamaño de
muestra encuesta 
muestra
 
piloto 

Elaboración de
Elaboración
cuadros de
de Organización 
Definición de cuadros de
la precisión y resultados  del trabajo 
  la resultados
de campo 
confiabilidad
 

Definición de
Especificación Definición
Especificación datos de
a
de Objetivos datos a
de Objetivos colectar
colectar

Planteamiento
Planteamiento
del Problema
Marcos del Problema
Marcos
de Edición y
de
muestreo Procesamient
muestreo o de la
información
Definición de
Definición de Definición de
la población  
Definición de
los métodos laobjetivo
poblacióny de
los de
métodos
medida objetivo y de
la población
de medida la población
investigada
investigada

Evaluación 
de los 
resultados 

Presentación y
Presentación y
difusión de
difusión de
resultados
resultados

Figura 1.45. Las etapas de una encuesta por muestreo como una envolvente del planteamiento del problema.

56 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

Se debe tener siempre presente que las diferentes etapas de una encuesta por muestreo deben girar en función del problema
objeto de investigación y que no necesariamente su desarrollo es lineal, además de que ellas se retroalimentan entre si y
están limitadas por un marco de referencia legal y teórico – práctico. La figura 1.45, resume y muestra las diferentes etapas
de una encuesta por muestreo. En ella, se muestra claramente que cada etapa gira alrededor del planteamiento del problema
por ser éste quien da vida precisamente a cada una de ellas.

Es conveniente en toda investigación por muestreo o no, realizar un estricto control sobre todas las etapas involucradas en la
investigación ya que ello evitará la presencia en las conclusiones de los llamados errores no muestrales sobre los cuales se
habló anteriormente.

Ejemplo 1.8
La ciudad ABC es una ciudad de más de 2000000 de habitantes y en ella se desea realizar una investigación mediante
encuestas a septiembre de 2010 con el propósito de conocer en las personas que a la fecha lleven viviendo en la ciudad
mínimo 1 año, las siguientes características entre otras:

Si la persona residente en la ciudad sabe leer o escribir,


El sexo de la persona,
Edad de la persona.

Dentro de los propósitos de la investigación están:

Conocer el porcentaje de analfabetismo en la ciudad para mayores de 12 años.


Realizar la distribución aproximada por edad y sexo de las personas analfabetas.

De acuerdo con el problema anterior defina claramente:

a) La población de interés R// Residentes de la ciudad ABC, mayores de 12 años que lleven viviendo a septiembre de 2010
mínimo 1 año.
b) El Marco de muestreo R// Mapa actualizado de la ciudad ABC donde se puedan identificar las manzanas (segmentos)
c) Unidad de muestreo R// Unidad primaria de muestreo: Manzanas; Unidad secundaria de muestreo: viviendas
d) Los parámetros involucrados R// Proporción de analfabetas.
e) Instrumento de medición R// Encuesta
f) Si se establece un error relativo del 5% con un nivel de confianza 96% escriba la ecuación de precisión y confiabilidad
que involucra dichos valores R//

P ( Pˆ P < 0 . 05 P ) 0 . 96

g) Describa brevemente el método de muestreo que utilizaría y la forma como realizaría las encuestas (trabajo de campo) R//
Muestreo Bietapico con siguiente esquema:

Selección de manzanas con Levantamiento del plano de la Selección de viviendas y


base en el plano manzana (ubicación de casas) realización de la encuesta

1.16.1 La imputación de los datos

Cuando en la investigación hay variables en las cuales se ha detectado no-respuesta o respuesta inconsistente y analizando
sus causas, puede procederse de la siguiente forma: 1) manifestarlas como tal en al análisis, estudiando su impacto sobre las

57 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
estimaciones del estudio y los errores de muestreo, 2) realizar imputaciones y 3) realizar estimaciones de los valores en
función de diferentes y muy variados criterios (Santos et al., 2003).

1.16.2 La ficha técnica

Todo estudio estadístico exige conjuntamente con la divulgación de sus resultados la presentación de la ficha técnica
correspondiente, que no es más que la información básica del diseño utilizado en la investigación. Los componentes de una
ficha técnica correspondiente a la realización de una encuesta por muestreo son los siguientes:

Ámbito (Definición de la población en términos socio-geográficos).


Universo (Definición de las unidades que componen la población objeto de estudio).
Tamaño de la muestra.
Puntos de muestreo.
Método de muestreo utilizado.
Error muestral.
Fecha de realización de la encuesta.

EJERCICIOS

Ejercicio 1.1
Si un sociólogo desea realizar una encuesta a personas mayores de 18 años residentes en la ciudad de Cali. Clasifique el tipo
de muestreo adecuado de acuerdo a la escala utilizada para analizar cada una de las siguientes variables involucradas en el
estudio: (Ayuda Muestreo para variables o Muestreo para atributos):

a) Edad,
b) Afiliación política,
c) Sexo,
d) Número de hijos.

Ejercicio 1.2
Un ingeniero Sanitario realiza una investigación en un río para estimar los niveles de ciertos químicos presentes en muestras
de agua, al analizar dos muestras tomadas en el mismo sitio a la misma hora obtiene resultados muy diferentes. ¿En qué
problema se está incurriendo?

Ejercicio 1.3
Si se toma una muestra de los integrantes de los equipos de futbol del campeonato colombiano para conocer la edad
promedio de los jugadores participantes y su estado civil ¿Qué tipo de escala será la más apropiada para el manejo de cada
una de las variables?

Ejercicio 1.4
Si la información utilizada en un proyecto de investigación estadística tiene las siguientes características, clasifique el tipo de
investigación como primaria (P) o secundaria (S) según sea el caso.

La información fue obtenida en contacto directo con la El investigador basó todo su análisis en una base de
unidad analizada. datos que le fue entregada.
No hay posibilidad de controlar los posibles errores Las variables no pudieron ser medidas con nivel
cometidos durante el trabajo de campo. refinado de detalles.
El investigador planteó sus hipótesis basado en la El investigador diseño sus instrumentos de recolección
información conocida previamente. (encuesta).

58 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 

Ejercicio 1.5
Un maestro toma una muestra de sus estudiantes y realiza una encuesta sobre sus hábitos y comportamientos escolares
posteriormente cita a los padres respectivos de los mismos niños y realiza otra encuesta sobre hábitos y comportamiento
casero de los niños encuestados. Determine el tipo de información que uso el maestro en casa caso.

Ejercicio 1.6
Se ha tomado una muestra de estudiantes en educación primaria residentes en la comuna 10 de la ciudad de Cali obteniendo
información para las siguientes variables entre otras. Determine en cada una de ellas el parámetro involucrado sobre el cual
se obtendrían las estimaciones con base en la información muestral.

Variable analizada Parámetro


Número de hermanos
Parentesco del niño con su acudiente
Edad del niño
Estrato

Ejercicio 1.7
Para cada una de las siguientes investigaciones determine la unidad objeto de estudio, la unidad de muestreo y la o las
características analizadas:

a) Un biólogo desea conocer la variedad, el diámetro y la altura de los árboles presentes en el campus de Meléndez en la
Universidad del Valle.
b) Un sociólogo desea conocer los hábitos en materia de consumo de alcohol y drogas en los estudiantes de una universidad
grande.
c) Un ingeniero ambientalista toma muestras de 20 cm3 de agua y mide en cada muestra la presencia o ausencia de ciertos
microorganismos y su cantidad.
d) Planeación municipal en la ciudad de Cali desea conocer el nivel de aceptación sobre los cobros de las mega obras y para
ello ha tomado muestras aleatorias de viviendas por estrato socioeconómico enviando a ellas una encuesta dirigida al
propietario de la vivienda.
e) Se desea conoce la cantidad de jugo por naranja para una muestra aleatoria de 10 bultos de un gran cargamento. El
investigador seleccionó aleatoriamente al interior de cada bulto a su vez una muestra de naranjas, las cuales finalmente
analizo.

Unidad de análisis Unidad de muestreo Características analizadas


a
b
c
d
e

Ejercicio 1.8
Para cada una de las siguientes encuestas exprese si su propósito es explicativo o descriptivo.

a) Conocer de parte de la Oficina Bienestar universitario de la Universidad del Valle el desempeño de actividades laborales
por parte de los estudiantes.
b) Se desea conocer la influencia sobre el rendimiento en la nota final del número de horas por fuera de la clase dedicadas al
estudio de Cálculo para los estudiantes de primer año universitario.

59 
 
CAPÍTULO 1. MUESTREO ESTADÍSTICA E INVESTIGACIÓN
 
 
c) Se desea conocer por parte de la Secretaría de Salud de la ciudad de Cali los resultados de la campaña sobre el manejo y
el cuidado contra la rabia canina.
d) Se desea conocer los resultados del manejo sobre residuos sólidos por parte de los habitantes en Santiago de Cali, después
de realizadas varias campañas publicitarias.
e) Se realiza una encuesta para conocer el nivel de aceptación por parte de los estudiantes del nuevo servicio de cafetería de
la Universidad del Valle.

Ejercicio 1.9
Un importador de telas tiene en bodega 5000 rollos de tela. Se requiere estimar la cantidad de tela por rollo y para ello
procede de la siguiente manera:
Toma un grupo de rollos que a su juicio tienen el mismo grosor. Posteriormente y para evitar medir la cantidad de tela en
cada rollo procede a tomar un metro de dicha tela en uno de los rollo pesándolo posteriormente, de tal manera que al pesar el
rollo completo y hacer un cálculo matemático sencillo determina la cantidad en metros del rollo. Una vez tiene las cantidades
de tela en los rollos seleccionados, descarta las cantidades más pequeñas (rollos con menos) y con el resto calcula la cantidad
de tela (m) por rollo. ¿Cree usted que la cantidad promedio en metros por rollo de tela es confiable?, ¿Qué tipo de problemas
ha cometido en importador de telas con el procedimiento por el realizado?

Ejercicio 1.10
Suponga que se desea realizar un estudio socioeconómico mediante encuestas para los caficultores del Norte del Valle del
Cauca. Defina claramente: Universo de Estudio, Población Objetivo, Población muestreda y Población Encuestada.

Ejercicio 1.11
Se ha proyectado realizar una encuesta para los conductores de tracto-mulas residentes en Colombia para conocer su
situación laboral, prestación de servicios médicos, relación familiar, así como su opinión sobre las vías colombinas por las
cuales transitan. Determine el procedimiento más adecuado para elegir la muestra de conductores. ¿Será una muestra
seleccionada estrictamente aleatoria sí o no y porqué?

Ejercicio 1.12
A continuación se presentan someramente algunas situaciones susceptibles de investigación. Determine si ella está basada en
una muestra y en caso afirmativo si esta es probabilística o no:

a) Para estudiar las prácticas sexuales de los estudiantes de la Universidad del Valle. Se entrevista a todos aquellos
estudiantes que se presenten voluntariamente a contestar un cuestionario en el auditorio Nº 5.

b) Un sociólogo convive con una familia típica del Norte del Valle, gana mucha confianza y logra que sus miembros
expresen con sinceridad todas las preguntas por él realizadas. Desea obtener conclusiones sobre las familias del norte del
Valle.

c) El Dpto. de Transito Municipal despliega un grupo de guardas a 10 semáforos de la ciudad de Cali para estudiar las
infracciones cometidas ante el semáforo en rojo tanto por peatones como por conductores. Los guardas permanecen
vestidos de civil de las 8 AM a las 8 PM durante lunes miércoles y viernes.

d) Para conocer la impresión antes de un partido de fútbol a realizarse en un estadio, los comentaristas radiales ubicados a la
entrada del estadio encuestan a uno de cada 100 asistentes una vez ingresan.

e) Para conocer las características del tipo de concreto utilizado en la construcción de grandes obras en la ciudad ABC, un
grupo de ingenieros civiles mediante la curaduría urbana clasifica las construcciones en 4 rangos y de cada rango
selecciona una muestra al azar de construcciones basados en el listado de permisos de construcción de la curaduría.

60 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

 
 
MUESTREO ALEATORIO SIMPLE (MAS)

Introducción.
Definición del muestreo aleatorio simple (MAS).
Hipótesis sobre las que se fundamenta el MAS.
Formas de realizar un MAS.
Muestreo aleatorio simple sin reemplazo.
Procedimiento para seleccionar una muestra aleatoria simple sin reemplazo.
Muestreo aleatorio simple sin reemplazo para variables.
La media poblacional y su estimador.
El total poblacional y su estimador.
Propiedades relacionadas con el estimador de la media y el total poblacionales.
Intervalos de confianza.
El cociente de dos variables (razón).
Propiedades del cociente de dos variables.
Estimación de la media y el total cuando la población está dividida en clases.
Propiedades de los estimadores de la media y el total en el muestreo por dominios.
Muestreo aleatorio simple sin reemplazo para atributos.
La proporción poblacional y su estimador.
Propiedades del estimador de la proporción poblacional.
El total poblacional y su estimador para atributos.
Propiedades del estimador del total para atributos.
Estimación de la proporción cuando la población esta divida en más de dos clases.
Propiedades del estimador de la proporción cuando la población esta divida en más de dos clases
(situación 1).
Propiedades del estimador de la proporción cuando la población esta divida en más de dos clases
(situación 2).
Propiedades del estimador del total para atributos cuando la población está divida en más de dos
clase (situación 2).
Proporciones y totales en subpoblaciones.
Estimación de la proporción y el total cuando la población está divida en dominios.
Propiedades del estimador de la proporción y del total cuando la población esta divida en
subpoblaciones (situación 1).

61 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Propiedades del estimador de la proporción y del total cuando la población esta divida en
subpoblaciones (situación 2).
Muestreo aleatorio simple con reemplazo.
Estimador para la media y el total en el MAS con reemplazo.
Propiedades del estimador de la media y el total en el MAS con reemplazo.
La proporción y el total en el MAS con reemplazo.
Propiedades del estimador de la proporción y el total en el MAS con reemplazo.
El método de bootstrap.

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

62 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
 
2.1 INTRODUCCIÓN

El muestreo aleatorio simple (MAS) es el método base para todos los métodos de muestreo; vale decir que por muy complejo
que se diseñe el método de muestreo para el abordaje de una situación particular, en últimas dicho método recurrirá de alguna
forma al MAS. Así por ejemplo:

La ejecución de una encuesta de población activa en una gran ciudad.


La realización de una encuesta económica dirigida a nivel nacional.
Un estudio para medir la calidad del servicio de trasporte en Santiago de Cali.
Estudios para determinar el número de turistas de la ciudad de Cartagena y el gasto turístico realizado por ellos.
Estudios de sintonía para los canales TV y las radiodifusoras.
Auditorias en diferentes campos.
Investigaciones de mercado y encuestas de opinión.

Están todos ellos basados en una muestra irrestricta aleatoria. En lo que sigue se define el método de muestreo aleatorio
simple, se estudian los estimadores para los principales parámetros poblacionales y sus respectivas propiedades para un
muestreo de este tipo con y sin reemplazo.

2.2 DEFINICIÓN DEL MUESTREO ALEATORIO SIMPLE (MAS)

Suponga que se tiene un conjunto grande de unidades cuyo tamaño es representado por N (POBLACIÓN) y de él se quiere
extraer un subgrupo de un tamaño definido n (MUESTRA). Se quiere utilizar la siguiente regla para extraer el subgrupo
deseado: Garantizar que todos los posibles subgrupos de tamaño n de dicha población, tengan la misma oportunidad
(Probabilidad) de ser seleccionados. La figura 2.1, ilustra el muestreo aleatorio simple.

SITUACIÓN PROBLEMA Se tiene un conjunto grande de


unidades que desean estudiarse.

OBJETIVO Seleccionar un grupo


de dicho conjunto.

El grupo seleccionado debe tener la misma oportunidad


¿QUÉ REGLA SE DEBE
(probabilidad) que cualquier otro grupo del mismo
SEGUIR? Todo método de selección de un grupo
tamaño obtenido del conjunto que desea analizarse.
de unidades de un conjunto de estudio
1) Cada unidad del conjunto que desea analizarse tiene la misma que siga la regla establecida garantizando
¿QUÉ PROPIEADES DEBE posibilidad de integrar el grupo seleccionado las propiedades establecidas se llama
TENER ESTA REGLA? 2) La selección de una unidad cualquiera del conjunto no MUESTREO ALEATORIO SIMPLE.
influye en la selección de otra.

Figura 2.1. Caracterización del muestreo aleatorio simple.

El Procedimiento definido anteriormente para obtener la muestra se llama MUESTREO ALEATRIO SIMPLE (MAS) y tiene
dos propiedades fundamentales:
Representatividad
Cada unidad de la población tiene la misma posibilidad de ser elegida que las demás para integrar la muestra.
Independencia:
La selección de una unidad cualquiera de la población no influye a la selección de otra unidad.

63 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Las propiedades anteriores convierten a éste método de muestreo en el método estándar contra el cual se comparan los otros
métodos probabilísticos de muestreo.
Las propiedades anteriores se pueden garantizar mediante el siguiente procedimiento:
1) Enumere los elementos de la población de 1 hasta N .
2) Seleccione aleatoriamente n números entre 1 y N usando uno cualquiera de los siguientes métodos:

Escribiendo los N números en tarjetas iguales (uno por tarjeta), introduciendo dichas tarjetas en una caja o bolsa y
de ella seleccionar una por una n tarjetas.
Generando n números aleatorios mediante medios mecánicos o electrónicos.
Usando una tabla de números aleatorios.

3) La muestra estará integrada por las unidades correspondientes a los números seleccionados u obtenidos.

2.3 HIPÓTESIS SOBRE LAS QUE SE FUNDAMENTA EL MAS

Rápidamente algunas hipótesis sencillas sobre las cuales se fundamenta él MÁS.

La población que se va a estudiar se puede listar (aunque sea muy grande es factible enumerarla).
La población no cambia sustancialmente respecto de la característica que se va a analizar (poco variable).
Cada unidad poblacional tiene el atributo o característica que se piensa analizar y no está encasillada en clases que de
alguna manera alteren el valor del atributo o característica que se desea analizar.
Cada unidad estadística de la población es unitaria.

Nota

Algunos inconvenientes de ésta técnica de muestreo son:

Puede requerir mucho trabajo en la enumeración y ubicación de las unidades muestrales en el terreno.
Los errores de muestreo pueden ser muy elevados en caso de que la población sea muy heterogénea.
Puede darse una posible falta de representatividad de la muestra ya que parte de la población puede quedar sin
muestrear, cuando la muestra no se reparte uniformemente por toda la población.
Puede ser difícil su aplicación si no se tiene un marco de muestreo adecuado.

La importancia del MAS radica en que esta técnica es la base para todas las técnicas de
muestreo probabilístico.
 
2.4 FORMAS DE REALIZAR UN MAS.

Si al realizar un MAS, se selecciona una por una, las unidades que conformaran la muestra sin reponer éstas a la población
después de cada selección (una misma unidad no puede salir varias veces), se dice que la muestra es una muestra aleatoria
simple sin reemplazo o irrestrictamente aleatoria. Si a diferencia de la forma anterior, cada unidad seleccionada se repone a
la población (una misma unidad puede salir varias veces) manteniendo constante la estructura de la población, se dice que la
muestra así seleccionada es una muestra aleatoria simple con reposición.

MUESTREO ALEATORIO SIMPLE SIN  MUESTREO ALEATORIO 
MUESTREO
REEMPLAZO (IRRESTRICTAMENTE SIMPLE CON REEMPLAZO 
ALEATORIO SIMPLE
ALEATORIO) 

64 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
 
2.5 MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO

Como se dijo antes, cada elemento poblacional puede salir como máximo una vez con probabilidad igual, lo cual se asegura
por el hecho de que todas las muestras del mismo tamaño n tendrán la misma probabilidad de ser escogidas.

Sea:

N : Tamaño de la población objeto de estudio,


n : Tamaño de la muestra: (Número de unidades obtenidas de N )

De acuerdo con lo anterior, el número de muestras diferentes de tamaño n que pueden obtenerse de una población de
tamaño N usando el MAS sin reposición será:

N N!
n n!.(N n )!

Así mismo la probabilidad de seleccionar una muestra S i cualquiera será:

1 n!.( N n)!
Pr ( S i )
N N!
n

Lo cual puede verse de la siguiente manera: suponga que se tienen exactamente n bolas pintadas de rojo, las cuales forman
parte de un grupo mayor de N bolas de diferentes colores y se van, a realizar n extracciones: 1,2,3,.... n de una sola bola
cada vez.

Suponiendo que en cada extracción, sale una bola roja y está no se devuelve a la urna que contiene las N bolas (Muestreo
sin restitución o sin reemplazamiento), se tienen, las siguientes probabilidades:

n
Probabilidad de seleccionar la bola roja N° 1 =
N
n 1
Probabilidad de seleccionar la bola roja N° 2 =
N 1
n 2
Probabilidad de seleccionar la bola roja N° 3 =
N 2
.
.

n (n 1) 1
Probabilidad de seleccionar la bola roja n ésima =
N (n 1) N n 1

Luego la probabilidad de seleccionar las n bolas rojas será:

65 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

n n 1 n 2 n (n 1) n.(n 1).(n 2)...............................1


P . . ...........
N N 1 N 2 N (n 1) N .( N 1).( N 2)............ N (n 1)

Al multiplicar y dividir la expresión anterior por (N n)! se tendrá:

n.(n 1).(n 2)...............................1 ( N n)!


P
N .( N 1).( N 2)............ N (n 1) ( N n)!
n!.( N n)! 1 1
N! N! N
n!( N n)! n

Ejemplo 2.1
Suponiendo que se tiene una población U U 1 , U 2 , U 3 , U 4 de tamaño N 4 unidades estadísticas y se quiere extraer
todas las posibles muestras de tamaño n 3.

a) Escribir todas las posibles muestras de tamaño n 3 .


b) Calcular la probabilidad de que una unidad U i pertenezca a la muestra.
c) Calcular la probabilidad de seleccionar una muestra cualquiera de 3 elementos.

Solución//

a) N 4; n 3

U U 1 ,U 2 ,U 3 ,U 4

S1 U 1 ,U 2 ,U 3 S2 U 1 ,U 2 ,U 4 S3 U 1 .U 3 ,U 4 S4 U 2 ,U 3 ,U 4

Obtenemos 4 muestras diferentes, esto es:

N N! 4 4!
4
n n!.(N n )! 3 3!(4 3)!

b) La probabilidad de cada una de las muestras será:

1 1
Pr (S i ) i 1, 2, 3, 4
4 4
3

66 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

c) La probabilidad de que la unidad U i pertenezca a la muestra seleccionada se obtiene fácilmente suponiendo que se
retira la unidad U i de la población y que se forman muestras de tamaño (n 1) 2 con las ( N 1) 3 unidades
restantes y luego agregar la unidad U i para formar la muestra de tamaño n 3.

Entonces:

Número de Muestras que N 1 3


3
Contienen a U 1 n 1 2

Lo cual se puede comprobar con el punto a) en donde se ve que solo las muestras S1 , S 2 y S 3 contienen a U i .

Luego:

N 1 3
n 1 2 3 n Número de elementos de la muestra
Pr (U i S)
N 4 4 N Número de elementos de la población
n 3

 
2.6 PROCEDIMIENTO PARA SELECCIONAR UNA MUESTRA ALEATORIA SIMPLE SIN REEMPLAZO.

En este procedimiento se consideran los siguientes pasos:

Seleccionar el marco de muestreo adecuado,


A cada elemento de la población se le asigna un número de 1 a N ( N = tamaño de la población),
Generar n (tamaño de la muestra) números aleatorios diferentes que estén comprendidos en el intervalo 1, N
utilizando cualquiera de las formas ya vistas. Lógicamente se descartan el 0, los repetidos y los mayores que N ,
Los n números generados indican los elementos de la población que deben incluirse en la muestra.

Ejemplo 2.2
Seleccionar una muestra aleatoria de n 30 de una población de N 500 .
Solución//

1. Enumerar las 500 unidades desde 001 hasta 500

2. Utilizando la tabla de números aleatorios que aparece en el anexo y empezando en la primera columna y en cualquier fila
de dicha columna, moviéndose siempre de arriba hacia abajo, de esta se seleccionan los números aleatorios diferentes y
menores de 500 que vayan apareciendo hasta encontrar un total de 30. Si al llegar al final de la columna no se han
completado los 30 números deseados, se sigue en la columna contigua (# 2) de arriba hacia abajo y así sucesivamente,
hasta completar la selección. En éste caso después de tomar las tres últimas cifras de cada número aleatorio, y
empezando en el primer número que se encuentra (columna1; fila 10), la muestra sería:

67 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

236 400 223 078


237 143 495 269
248 042 485 046
178 446 356 048
407 448 164 041
269 317 163 140
045 383 372
263 070 408
 
Ejemplo 2.3
Una universidad tiene en su sede principal 30000 estudiantes los cuales se distribuyen a lo largo de la semana en
750 salones de clase. Se desea obtener una muestra de estudiantes para realizarles una encuesta sobre las
condiciones del campus universitario y en vista de que no se tiene a mano la lista de todos los estudiantes se
propone entonces el siguiente mecanismo: 1) se selecciona mediante un listado de salones una muestra de 25 de
ellos (la fracción de muestreo en esta etapa es de 1 por cada 25 salones) 2) Dentro de cada salón de clase y
utilizando la lista de estudiantes de ellos se selecciona 1 de cada 5 (fracción de muestreo constante para cada salón
o lo que es lo mismo la proporcionalidad en cada salón es la misma). Con el mecanismo de selección se puede
garantizar que la probabilidad de selección de uno cualquiera de los estudiantes de la sede principal de la
universidad es la misma. Es decir:

n 25 1 1
f f1. f 2 .
N 750 5 150

La probabilidad final de selección de cada estudiante de la universidad será de 1 en 150. En este proceso se
obtiene la muestra de estudiantes en dos etapas (unidades primarias = salones de clase; unidades secundarias =
estudiantes dentro del salón). Es claro que entre mayor sea la muestra final de estudiantes se aumentará la
probabilidad de selección de un estudiante y la muestra tendrá más representatividad. Se ha usado en este ejemplo
el concepto de fracción de muestreo al cual se recurrirá en el capitulo siguiente con más propiedad.

2.7 MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO PARA VARIABLES.

Sea Yi el valor de la variable Y en estudio para la unidad i-ésima i 1,2,3,....., N de una población de tamaño N . En
este contexto se desea estimar la media o el total poblacionales de la variable Y . Si para cada unidad poblacional se miden
las variables X e Y , es posible que se requiera estimar la razón entre ellas como se verá más adelante. Por otro lado si la
característica observada es cualitativa se estima la proporción o del total de unidades que poseen dicha característica en toda
la población en este contexto se habla de MAS para atributos.

2.7.1 La media poblacional y su estimador

A continuación se presenta el parámetro media poblacional para la variable Y analizada y su correspondiente estimador
(media muestral):

PARÁMETRO ESTIMADOR
(2.1)
N n
yi yi
Y i 1 Yˆ y i 1

N n

68 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
En el contexto anterior:

N : Tamaño de la población,
n : Tamaño de la muestra,
yi : Valor de la variable Y para la i-ésima unidad poblacional o muestral.

Ejemplo 2.4
Los siguientes enunciados son ejemplos del uso del parámetro media poblacional:

Producción promedio de cebada por predio en una región agrícola (unidad estadística = predio de vocación agraria)
Promedio de accidentes de tránsito en un departamento, durante un mes (unidad estadística = el municipio perteneciente
al departamento).
Promedio de unidades vendidas durante un año para determinado producto de una multinacional a lo largo de todos sus
puntos de venta en el territorio nacional (unidad estadística = punto de venta de la multinacional dentro del territorio
nacional).
La cantidad promedio de personas que no trabajan en una determinada comuna de Cali (unidad estadística = hogar
perteneciente a la comuna estudiada).

2.7.2 El total poblacional y su estimador.

A continuación se presenta el parámetro total poblacional para la variable Y analizada y su correspondiente estimador:

PARÁMETRO ESTIMADOR
n
N yi (2.2)
Y yi Yˆ N .Yˆ N i 1
N.y
i 1 n

En algunas circunstancias cuando se analiza la variable Y en una población estadística, se hace necesario estimar el valor de
Y para todas la unidades para dar respuesta a algún objetivo específico que se haya planteado en la investigación de dicha
población. El total poblacional para Y , está definido como la suma de todos los valores obtenidos al medir dicha variable en
todas las unidades poblacionales.

Ejemplo 2.5
Los siguientes son enunciados que involucran el uso del total poblacional:

Producción total de cebada en una región agrícola (unidad estadística = predios de vocación agraria).
Cantidad total de accidentes de tránsito en un departamento, durante un mes (unidad estadística = el municipio
perteneciente al departamento).
La cantidad total unidades vendidas durante un año para determinado producto de una multinacional a lo largo de todos
sus puntos de venta en el territorio nacional (unidad estadística = punto de venta de la multinacional dentro del territorio
nacional).
La cantidad total de personas que no trabajan en una determinada comuna de Cali (unidad estadística = hogar
perteneciente a la comuna estudiada).

69 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

2.7.3 Propiedades relacionadas con el estimador de la media y el total poblacionales

Las siguientes son las propiedades fundamentales del estimador de la media y el total poblacionales:

Propiedad 2.1: Insesgamiento del estimador de la media poblacional

La media muestral Y
ˆ y es un estimador insesgado de la media poblacional Y .

¿Cuántas muestras de tamaño n se pueden obtener de una población de tamaño N ?

Solución//
N
n

¿En Cuántas muestras de tamaño n aparece un elemento determinado Yi ?

Solución//

Se extrae el elemento Yi de la población en cuestión, el cual va a ocupar la primera casilla del grafico siguiente (marcada con
un asterisco). Se tendrá entonces n 1 casillas para ser llenadas con N 1 elementos de la población. Ver la figura 2.2.

(n – 1) casillas para ser llenadas con (N –1) elementos de la población

* 2 3 4 ................................................................................... n

yi Elemento fijo

Figura 2.2. La primera casilla de la muestra se deja fija (*), para saber en cuantas muestras aparece Yi

Así las cosas el número de formas como pueden seleccionarse (n 1) elementos de entre ( N 1) elementos poblacionales
será:

N 1
C nN
n 1

Ejemplo 2.6
Suponga que la población está conformada por 4 elementos a saber: N 1,2,3,4 y de ella se extraen todas las muestras
N 4
de tamaño n 2 sin reposición. Se obtienen 6 muestras, esto es 6 ; las cuales son:
n 2

S (1,2); (1,3); (1,4), (2,3); (2,4); (3,4)

70 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
En el conjunto de todas las muestras obtenidas se puede apreciar que el valor yi 2 aparece 3 veces, esto es:

N 1 3
3
n 1 1

Nota

Al tomar todas las muestras sin reposición de tamaño n de la población de tamaño N y calculando la media muestral en cada
una de ellas, se conforma la distribución probabilística del estimador Y
ˆ y , ya que ésta variable es una variable aleatoria.

Demostración de la propiedad 2.1/

N
Sea el total de muestras posibles, esto es: K y aplicando el concepto de valor esperado a la variable aleatoria y , se
n
tiene:
K K
1 1 K
E (Yˆ ) E( y) y i .Pr ( y i ) yi . . yi
i 1 i 1 N N i1
n n

Cada media muestral se obtiene como se sabe de n valores de la variable Y , luego reemplazando la media por su expresión
equivalente se tiene:

1 K 1 K
( y1 y2 ........ yn )i
E (Yˆ ) . yi
N i1 N i 1 n
n n

1 K
( y1 y2 ........ yn )i 1 N 1
E (Yˆ ) . y1 y2 y3 ....... yN
N i 1 n N n 1
n.
n n

1 N 1 N
E (Yˆ ) . . yj Y
N n 1 j 1
n.
n

Ejemplo 2.7
En la situación que a continuación se presenta, se considera que la población estudiada está constituida por 5 cajas de fusibles
de seguridad y en cada una se ha analizado el número de ellos que están defectuosos, obteniéndose:

71 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Caja analizada C1 C2 C3 C4 C5
Número de fusibles defectuosos en la caja 2 2 4 3 3

1 caja = 10 fusibles.

Con muestras de tamaño n 3 , cajas se verifica que la media muestral es un indicador insesgado para el parámetro
poblacional: número medio de fusibles defectuosos por caja:

Solución//

El total de muestras de tamaño n =3 obtenidas será:


5
10
3

A continuación se escribe la muestra resultante y la estimación para el número promedio de fusibles defectuosos de la
población.

Sea Y la variable: número de fusibles defectuosos por caja

Muestras y Estimaciones resultantes


Muestra ˆ Yi
Muestra ˆ Yi
C1C2C3 8/3 C1C4C5 8/3
C1C2C4 7/3 C2C3C4 9/3
C1C2C5 7/3 C2C3C5 9/3
C1C3C4 9/3 C2C4C5 8/3
C1C3C5 9/3 C3C4C5 10/3

De la tabla se sigue que:

10 5
1 14 1
E (Yˆ ) Yˆi yi Y.
10 i 1 5 5 i 1

Propiedad 2.2: Insesgamiento del estimador del total poblacional

El Estimador del total poblacional Yˆ N . y , es un estimador insesgado de Y.


Su demostración sale fácilmente de la propiedad anterior.

E (Yˆ ) E( N.y) N .E ( y ) N .Y Y

Propiedad 2.3: La varianza del estimador de la media poblacional

La varianza de la media muestral Y


ˆ y en el MAS, viene determinada por:

72 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

S2 N n S2
V (Yˆ ) V ( y ) E (y Y ) (1 f) (2.3)
n N n
Aquí:

n
f
N
Recibe el nombre de fracción de muestreo o proporción de muestreo

Y
N
( yi Y )2
S2 i 1

N 1

El de cuasivarianza poblacional para la variable Y.


Nota

Antes de proceder a demostrar la propiedad 2.3, se explican algunas herramientas que se utilizarán para la demostración

La varianza de una combinación de k variables aleatorias viene dada por:

K K
V (U ) V( a i .Yi ) V ( a i .Yi ) Cov ( a i .Yi , a j .Y j )
i 1 i 1 i j

Se define la siguiente variable auxiliar:

1 si yi Si
ai
0 si yi Si

Donde S i es la muestra i-ésima.

En este contexto se tiene:

n N 1 N N n
Pr (ai 1) Pr ( yi Si ) y Pr (ai 0) Pr ( yi Si )
N n 1 n N

73 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

n N n
Como cada elemento puede o no pertenecer a la muestra S i con probabilidad p ó 1 p
N N
respectivamente, entonces: ai B (n 1, p ) .

De esta situación se desprenden los siguientes resultados:

n N n n n N n
E (ai ) 1. 0. p , V (ai ) n. p.q 1. p.q ,
N N N N N
n n 1
E (ai .a j ) 1.Pr (ai 1, a j 1) 0.(Cantidad ) 1. ,
N N 1

n n 1 n n n n N
Cov(ai , a j ) E (ai .a j ) E (ai ).E (a j ) . . .
N N 1 N N N N ( N 1)

2
El cuadrado de una sumatoria viene dado por: yi yi2 yi . y j
i j
Demostración de la propiedad//

n
yi
1 n
1 N 1 si yi Si
V (Yˆ ) V ( y) V .V yi V ai yi , donde a i
n n2 n2 0 si yi Si

Aplicando los resultados de la nota:

N N
1 1
V ( y) V ( ai . yi ) Cov (ai . yi , a j . y j ) yi2 .V (ai ) yi . y j .Cov ( ai , a j )
n2 i 1 i j n2 i 1 i j

N
1 n N n n n N
y i2 . . yi .y j . .
n2 i 1 N N i j N N .( N 1)
1 n N n N 2 n n N
. . yi . . yi . y j
n2 N N i 1 N N .( N 1) i j

N
1 n N n 1
2
. . y i2 yi .y j
n N N N 1i j

Aplicando el tercer resultado de la nota:

74 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

N N 2 N
1 N n 2 1
2 2
. y i yi y i2
n .N 1 i 1 N 1 i 1 i 1

N N 2 N N 2
1 2 1 1 1 N n 2
(N n). y 1
i yi . y .N
i yi
n.N 2 i 1 N 1 N 1 i 1 n.N 2
N 1 i 1 i 1

Multiplicando y dividiendo por N :

N N
1 N n N .( N n)
V (Yˆ ) . . N . y i2 N 2 .Y 2 y i2 N .Y 2
n.N 2 N 1 i 1 n.N 2 .( N 1) i 1

Pero, recuerde que:

N N
( yi Y )2 y i2 N .Y 2
i 1 i 1

Luego:
N
( yi Y )2
( N n) S2
V (Yˆ ) . i 1
(1 f ).
N .n N 1 n

Ejemplo 2.8
Basándose en el ejemplo 2.7, antes expuesto al encontrar la varianza de la variable aleatoria Y se tiene:
ˆ

En forma directa (tomando todas las muestras):

10 2 2 2 2
1 2 1 2 7 3 8 1 42 7
V (Yˆ ) Yˆi E (Yˆ ) . 3. 2. 4. .
10 i 1 10 15 15 15 15 10 45 75

Aplicando la fórmula:

S2 3 1 7 2 1 7 7
V (Yˆ ) (1 f ). 1 . . . . .
n 5 3 10 5 3 10 75

Aquí:

N N
1 14 1 7
Y yi , y S y2 . ( yi Y )2
N i 1 5 N 1 i 1 10

75 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Propiedad 2.4: La varianza del estimador del total poblacional


Con base en la propiedad anterior se concluye que la varianza del estimador del total viene dada por la expresión:

(1 f)
V (Yˆ ) V ( NYˆ ) N 2V (Yˆ ) N2 S2 (2.4)
n
Nota
2
La Inferencia Estadística dice que si una población es infinita con varianza y de ella se toma una muestra de tamaño n ,
2
entonces la varianza de la media muestral Y
ˆ y , viene dada por 2
V (Yˆ ) .
y
n
2
Se demuestra así que cuando la población es finita de tamaño N con cuasivarianza para la variable igual a S , y de ella se
S2
toma una muestra de tamaño n , entonces la varianza de la media muestral y viene dada por V ( y ) (1 f) .
n

N n
El término (1 f) CPF , recibe el nombre de corrección por población finita, este valor es muy cercano a 1
N
n
cuando la fracción de muestreo f es muy pequeña. En la práctica se considera pequeña la fracción de muestreo,
N
n
cuando f < 0.05 5% , lo que supone desde luego que el tamaño de la población N , es supremamente grande
N
comparado con el tamaño de la muestra n .

n
Si  N f 0 y (1 f) 1 
N

Lo anterior permite deducir que, cuando el tamaño de la población tienda a infinito ( N poblacional muy grande comparado
S2
con n muestral) entonces V ( y ) . .
n
2 2
¿Qué relación hay entre hay entre y S ?.

N
( yi Y )2 N
2 2
i 1
N. ( yi Y ) 2 (1)
N i 1

N
( yi Y )2 N
S2 i 1
( N 1).S 2 ( yi Y ) 2 (2)
N 1 i 1

76 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Igualando las expresiones anteriores, se deduce que:

2 1
N. 2
( N 1).S 2 y 1 .S 2 ,
N

2
Lo cual permite ver que cuando la población es muy grande entonces: S2.

Propiedad 2.5: La covarianza de las medias muestrales

Si X e Y son dos variables definidas para toda unidad U i de la población U , y si Xˆ x y Yˆ y son las medias
muestrales respectivas cuando se toma una muestra aleatoria simple de tamaño n en dicha población. Entonces la
Covarianza de las medias muestrales viene dada por:

N
( xi X ).( yi Y)
N n N n
Cov ( Xˆ , Yˆ ) E (x X ).( y Y ) . i 1
.S xy (2.5)
N .n N 1 N .n

Lo que permite expresar la Covarianza de las medias muestrales en función de la covarianza poblacional de las variables X
eY:

Cov( x, y )
Cov( x , y ) (1 f ). . ( 2.6 )
n

Demostración de la propiedad//

Se define una nueva variable Z de tal manera que para cada unidad poblacional U i se tiene que: z i xi y i . En éste
contexto:

Para la población:

Z X Y
Para la muestra:

z x y
N
( zi Z )2
N n S u2 N n 1
V ( Zˆ ) V ( z )
2 i 1
E z Z . .
N n N n N 1

Reemplazando y agrupando, se tiene que:

77 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

N
N n 1 1 2
V (z) . . . ( xi X ).( yi Y )
N n ( N 1) i 1
N N N
N n 1
. . ( xi X )2 ( yi Y ) 2 2. ( xi X ).( yi Y )
N n.( N 1) i 1 i 1 i 1

N
2 ( xi X ).( yi Y )
N n S 2
x N n S y N n 1 i 1 (1)
V (z) . . 2. .
N n N n N n N 1
N n
V ( x ) V ( y ) 2. .S xy
N .n
Ahora:

2
V (z) E (z Z )2 E (x y) ( X Y) E (x X ) (y Y )
2 2
E (x X) E (y Y ) 2.E x X.y Y (2)
V ( x ) V ( y ) 2.Cov( x , y )

Igualando las expresiones (1) y (2):

N n S xy Cov ( x, y )
2.Cov ( x , y ) 2. .S xy Cov ( x , y ) 1 f . (1 f ).
N .n n n

Nota
k
( xi X ).( y i Y)
N
k , y Cov ( Xˆ , Yˆ ) Cov ( x , y ) i 1
.
n k

Ejemplo 2.9
La siguiente tabla corresponde a la información obtenida para las variables X e Y de una población de tamaño N 5.
Variable Y
y1=3 y2=9 y3=12 y4=20
x1=0 *
Variable

x2=2 * *
X

x3=3 *
x4=5 *

De acuerdo con la tabla anterior se determinan los siguientes indicadores poblacionales:

78 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

12 53
X ; Y
5 5
N N
1 1 99
Cov( x, y ) S xy xi X . yi Y xi . y i N . X .Y
N 1i 1 N 1 i 1 20

Generando todas las muestras de tamaño n 4 , se construye la siguiente tabla de medias muestrales:
Muestras resultantes y sus medias muestrales
Muestras Xˆ i Yˆi
(x1, y1) ; (x2, y2);(x2, y3); (x3, y4) 7/4 44/4
(x1, y1); (x2, y2);(x2, y3); (x4, y2) 9/4 33/4
(x1, y1); (x2, y2); (x3, y4); (x4, y2) 10/4 41/4
(x1, y1); (x2, y3);(x3, y4); (x4, y2) 10/4 44/4
(x2, y2); (x2, y3); (x3, y4); (x4, y2) 12/4 50/4

De esta tabla se obtiene:

k
1 1 2055 12 53 99
Cov( Xˆ , Yˆ ) . Xˆ i .Yˆi k .E ( Xˆ ).E (Yˆ ) 5. .
k i 1 5 16 5 5 400

Nota

Aquí k es el total de muestras generadas

Aplicando la fórmula, tenemos:

S xy 4 1 99 99
Cov ( x , y ) 1 f . 1 . .
n 5 4 20 400

Verificándose así la propiedad 2.5 antes vista.

En lo que sigue V ( y ) como V (Yˆ ) son las varianzas correspondientes a las distribuciones probabilísticas de los estimadores
ˆ
de la media Y y el total Yˆ respectivamente, lo que significa que son parámetros de variabilidad para dichas distribuciones
respectivamente.

Antes de definir los estimadores para estas varianzas se analiza la siguiente propiedad de la cuasi varianza muestral:

79 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Propiedad 2.6: Insesgamiento del estimador de la cuasivarinza poblacional


 
2
En el Muestreo Aleatorio Simple (MAS) un estimador insesgado de la cuasi-varianza poblacional S para la variable Y , es
la cuasi-varianza muestral Sˆ 2
s 2
.

Demostración//

n n n
1 1 1
Sˆ 2 Yˆ ) 2
2
s2 ( yi ( yi y) 2 ( yi Y ) (y Y )
n 1i 1 n 1i 1 n 1i 1
n n
1
( yi Y )2 n.( y Y ) 2 2.( y Y ). ( yi Y)
n 1 i 1 i 1

Pero se sabe que:

n n
( yi Y) yi n.Y n.y n.Y n.( y Y )
i 1 i 1

Reemplazando:

n n
1 1
s2 ( yi Y )2 n.( y Y ) 2 2.n.( y Y ) 2 ( yi Y )2 n.( y Y ) 2
n 1 i 1 n 1 i 1

2
Como s es una variable aleatoria, al sacar valor esperado

n
1
E Sˆ y2 E (s 2 ) E ( yi Y )2 n.E ( y Y ) 2 (1)
n 1 i 1

Nota

Recuerde que: V ( y) E ( y Y )2 .

2
Como se está trabajando sobre la distribución probabilística de sal considerar todas las k posibles muestras de tamaño n
de una población de tamaño N , entonces cada elemento de la población aparece en N 1 muestras como se vio antes y la
n 1
probabilidad de cada muestra es:

1
.
N
n

Por lo tanto:

80 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

n K n
1 N
1 N 1
E ( yi Y )2 ( yi Y )2 . ( yi Y )2. .
i 1 j 1 i 1 j
N i 1 N n 1
n n (2)

n
( N 1).S 2
N
Reemplazando (2) en (1) se tiene:

2 1 n N n 1 2 1 S2
E (s ) .( N 1).S 2 n. . .S . n.( N 1) ( N n)
n 1 N N n n 1 N

1 S2
E (s 2 ) .
. N .( n 1) S2
n 1 N

Al considerar todas las posibles muestras de tamaño n de una población de tamaño N se tienen los siguientes estimadores
para la varianza de la media muestral y para la varianza del estimador del total poblacional.

Propiedad 2.7: Expresión de la varianza para el estimador de la media poblacional

La varianza del estimador de la media población para variables viene dada por:

N n S2
V ( y) . (2.7)
N n

Propiedad 2.8: Estimador de la varianza para el estimador de la media poblacional

El estimador insesgado de la varianza para el estimador de la media poblacional en el MAS para variables vienen dado por:

N n Sˆ 2
Vˆ ( y ) v( y ) . (2.8)
N n

Propiedad 2.9: Expresión de la varianza para el estimador del total poblacional

La varianza del estimador del total poblacional para variables viene dada por:

(2.9)
V (Yˆ ) N 2 .V (Yˆ ) N 2 .V ( y )

Propiedad 2.10: Estimador de la varianza para el estimador del total poblacional

El estimador insesgado de la varianza para el estimador del total poblacional en el MAS para variables viene dado por:

81 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Vˆ (Yˆ ) N 2 .Vˆ (Yˆ ) N 2 .v ( y ) (2.10)

Nota
La varianza para la distribución de la media muestral y la varianza para la distribución del estimador del total son parámetros
de variabilidad para las respectivas distribuciones probabilísticas que resultan al considerar dichos estimadores en todas las
posibles muestras de tamaño n .

Nota
El lo que sigue se muestran los estimadores para la Cuasi-covarianza poblacional para las variables X e Y al igual que el
estimador para la covarianza de medias muestrales.

N
( xi X ).( y i Y)
i 1
Cov ( x, y ) S xy (2.11)
N 1
Es estimada por:
n
( xi x ).( y i y)
Sˆ xy s xy i 1
.
n 1
Y

N n S xy
Cov ( x , y ) . (2.12)
N N

Es estimada por:

N n s xy
Cˆ ov( x , y ) . (2.13)
N n

Ejemplo 2.10
La siguiente información corresponde a la medición de la variable Y en 5 unidades estadísticas que constituyen una
población.

Ui U1 U2 U3 U4 U5

yi 2.3 4.2 3.5 1.8 6.2

De dicha población se obtienen los siguientes parámetros: Y 3.6 , y S y2 3.0150 , de tal manera que para la varianza
del estimador de la media poblacional se puede esperar que:

S y2
V (Yˆ ) 1 f . 0.15075
n

82 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Al tomar todas las muestras de tamaño 4, se obtiene la siguiente tabla de resultados para cada muestra:

Muestras y estimaciones
Muestras Yˆi Sˆi2 Vˆ (Yˆ ) i
2.3-4.2-3.5-1.8 2.95 1.203333 0.6016665
2.3-4.2-3.5-6.2 4.05 2.67 0.1335
2.3-4.2-1.8-6.2 3.625 4.015833 0.20079165
2.3-3.5-1.8-6.2 3.45 3.87 0.1935
4.2-3.5-1.8-6.2 3.925 3.315833 0.16579165

Utilizando la última columna de la tabla anterior, se obtiene el valor esperado del estimador de V (Y ) :
ˆ

k
1 N 5
E Vˆ (Yˆ ) Vˆ (Yˆ ) i 0.15074999 , k 5.
k i 1 n 4

2.7.4 Intervalos de Confianza

ˆ
En apartes anteriores se determinaron las varianzas para los estimadores Y y Yˆ correspondientes a la media y el total
respectivamente para la variable Y . A través de estas varianzas se mide la calidad de las estimaciones halladas. Para ello se
utiliza EL COEFICIENTE DE VARIACIÓN DEL ESTIMADOR o la raíz cuadrada de dichas varianzas llamada ERROR
ESTANDAR DE ESTIMACIÓN.

En general si θ y θˆ son respectivamente el parámetro y su correspondiente estimador, entonces: El Error Estándar de


Estimación y el Coeficiente de variación para θˆ quedaran definidos respectivamente por:

Error Estándar de Estimación para θˆ :

EE (θˆ) V (θˆ) (2.14)

Coeficiente de Variación para θˆ :

EE (θˆ)
CV (θˆ) (2.15)
E (θˆ)
Los anteriores parámetros tienen como estimadores respectivamente:

Eˆ E (θˆ) ee(θˆ) v(θˆ) (2.16)

ee(θˆ)
Cˆ V (θˆ) (2.17)
θˆ

83 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Con base en EE(θˆ) se puede construir el Intervalo de Confianza para el parámetro θˆ que dirá entre que valores está dicho
parámetro con una probabilidad (1 ) determinada.
La Estructura general será la siguiente:

θ (1 )
θˆn K . Vˆ (θˆ) ˆ
n K .ee(θˆ) (2.18)

En donde el valor de K es el percentil correspondiente a una Distribución Probabilística conocida y aplicada bajo ciertos
supuestos previamente establecidos.

El valor inferior y superior dentro de los cuales está incluido el parámetro analizado con una probabilidad (1 ) son tales
que:

θˆ θ
Pr K (1 )
ee(θˆ)

Y dichos valores conforman el intervalo 100 .(1 )% para el parámetro analizado.

El Valor de K depende como se dijo antes, del conocimiento de la distribución de θˆ . En la práctica corresponde a una de las
siguientes situaciones:

Situación Nº1
2
La variable analizada Y se distribuye Normal: N ( , y ) con media y varianza conocidas. En éste caso:

θˆ θ
N (0,1) y K Z .
ee(θˆ) 2

Ejemplo 2.11
Una muestra de 20 unidades estadísticas arroja para la variable analizada Y , como resultado Yˆ
0 .4 . 7.25 y Sˆ y2
La variable analizada se puede modelar muy bien mediante la Distribución Normal de tal manera que
Y N ; 2 0.36 . Construya el intervalo de confianza del 95% para la media poblacional de la variable Y
analizada.

Solución//

Si:
2
Y N ; 0.36

Entonces:

2
Yˆ N ; N ; 0.36 .
n 20

84 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
De acuerdo con lo anterior al usar la Distribución Normal se tiene que:

Si:

(Z ) 0.975 Z 1.96 K
2 2

Por lo tanto el intervalo de confianza para Y , será:

Yˆn K . Vˆ (Yˆ ) 7.25 1.96. 0.36 (6.987; 7.5129)


95% 20
2
La variable analizada Y se distribuye Normal: N ( , y ) con media y varianza desconocidas y estimadas con muestras
θˆ θ
de tamaño inferior a 30. En éste caso: t de Student y K t con n-1 grados de libertad. Si la
ee(θˆ) ( n 1),
2

muestra es superior a 30 se puede utilizar el caso anterior o sea K Z .


2

Ejemplo 2.12
El contenido Y de cierto tipo de combustible en una población de 200 barriles, sigue una Distribución Normal con
parámetros desconocidos. Se toma una muestra de 10 barriles de dicha población obteniéndose: Yˆ 500 cc y Sˆ y2 1.28 .
Determine el intervalo de confianza para el verdadero contenido de combustible en la población de barriles con un nivel de
confianza del 95%.

Solución//

Del supuesto de la distribución de Y al utilizar la tabla t-student se obtiene:

Yˆ Y
t(n t 9, 0.025 2.2620 K
S 1),
2
n

Por lo tanto el intervalo de confianza será:


Sˆ 2
Y Yˆn K . Vˆ (Yˆ ) Yˆn t9, 0.025 . y (499.19; 500.81)
95% n

No se conoce la distribución de la variable Y. En éste caso se deben utilizar muestras grandes “superiores a 50 unidades”
para utilizar la distribución normal y K Z .
2
Ejemplo 2.13
De un lote de 1200 acumuladores se ha tomado una muestra de 60 de ellos obteniéndose con respecto a su duración en años
que: Yˆ 3.5 y Sˆ y2 1.25 . Encuentre el intervalo de confianza para la verdadera duración promedio de los acumuladores
en el lote.

Solución//

Aunque no se sabe el comportamiento de la duración de los acumuladores en el lote analizado, como la muestra es
suficientemente grande se utiliza el teorema del límite Central de tal manera que:

85 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

2
Yˆ N ; N ; 1.25 N ; 0.0208
n 60

De acuerdo con lo anterior entonces:

(Z ) 0.975 Z 1.96 K
2 2

El intervalo de confianza será:

Y Yˆn K . Vˆ (Yˆ ) 3.5 1.96. 0.0208 (3.127; 3.783)


95%

Situación Nº2

Si la Distribución de Y no se conoce y se desea utilizar la Desigualdad de Tchebychev para cualquier n , K se obtiene


aplicando:
1
Pr θˆ θ K .ee(θˆ)
K2
Ejemplo 2.14
De una población de 2000 unidades estadísticas se ha seleccionado una muestra de tamaño 20, mediante la cual se ha
obtenido para la variable analizada que: Yˆ 7.5 y Sˆ y2 0.85 . Determine el intervalo de confianza para que el verdadero
valor promedio poblacional de Y se encuentre en dicho intervalo con una confianza de por lo menos el 95%.

Solución//

Observe que:

1 1
Pr θˆ θ K .ee(θˆ) Pr θˆ K .ee(θˆ) 1
K2 K2
De tal forma que al aplicar esta desigualdad al caso de la media muestral como estimador, se tiene:

1
Pr Yˆ K . Vˆ (Yˆ )
0.95 1
K2
De la parte derecha de la desigualdad se desprende que el valor de K debe ser mínimo de K 4.5 . Asumiendo el valor
igual entonces resulta que el intervalo de confianza será:

Y Yˆn K . Vˆ (Yˆ ) 7.5 ( 4.5). 0.042075 7.5 0.923


95%

Nota
Para un mismo nivel de confianza, la amplitud del intervalo en el último caso será mayor que los demás. En resumen, los
intervalos de confianza muy amplios son totalmente improductivos y en la construcción de intervalos de confianza se debe
tener presente que:

86 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Dado un nivel de confianza, entre mayor sea el tamaño de la muestra n , menor será el valor de la V ( ˆ) y más corto será
el intervalo de confianza.
Dado un tamaño de muestra n , si se aumenta el nivel de confianza, la amplitud del intervalo se aumenta haciendo más
imprecisa la información obtenida sobre el parámetro.
El tamaño de muestra está limitado por factores económicos.

2.7.5 El Cociente de dos variables

El Cociente de dos variables llamado Razón es en muchas oportunidades el objetivo de una investigación.

En éste parámetro los valores de las dos variables cambian de unidad a unidad para las diferentes unidades poblacionales U i
analizadas. Él, es la base para la conformación de los llamados estimadores indirectos tipo razón, los cuales serán objetos de
estudio más adelante.

Ejemplo 2.15
El cuadro siguiente presenta la razón de dos variables en función del significado de ellas:

Unidad
Variable X Variable Y Razón Estimada
Analizada
Desperdicio de Desperdicio de Razón de cambio del desperdicio de
Maquina materia prima el materia prima en el materia prima del primer turno con
primer turno. segundo turno. respecto al segundo.
Área cultivada del Número de árboles
Predio Agrícola Número de árboles sembrado por m2
predio (m2). sembrados.
Dinero gastado en Porcentaje de dinero gastado en
Familia Ingreso mensual.
alimentos. alimentos por persona.
Razón del peso antes a peso después de
Conejo Peso antes de dieta. Peso después de dieta.
la dieta.

Sea U1 , U 2 , U 3 , ...., U N una población en la cual para cada unidad poblacional U i , se miden las variables X e Y .
Si se tiene como objetivo medir la razón poblacional entre las variables observadas, entonces se define el siguiente parámetro
y su estimador:

PARÁMETRO ESTIMADOR

N n
yi yi
Y Y Yˆ Yˆ (2.19)
R i 1
Rˆ i 1

Xˆ Xˆ
N n
X X
xi xi
i 1 i 1

2.7.6 Propiedades del cociente de dos variables

Las siguientes son las propiedades del estimador del cociente entre dos variables (razón):

87 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Propiedad 2.11: El estimador de razón es sesgado

Esta propiedad significa que:

E ( Rˆ ) R

Propiedad 2.12: La varianza del estimador de la razón poblacional


Si las variables X e Y son medidas en cada una de las unidades muestreadas obtenidas mediante una muestra aleatoria

Y
simple de tamaño n grande, entonces para la razón de las variables definida como R , se tiene que:
X

N
( yi R.xi ) 2
(1 f )
ECM ( Rˆ ) V ( Rˆ ) . i 1
(2.20)
n. X 2 N 1

Demostración//

Observe primero que cuando n es grande el estimador de razón puede considerarse insesgado.

Cuando n es grande se puede suponer que la media muestral es aproximadamente igual a la media poblacional, esto es:
x X.
Con este supuesto se puede escribir:

y y R.x
Rˆ R R
x x
Reemplazando la media muestral del denominador por la media poblacional respectiva y sacando valor esperado a ambos
lados, queda:

y R.x
Rˆ R
X
1 1 1
E ( Rˆ R) .E ( y R.x ) . E ( y ) R.E ( x ) . Y R. X
X X X
Y reemplazando la razón por el cociente de medias poblacionales:

1 1 Y
E ( Rˆ R) . Y R. X . Y .X 0 E ( Rˆ ) R
X X X

Elevando al cuadrado la expresión:

88 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
y R.x
Rˆ R
X
Resulta:

1
( Rˆ R) 2 2
.( y R.x ) 2
X
Y sacando valor esperado

1
E ( Rˆ R) 2 2
.E ( y R.x ) 2 ECM ( Rˆ )
X
Considerando la variable Z tal que: z i yi R.xi para cada U i muestral o poblacional se tiene:

Para la muestra:

z y R.x

Y para la población:

Z Y R.. X .
Pero como:

Y
Z Y R.. X y R , entonces Z 0
X
Y como se vio antes, bajo el supuesto de n grande:

E ( Rˆ ) R
Luego:

2
V ( Rˆ ) E Rˆ E ( Rˆ ) E ( Rˆ R) 2 ECM ( Rˆ )

Ahora como:

z y R.x y Z 0

1 1 1
E ( Rˆ R) 2 2
.E ( y R.x ) 2 .E ( z Z )2 .V ( z )
X X2 X2

Y aplicando el teorema varianza de la media muestral entonces:

89 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
N

2 ( zi Z )2
1 1 S 1 (1 f )
E ( Rˆ R) 2 .V ( z ) .(1 f ). z
. . i 1

X2 X2 n X2 n N 1

N
( yi R.xi ) 2
1 (1 f )
V ( Rˆ ) ECM ( Rˆ ) . . i 1

X2 n N 1

Propiedad 2.13: El estimador sesgado de la varianza del estimador de la razón poblacional


 
El estimador de la varianza del estimador de razón es aproximadamente igual a:

n n n n
( yi Rˆ .xi ) 2 yi2 2.Rˆ . yi .xi Rˆ 2 . xi2
(1 f ) (1 f )
Vˆ ( Rˆ ) v(r ) . i 1
. i 1 i 1 i 1
(2.21)
n. X 2 n 1 n. X 2 n 1

N
( yi R.xi ) 2
Para encontrar el estimador de V (Rˆ ) , se estima la cantidad poblacional i 1
, por la cantidad muestral
N 1
n
( yi Rˆ .xi ) 2
y
i 1
en donde Rˆ
n 1 x
Nota

Si al realizar la estimación de la varianza del estimador de R , no se conoce la media poblacional X , se reemplaza por la
estimación muestral.

Ejemplo 2.16
El Departamento de Salud de una comunidad está interesado en conocer la relación entre el número de personas por vivienda
y el número de cuartos dedicados a dormitorio para una comunidad de 580 casas. Para ello, se ha tomado una muestra
aleatoria de 40 casas con el siguiente resultado para las variables implicadas:

X : Número de cuartos dedicados a dormitorio,


Y : Número de personas que habitan la vivienda.
40 40 40 40 40
xi 108; xi2 312; yi 216; y i2 1278; xi . y i 609
i 1 i 1 i 1 i 1 i 1

Estime dicha relación y su error estándar.

90 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Solución//

40
yi
Yˆ 216
Rˆ i 1
2

40
108
xi
i 1

Lo que significa 2 personas por habitación de dormitorio.

n n n
yi2 2.Rˆ . yi .xi Rˆ 2 . xi2
(1 f)
Vˆ ( Rˆ ) . i 1 i 1 i 1

n. Xˆ 2 n 1

40
1 2
580 1278 2. 2 .(609) 2 (312)
Vˆ ( Rˆ ) 2
0.007368 v( Rˆ ) 0.086
108 40 1
40.
40

2.7.7 Estimaciones de la media poblacional y el total cuando la población está dividida en dominios

Algunas veces en una investigación se requiere estimar el parámetro poblacional para determinada característica analizada y
también el mismo parámetro pero correspondiente a subgrupos de la misma población. Así por ejemplo, en una comunidad
compuesta por 20000 familias se desea estimar los siguientes parámetros:

Y : Gasto promedio mensual por familia en alimentos,


Y1 : Gasto promedio mensual por familia integrada por 3 personas o menos,
Y2 : Gasto promedio mensual por familia integrada por 4 personas hasta 6 personas,
Y3 : Gasto promedio mensual por familia integrada por 7 personas o más.

En una situación como la anterior el marco de muestreo que se utilizaría para la estimación de Y , sería el listado de las
viviendas de la comunidad analizada (plano urbanístico) pero no se dispone de marcos muestrales que listen específicamente
los elementos de las clases o dominios en que se divide la población de familias con respecto al número de integrantes de la
misma para la estimación de Y j ; j 1,2,3 .

PARÁMETROS ESTIMADORES

nj
Nj
1
Yj
1
y ji ; j 1, 2,....k Yˆj y ji ; j 1, 2,....k (2.22)
Nj i 1
nj i 1

91 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
En la definición de parámetros y estimadores se debe tener en cuenta la siguiente notación:

N : Tamaño de la población,
n: Tamaño de la muestra,
N j : Tamaño del dominio j en la población analizada. N j Nk ;j k
,
n j : Número de unidades de la muestra que pertenecen al dominio j,
y ji : Valor de la variable Y para el elemento i del dominio j,
Nj
Yj y ji : Total de la variable Y en el dominio j,
i 1

Yj
Yj : Media poblacional de la variable Y en el dominio j.
Nj

Nota
Observe que n j es en este caso una variable aleatoria.

2.7.8 Propiedades de las estimaciones de la media y el total en el muestreo por dominios

Utilizando las propiedades del MAS y cambiando n por n j y N por N j después de obtener repetidamente muestras de
tamaño n suponiendo n j constante por facilidad se tiene:

Propiedad 2.14: Esperanza y varianza para el estimador de la media poblacional en el dominio j

E (Yˆj ) Y j
Nj n j S 2j 1
Nj
V (Yˆj ) ; S 2
j ( y ji Yj )2 (2.23)
Nj nj Nj 1 i 1

Nj n j Sˆ 2j 1
nj
Vˆ (Yˆj ) ; Sˆ 2j ( y ji Yˆj ) 2
Nj nj nj 1 i 1

Nota
Es posible que solo al preguntar a una unidad investigada específica se establezca si ella pertenece o no al dominio j
investigado, entonces no se conoce N j y por lo tanto tampoco la fracción de muestreo f j n j N j . En este caso se
reemplaza en las fórmulas de varianza fj n j N j por la fracción poblacional f n N.

Para la estimación del total para la variable Y en subpoblaciones o dominios de estudio surgen dos situaciones dependiendo
de si se conoce o no el tamaño del dominio.

92 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Situación 1: El tamaño del dominio N j es conocido

PARÁMETROS ESTIMADORES

Nj
Nj nj (2.24)
Yj y ji ; j 1, 2,....k Yˆj y ji ; j 1, 2,....k
i 1 nj i 1

De acuerdo con la definición anterior tenemos las siguientes propiedades para el estimador del total en el dominio j dominio:

Propiedad 2.14: La varianza para el estimador del total poblacional en el dominio j, se conoce el tamaño del dominio

La varianza para el estimador del total poblacional en el dominio j-ésimo cuando se conoce el tamaño del dominio viene dada
por:

Nj n j S 2j
V (Yˆj ) N V (Yˆj )
2
j N 2
j (2.25)
Nj nj

Propiedad 2.15: El estimador del total y el estimador de su varianza para el estimador del total poblacional en el
dominio j, cuando se conoce el tamaño del dominio son insesgados

E (Yˆj ) Y j
(2.26)
Vˆ (Yˆj ) N 2j Vˆ (Yˆj )

Situación 2: El tamaño del dominio N j no es conocido


Cuando el tamaño del dominio j-ésimo no se conoce el estimador del total en dominio j viene dado por:

PARÁMETROS ESTIMADORES
(2.27)
Nj nj
N
Yj y ji ; j 1, 2,....k Yˆj y ji ; j 1, 2,....k
i 1 n i 1

En la definición anterior el factor ( N / n) se denomina factor de expansión. De acuerdo con la definición anterior se tienen
las siguientes propiedades para el estimador del total en el dominio j.

93 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Propiedad 2.15: Expresión para la varianza para el estimador del total poblacional en el dominio j cuando no se
conoce el tamaño del dominio

N2 N n 2 º º 1 Y j2
V (Yˆj ) Sj ; S 2j y 2j (2.28)
n N N 1 Dj N
D j : Dominio j-ésimo

Propiedad 2.16: Tanto el estimador del total como el estimador de la varianza para el total poblacional en el dominio
j-ésimo cuando no se conoce el tamaño del dominio son insesgados.

De acuerdo con la propiedad anterior:

E (Yˆj ) Y j
nj 2

y ji
N2 N n 2 º 2 º 1
nj (2.29)
Sˆ j ; Sˆ
i 1
Vˆ (Yˆj ) j y 2
ji
n N n 1 i 1 n

Nota
La expresión de la varianza en esta situación se aclara de la siguiente manera.
Como no se conoce el tamaño del dominio j- ésimo se define la variable yi de la siguiente manera:

yi si la unidad U i Dj
yi
0 si la unidad U i Dj

De acuerdo con la definición anterior para el dominio j se tiene que:

N Nj
Yj yi i
y
1 i j 1
yij .
Dj

Luego tomando una muestra de tamaño n se tiene:

1 1 N N
Yˆj
n nj n nj
y i
y
1 i i
y
1 ji
N.y i
y
1 i i 1
yij
n n n n

E idénticamente:

1 N 1 N N
S 2j ( yi Y )2 ( yi )2 2Y . yi NY 2
N 1 i 1
N 1 i 1 i 1

94 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
1 N N N 1 N
S 2j ( yi ) 2 2Y . yi NY 2 ( yi ) 2 2Y 2 N Y 2 N
N 1 i 1
N i 1
N 1 i 1

N 2 N 2
1 N 2 2 1 N 2 i 1 i
y 1 N 2
yi
( yi ) Y N ( yi ) N 2
( yi ) i 1

N 1 i 1
N 1 i 1
N N 1 i 1
N

1 Y j2
yi2
N 1 Dj N

Y para su estimador:

nj 2
1 y ji
Sˆ 2 nj 2 i 1
j y ji
n 1 i 1
n

Ejemplo 2.17
En la comuna 15 de la ciudad ABC hay 21400 viviendas. Se ha tomado una muestra aleatoria simple de 200 de ellas para
analizar la variable consumo de agua mensual (m3) en la vivienda. De las 200 viviendas muestreadas se encuentra que el
consumo (m3) de 130 de ellas corresponde a viviendas en las cuales hay algún automotor obteniendo:

130 130
i
y
1 i
3143,21 y i 1
( yi ) 2 77119,9

Estime para la comuna 15 el consumo total para viviendas en las cuales se tiene automotor y su desviación estándar.

Solución//

No se conoce el total de predios en los cuales hay automotor.

N 21400
YˆV
130
i 1
yi . 3143,21 . 336323,47m3
n 200

nj 2
1 y 1 (3143,21) 2
Sˆ 2j
nj 1 ji
i
y2
1 ji
i
77119,9 138,605272
n 1 n 200 200

N 2 N n ˆ2 (21400) 2 21400 200


Vˆ (Yˆj ) . Sj (138,605272) 17731,6722 m3
n N 200 21400

2.8 MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO PARA ATRIBUTOS

Es muy común que un estudio estadístico involucre características no numéricas como por ejemplo: sexo, estado civil,
tenencia de casa, etc. En estos caso las unidades son clasificadas en clases dependiendo de sí poseen o no la característica C

95 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
estudiada. Aquí se estima la proporción poblacional ( P ) o el total ( A ) de unidades estadísticas que poseen la característica
C analizada.

Ejemplo 2.18
Los siguientes enunciados son ejemplos de proporciones poblacionales:

La proporción de personas que favorecerán con su voto al candidato C, de entre el conjunto de quienes piensan votar en
las próximas elecciones para alcalde de Santiago de Cali.
La proporción de hogares que consumen determinada marca de pilas, dentro de los hogares que usan habitualmente éste
producto.
El cociente entre la cantidad de personas mayores de 13 años que no saben leer ni escribir, sobre la cantidad de personas
mayores de 13 años (Tasa de analfabetismo).
Cociente entre la cantidad de personas que solicitaron un determinado servicio y no lo recibieron, sobre el total de
personas que solicitaron dicho servicio. (Demanda insatisfecha).
La proporción de cabezas de ganado que presentan determinada enfermedad en una extensa región ganadera.

2.8.1 La proporción poblacional y su estimador

La proporción poblacional y su estimador en el MAS sin reemplazo son respectivamente:

PARÁMETRO ESTIMADOR

(2.30)
A a
P Pˆ p
N n
A : Total de unidades que en la población poseen la característica C analizada.
N : Total de unidades que componen la población.
a : Total de unidades que en la muestra poseen la característica C analizada.
n : Total de unidades que componen la muestra.

La población contiene N1 de ellos
Población con N =N1 +N2 elementos 

Elemento de la Clase C’ 

Elemento de la Clase C  
La población contiene N2 de ellos
Figura 2.3. Población dividida en dos clases

96 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
De acuerdo con la figura 2.3 se pueden considerar los siguientes conjuntos de elementos:

Ui /i 1,2,..... N

C Ui / U i tiene la característica C

C' Ui / U i no tiene la caracterís tica C

De acuerdo con figura anterior y la definición de los conjuntos establecidos se tiene:

C y C ' son conjuntos exhaustivos, esto es: C C'


C y C ' son excluyentes, esto es: C C'
N1 N2 N N1
Proporciones poblacionales: P ,Q 1 P P Q 1
N N N
n1 ˆ n2 n n1
Proporciones muestrales: Pˆ p ,Q q 1 p p q 1
n n n
2.8.2 Propiedades del estimador de la proporción poblacional y su estimador

Las propiedades básicas del estimador de la proporción poblacional en el MAS sin reemplazo son:

Propiedad 2.16: El estimador de la proporción poblacional es un estimador insesgado

El estimador de la proporción muestral Pˆ p , es un estimador insesgado : E ( Pˆ ) P


Demostración//

Representando el atributo analizado por la variable Y definida de la siguiente forma:

1 si U i C
yi
0 si U i C

n
yi
n1
Pˆ p i 1
y, y E ( y ) Y
n n
Luego:
N
yi
N1
E ( Pˆ ) E( y) Y i 1
P
N N

97 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Ejemplo 2.19
Un coleccionista de monedas tiene de determinado país 8 monedas de $200, dentro de las cuales hay 4 falsas. Escribiendo
todas las muestras de tamaño n = 6 monedas mostrar el insesgamiento de la proporción muestral de monedas falsas en la
población de monedas de $200 conservadas por el coleccionista.

Solución//

Representamos la población de monedas de $200 por el siguiente conjunto:

M 1 ( F ); M 2 ( B ); M 3 ( F ); M 4 ( F ); M 5 ( B ); M 6 ( B ); M 7 ( B ); M 8 ( F )

M i : Moneda i-ésima, i 1,2...8 , F : Falsa , B : Buena.

El siguiente cuadro presenta las 28 muestras resultantes y la proporción muestral de monedas falsas

Muestra
Elementos de la muestra P̂
#
1 M1 (F ) M 2 ( B) M 3 ( F ) M 4 (F ) M 5 ( B ) M 6 ( B ) 3/6
2 M1 (F ) M 2 ( B) M 3 ( F ) M 4 (F ) M 5 ( B ) M 7 ( B) 3/6
3 M1 (F ) M 2 ( B) M 3 ( F ) M 4 (F ) M 5 ( B ) M 8 ( F ) 4/6
4 M1 (F ) M 2 ( B) M 3 ( F ) M 4 (F ) M 6 ( B ) M 7 ( B) 3/6
5 M1 (F ) M 2 ( B) M 3 ( F ) M 4 (F ) M 6 ( B ) M 8 ( F ) 4/6
6 M1 (F ) M 2 ( B) M 3 ( F ) M 4 (F ) M 7 ( B) M 8 ( F ) 4/6
7 M1 (F ) M 2 ( B) M 3 ( F ) M 5 ( B) M 6 ( B) M 7 ( B) 2/6
8 M1 (F ) M 2 ( B) M 3 ( F ) M 5 ( B) M 6 ( B) M 8 ( F ) 3/6
9 M1 (F ) M 2 ( B) M 3 ( F ) M 5 ( B) M 7 ( B) M 8 ( F ) 3/6
10 M1 (F ) M 2 ( B) M 3 ( F ) M 6 ( B) M 7 ( B) M 8 (F ) 3/6
11 M1 (F ) M 2 ( B) M 4 (F ) M 5 ( B) M 6 ( B) M 7 ( B) 2/6
12 M1 (F ) M 2 ( B) M 4 (F ) M 5 ( B) M 6 ( B) M 8 (F ) 3/6
13 M1 (F ) M 2 ( B) M 4 (F ) M 5 ( B) M 7 ( B) M 8 (F ) 3/6
14 M1 (F ) M 2 ( B) M 4 (F ) M 6 ( B) M 7 ( B) M 8 (F ) 3/6
15 M1 (F ) M 2 ( B) M 5 ( B) M 6 ( B) M 7 ( B) M 8 ( F ) 2/6
16 M1 (F ) M 3 ( F ) M 4 (F ) M 5 ( B) M 6 ( B) M 7 ( B) 3/6
17 M1 (F ) M 3 ( F ) M 4 (F ) M 5 ( B) M 6 ( B) M 8 ( F ) 4/6
18 M1 (F ) M 3 ( F ) M 4 (F ) M 5 ( B) M 7 ( B) M 8 ( F ) 4/6
19 M1 (F ) M 3 ( F ) M 4 (F ) M 6 ( B) M 7 ( B) M 8 ( F ) 4/6
20 M1 (F ) M 3 ( F ) M 5 ( B) M 6 ( B) M 7 ( B) M 8 ( F ) 3/6
21 M1 (F ) M 4 (F ) M 5 ( B) M 6 ( B) M 7 ( B) M 8 ( F ) 3/6
22 M 2 ( B) M 3 ( F ) M 4 (F ) M 5 ( B) M 6 ( B ) M 7 ( B) 2/6

98 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
23 M 2 ( B) M 3 ( F ) M 4 (F ) M 5 ( B) M 6 ( B ) M 8 ( F ) 3/6
24 M 2 ( B) M 3 ( F ) M 4 (F ) M 5 ( B) M 7 ( B) M 8 ( F ) 3/6
25 M 2 ( B) M 3 ( F ) M 4 (F ) M 6 ( B) M 7 ( B) M 8 ( F ) 3/6
26 M 2 ( B) M 3 ( F ) M 5 ( B) M 6 ( B) M 7 ( B) M 8 (F ) 2/6
27 M 2 ( B) M 4 (F ) M 5 ( B) M 6 ( B) M 7 ( B) M 8 ( F ) 2/6
28 M 3 ( F ) M 4 (F ) M 5 ( B) M 6 ( B) M 7 ( B) M 8 ( F ) 3/6

De la anterior tabla se obtiene la distribución probabilística de la variable aleatoria P̂ , la cual se representa por:

Distribución Probabilística
P̂ 2/6 3/6 4/6 Total
Pr ( Pˆ ) 6/28 16/28 6/28 1

Con base en la tabla anterior se muestra que:


3
2 6 3 16 4 6 84
E ( Pˆ ) Pˆi .Pr ( Pˆi ) . . . 0.5 P
i 1 6 28 6 28 6 28 168

Nota
Cuando una proporción que se desea estimar es pequeña ( P 10% ), podría ocurrir que al tomar una muestra de tamaño n
no se encuentre ninguna unidad que tenga la característica C investigada, obteniendo como valor estimado de P el valor
cero. Observe que si P 0.002 y ; N 10000 de acuerdo con el modelo Binomial: E ( A ˆ ) N .P 20 , y captar
mediante una muestra a las 20 unidades que poseen la característica de entre 10000 es muy difícil. En estos casos se recurre
al muestreo inverso (Fernández et al., 1995), en el cual, el espacio muestral está conformado por todas las muestras m que
contienen m0 unidades con la característica investigada. El tamaño de muestra es entonces una variable aleatoria cuya ley de
probabilidad es:

NP NQ
m0 1 n m0 NP (m0 1)
Pr (n(m) n) . ;n m0
N N (n 1)
n 1

Propiedad 2.10: Varianza del estimador de la proporción poblacional

En el MAS sin reemplazo la varianza del estimador de la proporción poblacional, viene dada por:

P.Q N n
V ( Pˆ ) . (2.31)
n N 1
Demostración//

99 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

N
( yi Y ) 2 N
1
S2 i 1
yi2 N .Y 2
N 1 N 1 i 1

Pero de acuerdo como se ha definido la variable Y antes, se tiene:

N
yi2 N1 , y Y P,
i 1
Luego:

1 1 N .P.(1 P) N .P.Q
S2 N1 N .P 2 N .P N .P 2
N 1 N 1 N 1 N 1
Y

N n S2 N n N .P.Q N n
V ( Pˆ ) V ( p) V ( y ) . . .P.Q
N n N .n N 1 n.( N 1)

Ejemplo 2.20
Con base en el ejemplo 2.19, se tiene en forma directa al considerar todas las muestras que:

28
2 1
V ( Pˆ ) Pˆi E ( Pˆ )
i 1 84

Al considerar la función de distribución probabilística de P̂

3 2 2 2
2 2 1 6 3 1 16 4 1 6 1
V ( Pˆ ) Pˆi E ( Pˆ ) .Pr ( Pˆi ) . . .
i 1 6 2 28 6 2 28 6 2 28 84

Aplicando la fórmula vista en la propiedad pertinente, resulta:

N n 8 6 1 1 1
V ( Pˆ ) .P.Q .
n.( N 1) 6(8 1) 2 2 84

Propiedad 2.11: Estimador insesgado de la varianza del estimador de la proporción poblacional

Un estimador insesgado de V ( Pˆ ) en él MAS sin reemplazo viene dado por:

N n pq
Vˆ ( Pˆ ) v( p )                                                                         (2.32)
n 1 N
Demostración//

100 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Como se vio antes un estimador insesgado de la varianza de la media muestral y viene dada por:

N n s2
Vˆ ( y ) v( y ) .
N n
2 2
Ya que un estimador insesgado de S es s .

Además se sabe que:

N .P.Q
S2
N 1

Por lo tanto su estimador tendrá la forma:

n. p.q
Sˆ 2 s2
n 1

Luego un estimador insesgado de Vˆ ( Pˆ ) será:

N n Sˆ 2 N n 1 n. p.q N n p.q
Vˆ ( y ) . v( p) . .
N n N n n 1 N n 1

Ejemplo 2.21
Con el resultado de la propiedad anterior y la distribución probabilística de P̂ escrita en el ejemplo 2.19 se puede escribir la
distribución probabilística de v ( Pˆ ) de la siguiente manera:

Distribuciones probabilísticas
P̂ 2/6 3/6 4/6 Total
V ( Pˆ )
ˆ 1/90 1/80 1/90 x

P ( Pˆ )
r
6/28 16/28 6/28 1.0

Donde:

N n p.q 1
Vˆ ( y ) . p.q .
N n 1 20

Y para mostrar el insesgamiento de dicho estimador:

3
1
E Vˆ ( Pˆ ) Vˆ ( Pˆ ) i .Pr Vˆ ( Pˆ ) V (Pˆ )
i 1 84

Nota

101 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
n
Si la población es suficientemente grande (infinita) entonces: la fracción de muestreo tiende a cero y N 1 N,
N
haciendo que:

P.Q p.q
V ( Pˆ ) Y Vˆ ( P
ˆ) v( p) .
n n 1

2.8.3 El total poblacional y su estimador para atributos en el MAS sin reemplazo


 
Cuando la población está dividida en clases de acuerdo a sí las unidades estadísticas poseen o no determinada característica,
se puede también estar interesado en estimar el total de las unidades de la población que poseen la característica en cuestión:
En éste caso se hablará de hallar el valor de  .

Ejemplo 2.22
Los siguientes enunciados constituyen ejemplos del uso de totales poblacionales:

El total de personas que favorecerán con su voto al candidato C, de entre el conjunto de quienes piensan votar en las
próximas elecciones para alcalde de Santiago de Cali.
El total de hogares que consumen determinada marca de pilas, dentro de los hogares que usan habitualmente este
producto.
La cantidad total de personas mayores de 13 años que no saben leer ni escribir en determinada región del país.
La cantidad de personas que solicitaron un determinado servicio y no lo recibieron.
El total de cabezas de ganado que presentan determinada enfermedad en una extensa región ganadera.

El estimador del total de unidades que poseen determinado atributo es:

PARÁMETRO ESTIMADOR
(2.33)

A N .P Aˆ N .Pˆ N.p

A : Total de unidades que en la población poseen la característica C analizada,


N : Total de unidades que componen la población.

2.8.4 Propiedades del estimador del total poblacional para atributos en el MAS sin reemplazo
 
Las propiedades básicas del estimador del total para atributos en el MAS sin reemplazo son:

Propiedad 2.12: Insesgamiento del estimador del total de unidades que poseen determinada característica

De la propiedad sobre el insesgamiento del estimador de la proporción poblacional se desprende para el estimador del total
que:

E (V ( Aˆ )) E (v( Aˆ )) E (( N .Pˆ )) E ( N 2 .v( p)) N 2 .E (v( p)) N 2 .V ( Pˆ ) V ( N .Pˆ ) V ( Aˆ )

102 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Propiedad 2.13: Varianza del estimador del total de unidades que tienen determinada característica

De las propiedades correspondientes vistas para la proporción se deduce que la varianza del estimador del total de las
unidades que poseen determinada propiedad (característica C), viene dada por:

N n
V ( Aˆ ) N 2V ( Pˆ ) N2 P.Q (2.34)
n( N 1)

Propiedad 2.14: Estimador insesgado de la varianza del estimador del total de unidades que tienen determinada
característica

El estimador insesgado para la varianza del estimador del total en las unidades que poseen determinado atributo viene dado
por:

N n ˆ ˆ
Vˆ ( Aˆ ) N 2Vˆ ( Pˆ ) N2 P.Q (2.35)
n( N 1)

2.8.5 Estimaciones de la proporción cuando la población está dividida en más de dos clases

Suponiendo que la población está divida en clases mutuamente excluyentes y exhaustivas C1 , C2 , C3 ,…., y CL de tamaños
L
respectivamente iguales a A1 , A2 , A3 ,…,y AL de tal manera que N j 1
Aj .

En este contexto se tendrá en cuenta lo siguiente:

N : Tamaño de la población,
L
n : Tamaño de la muestra, n j 1
aj
,
L : Número de clases en que se divide la población,
L
Aj : Total de unidades que pertenecen a la clase j en la población analizada. Aj Ak ;j k y Aj N,
j 1

a j : Número de unidades de la muestra que pertenecen a la clase j.

L
Al tomar una muestra aleatoria n j 1
a j simple de dicha población para estimar la proporción de unidades que
pertenecen a cada clase se pueden tener dos situaciones.

Si se desea estimar en la clase j; j 1,2,3,..., L ; la proporción de unidades que pertenecen a la clase C al tomar una
muestra de tamaño n presenta dos situaciones:

Situación 1: No se omiten clases

Se puede estar interesado es estimar la proporción de unidades que pertenecen a determinada clase o se quiere estimar la
proporción de unidades que corresponden a la unión de varias clases en estos casos se tiene respectivamente:

103 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
PARÁMETRO ESTIMADOR

Aj aj (2.36)
Pj ; Pˆj ;
N n
j 1,2,3,...., L j 1,2,3,...., L

PARÁMETRO ESTIMADOR
(2.37)
Aj Ak aj ak
Pj ; Pˆj ;
N n
j k j k

Estas situaciones establecen que al no omitir clases la población siempre queda divida en dos partes exhaustivas y
excluyentes:

L L
Cj Ck ó (C j Ck ) Cm
k j m j k

2.8.6 Propiedades de las estimaciones de la proporción cuando la población está dividida en más de dos clases.
Situación 1

Dado que la población queda dividida en clases exhaustivas y excluyentes esta situación es la que se acaba de analizar en
apartes anteriores. El estimador es insesgado y las varianzas respectivas serán:

Propiedad 2.15: La varianza del estimador de la proporción para cada clase y la suma de varias clases vienen dadas
por:

Los estimadores insesgados para las proporciones en cada clase tienen por varianzas:

N n Pj Q j Aj
V ( Pˆ j ) ; Pj ; Qj 1 Pj
N n N (2.38)
j 1,2,3,......L

N n Pj k Q j Aj Ak
V ( Pˆ j k )
k
; Pj k ; Qj k 1 Pj k
N n N (2.39)
j k

Propiedad 2.16: Los estimadores insesgados para las varianza presentadas en la propiedad 2.15

Los estimadores insesgados de las de las varianzas para los estimadores de las proporciones en cada clase son:

104 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

N n Pˆ j Qˆ j ˆ a j ˆ
Vˆ ( Pˆ j ) ; Pj ; Qj 1 Pˆ j
N n 1 n (2.40)
j 1,2,3,......L

N n Pˆj k Qˆ j k ˆ aj ak
Vˆ ( Pˆj k ) ; Pj k ; Qˆ j k 1 Pˆj k
N n 1 n
(2.41)
j k

Situación 2: Se omiten clases

Es muy común que la respuesta a una pregunta tenga como posibles respuestas:

a) Si.
b) No.
c) No sé.
d) No sabe /no responde.

Y el investigador esté interesado en estimar para la población analizada por ejemplo la siguiente proporción:

Total de sí
P .
Total de ( sí no)

Muy seguramente la población investigada está dividida en las cuatro clases establecidas por las posibles respuestas, pero el
investigador al estar interesado en la proporción anterior está omitiendo clases. Suponiendo que para la población
Aj
determinada por (C1 C2 3 ...... CL ) se está interesado en la estimación del parámetro: Pj ;j k
Aj Ak
Entonces:

N : Tamaño de la población.
L
n : Tamaño de la muestra n aj .
j 1
L : Número de clases en que se divide la población.
L
Aj : Total de unidades que pertenecen a la clase j en la población analizada. Aj Ak ;j k y Aj N .
j 1

Ak : Total de unidades que pertenecen a la clase k en la población analizada.


a j : Número de unidades de la muestra que pertenecen a la clase j.
ak : Número de unidades de la muestra que pertenecen a la clase k.

N* Aj Ak < N y n* aj ak < n

105 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

PARÁMETRO ESTIMADOR

Aj aj (2.42)
Pj ; Pˆ j *
;
N* n
j 1,2,3,.... j 1,2,3,....

La varianza y su estimación vendrán dadas por:

2.8.7 Propiedades de las estimaciones de la proporción cuando la población está dividida en más de dos clases
situación 2 (se omiten clases) Varianza y estimador insesgado de la varianza

El estimador de la proporción cuando la población está dividida en más de dos clases situación 2 (se omiten clases) es
insesgado y su varianza y estimador insesgado de la varianza son respectivamente:

Propiedad 2.17: La varianza y su estimador para el estimador insesgado de las proporciones cuando se omiten clases

Las expresiones correspondientes son:

N * n * Pj Q j Aj
V ( Pˆ j ) ; Pj ; Qj 1 Pj
N* n* N* (2.43)
j 1,2,3,......

N * n * Pˆ j Qˆ j ˆ aj
Vˆ ( Pˆ j ) ; Pj ; Qˆ j 1 Pˆ j
N* n* 1 n *
(2.44)

j 1,2,3,......

Si el objeto de investigación es el total Aj a través de una muestra de tamaño n en la cual n* aj ak entonces el


parámetro y su estimador serán:

PARÁMETRO ESTIMADOR
(2.45)
Aj N * Pj ; Aˆ j N * Pˆj ;
j 1,2,3,.... j 1,2,3,....

2.8.8 Propiedades de las estimaciones del total cuando la población está dividida en más de dos clases situación 2 (se
omiten clases)

El estimador es insesgado y su varianza y estimador insesgado de la varianza vienen dados respectivamente por:

106 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Propiedad 2.18: Varianza y estimador de la varianza para el estimador insesgado del total en la clase j

El estimador del total cuando la población está dividida en más de dos clases situación 2 (se omiten clases) es insesgado y su
Varianza y estimador insesgado de la varianza son respectivamente:

V ( Aˆ j )
2
N * V ( Pj ); j 1,2,3,...... (2.46)

Con estimación insesgada:

2 N * n * Pˆ j Qˆ j Pˆ j Qˆ j
Vˆ ( Aˆ j ) N * Vˆ ( Pj ) (N * )2 ( N * ) 2 (1 f * ) ; j 1,2,3,......
N* n* 1 n* 1

Nota
*
Si no se conoce N , el estimador quedará:

PARÁMETRO ESTIMADOR

N (2.47)
Aj N * Pj ; Aˆ j aj;
n
j 1,2,3,.... j 1,2,3,....

Propiedad 2.19: Estimador de la varianza para el estimador del total en la clase j cuando se omiten clases

La expresión correspondiente para el estimador insesgado de la varianza es:

Pˆ j Qˆ j
Vˆ ( Aˆ j ) ( N ) 2 (1 f ) ; j 1,2,3,...... (2.48)
n* 1
*
Para la estimación de la varianza al no conocer la fracción de muestreo f se remplaza por f n N y entonces se tiene:

Ejemplo 2.23
De acuerdo con una investigación actual se sabe que la comuna 22 de la ciudad ABC hay 20000 usuarios de servicios de
telefonía por banda ancha. En la zona hay 4 empresas prestadoras de este servicio: E1, E2, E3 y E4. Una muestra de 400
usuarios de este servicio establece la siguiente distribución muestral para las 4 empresas prestadoras del servicio:

E1 E2 E3 E4
a1 a2 a3 a4
150 60 100 90

a) Estime la proporción de usuarios del servicio que están afiliados a las empresas E1 o E2 y su respectiva desviación
estándar.
b) Si se sabe que los usuarios de E1 más los de E2 suman 9000, estime el porcentaje de usuarios afiliados a la empresa E1 con
respecto a las dos empresas y su correspondiente desviación estándar.

107 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Solución//
A1 A2
a) No se omiten clases, en este caso se desea estimar el parámetro P1 2
N
a1 a2 150 60
Pˆ1 2 0,525 52,5% ;
n 400
N n Pˆ1 2Qˆ1 2 20000 400 (0,525)(1 0,525)
Vˆ ( Pˆ j k ) 0,02474874
N n 1 20000 399

A1 A1 *
b) Se omiten clases, en este caso se desea estimar el parámetro: P1 y se sabe que N 9000 y
A1 A2 N*
n* a1 a2 150 60 210

a1 150
Pˆ1 0,714285714
n* 210

N * n* Pˆ1Qˆ1 9000 210 (0,714285714 )(1 0,714285714 )


Vˆ ( Pˆ1 ) 0,03088176
N* n* 1 9000 209

2.8.9 Proporciones y totales en subpoblaciones.

Se supone en este aparte que la población está dividida en dominios o subpoblaciones de acuerdo con alguna propiedad y
dentro de cada dominio a su vez se tienen dos clases de acuerdo con un atributo (tenencia o no) un ejemplo puede ser el
siguiente. Se tiene que la población mayor de 18 años de una ciudad está divida en 5 dominios según su edad (18-30; 31-43:
44-56; 57-69 y más de 69) y se desea conocer en cada dominio la proporción de ciudadanos de acuerdo con la característica
C: Está de acuerdo con un proyecto: traslado de la sede de la alcaldía municipal de la ciudad (sí, no).
De acuerdo con lo anterior la situación se puede esquematizar al tomar una muestra de tamaño n n j mediante la tabla

2.1.

Dominio 1 Dominio 2 Dominio L


Clase ……..
C Cc C Cc C Cc
Número de unidades por clase ……..
en la muestra a1 a1c a2 a2c aL aLc
Número de unidades por clase
en la población A1 A1c A2 A2c AL ALc
Número de unidades por ……..
dominio en la muestra n1 n2 nL
Número de unidades por
dominio en la población N1 N2 NL
Tabla 2.1. La población divida en clases (dominios) de acuerdo con un atributo

En lo que sigue debe tenerse presente la siguiente notación:

N j :Número de unidades pertenecientes al dominio j-ésimo de la población,

108 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
A j :Total de unidades que pertenecen a la clase C en el dominio j,
n j : Número de unidades pertenecientes al dominio j-ésimo en la muestra,
a j : Número de unidades muestrales que pertenecen a la clase C en el dominio j-ésimo.

Nota
L L
N Nj ; n nj
j 1 j 1

Se analizan dos situaciones:

Situación 1
Si se conocen los tamaños de los dominios ( N j conocido) los parámetros y estimadores correspondientes son:

2.8.10 Estimaciones de la proporción y el total cuando la población está dividida en dominios

Los parámetros y sus estimadores cuando la población está dividida en dominios y estos a su vez están divididos en dos
clases y los tamaños de los dominios se conocen.

Para la proporción se tiene:

PARÁMETRO ESTIMADOR
(2.49)

Aj aj
Pj ; j Pˆ j ; j
Nj nj
Para el total se tiene:

PARÁMETRO ESTIMADOR
(2.50)

Aj N j Pj ; j Aˆ j N j Pˆ j ; j

2.8.11 Propiedades de los estimaciones de la proporción y el total cuando la población está dividida en dominios

Propiedad 2.20: El estimador de la proporción y el total son insesgados

E ( Pˆ j ) Pj , E ( Aˆ j ) Aj ; j

Propiedad 2.21: Expresión de la varianza para el estimador de la proporción el estimador insesgado y sus respectivos
estimadores insesgados

Las expresiones de las varianza y sus respectivos estimadores cuando se trata de estimar la proporción y el total conociendo
plenamente el tamaño de los dominios son respectivamente:

109 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Nj n j Pj Q j Nj n j Pˆ j Qˆ j
V ( Pˆ j ) , Vˆ ( Pˆ j ) ; j (2.51)
Nj 1 nj Nj nj 1

V ( Aˆ j ) N 2j V ( Pˆ j ), Vˆ ( Aˆ j ) N 2j Vˆ ( Pˆ j ); j (2.52)

Situación 2
No se conocen los tamaños de los dominios ( N j desconocido) los parámetros y estimadores correspondientes son:

2.8.12 Estimaciones de la proporción y el total cuando la población está dividida en dominios

Los parámetros y sus estimadores cuando la población está dividida en dominios y estos a su vez están divididos en dos
clases y los tamaños de los dominios no se conocen.

Para la proporción se tiene:

PARÁMETRO ESTIMADOR
(2.53)

Aj aj
Pj ; j Pˆ j ; j
Nj nj
Para el total se tiene:

PARÁMETRO ESTIMADOR
(2.54)
N
Aj N j Pj ; j Aˆ j aj; j
nj

2.8.13 Propiedades de los estimaciones de la proporción y el total cuando la población está dividida en dominios

Algunas propiedades básicas de este estimador son:

Propiedad 2.22: El estimador de la proporción y el total son insesgados

E ( Pˆ j ) Pj , E ( Aˆ j ) Aj ; j

Propiedad 2.23: Expresión de varianza para el estimador del total y sus respectivos estimadores insesgados

Las expresiones de las varianza y sus respectivos estimadores cuando se trata de estimar la proporción y el total cuando se
desconocen los tamaños de los dominios son respectivamente:

110 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
N n Pˆ j Qˆ j
* *
Nj n j Pj Q j
V ( Pˆ j ) , Vˆ ( Pˆ j ) ; j (2.55)
Nj 1 nj N n 1

Pj*Q *j
V ( Aˆ j ) N 2j V ( Pˆ j ), Vˆ ( Aˆ j ) N ( N n) ; j (2.56)
n 1
Nota
aj ˆ*
Se debe tener presente que Pˆ j
*
yQ j 1 Pˆ j*
n
Ejemplo 2.24
Se tiene un embarque de 40000 transformadores, correspondiente a tres proveedores P1, P2 y P3. Se desea estimar el total de
transformadores defectuosos del proveedor P2 y su varianza. Una muestra de 200 transformadores mostro 50 del proveedor P2
de los cuales 10 estaban defectuosos.

Solución//
N 40000
No se conoce el tamaño poblacional del dominio P2 entonces Aˆ 2 a2 10 2000 y su desviación estándar
n 200
estimada:
a2 10
Pˆ2 0,2
n2 50

N n Pˆ2 (1 Pˆ2 ) 40000 200 (0,2)(1 0,2)


Vˆ ( Aˆ 2 ) N 2Vˆ ( Pˆ2 )
2
N2 40000 1280000
N n 1 40000 199
Luego: Vˆ ( Aˆ 2 ) 1280000 1131,37085

2.9 MUESTREO ALEATORIO SIMPLE CON REEMPLAZO

Como se dijo antes en esta forma de seleccionar la muestra se permite que en una cualquiera de las muestras un elemento
específico U i se encuentre varias veces.

Si los elementos de la muestra se seleccionan uno por uno con reemplazo, como la estructura de la población es la misma en
1
cada extracción, entonces la probabilidad de seleccionar uno cualquiera de ellos en cualquier momento es en donde N
N
es el tamaño de la población.

Suponga como en el muestreo aleatorio simple sin reemplazo que: N es el amaño de la población objeto de estudio y n es
el tamaño de la muestra (Número de unidades seleccionadas de la población)

¿Cuántas muestras con repetición de tamaño n se pueden conformar con N elementos de la población?

Como cada elemento de los N poblacionales puede ser elegido en cualquier momento, en todas las n extracciones,
utilizando el principio de la multiplicación se tiene:

111 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Número de extracciones (tamaño de la muestra)

1 2 . . . . . . . . . n

N  N  N N 
Hay N formas de seleccionar un elemento en cada extracción
Figura 2.4. Principio de la multiplicación en la selección de n unidades de una población con N

Se tiene entonces de acuerdo con la figura 2.4, N .N .N ....N N n grupos de n elementos con reposición, todos ellos son
1
igualmente probables con probabilidad Pr ( S i ) .
Nn
¿Cuál será la probabilidad de que un elemento cualquiera U i de la población no pertenezca a la muestra seleccionada?

Suponga que tiene en una urna, N 1 bolas para seleccionar de allí n . En este contexto la probabilidad de seleccionar una
bola cualquiera diferente de las U i ya establecidas, será: N 1 y por la independencia en las n extracciones entonces:
N

n
N 1
Pr (U i Si )
N

elementos de los N, n < N


* *
En forma análoga, se desea que n no pertenezcan a la muestra de tamaño n , ésta
n
N n*
probabilidad será: Pr
N

Ejemplo 2.25
Para la siguiente población 0, 1, 2, 3, de tamaño N = 4:

Escriba todas las posibles muestras de tamaño n = 3 con reposición

Solución//

Muestras con reposición de tamaño 3 para la población estipulada


Muestra Elementos Muestra Elementos Muestra Elementos Muestra Elementos
(1) 0, 0, 0* (17) 1, 0, 0* 33 2, 0, 0 49 3, 0, 0*
(2) 0, 0, 1* (18) 1, 0, 1* 34 2, 0, 1 50 3, 0, 1*
3 0, 0, 2 19 1, 0, 2 35 2, 0, 2 51 3, 0, 2
4 0, 0, 3* 20 1, 0, 3* 36 2, 0, 3 52 3, 0, 3*
(5) 0, 1, 0* (21) 1, 1, 0* 37 2, 1, 0 53 3, 1, 0*
(6) 0, 1, 1* (22) 1, 1, 1* 38 2, 1, 1 54 3, 1, 1*
7 0, 1, 2 23 1, 1, 2 39 2, 1, 2 55 3, 1, 2
8 0, 1, 3* 24 1, 1, 3* 40 2, 1, 3 56 3, 1, 3*
9 0, 2, 0 25 1, 2, 0 41 2, 2, 0 57 3, 2, 0
10 0, 2, 1 26 1, 2, 1 42 2, 2, 1 58 3, 2, 1
11 0, 2, 2 27 1, 2, 2 43 2, 2, 2 59 3, 2, 2
12 0, 2, 3 28 1, 2, 3 44 2, 2, 3 60 3, 2, 3

112 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
13 0, 3, 0* 29 1, 3, 0* 45 2, 3, 0 61 3, 3, 0*
14 0, 3, 1* 30 1, 3, 1* 46 2, 3, 1 62 3, 3, 1*
15 0, 3, 2 31 1, 3, 2 47 2, 3, 2 63 3, 3, 2
16 0, 3, 3* 32 1, 3, 3* 48 2, 3, 3 64 3, 3, 3*

n
Como puede verse hay: N 43 64 muestras de tamaño n 3 con reposición.
¿Cuántas de las muestras anteriores no contienen el número 2?

Solución//

n
Las muestras de tamaño 3 que no contienen el número 2 serán N 1 (4 1)3 33 27 que se han marcado con *

¿Cuántas de ellas no contienen él número 2 ni el número 3?

Solución//

n 3
Análogamente las muestras de tamaño 3 con reposición que no contienen el 2 ni el 3 son: N n* 4 2 23 8,
las cuales se han encerrado entre paréntesis.

La selección de n elementos de una población N , equivale a lanzar n bolas en N compartimentos en los cuales pueden
caer desde 0 hasta n bolas.

Si se hace que la variable ai sea el número de bolas que caen en el compartimiento i, (i 1,2,3,... N ) . La distribución
conjunta de las variables ai es una distribución polinomial con función de probabilidad dada por:

n!
Pr (a1 x1 , a 2 x2 , ......a N xN ) .P1x1 .P2x2 ....PNxN
( x1!).( x2 !).....( x N !)

En donde:

1 N
Pi P , ( i = 1,2,3,.....N) y n xi .
N i 1

Como cada variable ai (número de bolas que caen en el compartimiento i) se distribuye Binomial, entonces:

1
ai B(n, P) B(n, )
N
En éste contexto se tiene que:

1 n 1 1
E ( ai ) n.P n. , i ; V (ai ) n.P.Q n. ..1 ;
N N N N

2 n N 1 n2 ( N 1).n n 2
E ( a i2 ) V ( a i ) E (ai ) .
N N N2 N2

113 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

1 1
Cov(ai , a j ) n.Pi .Pj n. . E (ai , a j ) E (ai ).E (a j )
N N

2
n n n2 n
E ( ai , a j )
N2 N N2

2.9.1 Estimadores para la media y el total poblacionales en MAS con reemplazo.

Para la variable Y , la media y el total poblacionales en este caso, tendrán los siguientes estimadores:

ESTIMADOR ESTIMADOR

n (2.57)
y
Yˆ * y* i 1 i Yˆ * N.y *

2.9.2 Propiedades de los estimadores de la media y el total poblacionales en el MAS con reemplazo

Propiedad 2.24: Insesgamiento del estimador de la media poblacional en el MAS con reemplazo
El estimador de la media poblacional Yˆ * es un estimador insesgado en el MAS con reemplazo.
Demostración// n
yi
Yˆ * i 1

n
Calculando el valor esperado a ambos lados, se tiene:

n
yi n
1
E (Yˆ * ) E i 1
.E yi
n n i 1

Si la variable ai toma el valor 1 ó el valor 0, en cada elección, la unidad U i pertenecerá ó no a la muestra, entonces esta
variable indicará el número de veces que la unidad U i aparece en la muestra.

Usando esta variable auxiliar y aplicando los resultados de ella establecidos anteriormente:

114 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

n N N
1 1 1
E (Yˆ * ) .E yi .E yi .ai yi .E (ai )
n i 1 n i 1 n i 1

N N
yi
1 1 n
E (Yˆ * ) yi .E (ai ) . yi . i 1
Y
n i 1 n i 1 N N

Ejemplo 2.26
Generando todas las posibles muestras con repetición de tamaño n 3 para la población integrada por:
U 1 ( y1 2.8); U 2 ( y 2 3.5); U 3 ( y 3 2.8) , verifique el insesgamiento del estimador Yˆ * .

Solución//
3
El total de muestra de tamaño 3 será: N 33 27 y se representan a continuación:

U1 U 1 ,U 1 ,U 1 U1 U 2 ,U 1 ,U 1 U1 U 3 ,U 1 ,U 1
U1 U 2 U 1 ,U 1 ,U 2 U1 U 2 U 2 ,U 1 ,U 2 U1 U 2 U 3 ,U 1 ,U 2
U3 U 1 ,U 1 ,U 3 U3 U 2 ,U 1 ,U 3 U3 U 3 ,U 1 ,U 3
U1 U 1 ,U 2 ,U 1 U1 U 2 ,U 2 ,U 1 U1 U 3 ,U 2 ,U 1
U1 U2 U2 U 1 ,U 2 ,U 2 U 2 U2 U2 U 2 ,U 2 ,U 2 U 3 U2 U2 U 3 ,U 2 ,U 2
U3 U 1 ,U 2 ,U 3 U3 U 2 ,U 2 ,U 3 U3 U 3 ,U 2 ,U 3
U1 U 1 ,U 3 ,U 1 U1 U 2 ,U 3 ,U 1 U1 U 3 ,U 3 ,U 1
U3 U2 U 1 ,U 3 ,U 2 U3 U2 U 2 ,U 3 ,U 2 U3 U2 U 3 ,U 3 ,U 2
U3 U 1 ,U 3 ,U 3 U3 U 2 ,U 3 ,U 3 U3 U 3 ,U 3 ,U 3

De acuerdo con este resultado la distribución probabilística de Yˆ * , de la siguiente manera:

Distribución probabilística de Y
ˆ

Yˆi 8 .4 9 .1 9 .8 10.5 Total


3 3 3 3
Pr (Yˆ ) 8 12 6 1 1
27 27 27 27

Calculando el valor esperado de Yˆ * :


245.7 9.1
E (Yˆ * ) Yˆ * .Pr (Yˆi * )
4
1 i
Y
i
81 3

115 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Propiedad 2.15: Insesgamiento del estimador del total poblacional en el MAS con reemplazo

De la propiedad anterior se deduce que el estimador del total Yˆ * N . y * , es un estimador insesgado en el MAS con
reemplazo.

E (Yˆ * ) E(N.y * ) N .E ( y * ) N .Y Y

Propiedad 2.25: La varianza del estimador de la media poblacional en el MAS con reemplazo
 
Para el MAS con reemplazo, la varianza de la media muestral viene expresada por:

N 1 S2
V (Yˆ * ) . (2.58)
N n

Demostración//

n
yi n
1
V (Yˆ * ) V i 1
.V yi
n n2 i 1

Usando la variable auxiliar a i y aplicando sus resultados y las notas explicadas en él MAS sin reemplazo, se tiene:

N N
1 1
V (Yˆ * ) .V yi .ai V ( yi .ai ) Cov ( yi .ai , y j .a j )
n2 i 1 n2 i 1 i j

N
1
V (Yˆ * ) yi2 .V (.ai ) yi . y j .Cov ( ai , a j )
n2 i 1 i j

N
1 n N 1 n
V (Yˆ * ) yi2 . . yi . y j .
n2 i 1 N N i j N2

1 n N 1 N 2 n
V (Yˆ * ) . . yi . yi . y j
n2 N N i 1 N2 i j

Factorizando y aplicando la nota vista en el MAS sin reemplazo sobre el cuadrado de una sumatoria, se tiene:

116 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

N N 2 N
1
V (Yˆ * ) N 1. y 2
i . yi yi2
n.N 2 i 1 i 1 i 1

N N 2 N N 2
1 N 1
V (Yˆ * ) N. y 2
i . yi y 2
i yi
n.N 2 i 1 i 1 n.N 2 i 1 N i 1

N 2

N
yi N
1 1
V (Yˆ * ) y 2
i N i 1
. yi2 N .Y 2
n.N i 1 N n.N i 1

Recuerde que:

( yi Y )2 y i2 N .Y 2

Luego:

N
1 ( N 1) ( N 1) 2
V (Yˆ * ) . ( yi Y ) 2 . .S
n.N i 1 ( N 1) n.N

Ejemplo 2.27
Utilizando la información del ejemplo 2.26 y calculando para la función de probabilidad de Y , se tiene:
ˆ
 

4 2 8.82 0.98
V (Yˆ * ) Yˆ * E (Yˆ * ) .Pr (Yˆ * ) 0.03629
i 1 243 27
Aplicando la formula mostrada en la propiedad anterior:

( N 1) 2 2 0.49 0.98
V (Yˆ ' ) .S . 0.03629
n.N 3.3 3 27

Propiedad 2.26: Varianza para el estimador del total en el MAS con reemplazo

De la propiedad anterior se deduce que para el estimador del total en el MAS con reemplazo, su varianza será:

117 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

( N 1) 2 N .( N 1) 2
V (Yˆ * ) V ( N .Yˆ * ) N 2 .V (Yˆ * ) N 2. .S .S (2.59)
n.N n
Propiedad 2.27: Valor esperado de la cuasivarianza muestral el MAS con reemplazo
n
( yi Yˆ * ) 2
2 i 1
La cuasivarianza muestral s * en el MAS con reemplazo tiene como valor esperado:
n 1

2 N 1 2
E (s* ) .S .
N
Demostración//

n n n 2
2
(n 1).s * ( yi y* )2 ( yi Y Y y* )2 ( yi Y ) ( y * Y )
i 1 i 1 i 1
n n n
2
(n 1).s * ( yi Y ) 2 2.( y * Y ). ( yi Y ) ( y* Y )2
i 1 i 1 i 1
n
*2
(n 1).s ( yi Y ) 2 2.( y * Y ). n. y * n.Y n.( y * Y ) 2
i 1

n
2
(n 1).s * ( yi Y ) 2 n.( y * Y ) 2
i 1

Utilizando la variable auxiliar y sacando valor esperado:

N N
2
(n 1).E ( s * ) E ( yi Y ) 2 .ai n.E ( y * Y ) 2 ( yi Y ) 2 .E (ai ) n.V ( y * )
i 1 i 1

*2
N
n2 ( N 1) S 2 n ( N 1) 2
( n 1).E ( s ) ( yi Y) . n. . ( N 1).S 2 . .S
i 1 N N n N N

Factorizando y simplificando

2 ( N 1) 2
E (s* ) .S
N

Propiedad 2.28: Insesgamiento del estimador de la varianza del estimador de la media poblacional en el MAS con
reemplazo
*
De la propiedad anterior se deduce que un estimador insesgado de V ( y ) en el MAS con reemplazo viene dado por:

118 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
1 *2
Vˆ ( y * ) .s (2.60)
n

1 *2 1 2 1 N 1 2
E V ( y*) E v( y * ) E .s .E ( s * ) . .S V ( y* )
n n n N
Ejemplo 2.28
*2
Utilizando el ejemplo 2.26, se puede escribir la distribución probabilística de la variable aleatoria s y , y por lo tanto de la

variable aleatoria Vˆ (Yˆ * ) , obteniendo:

Distribuciones Probabilísticas
Sˆ *y2
Sˆ *y2 Vˆ (Yˆ ) Pr ( Sˆ *y2 )
n
0 0 9
27
2.94 2.94 18
18 54 27
Por lo tanto:

2
5.88 0.98
E Vˆ (Yˆ * ) Vˆ (Yˆ * ) i .Pr (Vˆ (Yˆ * ) i ) V (Yˆ * )
i 1 162 27

Propiedad 2.29: Insesgamiento del estimador de la varianza del estimador del total en el MAS con reemplazo

De la propiedad 2.28, se deduce que un estimador insesgado de V (Yˆ


*
) en el MAS con reemplazo será:

N 2 *2
Vˆ (Yˆ * ) .s (2.61)
n

N 2 *2 N2 2 N 2 ( N 1) 2 N .( N 1) 2
E Vˆ (Yˆ * ) E .s .E ( s * ) . .S .S V (Yˆ * )
n n n N n

2.9.3 La proporción y el total vía proporción en el MAS con reemplazo

Si se está interesado en la proporción y el total de unidades que tienen determinada característica C, utilizando un MAS con
reemplazo y considerando a' como el total de unidades que en la muestra con reemplazo tienen la característica C, entonces
los estimadores para la proporción y el total son respectivamente:

ESTIMADOR ESTIMADOR
(2.62)

a* Aˆ * N .Pˆ *
Pˆ * p*
n

119 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

2.9.4 Propiedades de los estimadores de la proporción y del total poblacionales mediante el uso del MAS con
reemplazo

Propiedad 2.30: Insesgamiento del estimador de la proporción poblacional en el MAS con reemplazo
 

El estimador para la proporción poblacional mediante el uso de un MAS con reemplazo es un estimador insesgado

Demostración//

Si cuando cualquier elemento U i de la muestra o de la población pertenece a la clase C para la característica analizada se
asigna 1 y 0 en caso contrario entonces se tiene la variable Y.

1 si U i C
yi
0 si U i C

n
En este contexto, a* yi y aplicando propiedades antes vistas, se tiene:
i 1

n
yi  
* a* i 1 *
E( p ) E E E( y ) Y P
n n  

Ejemplo 2.29
Suponga que la población está conformada por 5 casas algunas de ellas con vigilancia policial. Represente la población por el
conjunto:

C1 (V ); C 2 ( NV ); C 3 (V ); C 4 (V ); C 5 ( NV )
V : Casa vigilada; NV : Casa no vigilada

3
En estas condiciones de acuerdo a si la casa tiene vigilancia policial, se tiene el siguiente parámetro: P .
5
Si se consideran todas las posibles muestras de tamaño n 3 con repetición que se puedan formar con dicha población, se
*
tiene la siguiente distribución probabilística para la variable aleatoria P̂ : proporción de casa vigilada

*
Distribución probabilística de P̂
Pˆi* 1 2 1 0 Total
3 3
Pr ( Pˆi* ) 27 54 36 8 1.0
125 125 125 125

120 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

*
Ahora calculando el valor esperado de P̂ :

4
75 3
E ( Pˆ * ) Pˆi* .Pr ( Pˆi* ) P
i 1 125 5

Propiedad 2.31: Insesgamiento del estimador del total vía proporción en el MAS con reemplazo

Con base en la propiedad anterior, si se trata del estimador del total de unidades poblacionales que pertenecen a la clase C ,
un estimador insesgado usando MAS con reemplazo es:

E ( Aˆ * ) E ( N .Pˆ * ) N .E ( Pˆ * ) N .E ( p * ) N .P A
Propiedad 2.23: Varianza del estimador de la proporción poblacional en el MAS con reemplazo

Usando el MAS con reemplazo, la varianza del estimador de la proporción de unidades que pertenecen a la clase C , viene
dada por:

P.Q
V ( Pˆ * ) . (2.63)
n

Demostración//

En él MAS con reemplazo:

N 1 S2
V (Yˆ * ) .
N n

Pero para proporciones:

N .P.Q
S2
N 1
Luego:

N 1 1 N .P.Q P.Q
V ( p * ) V (Yˆ * ) . .
N n N 1 n
Ejemplo 2.30
*
Utilizando la distribución de ejemplo anterior encontrar la varianza del estimador de P̂ y mostrar que satisface la propiedad
2.23.

Solución//

121 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
4
2 2250 2
V ( Pˆ * ) Pˆi* E ( Pˆ * ) .Pr ( Pˆi* )
i 1 28125 25
Si se aplica la fórmula de la propiedad 2.23 se encuentra que:

3 .2
P.Q 5 5 6 2
V ( p* )
n 3 75 25
Propiedad 2.32: Varianza del estimador del total vía proporción en el MAS con reemplazo
 
*
De la propiedad anterior se puede deducir que para la varianza del estimador del total  al usar un MAS con reemplazo, se
tiene:
P.Q
V ( Aˆ * ) V ( N .Pˆ * ) N 2 .V ( Pˆ * ) N 2. (2.64)
n

Propiedad 2.33: Insesgamiento del estimador de la varianza para el estimador de la proporción poblacional en el MAS
con reemplazo
Si se usa un MAS con reemplazo, un estimador insesgado para V ( Pˆ
*
) , viene dado por:

p * .(1 p * ) p * .q *
Vˆ ( Pˆ * ) v( p * ) (2.65)
n 1 n 1
Demostración//

Calculando el valor esperado a ambos lados:

* p * .q * n 1 n. p * .q * 1 2
E (v ( p )) E . .E . .E ( s * )
n 1 n n n 1 n

2 N 1 2 N .P.Q
Pero E (s* ) .S y S 2
N N 1
Luego:

1 2 1 N 1 N .P.Q P.Q
E (v( p * )) .E ( s * ) . . V ( Pˆ * )
n n N N 1 n
Ejemplo 2.31
*
Utilizando la distribución de P̂ presentada en el ejemplo 2.29, se puede establecer la distribución probabilística de Vˆ ( Pˆ * ) ,
presentada en la siguiente tabla:

122 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Distribución probabilística de Vˆ ( Pˆ )
Vˆ ( Pˆ * ) i 0 1 Total
9
Pr Vˆ ( Pˆ * ) i 35 90 1.0
125 125

Calculando el valor esperado para Vˆ ( Pˆ * ) , se tiene:

3
1 90 2
E Vˆ ( Pˆ * ) Vˆ ( Pˆ * ) i .Pr Vˆ ( Pˆ * ) i .
i 1 9 125 25

Propiedad 2.34: Insesgamiento del estimador de la varianza del estimador del total vía proporción en el MAS con
reemplazo

De la propiedad anterior, se deduce que en el MAS con reemplazo un estimador insesgado de V ( Aˆ * ) , vendrá dado por:

p * .q *
Vˆ ( Aˆ * ) v( Aˆ * ) v( N .Pˆ * ) N .v( Pˆ * )
2
N . 2
(2.66)
n 1
2.10 EL MÉTODO BOOTSTRAP

La gran facilidad computacional de los últimos años ha revolucionado de forma muy profunda la metodología estadística. A
la luz de esta revolución surgieron diversas técnicas que permiten aproximar características de los estadísticos que
intervienen en la Inferencia Estadística en su triple vertiente: estimación puntual, estimación por intervalos y contraste de
hipótesis (Lombardía, et, al., 2004).
Este método de encontrar estimadores para parámetros poblacionales fue introducido por Efron en 1979. No usa muchas
hipótesis de trabajo ni demasiada teoría y está basado en el uso de técnicas computacionales. Este método básicamente
consiste en lo siguiente:

Sea X 1 ; X 2 ; X 3 ;.......; X N una población de tamaño N y de ella se obtiene una muestra aleatoria simple de
tamaño n ; la cual se representa por: S n x1 ; x2 ; x3 ;...; xn . Suponga que con base en la muestra seleccionada se
obtiene la estimación θˆn usando la estadística (estimador) θˆ .
De la muestra S n de tamaño n seleccionada anteriormente se obtienen k muestras con reemplazo del mismo tamaño

( n ) y para cada una de ellas usando la estadística θˆ se obtiene una estimación formando así un conjunto de k
estimaciones que será representado por: θˆ1 ; θˆ2 ; θˆ3 ;.......; θˆk .
* * * *

La distribución de los k valores de θˆ hallados se denomina DISTRIBUCIÓN EMPÍRICA DE BOOTSTRAP y


proporciona cuando k sea grande (número de muestras con reemplazo de tamaño n ) una aproximación a la distribución
Bootstrap de todos los posibles valores de la estadística θˆ que se puedan obtener generando repetidamente muestras con
reemplazo de S n .
La distribución empírica Bootstrap θˆ1* ;θˆ2* ;θˆ3* ;.......; θˆk* tiene las siguientes propiedades:

123 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Tiene como parámetro de centramiento el valor θˆn .
k
1
La media de la distribución Bootstrap θˆ * θˆi* es una estimación de la media de la distribución muestral de la
k i 1

estadística θˆ de todas las posibles muestras.


k
1
La varianza de la distribución Boostrap V (θˆ * ) (θˆi* θˆ * ) 2 es un estimador de la varianza de θˆn .
k 1i 1

Los percentiles correspondientes a 2 y (1 2) de la distribución Bootstrap serán los límites de confianza


ˆ
Bootstrap para el parámetro que se estima θ n con un nivel de confianza (1 ).

Este método se constituye en una solución a dos problemas que tiene la obtención de estimadores sobre parámetros
poblacionales relacionados con las varianzas de dichos estimadores. De una parte algunas estimaciones de varianza son
sesgadas y pueden ser muy pobres y por otro lado es difícil obtener expresiones exactas para algunos estimadores sobre todo
en encuestas complejas. Como puede verse el método Bootstrap depende de un amplio remuestreo a partir de n datos
muestrales y no de formulas para estimar la varianza. El método Bootstrap se puede aplicar a cualquier estadístico para
obtener la estimación de su varianza, este depende del muestreo con reemplazo por lo que la técnica funcionaría mejor, si
también se selecciona la muestra original con reemplazo y en presencia de muestras grandes (Scheaffer et al., 2007). Ver
también (Good, 2005).

Ejemplo 2.32
Con este ejemplo se explica la utilización del método Bootstrap.

La gráfica anterior corresponde a la población de la característica o variable X con N 2000 datos, en la cual se desea
estimar la Mediana poblacional mediante una muestra aleatoria simple de tamaño n 100 . Los datos de esta población son
hipotéticos y de ella se conoce la mediana la cual es igual a M e 10,0142

Se genera una muestra de arranque de tamaño n 100 de la cual se obtiene:

10,952  9,458  8,4341  11,5043  7,0874  11,9887  12,5536  7,2071  11,7318  9,0892  13,8962  5,5654  14,6628  7,68  12,1042  9,2841 

9,7944  9,1217  7,0066  7,6267  9,0056  11,6729  11,2985  10,5261  12,3581  7,9103  9,2098  10,5784  11,2991  9,7129  8,8975  10,4946 

9,7655  8,0828  11,9167  7,6815  8,9742  12,1017  9,7956  11,4582  8,6374  10,396  9,9486  11,748  12,5556  12,1375  7,8854  11,0582 

9,952  10,096  14,7081  11,409  9,4171  9,9939  12,3754  10,9359  10,1311  8,5509  10,0604  9,0535  10,1236  10,2437  10,9983  10,5228 

124 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
5,7206  12,3507  9,0384  12,0102  6,4585  10,1268  12,2098  10,139  11,7177  10,5274  9,8417  13,5381  9,4709  13,6276  6,6197  9,0125 

7,9259  7,5547  9,5851  10,7721  11,2999  9,0377  5,8557  14,4651  12,5134  10,5774  8,7081  10,2447  6,8644  10,9939  10,6439 

10,5699  8,3156  8,3348  10,3298  9,9076  8,9122  8,6222  11,2546  10,4296  9,4087  14,4948  7,4768  12,229  11,2021  8,6521 

9,16  9,0273  12,0025  10,8805  10,2637  7,2181  7,9829  7,5669  8,7858  10,7638  7,659  10,256  8,4605  12,2766  12,7057 

10,5781  11,4542  9,7952  11,5839  8,3772  9,5666  8,6311  9,3787  10,5468  9,5178  6,5981  7,4882  14,3998  7,7431  9,1334 

9,5889  9,4961  10,3438  11,5098  9,8045  11,0086  9,1883  9,9826  12,6993  11,5225  14,7001  9,1175  8,5896  11,5921  12,5756 

9,0806  11,8687  9,9544  9,9421  9,2949  12,3687  8,2003  9,0289  7,8249  9,2083  10,5519  8,1081  7,1209  8,1471  10,9851 

13,0266  9,4215  11,1595  8,4408  8,8422  10,0139  8,9296  7,7699  10,3631  8,3093  7,4818  11,179  10,4445  11,8156  8,8878 

9,6063  10,0435  8,0184  10,9009  10,677  12,1916  10,9861  10,6336  10,8036  12,1865  10,0918  9,3259  6,0933  11,6417  10,4299 

ˆ
La mediana obtenida de esta muestra es M 10,0039
e

Para calcular la varianza se generan 200 muestras con reemplazo de la muestra generada en el punto anterior, para cada
muestra se encuentra la mediana obteniendo así la distribución Bootstrap de la mediana estimada.

El intervalo de confianza para la mediana poblacional M e al 95% de confianza es:

StDev 0,024957048
Me 95%
Mean Z 2 10.0141 (1,96). 9.992205; 10.03599 .
n 200

Este intervalo de confianza contiene la mediana poblacional la cual es M e 10,0142 . Note que no fue necesario conocer
la expresión matemática exacta de la varianza de la mediana estimada para poder encontrar un intervalo de confianza.

125 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

EJERCICIOS

Ejercicio 2.A
Generar 100 números aleatorios distribuidos normalmente con media 30 y desviación estándar 8.0 utilizando el paquete
estadístico MINITAB

Ayudas:
La siguiente figura muestra la pantalla principal del software MINITAB.

Para generar los números pueden seguirse las instrucciones ilustradas a continuación:

C4 es la columna donde el usuario desea almacenar los 100 datos generados


Nota:
En forma análoga se pueden generar números aleatorios con otras distribuciones estadísticas (ver cuadro de diálogo en
Random Data)

Ejercicio 2.B
Considerando los datos generados en el ejercicio 2.A y almacenados en la columna c4 como una población estadística.
Encontrar los indicadores estadísticos y obtener el histograma de frecuencias usando el paquete estadístico MINITAB.

Ayudas:

126 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
La obtención de los indicadores estadísticos se obtiene fácilmente mediante las siguientes instrucciones

127 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
El cuadro de diálogo anterior permite seleccionar los indicadores estadísticos requeridos. Una vez seleccionados marcar OK
para obtener la salida suministrando los indicadores seleccionados como se muestran en la salida proporcionada por el
software.

Para la gráfica debe seguirse el siguiente diálogo

128 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Graph

Histogram

Esta opción permite obtener


el histograma y la curva
normal ajustada a los datos

Después de marcar OK se presenta el siguiente cuadro de diálogo para indicar otras especificaciones para el gráfico
solicitado. Marcando OK en este último cuadro de diálogo se obtiene el gráfico solicitado.

129 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Ejercicio 2.C
Generar 8 distribuciones normales de tamaño N 15 cada una y con parámetros 0.0 y 2 . Usando el paquete
MINITAB

Ayudas
Apóyese en el ejercicio 2.A y tenga en cuente el siguiente cuadro de diálogo

Calc

Random Data

Normal

El resultado será:

130 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Ejercicio 2.D
Utilizando la base de datos RAKAN genere una muestra sin reemplazo de n 300 registros y estime:
a) El ingreso promedio familiar y su varianza (variable involucrada ING-FAMI)
b) Área construida promedio del predio y su varianza (variable involucrada AR-DE-PRE)
c) Total de niños/niñas y su varianza (variable involucrada NIÑOS/NIÑAS)
d) Proporción de familias que tienen vehículo y su varianza (variable involucrada TEN-VEHI)

e) Total de viviendas que tienen más de 2 niños en la vivienda y su varianza (variable involucrada NIÑOS/NIÑAS)
f) Total de familias que viven en vivienda propia y su varianza (variable involucrada VIVI-PRO)
g) La proporción de ingreso familiar gastado en alimentos y su varianza (variables involucradas GAST-ALI y ING-FAMI)
h) Proporción de niños por vivienda y su varianza (variables involucradas NIÑOS/NIÑAS y NUM-PER)

Ejercicio 2.1
Un campesino cultivador de maracuyá tiene un cultivo de 1200 plantas sembradas en forma rectangular compuesta de 30 filas
y 40 columnas. Ver figura

40 plantas
30 plantas

Usted como especialista en muestreo es contratado para seleccionar una muestra aleatoria de 15 plantas de maracuyá de
dicho cultivo. Explique brevemente como seleccionar una muestra aleatoria simple

131 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Ejercicio 2.2
Si la variable X se comporta como una Binomial; X B (n, p ) y con base en una muestra de tamaño n* se definen los
estimadores: a) p1 x n y b) p2 x (n 1) . Determine para cada uno si es segado o insesgado.

Ejercicio 2.3

n
Si se define el estimador de la media poblacional como c x para la variable X con base en una muestra de
i 1 i i
n
tamaño n . Muestre que dicho estimador es insesgado si i 1 i
c 1 . La combinación lineal de X se denomina convexa

Ejercicio 2.4

n n
Muestre el insesgamiento del estimador de la media poblacional definido por: i 1
i.xi i 1
i

Ejercicio 2.5
La siguiente información corresponde a la medición de la variable X para una población de tamaño N 6:

x1 2.2; x2 3.1; x3 4.0; x4 3.5; x5 5.1; x6 4,2 .

a) Encuentre para la poblacion los siguientes parámetros:

La media poblacional La varianza poblacional La cuasivarianza poblacional


1 N 2 1 N 1 N
i 1 i
x i 1
( xi )2 S2 i 1
( xi )2
N N N 1

N N!
b) Encuentre todas las muestras posibles sin reemplazo de tamaño n 4; k
n ( N n)!.n!

c) Para cada muestra encuentre:

La media muestral La cuasivarianza muestral


1 n 1 n 1 n
x i
x
1 i
s2 i 1
( xi x )2 2
i 1 i
x nx 2
n n 1 n 1

1 k
d) Encuentre la media de las medias muestrales: E( x ) i 1 i
x
k
e) Encuentre la varianza de las medias muestrales:

2 1 k (N n) S 2 S2
x i 1
( xi E ( x ))2 , compare con la expresión: V ( x ) (1 f)
k N n n

1 k
f) Encuentre la media de las cuasivarianzas muestrales; es decir: E (s 2 ) 2
s ; ¿será igual a S 2 ?.
i 1 i
k

132 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
N
g) Encuentre el total de la variable X : X x
i 1 i

h) Encuentre el total para la variable X usando la expresión: Xˆ N .x para cada muestra hallada en b). (resultan tantos
valores como muestras)
1 1
E ( Xˆ ) Xˆ i y ( Xˆ i E ( Xˆ ))2
k 2 k
i) Encuentre la media y la varianza de los valores de X̂ es decir: i 1 Xˆ i 1
k k
ˆ
j) Compare los valores anteriores con los hallados por las expresiones: E ( X ) N .E ( x ) y, opine. 

Ejercicio 2.6
La siguiente información corresponde a la observacion para la variable X (Atributo: si; no) en ulna población de tamaño
N 6:
x1 si; x2 si; x3 si; x4
si; x5 no; x6 no
A
a) Encuentre la proporción poblacional para la respuesta “si”: P ; A es el total de los resultados “si” en la población.
N
a
b) Encuentre para todas las muestras de tamaño n=4 los valores p ; a es el total de resultados “si” en la muestra.
n
1 k
c) Encuentre E ( p) pi . ¿Será igual a P ? Opine.
k i1
1 n ( N n) P(1 P)
d) Encuentre p2 ( pi E ( p))2 . Compare con el resultado obtenido por la expresion: V ( p) .
i 1
k ( N 1) n
e) Encuentre para cada valor de p muestral el valor aproximado para el total de resultados “si” mediante la expresion:
Aˆ Np

1
E ( Aˆ ) Aˆi ; ¿se parece este resultado al valor A obtenido en
k
f) Encuentre con los resultados de 2e) el promedio i 1
k
2a)?

1
( Aˆi E ( Aˆ ))2 y
2 k
g) Encuentre la varianza para los valores encontrados en 2e) es decir use la expresion: Aˆ i 1
k
ˆ ) N V ( p)
compare el valor encontrado cuando se usa la expresión: V ( A
2

h) Realice una tabla de frecuencias para todos los valores de x obtenidos en c). Esta tabla se denomina “DISTRIBUCIÓN
DE FRECUENCIAS DE LA MEDIA MUESTRAL”

i) Realice una tabla de frecuencias para todos los valores de p obtenidos en b). Esta tabla se denomina “DISTRIBUCIÓN
DE FRECUENCIAS DE LA PROPORCION MUESTRAL”

j) Realice los gráficos que usted estime convenientes para las tablas confeccionadas en los literales i) y j).

Ejercicio 2.7
Para conocer la opinion de los habitantes de la ciudad de Cali sobre la privatización de las empresas municipales, el sindicato
de las mismas recabó firmas en 800 hojas cada una con espacio suficiente para 40 firmas.
Al tomar una muestra de 60 hojas (el 7.5% del total) se encontró lo siguiente:

133 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
yi 40 38 36 32 29 27 23 19 16 15 14 11 10 9 7 6 5 4 3 Total
fi 23 4 1 4 5 2 1 1 2 2 1 1 4 1 1 3 2 1 1 60

yi : Número de firmas en la i-ésima hoja; f i : Número de hojas con yi firmas

Estimar el número total de firmas recabadas y los límites de confianza al 90%

Ejercicio 2.8
Con referencia al ejercicio anterior considere que posteriormente se encuentra la totalidad de hojas con exactamente 40
firmas y que fue 340. Use esta información para mejorar la estimación del total de firmas Y recabadas y encuentre el error
estándar de estimación.

Ejercicio 2.9
En un barrio de la ciudad ABC se tomó ulna muestra de 33 familias y en cada ulna se investigó el número de las personas que
la conforman ( X 1 ), el ingreso semanal de la familia ( X 2 ) y los gastos semanales en comida ( Y ). La información se
resumió de la siguiente manera:

x12i 633; x1i yi 364.7; x2i 180230; yi2 29470; x2i yi 68730; x1i 128;

x1i 128; x2 i 2540 ; yi 908 .9

a) Estimar el gasto promedio semanal en alimentación por familia y su varianza


b) Estimar el gasto promedio semanal en alimentos por persona y su varianza
c) Estimar el porcentaje del ingreso familiar gastado en alimentos

Ejercicio 2.10
2
Se ha tomado una muestra de tamaño n en una población considerada normal: X N( ; ) . Con base en dicha muestra
se determinan dos estimadores para la media poblacional:

1 1
Xˆ 1 x ; Xˆ 2
n n
1 i i 1 i
x
n 1 i
n 1
Determine el mejor estimador al considerar el error cuadrático medio de cada uno.

Ejercicio 2.11
2
De una población distribuida normal con parámetros N ( ; ) se toma una muestra de tamaño 20 de tal manera que:
20 20 2
i 1 i
x 220,3256 x
i 1 i
2725,90792 . Encuentre un intervalo al 95% de confianza para la media de dicha población.

Ejercicio 2.12
Demuestre que al tomar una muestra aleatoria simple de tamaño n , de una población normal con media conocida e igual a
1 n
,los estimadores siguientes para la varianza poblacional
2
son insesgados: s12 ( xi x )2 ;
n 1 i 1

1 n
s22 ( xi )2 .
n i 1

134 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Ejercicio 2.13
2 2
De una población con media y varianza : yi N( ; ),
n
ˆ i 1 i i
ay
Se toma una muestra aleatoria simple de tamaño. Para los estimadores de la media A n y de la varianza
i 1 i
a
Aˆ ) 2
n
a ( yi
Bˆ i 1 i
se pide:
n

a) Encuentre E ( Aˆ ) y V (Aˆ )
b) La varianza E (Bˆ )
n
Nota: i 1 i
a 1.0

Ejercicio 2.14
Suponiendo que los elementos de una muestra no son independientes y que todas las muestras en este caso tienen un
1 n
coeficiente de correlación r , encuentre la esperanza de la cuasivarianza muestral s 2 ( xi x )2 .
n 1 i 1

Ejercicio 2.15
2
Una población distribuida normal con media desconocida y varianza conocida 16 se toman muestras aleatorias
simples de tamaño n 3 , y con ellas se determinan los siguientes estimadores para la media poblacional:

1 1 1
ˆ1 0,70 x1 0,15 x2 0,15 x3 ; ˆ 2 3 x3 2 x1 ; ˆ 3 x1 x2 x3
3 3 3
¿Cuál de los estimadores propuestos es el mejor al considerar su insesgadez y su varianza?

Ejercicio 2.16
2
De una población con media y varianza se toman muestras aleatorias simples de tamaño n para utilizar los siguientes
estimadores. Encuentre para cada uno el valor esperado y la varianza, comente.

n n
x (i) xi
θˆ i 1 i
; ˆ i 1
n
n i
i 1

Ejercicio 2.17
1 ni
Se toman m muestras aleatorias simples de tamaño ni. En cada muestra se obtiene el estimador si2 ( xi x )2
ni 1 i 1

m 2
2
ns
i 1 i i 2
Demuestre que el estimador s m es un estimador insesgado de
i 1 i
n m

135 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Ejercicio 2.18
En una población con media y varianza
2
se toman dos muestras aleatorias simples de tamaño n1 y n2 e independientes
entre sí. Demuestre que la estimación de la media poblacional mediante la reunión de las dos muestras ( n1 n2 ) es más
eficiente que la proveniente de cada una por separado.

Ejercicio 2.19
Demuestre que la cuasivarianza muestral es un estimador consistente de la varianza poblacional en una distribución
2
N( , )

Ejercicio 2.20
La siguiente tabla corresponde a una población de tamaño N 5 en la que han sido medidas las variables X e Y con los
siguientes resultados:

Unidades
U1 U2   U3   U4   U5  
poblacionales
Variables x1 y1 x2 y2 x3 y3 x4 y4 x5 y5
Valores de
4 12 3 10 5 14 2 8 6 16
las variables

2
N xi yi Y N 2 N ( xi X ) N ( xi X )( yi Y )
a) Calcule: X ;Y ; R ; S X ; Cov ( x , y ) S xy
i 1
N i 1
N X i 1
N 1 i 1
N 1
b) Escriba todas las muestras de tamaño n 3 sin reemplazo y escriba las distribuciones probabilísticas de los siguientes
estimadores:
y ˆ2 ˆ ( xi x )( yi y)
Xˆ x ; Yˆ y; Rˆ Sˆ xy
n
; S X ; Cov( x, y )
x i 1
n 1

c) Compruebe que: E ( X
ˆ X ; E ( Rˆ ) R; E ( Sˆ X2 ) S X2 ; E ( Sˆ xy ) S xy
N n 1 N N n
d) Verifique que Cov( x , y ) S xy ( xi X )( yi Y ) .S xy
Nn N 1 i 1
Nn
ˆ 1 k ˆ N ˆ (1 f ) 2 n
e) Calcule V ( X ) ( X i E ( Xˆ )) 2 ; k y verifique que V ( X ) Sx ; f
k i 1
n n N
ˆ (1 f ) 2
f) Escriba la distribución de Vˆ ( X ) v( x ) S x y compruebe que:
n
k Vˆ ( x ) i N
E (Vˆ ( Xˆ )) E (v( x )) V ( ˆ ); k
X
i 1
k n
k R ˆ k (R ˆ E ( Rˆ ))2 N
g) Calcule E ( Rˆ ) i
; Sesgo ( ˆ ) B( Rˆ ) E ( Rˆ ) R ; V ( Rˆ )
R i
; k y
i 1
k i 1
k n
2
compruebe que: ECM ( Rˆ ) V ( Rˆ ) B ( Rˆ )

136 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Ejercicio 2.21
x xθ
Se sabe que la variable X tiene como función de densidad f ( x;θ ) e cuando x 0.
θ 2

1
θˆ
n
Se define como estimador de θ al estadístico i 1 i
x con base en muestras aleatorias simples de tamaño n . ¿ es
2n
éste estimador consistente?

Ejercicio 2.22
2
Una variable aleatoria X tiene media y varianza . Para estimar la media poblacional, se toma una muestra aleatoria
kx1 (n k ) xn
simple de tamaño n , y se considera el estimador de la media a la función: H ; k < n. Demuéstrese la
n
consistencia de dicho estimador.

Ejercicio 2.23
Demostrar que la media muestral obtenida mediante una muestra aleatoria simple de tamaño n , para una población que se
2
distribuye normal N ( ; ) es un estimador consistente de la media poblacional.

Ejercicio 2.24
La siguiente tabla de frecuencias corresponde a una muestra aleatoria simple de n 91 unidades en una población normal
2
X N( ; ) , construya un intervalo de confianza para la media poblacional a nivel del 90%. Considere una población
grande.

Clase ni fi ni n
08;10 8 0,08791209
10;12 20 0,21978022
12;14 36 0,3956044
14;16 21 0,23076923
16;18 6 0,06593407
Total 91 1.0

Ejercicio 2.26
Resuelva el problema (2.25) utilizando el teorema de Tchebycheff (suponiendo que no se conoce la distribución de la
población).

Xˆ k ( Xˆ k ; Xˆ k) (12,9340661 0,07211601;12,9340661 0,07211601)  

137 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 

Ejercicio 2.27
De una población normal grande se ha extraído una muestra aleatoria simple de tamaño 10 y se ha encontrado como intervalo
de confianza para la media poblacional que 0, 45 3,88 a un nivel del 90%.

a) Obtener el coeficiente de variación muestral.


b) ¿Se puede aceptar la hipótesis de que la media poblacional sea igual a 4,2? Explique.

Ejercicio 2.28
Dada la población 2; 4; 6; 8; 10. , obteniendo las muestras aleatorias simples de tamaño tres ( xi , x j , xk ) extraídas
sin reemplazo: Encuentre las distribuciones de los siguientes estimadores:

a) La media muestral.
b) La cuasivarianza muestral.
c) El mínimo valor.
d) El rango muestral.

Ejercicio 2.29
Estudie las propiedades de insesgadez, eficiencia y consistencia de los siguientes estimadores de la media poblacional:
5
x
i 1 i
ˆ1 y ˆ2 ( x1 x3 x5 ) ( x2 x4 ) en una población normal X N ( ;1) . Al obtener de ella una
5
muestra de tamaño n 5 .
Ejercicio 2.30
La variable X N ( ; 2 ) ; se toman muestras aleatorias simples de tamaño n y se determinan los siguientes estimadores
para la media poblacional:

1 n 1 n
ˆ1 x;
i 1 i
ˆ2 x1; ˆ3 x
i 1 i
n n 1
a) Estudiar la insesgadez, la eficiencia relativa y la consistencia de los anteriores estimadores
b) Elegir el mejor estimador en términos del ECM.

Ejercicio 2.31
En una distribución X B (2; p ) los valores de la variable son 0; 1 y 2 sobre la posesión de un determinado atributo.

n x n x 2 x 2 x
La distribución de la variable aleatoria es la siguiente Pr ( X x) pq pq
x x

x 0 1 2
Pr ( X x) q 2
2 pq p2

Tomando muestras aleatorias de tamaño n 2 (dos valores de x), estudiar mediante la distribución muestral la insesgadez
de los siguientes estimadores para p :

138 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
x x
pˆ1 ˆ2
y p
2 3
Ejercicio 2.32
Con una muestra aleatoria simple de n 30 familias obtenida de la comuna C-20 de una ciudad, la cual de acuerdo con el
último censo tiene 15000 familias, se obtiene la siguiente información sobre la variable X : Número de personas que
componen la familia.

5 6 3 3 2 3 3 3 4 4 3 2 7 4 3 5 4 4 3 3 4 3 3 1 2 4 3 4 2 4

30 30 2
i
x
1 i
104; i 1 i
x 404
Estimar el número total de personas en la comuna y la probabilidad de que el verdadero valor este dentro del 10 % del
valor estimado.

Ejercicio 2.33
En un estudio sobre el posible uso del muestreo para estimar las existencias en bodega de ciertos artículos, se realizó un
conteo del valor de cada de los artículos contenidos en 40 estantes de la bodega. La información corresponde a miles de euros
por estante.

29  38  42  44  45  47  51  53  53  54 
61  61  61  62  64  65  65  67  67  68 
56  56  56  58  58  59  60  60  60  60 
69  71  74  77  82  85  90  72  70  58 

La estimación solicitada a partir de la muestra debe tener un error máximo de 300 con una probabilidad de 19/20. Un
estadístico sugiere que la muestra aleatoria simple de 12 estantes es suficiente para realizar la estimación. ¿Está usted de
acuerdo?

Ejercicio 2.34
Se recabaron firmas para una petición en 800 hojas. Cada hoja tiene espacio para 50 firmas encontrándose los siguientes
resultados:
X i : Nº de firmas de la hoja 50 41 36 32 29 27 23 19 16 15

f i : Frecuencia 23 4 1 1 1 2 1 1 2 2

X i : Nº de firmas de la hoja 14 11 10 9 7 6 5 4 3

f i : Frecuencia 1 1 1 1 1 3 2 1 1

a) Estimar el total de firmas y establecer un intervalo de confianza para el valor verdadero (parámetro) con un nivel de
confianza del 80%.
b) Al contar el número de hojas llenas (con 50 firmas) se encontró que eran 330. Usando esta información mejore el
estimador del total de firmas. Encuentre el error estándar de estimación.

Ejercicio 2.35
Considere una muestra ( s i ) de tamaño n 2 obtenida de la población finita: y1 ; y 2 ; y3 . Considere las siguientes
estimaciones:

139 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
2 1 1 1 1 1
Eˆ ( s1 ) y1 y2 ; Eˆ ( s2 ) y1 y3 ; Eˆ ( s3 ) y2 y3
3 2 3 2 2 2

a) Compruebe que Eˆ ( s ) es un estimador insesgado.


b) Halle la varianza del estimador Eˆ ( s ) .

c) Muestre que V Eˆ ( s) < V ( y ) , suponiendo que los valores de y en la población son: y1 1; y2 2; y3 3 .

Ejercicio 2.36
En una población u1 ; u 2 ; u3 , obtener todas las muestras de tamaño n 2 con probabilidad igual y bajo los siguientes
supuestos:
a) Muestreo sin reposición considerando el orden de las unidades.
b) Muestreo sin reposición sin considerar el orden.
c) Muestreo con reposición sin considerar el orden.
d) Muestreo con reposición considerando el orden.

Escriba el espacio muestral y los valores de la función de probabilidad en cada caso.

Ejercicio 2.37
Una población de 5 unidades en donde cada elemento tiene la misma probabilidad de ser seleccionado en una muestra de
tamaño n 2 . Calcule el número de muestras posibles en cada caso:

a) Muestreo sin reposición y sin considerar el orden de las unidades.


b) Muestreo sin reposición y considerando el orden de las unidades.
c) Muestreo con reposición sin considerar el orden.
d) Muestreo con reposición considerando el orden.

Ejercicio 2.38
1 2 3
Se tiene una población u1 ; u 2 ; u3 con probabilidades de selección individuales respectivamente iguales a ; ; .
6 6 6
Si se obtienen muestras de tamaño n 2 , utilizando muestreo aleatorio simple sin reemplazo y sin importar el orden
obtener:

a) El espacio muestral y la función de probabilidad


b) Las probabilidades de cada unidad: i Pr (ui S) , S muestra .

Ejercicio 2.39
Una muestra de tamaño n, es un conjunto x1 ; x2 ; x3 ;.......xn de valores de X. Para que una muestra sea útil hay que
suponer que ella ha sido obtenida al azar con la función de probabilidad o densidad f ( xi ) . Esto significa que se cumplen las
siguientes condiciones:

140 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
Cada uno de los valores xi puede considerarse como un valor de una nueva variable aleatoria X i que tiene la misma
función de probabilidad o de densidad f ( xi ) que X y por lo tanto:

2 2
E( X i ) E ( X ); (Xi ) ( X ), i 1,2,3......, n

Las variables aleatorias X i son independientes.

Sea X 1 , X 2 , X 3 una muestra aleatoria de una población con media y desviación estándar . Considere los siguientes
estimadores puntuales:

1 1
ˆ1 ( X1 2 X 2 3X 3 ) ; ˆ2 ( X1 4 X 2 X3)
6 6
a) Probar que ambos estimadores son insesgados.
b) ¿Cuál de los dos es más eficiente?.
c) Hallar la eficiencia relativa.
d) Hallas un estimador insesgado para que la media poblacional sea más eficiente que los dos estimadores propuestos.

Ejercicio 2.40
Considerando la población U 1, 5, 6, 7, 8, 15 en la que se define el estimador: Yˆs para la media poblacional de la
siguiente manera:

Yˆs y c Cuando la muestra contiene a y1 pero no a y N


Yˆs y c Cuando la muestra contiene a y N pero no a y1
Yˆs y Para todas las demás muestras

a) Obteniendo todas las posibles muestras de tamaño n 2 , de la población U verifique que:

S y2 2c 7
V (Yˆs ) Y ; V (Yˆs ) (1 f ). ( yN y1 nc ) ; c
n N 1 4

b) Calcule las siguientes probabilidades analíticamente:

La muestra contenga a y1 .
La muestra contenga a y N .

La muestra contenga a y1 pero no a y N .


La muestra contenga a y N pero no a y1 .

141 
 
CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE (MAS)
 
 
La muestra contenga a y1 y a yN .

La muestra no contenga a y1 ni a y N .

Ejercicio 2.41
Se tiene una lista de 3000 nombres y direcciones y de ella se ha obtenido una muestra de n 200 nombres. Al revisar la
lista de la muestra se encuentra que hay 40 direcciones equivocadas. Estime el número total de direcciones equivocadas que
se necesitaría corregir en la lista y encuentre el error estándar de esta estimación.

Ejercicio 2.42
Una familia de 9 miembros está formada por 3 hombres y 6 mujeres. Encuentre la distribución de frecuencias para la variable
X: número de hombres en una muestra aleatoria de tamaño n 4

Ejercicio 2.43
Se tiene una población de tamaño N 6 dividida en dos dominios: A 4 y AC 2 , calcule el valor de a A para todas
las muestras aleatorias simples de tamaño. Verifique los teoremas correspondientes para la media y la varianza de p a n.
Verifique que un estimador insesgado de V ( p ) es:

N n
Vˆ ( p ) pq
N (n 1)

Ejercicio 2.44
Ante una propuesta de la Secretaría de Educación Municipal de la ciudad ABC se ha obtenido una muestra de n 200
rectores de la población de colegios de la ciudad establecida en N 2000 . Los resultados de la muestra fueron los
siguientes: 120 rectores estuvieron a favor de la propuesta, 57 se opusieron y 23 se abstuvieron de opinar. Estime los límites
de confianza al 95% para el número de rectores que en la población, favorecen la propuesta.

Ejercicio 2.45
Sea la población definida por: B1 ; C1 ; C 2 ; C3 ; D1 ; D2 ; D3 , se toma una muestra aleatoria simple de tamaño
n 4 con el fin de estimar la proporción de Cs/ respecto de (Cs/ Ds/ ) . Calcule las distribuciones condicionales de dicha
proporción p y verifique la fórmula de su varianza condicional. ¿Cuál es la probabilidad de que una muestra de tamaño
n 4 contenga la unidad B1 ?

Ejercicio 2.46 (Fernández et al. ,1995)


Sea θ (Y ) un parámetro poblacional, y θˆ un estimador insesgado para dicho parámetro. Construir un intervalo de confianza
al nivel de confianza 1 o superior, usando el teorema de Tchebichev.

Ejercicio 2.47 (Fernández et al. ,1995)


Estudie el sesgo del estimador de θˆ XˆYˆ respecto del parámetro θ XY en el MAS.

142 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

 
 
ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA

Introducción.
Ecuaciones fundamentales para la determinación de n (tamaño de la muestra).
Estimaciones adelantadas de la cuasivarianza poblacional.
Muestreo en dos pasos.
Por conocimiento parcial de la distribución de la característica analizada.
Tamaño de muestra para variables.
Tamaño de muestra para estimar la media poblacional con varianza deseada para el estimador igual a V0 .
Tamaño de muestra para estimar el total poblacional con varianza deseada para el estimador igual a V0 .
Tamaño de muestra para estimar la media poblacional con un error relativo deseado r.
Tamaño de muestra para estimar el total poblacional con un error relativo deseado r .
Tamaño de muestra para estimar la media poblacional con un coeficiente del estimador deseado C0 .
Tamaño de muestra para estimar el total poblacional con un coeficiente del estimador deseado igual a C0 .
El estimador de la media poblacional en presencia de la suma de dos muestras diferentes de la misma población.
Tamaño de muestra para atributos.
Estimación anticipada de P .
Tamaño de muestra para estimar la proporción P poblacional cuando se desea una varianza del estimador
igual a V0 .
Tamaño de muestra para estimar el total poblacional cuando se desea una varianza del estimador V0 .
Tamaño de muestra para estimar la proporción poblacional cuando se desea un error relativo r .
Tamaño de muestra para estimar la proporción P poblacional cuando se desea un coeficiente de variación
para el estimador igual a C0 .
Tamaño de muestra para estimar el total poblacional cuando se desea un error relativo r .
Tamaño de muestra para estimar el total poblacional cuando se desea un coeficiente de variación para el
estimador igual a C0 .
Errores asumidos por las estimaciones de los parámetros en variables que no definen el tamaño de la muestra.
La sensibilidad de la varianza del estimador.
Tamaño de muestra en subpoblaciones o dominios de estudio.
Los dominios se pueden identificar por adelantado.
Los dominios no se pueden identificar por adelantado.

143 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

La sensibilidad del tamaño de una muestra.


Falsa creencia sobre el comportamiento del tamaño de una muestra.
Relación entre el tamaño de muestra y el tamaño de la población.
El tamaño de muestra como función de cada uno de los elementos que la definen.
Costos y tamaño de muestra.
La precisión dependiendo del costo de recolección de información.
El costo de recolección de información dependiendo de la precisión del estimador.
Ajustes al tamaño de muestra debidos a la no respuesta y los costos del trabajo de campo.

144 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

3.1 INTRODUCCIÓN

Una vez definida y delimitada la población objeto de análisis en la investigación y de haber definido que la investigación se
realizará tomando una muestra aleatoria, se hace necesario determinar y adecuar el marco de muestreo que como se dijo antes
será el medio físico o electrónico a través del cual se obtendrán las unidades que conformarán la muestra.
El tamaño de muestra es un aspecto muy importante en el uso de cualquiera de los métodos probabilísticos de muestreo y
depende básicamente de dos factores: un error de muestreo prefijado y el nivel de confianza para que dicho error se
satisfaga.
Otros aspectos que inciden en el tamaño de la muestra son: la calidad y disponibilidad del marco de muestreo, el costo de
realización de una encuesta o medición, el presupuesto establecido para la recolección de la información (trabajo de campo)
entre otros.
Este capítulo se dedicará a establecer con cierto nivel de detalle las diferentes expresiones que se pueden usar para la
estimación de un tamaño de muestra cuando se usa un muestreo aleatorio simple.

3.2 ECUACIONES FUNDAMENTALES PARA LA DETERMINACIÓN DE n .

Son dos las expresiones fundamentales para la determinación del tamaño de una muestra:

La expresión de precisión.

Mediante esta se establece por parte del investigador el máximo error de muestreo permitido, vale decir la máxima
diferencia por debajo o por encima entre el valor dado por el estimador y el parámetro.

θˆ θ
θ : Parámetro, θˆ : Estimador, : Error de Muestreo.

La expresión de precisión y confiabilidad

Esta expresión establece para la precisión antes definida un nivel de confianza determinado o lo que es lo mismo una
probabilidad de que el error de muestreo antes establecido se cumpla.

Pr ( θˆ θ ) (1 )

En la expresión anterior, ( 1 ) recibe el nombre de nivel de confianza ( 0 < < 1 ). Este, aparece en las ecuaciones
del tamaño de muestra como el percentil Z ó t(1 )
dependiendo de sí se asume la distribución normal o la t-student.
2 2

Si se supone que la variable aleatoria θˆ se distribuye normal entonces se puede estandarizar en la expresión de precisión
y confiabilidad obteniendo:

θˆ θ
Pr (1 ) Z
V (θˆ) V (θˆ) 2
V (θˆ)
Ecuación  Fundamental 
que  define  el  tamaño 
de la muestra 

145 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

De la ecuación fundamental anterior se despeja la varianza del estimador lo que se llamará varianza deseada para el
estimador, esto es:

V0 V (θˆ) (3.1)
Z
2

De otro lado el estimador θˆ por ser una variable aleatoria tiene su correspondiente distribución probabilística de la cual se
obtiene la varianza teórica de θˆ , la cual depende básicamente del tamaño poblacional, la cuasivarianza poblacional de la
variable analizada y del tamaño de muestra n .

V (θˆ ) f ( N , S 2 , n) .

Al igualar la varianza deseada con la varianza teórica se halla la expresión para el tamaño de muestra necesario que satisface
los requerimientos establecidos en materia de precisión y confiabilidad.

2
La cuasivarianza poblacional para la variable analizada S no se conoce y como el tamaño de la muestra n quedará en
función de dicho valor. Se hace necesario estimar su valor en forma adelantada para lo cual se tienen 4 mecanismos básicos a
saber:

Mediante el uso de una pequeña encuesta piloto aplicada sobre la población objeto de estudio.
Por conocimiento parcial de la distribución de la característica analizada Y . Basándose en el rango y la forma de dicha
2
característica por métodos matemáticos se obtiene un valor adelantado de S .
Mediante el juicio de expertos, los cuales a su vez se basan en estudios similares.
Mediante una muestra en dos pasos.

3.3 ESTIMACIONES ADELANTADAS DE LA CUASIVARIANZA POBLACIONAL.

SE consideran en este apartado con algún nivel de detalle algunas de las formas estipuladas anteriormente para la estimación
adelantada de la cuasivarianza S 2 .

3.3.1 Muestreo en dos pasos

Algunas formas del uso de este método cuando se desea estimar la media poblacional Y son:
Se toma una muestre inicial de tamaño n1 y se obtienen mediante ésta los indicadores Ŝ12 , y
ˆ , luego se puede tomar uno
Y1
de los dos caminos (Cochram, 1980).

a) Cuando se supone un coeficiente de Variación para el estimador:

Sˆ12 Sˆ12 2 V (Yˆ )


n 1 8.C ;C (CV (Yˆ ))2 (3.2)
C.Yˆ 2
1 n .Yˆ 2
1 1
n1 E (Yˆ )

b) Cuando se supone una varianza V para el estimador:

146 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Sˆ12 2
n 1 ;V V (Yˆ ) (3.3)
V n1 Z 2

Nota
Se llega al valor de n final establecido, agregando unidades adicionales a las n1 , ya tomadas. En el primero de los casos la

estimación final de la media poblacional debe ajustarse mediante: Yˆ Yˆn .(1 2.C)para corregir el sesgo.

Nota
Una alternativa a las dos situaciones anteriores (Ospina, 2001), hace uso de la distribución t-student con ( n1 1 ) grados de
libertad, para el nivel de confianza de 100 .(1 )% , aquí max , significa máximo valor.

t(1 ), (n1 1)
. Sˆ12
2
n max n1 , 2
1 (3.4)

3.3.2 Estimación adelantada de S 2 por conocimiento parcial de la distribución de la característica analizada


(conjetura)

2
Se utilizan métodos geométricos basados en el hecho de que la varianza de la característica objeto de estudio en las
unidades que serán muestreadas depende del conocimiento de dos hechos:

1) El rango de la distribución poblacional de la característica analizada.


2) La supuesta forma de la distribución.

Ejemplo 3.1
Suponga que la distribución de la variable X analizada, tiene la siguiente distribución aproximada:
f

Rango X Max X Min

Rango
2
Se procede de la siguiente manera para estimar la cuasivarianza S :

i) Se traslada la distribución al origen de coordenadas para facilitar los cálculos. Note que ni el rango ni la varianza se
afectan con este traslado.

147 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

(0, h )

(R , 0 )

h
ii) Calcule la ecuación de la recta que pasa por los puntos (0, h) y ( R, 0 ) , lo que da: y h .x .
R
iii) Asumiendo que la expresión hallada en el apartado ii) es una función de densidad, se halla el valor de h en función de
R.

R
h 2
(h .x).dx 1 h
0
R R

iv) Calcule el valor esperado y la varianza de la supuesta función de densidad, para la variable X , obteniendo:

R
2 2 R 2 R2
E(X) X. .X .dx ; V(X) E(X 2 ) E(X)
0
R R2 3 18

v) Finalmente como estimador adelantado de la cuasivarianza de la característica X se puede usar:

R2
Sˆ x2
18
Nota
El gorrito en la parte de arriba del parámetro, significa estimador.

A continuación se relacionan otras formas de distribuciones de densidad comunes y sus correspondientes expresiones para el
2
valor esperado y la varianza, para determinar un estimador adelantado para la cuasivarianza S de la variable analizada, ver
figura 3.1.

Distribución: Uniforme o Rectangular Distribución: Triángulo Rectángulo


   

R
R E( X )
E( X ) 3
2
R2
R2 V (X )
V (X ) 18
12

R R
Figura 3.1 Media y varianza en función del rango de la distribución

148 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Distribución: Triángulo Rectángulo Distribución: Triángulo Isósceles

2 .R
E( X ) R
3 E( X )
2
R2
V (X ) R2
18 V (X )
24

R R

Distribución: Normal 6.
Distribución: V

R R
E( X ) E( X )
2 2
R2 R2
V (X ) V (X )
8 36

R R

Distribución: Trapecio Distribución: Normal 4.

5R R
E( X ) E( X )
9 2
13.R 2 R2
V (X ) V (X )
162 16

R R

Distribución: V Distribución: Parabólica


 

R
R E( X )
E( X ) 2
2
  7.R 2
V (X ) R2
72 V (X )
20
R R

Figura 3.1. Media y varianza en función del rango de la distribución (continuación).

149 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Ejemplo 3.2
Se tiene la conjetura de que la variable analizada X tiene la siguiente distribución aproximada. Encontrar un estimador
aproximado de la cuasivarianza poblacional S x2

HISTOGRAMA DE FRECUENCIAS  PERFIL DEL HISTOGRAMA 

A1 A2 A3

FUNCIÓN DE DENSIDAD CON  
TRASLADO AL ORIGEN 
FUNCIÓN DE DENSIDAD ASOCIADA
h h
L2
L1 L3

X
a b c d X
R1 R2 R3
El área total es igual a:

AT A1 A2 A3
Y por lo tanto los rangos:

R1 (b a); R2 (c b); R3 (d c)

R1 .h R3 h 2
AT R2 h 1 .0 h
2 2 ( R1 2 R2 R3 )

Se encuentran las ecuaciones de las rectas L1 , L2 y L3 para luego encontrar la función de densidad f ( x ) , resultando:

2.x
; 0 x R1
( R1 2 R2 R3 ).R1
2
f ( x) ; R1 x R1 R2
( R1 2 R2 R3 )
2 x ( R1 R2 )
1 ; ( R1 R2 ) x ( R1 R2 R3 )
( R1 2 R2 R3 ) R3
Aplicando las propiedades de las variables aleatorias se tiene:

R
2
E( X ) X . f ( x)dx; R R1 R2 R3 V (X ) E( X 2 ) E( X )
0

150 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Finalmente se asume que:

S x2 V ( x ) . Note que la estimación de la cuasivarianza depende de lo buena que sea la conjetura es decir la forma y los
rangos R1 , R2 y R3 .

3.4 TAMAÑO DE MUESTRA PARA VARIABLES

En este apartado se deducen las expresiones más importantes para determinar el tamaño de muestra cuando se desea estimar
la media o el total poblacionales para una variable Y objeto de análisis.

3.4.1 Tamaño de muestra para estimar la media poblacional Y con varianza deseada para el estimador igual a
V (Yˆ ) V0 o lo que es lo mismo estableciendo un error de muestreo y un nivel de confianza Z
2

Como se vio en el capitulo anterior una propiedad del estimador de la media poblacional establece que:

n S2
V (Yˆ ) 1 . . Igualando esta varianza con la varianza deseada V0 y despejando n se tiene:
N n
2

n S2 S2 S2 N .S 2
V (Yˆ ) 1 . V0 ; V0 n (3.5)
N n Z n N N .V0 S 2
2

Dividiendo por NV0 se tiene:

S2
V0 n0
n (3.6)
1 S2 n
1 1 0
N V0 N

En donde la cantidad n0 se llama primera aproximación al tamaño de muestra y como puede verse es igual a:

S2 S2 Z 2 .S 2
2
n0 2 2
(3.7)
V0

Z
2

151 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

De tal manera que el tamaño de la muestra n se puede escribir de la siguiente forma al considerar la fracción de muestreo.
f n0 N

n0
n0 si < 5%
N
n n0 n0 (3.8)
si 5%
n0 N
1
N

Nota
S 2 Debe estimarse en forma adelantada

Ejemplo 3.3
En una comunidad integrada por 20000 casas se desea estimar el consumo promedio mensual de gas por vivienda con un
nivel de confianza del 95% y un error de muestreo de 6.95m 3 . Estudios anteriores para dicha comunidad permiten
suponer que para el consumo mensual de gas en dicha comunidad Sˆ 2 1255 . ¿Qué tamaño de muestra será necesario en
este caso para llevar a cabo la correspondiente estimación?

Solución//

De acuerdo con le expresión (3.6) y (3.7):

Z 2 .S 2 2
1.96 .(1255) n0 99.81
n0 2
2 2
99.81 ; 0.0049 < 5%
6.95 N 20000

Luego:

n n0 100 medidores.

3.4.2 Tamaño de muestra para estimar el total Y con una varianza deseada para el estimador igual a V (Yˆ ) V0 o
lo que es lo mismo estableciendo un error de muestreo * y un nivel de confianza Z
2

Se sabe que el estimador del total en el MAS tiene la siguiente estructura: Yˆ N .Yˆ , por lo tanto el estimador de la media

se puede expresar como: Yˆ . Reemplazando en la primera aproximación para el tamaño de muestra hallada para el
N
estimador de la media se tiene:

152 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

S2 S2 S2 N 2 .S 2 N 2 .S 2 N 2 .S 2 .Z 2
2
n0 (3.9)
V (Yˆ ) Yˆ V (Yˆ ) V (Yˆ )
2 2
*
V *
N N2
Z
2

n0
n0 si < 5%
N
y n n0 n0
si 5%
n0 N
1
N

Nota
S 2 debe estimarse en forma adelantada y * es ahora un error absoluto de muestreo para la estimación del total, el cual es
N veces el error para la media .

Ejemplo 3.4
En ejemplo 3.3. ¿Qué error de muestreo debe suponerse para que con la misma muestra se pueda estimar el consumo total
mensual de gas en la comunidad con el mismo nivel de confianza?

Solución//

Reemplazando en la expresión (3.8)

N 2 .S 2 .Z 2 2
20000 . 1255 . 1.96
2
2
n0 2
99.81 2
* *
Y por lo tanto:

* 139001.9m 3

3.4.3 Tamaño de muestra para estimar la media poblacional Y con un error relativo r

Muchas veces, se desea en lugar del error absoluto de muestreo, el error relativo o lo que es lo mismo, el error absoluto de
muestreo dividido por el parámetro (error absoluto en términos porcentuales), esto es:

r r.Y
Y
Reemplazando en la primera aproximación correspondiente:

153 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
2 2
Z 2 .S 2 Z 2 .S 2 Z S
2 Z
2 2 2 2 2
n0 2 2
. CV ( y ) (3.10)
r.Y r Y r

Nota
El coeficiente de variación CV ( y ) debe ser estimado en forma adelantada. Una vez calculado n0 debe calcularse la
fracción de muestreo para hallar el valor definitivo de n .
Ejemplo 3.5
Un investigador desea estimar el valor de la media poblacional para una variable Y , usando una muestra aleatoria simple y
para ello ha planteado las siguientes condiciones: 1) El error de muestreo debe ser máximo el 12% de la media poblacional,
2) Se requiere un nivel de confianza del 95% y 3) Se sabe que la variable analizada presenta un coeficiente de variación de
0.4. ¿Qué tamaño de muestra debe tomarse para satisfacer todas las condiciones planteadas?. Suponga que la población es
grande.

Solución//

De la expresión del error relativo se tiene:

r .Y 0.12 .Y (1)

Por otro lado como la población es grande:

N 1
.S
N S
CV ( y ) 0 .4 y f 0
Y Y Y
La expresión de la varianza del estimador de la media poblacional se puede escribir:

2
S y2 S y2 1
V Yˆ 1 f . Z . .S y (2)
Z n n 2 n
2

De las expresiones (1) y (2) teniendo en cuenta las exigencias para el error:

1 1 (0.12).
Z . .S y (0.12).Y 0.1531
2 n n (0.4).(1.96)

Finalmente: n 42 . Luego el investigador debe tomar como mínimo 42 unidades muestrales.

Ejemplo 3.6
De un lote de 2000 bolsas de café ABC se ha tomado una muestra piloto obteniendo para la variable contenido en gramos:

154 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Sˆ y 14.2gr y Yˆ 496gr . Se desea estimar el contenido promedio por paquete de tal manera que

495gr Yˆ 505gr . El proceso de fabricación está calibrado para depositar 500 gramos de café por bolsa. ¿Qué tamaño
de muestra será necesario para estimar el contenido promedio de café por bolsa en el lote, con un nivel de confianza del
95%?

Solución//

El coeficiente de variación piloto será:

Sˆ y 14.2
Cˆ V ( y) 0.02862
Yˆ 496

Suponer un error relativo de:

5 gr
r 0.01
500 gr

Finalmente reemplazando en la expresión (3.9)

2
Z 1.96
2
2
n0 2
CV ( y ) .(0.02862) 2 31.4 ,
r 0.01

n0 31 .4
f 0.0157 < 5%
N 2000

Luego se requiere seleccionar del lote una muestra de n n0 32 bolsas de café.

3.4.4 Tamaño de muestra para estimar el total Y con un error relativo r

Se define el error relativo del total como:

* N.
r
Y N .Y Y

De donde

* r.Y

Y reemplazando para la primera aproximación hallada correspondiente se tiene:

155 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

2
N 2 .S 2 N 2 .S 2 N 2 .S 2 .Z 2 Z 2 .N 2 .S 2 Z S
2
2 2 2
n0 .
V (Yˆ )
2 2
* r 2 .( N .Y ) 2 r Y
*

Z
2

2
Z
2 2
n0 CV ( y ) .
r

3.4.5 Tamaño de muestra para estimar la media poblacional Y con un coeficiente de variación deseado para Yˆ
igual a C0. CV(Yˆ ) C0

V (Yˆ ) V (Yˆ )
CV (Yˆ ) C0 C 0 .Y V (Yˆ )
E (Yˆ ) Y

Elevando al cuadrado esta última expresión:

C02 .Y 2 V (Yˆ ) (1)

Pero por una propiedad vista antes:

N n S2 n S2
V (Yˆ ) . 1 . (2)
N n N n

Igualando las expresiones (1) y (2):

n S2 S2 S2
C02 .Y 2 1 .
N n n N
Despejando n:

S2 2 2 S2 N .C02 .Y 2 S2 S 2 .N
C .Y
0 n (3.11)
n N N N .C02 .Y 2 S 2

Dividiendo esta última expresión por N .C 02 .Y 2 :

156 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

S2
C 02 .Y 2 n0
n
1 S2 n
1 . 2 2 1 0
N C 0 .Y N

Donde:
2
2
S2 1 S 1 2 CV ( y )
n0 . . CV ( y ) (3.12)
C 02 .Y 2 C 02 Y C 02 CV (Yˆ )

Nota
El Coeficiente de variación de la característica Y se obtiene en forma adelantada. Una vez hallado el n0 se debe calcular la
fracción de muestreo para determinar finalmente n .

Ejemplo 3.7
Si en el ejemplo anterior, se desea que el coeficiente de variación para el estimador del contenido promedio de café por bolsa
en el lote sea igual a 0.25%, ¿Qué tamaño de muestra se requiere?

Solución//

Reemplazando en la expresión (3.11)

2
2
CV ( y ) 0.025417 n0 103 .36
n0 103.36 , f 5%
CV (Yˆ ) 0.0025 N 2000
Luego:

n0 103.36
n 98.28
n 103.36
1 0 1
N 2000
Se requieren 99 bolsas

3.4.6 Tamaño de muestra para estimar el total poblacional con un coeficiente de variación deseado para Yˆ , igual
a C0 ( CV (Yˆ ) C0 )

V (Yˆ ) V (Yˆ ) N 2 .V (Yˆ ) V (Yˆ )


CV (Yˆ ) CV (Yˆ )
E (Yˆ ) Y N .Y Y

Aprovechando el resultado anterior:

157 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

2 2
CV ( y ) CV ( y )
n0
CV (Yˆ ) CV (Yˆ )

Siendo la misma expresión anteriormente hallada.

Ejemplo 3.8
La siguiente información corresponde a un estudio piloto realizado en una comunidad agrícola constituida por 800 fincas en
las cuales se investigó el número de árboles de la variedad MT1 de mango con una edad mínima de 1 año de sembrados.

Distribución de las fincas según el número de árboles de la variedad MT1 de mango


Número de árboles
50-90 90-130 130-170 170-210 210-250 Total
por finca
Número de fincas 4 4 12 6 4 30

Con miras a conocer la producción total de mango para esa variedad se requiere estimar el total de árboles sembrados en la
comunidad agrícola, que cumplen las condiciones establecidas.

Basándose en la información suministrada por el estudio piloto. ¿Cuántas fincas de la comunidad investigada, se deben
visitar para estimar el total de árboles de la variedad de mango MT1 en la comunidad agrícola, si se desea un coeficiente de
variación 3.1% para dicha estimación?

Solución//

De la tabla se tiene:

Sˆ * 48.06
CV ( y ) 0.3148
Yˆ * 152.67

De tal manera que:

2 2
CV ( y ) 0.3148 n0 103.12 n0
n0 103.12 , 5% y n 91 .3 92
CV (Yˆ ) 0.031 N 800
1
n0
N
Luego se requiere medir la cantidad de árboles de la variedad de mango MT1 en 92 fincas.

Ejemplo 3.9
La figura siguiente corresponde al plano urbanístico (marco muestral) de la ciudad de la Perla compuesta por 70 manzanas en
las cuales hay predios dedicados a vivienda. Las manzanas no numeradas corresponden a zonas verdes o predios no
dedicados a vivienda.

158 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Se desea estimar la cantidad de viviendas que componen el pueblo. La siguiente información corresponde a una muestra de
10 manzanas en las cuales se ha contado el número de predios dedicados a vivienda ( Y ).

Manzana Manzana Manzana Manzana Manzana Manzana Manzana Manzana Manzana Manzana
08 11 12 15 18 19 26 45 56 64
13 19 20 34 38 23 19 22 30 40

¿Qué tamaño de muestra (número de manzanas) se requiere para estimar el total de predios dedicados a vivienda asumiendo
un error de 400 viviendas y un nivel de confianza del 95%?

Solución//
De la información piloto: SˆY2 97.29 entonces de acuerdo con la expresión (3.8)
 
N 2 Z 2 Sˆ y2 62.8265
n0 62.8265 n 14
2
62.8265
1
82
3.5 EL ESTIMADOR DE LA MEDIA EN PRESENCIA DE LA SUMA DE DOS MUESTRAS DIFERENTES DE LA
MISMA POBLACIÓN

Es posible que se tengan las estimaciones obtenidas de dos muestras diferentes de la misma población y se desee mezclarlas
para obtener un único estimador y su varianza. A continuación se ilustra la media y la cuasivarianza para la suma de dos
muestras independientes de la misma población. Ver figura 3.2

Muestra de tamaño: n1
Muestra de tamaño: n2
Media estimada: Ŷ1  
POBLACIÓN Media estimada: Ŷ2
Sˆy21
Sˆ y22
Cuasivarianza muestral:
Cuasivarianza muestral:

Figura 3.2. Indicadores muestrales para dos muestras diferentes de la misma población.

159 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Al considerar las dos muestras se tiene para la media y la cuasivarianza respectivamente:

Yˆ (ni ) Sˆi2 (ni 1) (Yˆi Yˆ1 2 )2 ni


2 2 2

Yˆ1 2
i 1 i
2 ; Sˆ
2
1 2
i 1
2
i 1
(3.13)
i
n
1 i i
n 1
1 i

Por lo tanto para la varianza del estimador considerando las dos muestras se tiene:

2
n Sˆ12 2
V (Yˆ1 2 ) 1 i 1 i
2
N n
i 1 i

Demostración de:

Sˆi2 (ni 1) (Yˆi Yˆ1 2 ) 2 ni


2 2

Sˆ 2
1 2
i 1
2
i 1

i 1 i
n 1

Llamando:

Sˆ12 2 Sˆ 2 ; Yˆ1 Yˆ ; n n1 n2
2
2 i 1 i
n

Se tiene:

n1

Primera muestra Ŝ12


n
Yˆ1 Sˆ 2 Muestra conjunta
n2

Segunda muestra
Ŝ 22

Yˆ2
 

Sˆ 2 (ni 1) (Yˆ Yˆ ) 2 ni (Yˆi Yˆ ) 2


2 2 2 2
S 2 (ni 1)
Sˆ 2 i 1 i
2
i 1 i i 1 i
2
i 1
2
i 1 i
n 1 i 1 i
n 1 n
i 1 i
1
Intraviarianza Intervarianza

160 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

1 Sˆ 2 Sˆi2 (ni 1) (Yˆi Yˆ ) 2 ni


2 2 2
i 1 i
n i 1 i 1

y12i n1Yˆ1 2 y22i n2Yˆ2


(n 1) Sˆ 2 (n1 1) (n2 2)
(n1 1) (n2 2)

Yˆ1 2 n1 2Yˆ1Yˆn1 Yˆ 2 n1 Yˆ2 n2 2Yˆ2Yˆn2 Yˆ 2 n2

(n 1) Sˆ 2 y12i n1Yˆ1 y22i n2Yˆ2 Yˆ1 2 n1 2Yˆ1Yˆn1 Yˆ 2 n1 Yˆ2 n2 2Yˆ2Yˆn2 Yˆ 2 n2

(n 1) Sˆ 2 y12i n1Yˆ1 y22i n2Yˆ2 Yˆ1 2 n1 Yˆ22 n2 2Yˆ Yˆ1n1 Yˆ2 n2 Yˆ 2 n1 n2

(n 1) Sˆ 2 y12i y22i Yˆ1n1 Yˆ2 n2 Yˆ1 2 n1 Yˆ22 n2 2Yˆ Yˆ1n1 Yˆ2 n2 Yˆ 2 n1 n2

n ˆ2
(n 1) Sˆ 2 2Yˆ Yˆ 2 n 2Yˆ
n n
y12i y22i y i1 y2 i yi2 yi Y n
i 1 i 1
n

(n 1) Sˆ 2 2Yˆ 2 n Yˆ 2 n nYˆ 2
n 2
i 1
yi2 i 1
yi2

nYˆ 2 ( yi Yˆ ) 2
2 n
yi2
Sˆ 2 i 1 i 1
n 1 n 1

Ejemplo 3.10
Mediante un muestreo aleatorio simple se han tomado dos muestras aleatorias de una población de tamaño N 1000 con
los siguientes resultados

ni Yˆi Sˆi2
Primera muestra 60 14,5731567 28,8582334
Segunda muestra 40 14,662685 20,8105805

De acuerdo con los resultados de la tabla encuentre:

a) La varianza del estimador de Y para cada muestra.  


 
Solución//

161 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

60 28,8582334
1 0,45211232
n Sˆ 1000 60
V (Yˆi ) 1 i i
N ni 40 20,8105805
1 0,49945393
1000 40

b) Si se juntan las dos muestras, encuentre la estimación del parámetro poblacional Y . 

Solución//

Yˆ (ni )
2
(14,5731567)60 (14,662685)40
Yˆ1 2
i 1 i
2
14,5731567
n 60 40
i 1 i

2
c) La estimación de la cuasivarianza S y en el caso b).

Solución//

 
Sˆ 2 (ni 1) (Yˆi Yˆ1 2 ) 2 ni
2 2
2514,24841 0,19236774 2514,44079
Sˆ2
1 2
i 1 i
2
i 1
25,3983917
n 1 99 99
i 1 i

d) ¿En cuánto explica la intravarianza a la cuasivarianza poblacional?.

Solución//
 
( 2514 ,24841 / 99 )
0,99992349
25,3983917

e) En el caso b) encuentre la varianza del estimador Y .

Solución//

2
n Sˆ12 2 100 25,3983917
V (Yˆ1 2 ) 1 i 1 i
2
1 0,22858553
  N n 1000 100
i 1 i

ˆ ˆ ˆ
Observe que V (Y100 ) < V (Y60 ) < V (Y40 ) y en este orden de ideas, suponiendo que cada muestra es el resultado de asumir
un error 1 para la estimación con la muestra de tamaño 60 y 2 con la muestra de tamaño 40 y un nivel de confianza

162 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

(1 2 ) 100 % para ambas muestras entonces el error cometido en la estimación de Y con la muestra de 100 unidades
con igual nivel de confianza mediante la utilización de teorema del límite central será:

n1 n 2 Z1 2 V (Yˆ1 2 )

Que será menor que los errores 1y 2 ya que la varianza del estimador para la muestra conjunta es mucho menor.

3.6 TAMAÑO DE MUESTRA PARA ATRIBUTOS

A continuación se determinan las expresiones para los tamaños de muestra correspondientes a la estimación de la proporción
y el total de unidades que tienen determinado atributo.

3.6.1 Estimación anticipada de P

Para el caso de la muestra en dos pasos se consideran las siguientes situaciones después de tomar una muestra de tamaño n1 y
con ella calcular:

a1 ˆ
Pˆ1 , Q1 1 Pˆ1
n1

En donde a1 será el número de unidades muestrales que pertenecen a la clase C en la muestra n1 (Cochran, 1980)

Cuando se desea estimar P con una varianza dada V para el estimador.

Pˆ1.Qˆ1 3 8.Pˆ1.Qˆ1 1 3.Pˆ1.Qˆ1


n (3.14)
V Pˆ1.Qˆ1 V .n1

Nota
Se llega al valor final de n , agregando unidades adicionales a las n1 ya tomadas y el estimador final de P (con la muestra
n ) será:

V .(1 2.Pˆn )
Pˆ Pˆn
Pˆn .Qˆ n

Para corregir el sesgo.

Cuando se supone un coeficiente de variación para el estimador de P.

2
Qˆ1 3 1 2 V ( Pˆ )
n , C CV ( Pˆ ) (3.15)
C.Pˆ1 Pˆ1.Qˆ1 C.Pˆ1.n1 E ( Pˆ )

163 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Nota
Se llega al valor final de n , agregando unidades adicionales a las n1 ya tomadas y el estimador final de P (con la muestra
n ) será:

C.Pˆn
Pˆ Pˆn
Qˆ n

Para corregir el sesgo.

Muchos usuarios del muestreo en situaciones prácticas deciden tomar P 0.5 para resolver el problema de su no-
conocimiento, ésta situación debe tomarse con cuidado ya que si bien satisface las condiciones establecidas para determinar
el valor de n , dicho valor produce la máxima varianza del estimador de P , cuando los otros factores que la determinan
están constantes y por ende el máximo valor de n incurriendo en muchos casos en gastos innecesarios debido al
sobredimensionamiento del tamaño muestral.

La figura 3.3, muestra el comportamiento de la V (Pˆ ) para diferentes valores de P , el cual es obtenido asumiendo N muy
grande y haciendo n 1 , lo cual no perturba la generalidad de las conclusiones obtenidas sobre el comportamiento
analizado.
De acuerdo con lo anterior entonces se deduce que: V ( Pˆ ) P.Q y dándole valores a P , se construye la tabla 3.1:
P 0 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.0
V (Pˆ ) 0 0.09 0.16 0.21 0.24 0.25 0.24 0.21 0.16 0.09 0

V (Pˆ ) 0 0.3 0.40 0.458 0.489 0.5 0.489 0.458 0.40 0.30 0
Tabla 3.1. la varianza y la desviación estándar para diferentes valores de P.

Figura 3.3. Comportamiento de la varianza del estimador de la proporción poblacional.

De la figura 3.3 se pueden obtener las siguientes conclusiones:

Tanto la varianza del estimador de P , como su desviación estándar son grandes para valores cercanos a P 0.5 . Sus
valores máximos se dan precisamente cuando P 0.5 .
La desviación estándar del estimador de P cambia relativamente poco cuando: 0 . 30 P 0 . 70

164 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Tanto la varianza como la desviación estándar del estimador de P son simétricas respecto de P 0.5 .

3.6.2 Tamaño de muestra para estimar la proporción poblacional P, cuando se desea para dicha estimación una
varianza V ( Pˆ ) V0 o se establece un margen de error y se desea un nivel de confianza determinado.

Por una propiedad del estimador de P:

N n P.Q
V ( Pˆ ) .
N 1 n

Y deseando para el mismo estimador que:

V ( Pˆ ) V0
Z
2

Ahora:

N P.Q P.Q P.Q N .P.Q


V ( Pˆ ) . V ( Pˆ )
N 1 n N 1 N 1 ( N 1).n

Despeando n de la última expresión se tiene:

N.P.Q
n (3.16)
( N 1).V ( Pˆ ) P.Q

Dividiendo arriba y abajo la expresión anterior por V (Pˆ ) entonces:

P.Q P.Q
V ( Pˆ ) V ( Pˆ ) n0
n
1 1 P.Q 1 P.Q 1
1 . 1 . 1 1 n0 1
N N V ( Pˆ ) N V ( Pˆ ) N

Donde:

P.Q P.Q Z 2 .P.Q


2
n0 (3.17)
V ( Pˆ )
2 2

Z
2

165 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Nota
Se debe tener alguna idea del valor de P o en su defecto estimarse adelantadamente.
Una vez calculada la primera aproximación debe hallarse la fracción de muestreo para conocer el valor final de n.

Ejemplo 3.11
Los pacientes que siguen tratamientos antidepresivos tienen alta probabilidad de abandonar dichos tratamientos y, por lo
tanto, tener nuevas recaídas. En un hospital en donde se atendieron 600 pacientes con un nuevo fármaco denominado
Venlafaxina, el cual es suministrado una sola vez al día, se desea estimar el porcentaje de pacientes que abandonaron el
tratamiento con un error de 7%.

Se cree para este tipo de pacientes que el porcentaje de abandono del tratamiento está comprendido en 60 % < P < 80 % ,
¿Cuántos pacientes tratados con el nuevo fármaco deben investigarse para determinar el verdadero valor de P con un nivel
de confianza del 95%, en dicho hospital?

Solución//

2
2
0.07
V0 0.0012755 , Asumimos Pˆ 0 .6 , entonces:
Z 1.96
2

Pˆ .Qˆ 0.6 . 0.4 n0 188 .16


n0 188.16 , 0.3136 5%
V0 0.0012755 N 600

Luego:

n0 188 .16
n 144
1 1
1 n0 1 1 188 .16 1
N 600

Ejemplo 3.12
Estudios preliminares del Dpto. de Salud de una ciudad con 200000 habitantes permiten detectar que la ciudad presenta dos
enfermedades con las siguientes tasas aproximadas de incidencia y ubicación dentro de la ciudad:

Enfermedad Incidencia Ubicación


E1 8% Zona Norte
E2 25% Zona Sur

Sabiendo que en el norte de la ciudad residen 60000 que tamaño de muestra debe asumirse en cada una de las zonas de la
ciudad para que los errores estándar de estimación al estimar la verdadera proporción de enfermos en las zonas norte y sur no
superen el 3.5% y el 4% respectivamente?

Solución//

166 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

2
V PˆE1 ee ( PˆE1 )
2
V0 0.035 0.001225

2
V PˆE 2 ee ( PˆE 2 )
2
V0 0.04 0.0016

Zona Norte:
Pˆ .Qˆ 0.08 . 0.92
N = 60000, n0 60.08 n 60
V0 0.001225
Zona Sur:

Pˆ .Qˆ 0.25 . 0.75


N = 140000, n0 117.18 n 117
V0 0.0016

3.6.3 Tamaño de muestra para estimar el total poblacional A, cuando se desea para dicha estimación una varianza
V ( Aˆ ) V0 , o se establece un margen de error y se desea un nivel de confianza determinado.

Como se vio antes Aˆ N .Pˆ y con base en la primera aproximación hallada en el apartado anterior (2.5.2), se tiene:

P.Q P.Q P.Q P.Q.N 2 P.Q.N 2 Z 2 .P.Q.N 2


2
n0 (3.18)
V ( Pˆ ) Aˆ V ( Aˆ ) V ( Aˆ )
2 2
*
V *
N N2
Z
2

Nota
Se debe tener alguna idea del valor de P o en su defecto estimarse adelantadamente. Z se obtiene al determinar el nivel de
2

confianza y * es el error absoluto establecido. Una vez calculada la primera aproximación debe hallarse la fracción de
muestreo para conocer el valor final de n .

Ejemplo 3.13
El área urbana de un determinado pueblo tiene 2000 viviendas. Datos de un censo pasado permiten establecer que
aproximadamente el 60% de las viviendas estaban ocupadas por arrendatarios. Se desea estimar actualmente el total de
viviendas de la ciudad en las cuales sus ocupantes son inquilinos, y se permite equivocarse máximo en 100 viviendas con un
nivel de confianza del 95%. ¿Qué tamaño de muestra será necesario para realizar tal estimación?

Solución//

2
Pˆ .Qˆ .N 2
2 2
100 0.6 . 0.4 . 2000
V ( Aˆ ) *
2603 .082 ; n0 368.7934
Z 1.96 V ( Aˆ ) 2603.082
2

167 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
n0 n0 368.7934
0.184 5% , luego n 312
N 1 1
1 n0 1 1 368.7934 1
N 2000
3.6.4 Tamaño de muestra para estimar la proporción poblacional P con un error relativo igual relativo igual a r ,

en donde: r r .P
P
Reemplazando en la primera aproximación hallada en 3.18 se tiene:

P.Q P.Q.Z 2 P.Q.Z 2 Q.Z 2


2 2 2
n0 (3.19)
V ( Pˆ )
2
r 2 .P 2 r 2 .P

Nota
Debe estimarse P adelantadamente. Z se obtiene al determinar el nivel de confianza. Una vez calculada la primera
2
aproximación debe hallarse la fracción de muestreo para conocer el valor final de n.

Ejemplo 3.14
La visita a 30 apartamentos de un complejo habitacional ha permitido detectar que 12 de ellos presentan agrietamientos en
sus paredes laterales. El complejo está conformado por 400 y todos ellos fueron construidos en igualdad de condiciones por
la misma firma constructora. ¿Qué tamaño de muestra será necesario, para estimar la verdadera proporción de apartamentos
con grietas en sus paredes laterales si se desea satisfacer un error relativo del 33.9% con una probabilidad de que no se
cumpla dicho error del 10%?, ¿En cuántas unidades se incrementará la muestra si se desea que el error relativo se reduzca a
un 13%?

Solución//

Reemplazando en la expresión (3.19):

Qˆ .Z 2 0.6 . 1.64
2
n0
2 35.1058
n0 35.1058, n 33
r .Pˆ 1 1
2 2
0.339 . 0.4 1 n0 1 1 35.1058 1
N 400

Qˆ .Z 2 0.6 . 1.64
2
n0
2 238.72
n0 238.72 , n 150
r .Pˆ 1 1
2 2
0.13 . 0.4 1 n0 1 1 238.72 1
N 400

Y como puede verse el incremento es del 454.5% de la muestra.

168 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
3.6.5 Tamaño de muestra para estimar la proporción poblacional P con un coeficiente de variación deseado para
dicho estimador igual a C0 . ( CV ( P̂ ) C0

Se sabe que:

V ( Pˆ ) V ( Pˆ )
CV ( Pˆ ) V ( Pˆ ) V ( Pˆ ) (1)
2
C0 P.C 0 P.C 0
E ( Pˆ ) P

Pero una de las propiedades anteriores nos dice que:

N n P.Q
V ( Pˆ ) . (2)
N 1 n

Igualando las expresiones (1) y (2):

2 N n P.Q N P.Q P.Q 2 P.Q N P.Q


P.C 0 . . P.C 0 .
N 1 n N 1 n N 1 N 1 N 1 n

Despejando n tenemos:

N .P.Q
n 2
( N 1). P.C0 P.Q

Finalmente dividiendo por N .( P .C 0 ) 2 arriba y abajo la expresión anterior se obtiene:

N .P.Q P.Q Q
N ( P.C 0 ) 2 ( P.C 0 ) 2 P.C 02
n 2
(3.20)
( N 1). P.C 0 P.Q 1 1 P.Q 1 Q
2
1 . 1 1
N .( P.C0 ) N N ( P.C 0 ) 2 N P.C02

Ejemplo 3.15
Un laboratorio farmacéutico distribuye sus productos en 1000 expendios al menudeo distribuidos por toda el área
metropolitana de una ciudad. Un estudio anteriormente realizado encontró para una muestra de 50 establecimientos que el
71% funcionaban bien ( PˆB 0 . 71 ), el 22.4% regular ( PˆR 0 . 224 ) y el 6.6% mal ( PˆM 0 . 066 ) en relación con la
atención prestada al cliente. ¿Qué tamaño de muestra permitirá estimar los verdaderos porcentajes sobre el funcionamiento de
la atención al cliente, si se desea un coeficiente de variación del 15% en cada estimación?. Asuma un nivel de confianza del
95%.

169 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
Solución//

Para el buen funcionamiento:

Qˆ 0.29 18.15
n0 18.15, n 18
Pˆ .C02 0.71 .(0.15) 2 1
1
18.15 1)
1000
Para el funcionamiento regular:

Qˆ 0.776 153.97
n0 153.97, n 134
Pˆ .C02 0.224 .(0.15) 2 1
1
153.97 1)
1000
Para el mal funcionamiento:

Qˆ 0.934 628.96
n0 628.96, n 387
Pˆ .C 02 0.066 .(0.15) 2
1
1
628.96 1)
1000
En resumen para estimar las tres proporciones con la misma precisión requerimos una muestra de 387, esto es
n max n B , n R , n M .

3.6.6 Tamaño de muestra para estimar el total poblacional A con un error relativo determinado r .

Se sabe que:
*
r * r. A
A
Pero anteriormente se mostró que para la estimación de A se requiere:

Z 2 .P.Q.N 2
2
n0 2
*
Y además A N . P . Reemplazando adecuadamente se tiene que:

Z 2 .P.Q.N 2 Z 2 .P.Q.N 2 Z 2 .P.Q.N 2 Z 2 .Q


2 2 2 2
n0 2 2 2 2 2 2
* r. A r . N .P r .P

3.6.7 Tamaño de muestra para estimar el total poblacional A con un coeficiente de variación deseado para el
estimador igual a C 0 CV ( Aˆ ) .

Se sabe que:

170 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

V ( Aˆ ) N 2 .V ( Pˆ ) N . V ( Pˆ ) V ( Pˆ )
CV ( Aˆ ) CV ( Pˆ ) C0
E ( Aˆ ) A N .P P

Luego:

Q
n0
P.C 02

Ejemplo 3.16
En una población grande compuesta por dos tipos de unidades se ha realizado una muestra piloto de tamaño 60 para conocer
el total de unidades tipo A y tipo B que presentan determinada característica, obteniéndose:

Unidad tipo A Unidad tipo B


Con la característica 12 18
Total de unidades analizadas 30 30

Si para determinar el total de unidades que poseen la característica en cada tipo de unidad se decide tomar el mismo tamaño
de muestra para cada uno, ¿Con que coeficiente de variación se estará estimando el total de unidades con la característica en
cada tipo de unidad?. Asuma que la relación entre los coeficientes de variación es C A C B 4 % .

Solución//

Aplicando la expresión para el tamaño de muestra utilizando la información de la tabla anterior se tiene:

0 .6 0 .3
7.C B2 2.C A2 y reemplazando C A CB 0 . 04 :
0.4 .C A2 0.7 .C B2
0.16 0.299393259
5.C B2 0.16.C B 0.0032 0 CB
10

Tomando el valor positivo para C B , por obvias razones, los coeficientes de unidades con que se está estimando en cada caso
el total de unidades que poseen la característica analizada al usar el mismo tamaño de muestra para cada tipo de unidad.

Dichos valores son:

CB 0 . 045933 y C A 0 . 085933 .

El tamaño de muestra que se usaría en este caso es:

0 .6 0 .3
nA 2
203 .13 203 , y n A 2
203 .13 203
0.4 . 0.085933 0.7 . 0.045933

171 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Lo cual verifica que se cumple la exigencia del problema.

3.7 ERRORES ASUMIDOS POR LAS ESTIMACIONES DE LOS PARÁMETROS EN VARIABLES QUE NO
DEFINEN EL TAMAÑO DE LA MUESTRA.

Mediante una encuesta por lo regular se estiman varios parámetros a la vez, y casi siempre el tamaño de la muestra se define
para las variable(s) más importantes es decir para aquellas en las cuales recaen los objetivos principales del estudio. El
mecanismo seguido para la definición del tamaño de muestra bajo el cual se realizará el trabajo de campo es el siguiente:

1) Se define la variable o las variables que lideran los objetivos del estudio.
2) Definir los parámetros de interés asociados a las variables definidas en el paso 1) los cuales serán objeto de estimación.
3) Establecer para cada uno de los parámetros definidos en el paso 2) un error y un nivel de confianza (por lo regular se
define el mismo nivel de confianza para todas las estimaciones).
4) Obtener estimaciones adelantadas mediante: estudios pilo, investigaciones anteriores, relaciones matemáticas,
simulaciones o conjeturas que involucren el rango y la distribución aproximada de la variable, sobre la variabilidad de las
poblaciones asociadas a las variables definidas en 1).
5) Involucrando lo definido en 3) y lo obtenido en 4) en presencia del método de muestreo que se usará se obtiene para cada
parámetro definido en 2) el tamaño de muestra requerido.

De acuerdo con el proceso anterior se obtienen varios tamaños de muestra; la pregunta es entonces, ¿con cuál de ellos se
realizará el trabajo de campo?. La respuesta salta a la vista, se asume el mayor de todos los tamaños de muestra encontrados y
surge otra pregunta: ¿Qué pasa con los errores de las estimaciones de parámetros no involucrados en el mecanismo anterior
en variables contempladas por el estudio?

Suponga que el estudio contempla las variables Y1 , Y2 ,...., YK y que el tamaño de muestra del estudio se define con base en
las dos primeras, entonces:

Nivel de Variabilidad de Tamaño de


Variable Parámetro Error
confianza la variable analizada muestra
analizada Investigado asumido
deseado (Se estima por adelantado) resultante
Media N
Y1
poblacional
Y1 Y1 95% SY21 i 1
( y1i Y1 ) 2 ( N 1) n1
Proporción SY22 NPQ ( N 1)
Y2 P Y2 95% n2
poblacional

El tamaño de muestra asumido para el trabajo de campo será el mayor de los dos entre n1 y n2 . En este momento es bueno
preguntarse: ¿Cómo validar qué tan buena es la muestra seleccionada después del trabajo de campo?. La respuesta a esta
pregunta se obtiene comparando la varianza alcanzada por la muestra para el estimador planteado con la varianza deseada
propuesta por el investigador
De acuerdo con la figura 3.4 al comparar la varianza deseada V (θˆy ) con la varianza hallada Vˆ (θˆy ) puede ocurrir una de las
siguientes relaciones:

Si Vˆ (θˆy ) V (θˆy ) la muestra satisface los requerimientos establecidos.

Si Vˆ (θˆy ) V (θˆy ) la muestra no satisface los requerimientos establecidos.

172 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Insumos para determinar el 
tamaño de la muestra para 
estimar el parámetro:  θ  Teorema del 2

V (θˆy )
límite central y
2
Varibilidad de la variable: Sˆ*y Z (1 2)
Error asumido : y

Nivel de confianza:Z (1 2)
Varianza
hallada
<
POBLACIÓN MUESTRA Vˆ (θˆy ) V (θˆy )
Varianza
deseada

Estimaciones obtenidas con 

la muestra:  ˆy ;Vˆ ( ˆy )  
θ θ

Figura 3.4. Comparaciones entre la varianza deseada y la varianza alcanzada para estimador. Validación de la muestra.

Si la muestra no satisface, dependiendo del tiempo y los costos se debe proceder a aumentar la muestra con algunas unidades
es decir con la estimación de la variabilidad de la característica analizada con base en la muestra hallada ( Sˆ y ( n ) ), con el
2

nivel de confianza y el error se determina un nuevo tamaño de muestra n1 , para luego obtener el incremento requerido que
será n1 n el cual debe producir una reducción en la varianza de la variable y en la variabilidad del estimador. Este proceso
puede hacerse varias veces dependiendo del tiempo y los costos hasta lograr que se satisfagan los requisitos de definición de
la muestra.

Con respecto a la precisión de las variables no definitorias del tamaño de la muestra es decir: Y3 ,...., YK a la hora de estimar
sus parámetros se tiene que al usar el mismo tamaño de muestra y nivel de confianza:

θˆy 3
Vˆ (θˆy 3 )
MUESTRA n θˆy i
Vˆ (θˆy i ) ˆˆ
θ Xi
Z1 . Vˆ (θˆy i )
2

θˆy K
Vˆ (θˆy K )

Y una pregunta obligada será ¿Cuánto representan estos errores absolutos respecto de las estimaciones de los parámetros
asociados a dichas variables?. Para saberlo se encuentran los errores relativos es decir:

ˆ
yi
Error relativo r x100; i 3,...k
θˆ yi

Y para comparar las estimaciones de los parámetros de todas las variables involucradas en el estudio, se calculan sus
coeficientes de variación, es decir:

173 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Y1 θˆy ,Vˆ (θˆy )


1 1

Y2 θˆy ,Vˆ (θˆy )


2 2

Vˆ (θˆy i )
Cˆ V (θˆyi ) ;i 2, 3, ..., k
.Yi θˆy ,Vˆ (θˆy ) θˆ yi
i i

.
YK θˆy ,Vˆ (θˆy )
k k

Ejemplo 3.17
Se tiene una muestra piloto de 35 familias de la comuna ABC en la ciudad San Juan II que de acuerdo con el último censo
está conformada por 10000 familias. Las variables analizadas por familia son:

Y1: Número de personas que la conforman,


Y2: Ingresos familiares (miles de pesos),
Y3: Número de mujeres mayores de 20 años,
Y4: Propietarios de la vivienda (si, no),
Y5: Último grado académico del jefe de la familia (P: Primaria, S: Secundaria; U: Universitaria),
Y6: Tenencia de carro en la familia (si, no).

Para las variables anteriores se tienen los siguientes indicadores muestrales:

Número Proporción de
Promedio de Proporción de
promedio de Ingreso promedio familias Último grado de estudios del
mujeres por familias con
personas por (miles de pesos) propietarias de jefe del hogar
hogar carro
familia la vivienda
Y5
Yˆ1 3,29 Yˆ 774,59 Yˆ3 1,51  Pˆ4 0,54   Pˆ6 0,37  
P=14 S=11 U=10
SˆY21 1,15   SˆY22 64293,34   SˆY23 0,61    

Se desea encontrar el tamaño de muestra necesario para realizar las siguientes estimaciones con los requerimientos
establecidos:

a) Total de personas en la ciudad con un error de 1100 persona y un nivel de confianza del 95%.
b) Ingresos familiares por familia con un error del 6% del ingreso promedio piloto y un nivel de confianza del 95%.

Solución//

a) Para el total de personas en la ciudad:

N 2 SˆY21 (10000 ) 2 (1,15)(1,96 ) 2


n0 2
365 .11 366
(1100 ) 2
Z 2

174 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

b) Para el ingreso promedio por familia:

Z 2 2 SˆY21 (1,96) 2 (64293,34)


n0 2 2
114.35 115
(0.06).(774.59)

Para realizar las estimaciones a) y b) se necesita una muestra de 366 familias.

c) ¿Qué tan bien estimará (aproximada) la muestra de 366 familias los siguientes parámetros:

-El número de personas por familia.


-La tenencia de vehículo por parte de la familia.
-La proporción de familias cuyo jefe tiene título universitario.
-Total de mujeres en la ciudad.

Solución//

Involucrando los estimadores piloto y el tamaño de muestra definido:

-Para el promedio de personas por familia:

SˆY21 366 1,15


Vˆ (Yˆ1 ) (1 f ). 1 0,00303
n 10000 366

-Para la tenencia de vehículo en la familia:

Pˆ6Qˆ 6 366 (0,37)(0,63)


Vˆ ( Pˆ6 ) (1 f ). 1 0,00615
n 1 10000 365

-Para la proporción de familias cuyo jefe posee título universitario:

Primero, se calcula la proporción involucrada.

Total universita rios 10


P5 0,2857
Todos los nivles educativos 35

Pˆ5Qˆ 5 366 (0,2857)(1 0,2857)


Vˆ ( Pˆ5 ) (1 f ). 1 0,00054
n 1 10000 365

-Para el total de mujeres en la ciudad.

Usando el coeficiente de variación:

175 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

366 0,61
Yˆ3 10000(1,51) 15100 ; Vˆ (Yˆ3 ) 100002 1 160566,667
10000 366

Vˆ (Yˆ3 )
Cˆ V (Yˆ3 ) 0,02654
Yˆ 3

Nota
La precisión correcta alcanzada para estos estimadores se obtendrá con los resultados de la muestra final (366 familias) y no
con los resultados del estudio piloto (35 familias).

3.8 LA SENSIBILIDAD DE LA VARIANZA DEL ESTIMADOR.

La varianza de un estimador, la cual puede ser aproximada con la muestra definida para el trabajo de campo es el componente
que le da vida a cualquier estimador, se puede decir prácticamente que si no se tiene como medir la variabilidad de un
estimador no tiene ninguna utilidad la estimación hallada. Hay dos elementos básicos que definen la variabilidad: La
variabilidad de la población ( S y2 ) (cuasivarianza de la variable Y ) y el tamaño de la muestra asumido para el trabajo de
campo. La figura 3.5a muestra el comportamiento de la varianza del estimador en función del tamaño de muestra e
idénticamente la figura 3.5 b) muestra el comportamiento de esta en función de la cuasivarianza poblacional para la variable
analizada.

Varianza del estimador Vs Tamaño de muestra

Para muestras pequeñas, la


varianza del estimador se
hace muy grande

N n SY2
V (θˆY )
N n

Para muestras grandes, la


varianza del estimador se
hace muy pequeña

Figura 3.a5. Comportamiento de la varianza del estimador en función de n.

176 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Varianza del estimador Vs Cuasivarianza poblacional

Si la cuasivarianza poblacional es
N n S Y2
V (θˆY ) grande, la varianza del estimador se
N n hace grande

Si la cuasivarianza poblacional es
grande, la varianza del estimador se
hace grande

Figura 35b. Comportamiento de la varianza del estimador en función en función de sy2 .

3.9 TAMAÑO DE MUESTRA EN SUBDIVISIONES POBLACIONALES O DOMINIOS DE ESTUDIO PARA


VARIABLES NUMÉRICAS.

Como se vio en el capítulo anterior, dentro de una investigación por muestreo suelen necesitarse estimaciones para grupos,
partes o subdivisiones de la población analizada. Esta situación se puede analizar mediante dos casos, (Cochran, 1989). La
metodología de muestreo para subdivisiones de la población está justificada por el hecho de que no se tienen marcos
muestrales que identifiquen plenamente las unidades que pertenecen a dichos dominios. Se analizan a continuación dos
situaciones: De una parte los dominios se pueden identificar por adelantado (antes de ser medidas) y de otra parte, los
dominios no pueden identificarse por adelantado.

3.9.1 Los dominios se pueden identificar por adelantado

En este caso se sabe previamente que unidad Ui que salió en la muestra pertenece al dominio i-ésimo, lo cual implica que se
determine un tamaño de muestra por separado para cada dominio.

Supóngase que se desea estimar para la variable Y , la media poblacional para cada uno de los k dominios en que se
encuentra dividida la población, es decir estimar:

Yi ; i 1, 2, 3...., k

Con varianza deseada para cada dominio igual a V0 , entonces:


2

V (Yˆi )
Z 2

177 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
Suponiendo que el tamaño de los dominios es grande, el tamaño de muestra para el dominio i-ésimo será:

Si2 Si2
ni ; i 1, 2,..., k (3.21)
V0 V0

El tamaño de muestra para la estimación del mismo parámetro en toda la población viene dado por:

k k Si2 1 k
n i 1 i
n Si2 (3.22)
i 1
V0 V0 i 1

Si las cuasivarianzas de los dominios son aproximadamente iguales a la cuasivarianza poblacional, es decir Si2 S2
entonces:

1 k 1 k k.S 2
n S2
1 i
S2 (3.23)
V0 i
V0 i 1
V0

Ahora si no se consideraran las estimaciones en cada dominio y por el contrario se deseara la estimación de la media
poblacional para la variable Y con varianza deseada V0 y la población sea grande, se tendría:

S2
n
V0
Lo anterior quiere decir que el tamaño de muestra para estimar Yi ; i 1, 2, 3...., k con varianza deseada V0 , puede ser
aproximado como k veces el tamaño de muestra para estimar Y poblacional con la misma varianza V0 .

Ejemplo 3.18
La siguiente información corresponde a una muestra piloto de viviendas en una ciudad integrada por 2000. Los indicadores
muestrales se refieren al promedio y la cuasivarianza para la variable consumo de energía mensual Kw/h. Los indicadores se
muestran para viviendas con servicio de gas y sin él. La empresa prestadora del servicio de gas indica que en la ciudad el
40% de las viviendas cuentan con servicio de gas domiciliario. El estudio piloto toma en cuenta para cada dominio 30
viviendas.

Viviendas con servicio de gas Viviendas sin servicio de gas


Yˆ1 205.62 Sˆ 2
1 670.62 Yˆ2 290.17 Sˆ22 1524.33

Se desea estimar:

a) El consumo de energía para las viviendas con gas con un error de 1 8 y para viviendas sin gas con un error 2 10 .
En ambos casos se desea un nivel de confianza del 95%.

b) El consumo promedio de energía por vivienda para la ciudad con un error del 5% del promedio piloto global y nivel de
confianza del 95%

Determine en cada caso el tamaño de muestra requerido

178 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
Solución//

a) Se tienen dos dominios con los siguientes tamaños:


N1 (0,40 ) * 2000 800 Para las viviendas con servicio de gas, por lo tanto las viviendas sin servicio de gas son
N2 1200

2 2
La varianza deseada en cada caso es: V (Yˆ1 ) 8 10
16,6597251 y V (Yˆ2 ) 26,0308205 por lo tanto los
1,96 1,96
tamaños de muestra en sus primeras aproximaciones son:

670,62
n1* 40.2539
* S 2
S 2
16,6597251
ni
i i
; i 1, 2
V0 V0 1524,33
n2* 58,559
26,0308205

Realizando el ajuste por población finita se tiene:

40.2539
n1 38.3255 39
n *
800
ni *
i
; i 1, 2
(1 n N i )
i 58.559
n2 55,8340 56
1200

b) Se obtiene el promedio global piloto mediante una media ponderada y la cuasivarianza estimada global:

Para la media:

Como el tamaño piloto para cada dominio es el mismo, la media es el simple promedio de medias piloto.

Yˆ1n1 Yˆn2 Yˆ1 Yˆ2 205.62 290.67


Yˆ 247.895
n 2 2

Para la varianza utilizando la información piloto:

Sˆ12 (n1* 1) Sˆ22 (n2* 1) (Yˆ1 Yˆ ) 2 n1* (Yˆ2 Yˆ ) 2 n2*


Sˆ12 2 2896.34047
n1* n2* 1 n1* n2* 1

El error deseado es:


0.05(Yˆ1 2 ) (0.05)(247.895) 12.39475

179 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
Sˆ12 2 (2896.34047)(1,96) 2 n*
n* 72.4246178 n 69.8936 70
V0 (12.39475) 2 1 n* N

3.9.2 Los dominios no se pueden identificar por adelantado

En este caso la unidad Ui poblacional solamente se sabe si pertenece a un dominio determinado cuando se mide o encuesta,
es decir después de realizado el trabajo de campo. Sea i el porcentaje de unidades poblacionales que pertenecen al dominio
i-ésimo, entonces si n es el tamaño de muestra global requerido para estimar Yi ; i 1, 2, 3...., k , la varianza alcanzada para
el estimador en cada dominio será:

Si2 Si2
V (Yˆi ) (1 fi ) (1 fi ) (3.24)
ni n i

Si el tamaño de los dominios es grande es decir: f i < 5 % entonces:

Si2
V (Yˆi ) (3.25)
n i

Despejando n y suponiendo que se desea V (Yˆi ) V0 ; i entonces:

S i2 S i2
n (3.26)
ˆ iV0
iV (Yi )

Se tiene entonces que el tamaño de muestra para la estimación de la media poblacional para la variable Y en cada uno de los
k dominios depende de Si2 y i y se tendrían varios tamaños demuestra uno por cada dominio, por lo tanto:

Si2
n máx ; i 1,2,.., k (3.27)
iV0

Significando con ello que el tamaño de muestra será el mayor de todos los resultantes. Cuando para algún i-ésimo dominio
i es pequeño, el tamaño de muestra dado por ese dominio se hace muy grande. Esta situación puede atenuarse de tres
formas (Cochran, 1980).

Aumentando para ese dominio la varianza deseada V (Yˆi )


Identificando previamente las unidades de este dominio para incrementar la tasa de su respresentatividad
Realizar un muestreo doble

Cuando la investigación exige tamaños de muestra para estimar para los dominios i-ésimo y j-ésimo dados la diferencia entre
sus medias poblacionales se tiene que por independencia:

180 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
V (Yˆi Yˆj ) V0 V (Yˆi ) V (Yˆj ) V0

Si2 S 2j
V (Yˆi ) V (Yˆj ) (1 fi ) (1 fj) V0
ni nj
Asumiendo que los dominios son grandes en su tamaño:

Si2 S 2j Si2 S 2j
V0
ni nj n i n j

Donde i y j son las proporciones de la cantidad de unidades que pertenecen al dominio i-ésimo y j-ésimo
respectivamente.

Despejando n se tiene:

1 Si2 S 2j
n (3.28)
V0 i j

Cada par de dominios i, j producirá un tamaño de muestra n diferente por lo tanto:

máx 1 Si
2
S 2j
n i, j V (3.29)
0 i j

Se toma el tamaño de muestra mayor resultante de todas las posibles diferencias de medias solicitadas en el estudio.

Ejemplo 3.19
Para la población infantil de la ciudad ABC compuesta por 300000 niños menores de 18 años se desea estudiar la cantidad de
Cadmio en el cabello ( g / g ). En este sentido se requiere estimar la cantidad promedio de dicha sustancia para niñas y
niños menores de 18 años con un error 0.03 y un nivel de confianza del 95%. La proporción de niñas en dicha ciudad
es del 67%. Un estudio piloto permite estimar por adelantado las cuasivarianzas para dichos dominios obteniendo:
SˆM2 0.09625365 y SˆF2 0,0382192

Solución//


i
2
i V0
Z 2

Niñas (F) 0.0382192 0.67


0,00023428
Niños (M) 0.09625365 0.33

Si2
n máx ; i 1,2,.., k
iV0

181 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Reemplazando:

Si2 Si2
nF 243,48 244 y nM 1245,01 1246
iV0 iV0

Por lo tanto el n requerido para obtener las estimaciones será de 1246 menores de 18 años

3.10 TAMAÑO DE MUESTRA EN SUBDIVISIONES POBLACIONALES O DOMINIOS DE ESTUDIO PARA


VARIABLES NO NUMERICAS (ATRIBUTOS)

Se tienen los siguientes casos:

3.10.1 Los dominios se pueden identificar por adelantado


2

Se desea estimar Pi ; i 1, 2,...., k con varianza deseada para cada dominio igual a V0 , suponiendo que los
Z 2

tamaños de los dominios son grandes entonces:

Pi Qi
ni ; i 1, 2,...., k (3.30)
V0

Y el tamaño de muestra para la estimación de P en toda la población será:

k k Pi Qi 1 k
n n
i 1 i
P Qi
i 1 i
(3.31)
i 1
V0 V0

Suponiendo que Pi P i entonces:


1 k kP.Q
n PQ
V0 i 1
V0

Por otro lado si se desea estimar la proporción poblacional P para toda la población con la varianza deseada igual a V0 se
tendrá que:
1
n P.Q .
V0

Significando con ello que el tamaño de muestra para la estimación de Pi ; i 1, 2,...., k con varianza deseada V0 puede ser
aproximado por k veces el tamaño de la muestra para estimar P con la misma varianza.
Ejemplo 3.20
Una muestra piloto de 30 hombres y 35 mujeres mayores de 18 años residentes en una comunidad grande arrojó las
siguientes proporciones a favor de la pregunta:

182 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

“Si las elecciones para Alcalde de la ciudad ABC fueran hoy, votaría usted por el candidato Pedro Pérez” Sí No

Mujeres votantes Hombres votantes


Pi 0.30 0.43

a) Determine el tamaño de muestra para estimar la proporción de votantes por Pedro Pérez con un error M 0.05 para
las mujeres y H 0.08 para los hombres respectivamente y un nivel de confianza del 95% en ambos casos. No
considere el factor de corrección por población finita.

Solución//

De acuerdo con 3.30

(1.96) 2 (0.30).(070)
nM 322.69 323
Pi Qi (0.05) 2
ni ; i 1, 2
V0 (1.96) 2 .(0.43).(0.57)
nH 147.12 148
(0.08) 2

b) Determine el tamaño de muestra para estimar la proporción de votantes por el candidato Pedro Pérez con un error máximo
de 0.06 y el mismo nivel de confianza establecido en el literal a)
Solución//

Se puede estimar la proporción P global de la siguiente manera:

Pˆ1*n1* Pˆ2*n2* (0.30).(35) (0.43).(30)


Pˆ *
0.36
n 65
1 (1.96) 2 (0.36)(0.64)
n P.Q 245.86 246
V0 (0.06) 2

3.10.2 Los dominios no se pueden identificar por adelantado

Sea:

i : El porcentaje de unidades poblacionales que pertenecen al dominio i-ésimo.


Al estimar Pi ; i 1, 2,...., k para cada dominio, suponiendo que el tamaño población de cada dominio es grande, la
varianza alcanzada en cada caso será:

183 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
Pi Qi N i ni Pi Qi
V ( Pˆi )
ni Ni 1 ni

Si se desea hallar el tamaño de muestra ni para estimar Pi ; i 1, 2,...., k con varianza deseada V0 para todos
Z 2

los dominios entonces:

Pi Qi Pi Qi
V ( Pˆi ) V0 V0
ni n i

Despejando n :

Pi Qi Pi Qi
n (3.32)
ˆ iV0
iV ( Pi )

De esta manera se tendrían varios tamaños de muestra globales para obtener las estimaciones, hecho este que se resuelve
tomando:

Pi Qi
n max ; i 1, 2,..., k (3.33)
iV0

Si se desea estimar las diferencias ( Pi Pj ) de tal manera que para cada par de dominios, la varianza deseada para la
2

diferencia de proporciones sea V0 y suponiendo que los tamaños de los dominios son grandes entonces:
Z 2

Pi Qi Pj Q j
V ( Pˆi Pˆ j ) V0 V ( Pˆi ) V ( Pˆ j ) V0
ni nj

Pi Qi Pj Q j Pi Qi Pj Q j 1 Pi Qi Pj Q j 1 Pi Qi Pj Q j
V0 n (3.34)
ni nj n i n j n i j V0 i j

En donde:
i : Proporción de la cantidad de unidades que pertenecen al dominio i-ésimo.

j : Proporción de la cantidad de unidades que pertenecen al dominio j-ésimo.

184 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
El tamaño de muestra global requerido será el máximo alcanzado al considerar las diferentes combinaciones de dos dominios
definidas en la investigación; es decir:

máx 1 Pi Qi Pj Q j
n (3.35)
i, j V0 i j

Ejemplo 3.21
Un estudio en mujeres en edad fértil se ha preguntado si está a favor del aborto asistido cuando la madre está en peligro, ha
sido violada o el feto está malformado. Para ello se han considerado tres dominios de estudio de acuerdo con la edad. Un
estudio piloto dio como resultado lo siguiente:

Dominio 1 Dominio 2 Dominio3


18 Edad < 25 25 Edad < 35 35 Edad < 45
*
ni 30 25 18
Pi 0.7 0.66 0.35

Estudios anteriores permiten establecer las siguientes proporciones en cuanto a la cantidad de unidades en cada dominio:

1 0.45 ; 2 0.30 y 3 0 .25 .

a) Estimar el tamaño de muestra para estimar Pi ; i 0.05 y un nivel de confianza del 95%.
1, 2,...., k con un error
b) Estimar el tamaño de muestra para las siguientes diferencias de proporciones: ( P1 P2 ) ; ( P1 P3 ) y ( P2 P3 ) con el
mismo error y nivel de confianza establecidos en el literal a).

Solución//

a) La varianza deseada para la estimación de cada proporción Pi , será:

2 2
0.05
V ( Pi ) V0 0.00065077
Z 2 1.96

(0.7)(0.3)
718
(0.45)(0.00065077 )
Pi Qi (0.66)(0.34)
ni 1150
iV0 (0.30)(0.00065077 )
(0.35)(0.65)
1399
(0.25)(0.00065077 )

De tal manera que el tamaño de muestra requerido para la estimación de la proporción de mujeres a favor del aborto es de
1399 mujeres.

185 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

1 Pi Qi Pj Q j
b) De acuerdo con la expresión (3.35), el tamaño de muestra para la estimación de ( Pi Pj ) es n
V0 i j

1 (0.7)(0.3) (0.66)(0.34)
Para ( P1 P2 ).....n 1867
0.00065077 0.45 0.30

1 (0.70)(0.30) (0.35)(0.65)
Para ( P1 P3 ).....n 1399
0.00065077 0.45 0.25

1 (0.66)(0.34) (0.35)(0.65)
Para ( P2 P3 )....n 1400
0.00065077 0.30 0.25

El tamaño de muestra requerido es el mayor de todos es decir: n 1867 mujeres.

3.11 SENSIBILIDAD DEL TAMAÑO DE MUESTRA

Como se trato antes el tamaño de muestra para la estimación de la media poblacional Y , estableciendo un error de muestreo
y un nivel de confianza viene expresado en su primera aproximación por:

S2 S 2 .z 2
2
n0
V (Yˆ )
2

A ésta cantidad se le llama primera aproximación al tamaño de muestra y es el tamaño que se obtiene cuando se supone de
entrada que el tamaño de la población N es muy grande (infinito). En la práctica se dice que una población es infinita o muy
n0
grande cuando la fracción de muestreo f < 5% . Teniendo en cuenta ésta circunstancia, la expresión para n quedará:
N

n0 si f < 5%
n0
n si f 5%
n0
1
N

A continuación se presentan algunas gráficas que ilustran muy bien el comportamiento del tamaño de muestra y de los
indicadores que lo determinan. Se analiza el comportamiento de ella cuando varía uno de sus componentes manteniendo
constantes los demás. Realmente el tamaño de muestra depende de múltiples factores como puede verse en la figura 3.6.

186 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
La mayoría de los usuarios del muestreo desconocen el hecho de que el tamaño de muestra está acotado por la primera
aproximación n0 y creen que este crece siempre indefinidamente a medida que crece la población como en la figura 3.7

Figura 3.6. Insumos para la determinación del tamaño de una muestra.

3.11.1 Falsa creencia sobre el comportamiento del tamaño de una muestra

Un error muy frecuente de los investigadores no estadísticos es creer que el tamaño de la muestra es proporcional al tamaño
de la población. Dicha creencia daría como resultado el siguiente comportamiento desde luego erróneo. Ver figura 3.7

n
n0

N
Figura 3.7. Falsa creencia sobre el comportamiento del tamaño de la muestra en función del tamaño de la población.

El verdadero comportamiento del tamaño de la muestra a medida que el tamaño de la población aumenta, se puede observar
en la siguiente gráfica que se construye suponiendo que n 0 20 y dándole valores a N (tamaño de la población) para
graficar la la función:

n n0 .N 20.N
n
n N n0 N 20
1 0
N

187 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

N 0 20 100 200 300 400 500 1000


n 0 10 16.6 18.2 18.7 19.0 19.2 19.6

3.11.2 Relación entre el tamaño de una muestra y el tamaño de la población

La figura 3.8, muestra el verdadero comportamiento del tamaño de la muestra en función del tamaño de la población. De esta
figura se pueden obtener las siguientes conclusiones:

Figura 3.8. Verdadero comportamiento del tamaño de muestra en función del tamaño de la población.

n nunca será mayor a n0 (primera aproximación).


Tomar muestras mayores a n0 , mantiene las condiciones establecidas para determinar el tamaño de la muestra, pero no
son eficientes dichos tamaños ya que se incurre en gastos inoficiosamente.
Dos poblaciones N1 y N 2 de diferente tamaño ( N 1 <<< ... < N 2 ) pueden dar la misma aproximación.
n0
En la práctica la fracción de muestreo f es despreciable cuando: f < 5%
N
Por otro lado de la expresión de primera aproximación, se pueden deducir algunas conclusiones para su comportamiento en
función de los indicadores que la determinan:

3.11.3 El tamaño de muestra como función de cada uno de los elementos que la definen asumiendo constantes el
resto de ellos.

Las figuras: 3.9; 3.10; 3.11 y 3.12 muestran el comportamiento de la primera aproximación del tamaño de muestra en función
de uno de los factores que la determinan al suponer fijos el resto de ellos.

n0 depende directamente de la variabilidad de la población investigada “A mayor variabilidad de la característica X


analizada, mayor tamaño de la muestra será necesario”, esta relación se muestra mediante la siguiente tabla.

Suponga por ejemplo que se desea una varianza del estimador igual a V0 0.02 , y se despeja n0 para luego darle
2
valores a S , entonces:

188 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

S2 0 0.5 1.0 1.5 2.0 2.5 3.0


n0 0 12.5 50 112.5 200 312.5 450

S2 S2
n0
V0 0.02

Figura 3.9. Comportamiento de la primera aproximación de la muestra en función de la cuasivarianza poblacional.

n0 depende inversamente de 2
“A mayor error absoluto de muestreo tolerado, menor tamaño de muestra será
necesario”.

Figura 3.10. Comportamiento de la primera aproximación de la muestra en función del error absoluto de muestreo.

2
Suponga por ejemplo que S 40 , y asuma un nivel de confianza del 95% para obtener así z 1.96 . Bajo estos
2

supuestos dando valores a , se obtiene:

S2 z .S 2 (1.96).40
2
n0 2 2
V0

189 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

0.2 0.5 0.8 1.0 1.3 1.5 2.0 2.5


n0 3841.5 614.6 240.1 153.6 90.9 68.3 38.4 24.6

n0 2
depende directamente de z “A mayor nivel de confianza mayor tamaño de muestra será necesario” Suponga por
ejemplo que S
2
80 , y asuma un error absoluto de muestreo de 2 . Bajo estos supuestos dando valores a z , se
obtiene:

S2 z .S 2 z 2 .80
n0 2
2
2
V0 22

(1 ) 0.50 0.60 0.70 0.80 0.85 0.90 0.95


Z 2 -0,67 -0,84 -1,04 -1,28 -1,44 -1,64 -1,96
n0 8.98 14.11 21.6 32.7 41.5 53.8 76.8

Figura 3.11. Comportamiento de la primera aproximación de la muestra en función del nivel de confianza.

n0 depende inversamente de la varianza deseada V0 “A menor varianza deseada para el estimador, mayor tamaño de
muestra será necesario” .Suponga por ejemplo que S
2
80 , y bajo esta condición dándole valores a V0 se tiene:

S2 80
n0
V0 V0

190 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

V0 2.0 1.5 1.2 1.0 0.8 0.5 0.2 0.1


n0 40 53.3 66.6 80 100 160 400 800

Figura 3.12. Comportamiento de la primera aproximación de la muestra en función de la varianza desea para el estimador.

3.12 COSTOS Y TAMAÑO DE MUESTRA

Un factor importantísimo en la definición de una tamaño de muestra para la realización de una investigación por muestreo, es
el costo de la obtención de la información muestral. De todos los procedimientos de selección de la muestra y la forma del
estimador que se defina (Llamado comúnmente diseño muestral), un investigador debe preferir el que le dé la mayor
precisión para un determinado costo de la obtención de la información muestral, o aquel que para un nivel de precisión
determinado le dé el menor costo posible de obtención de la información muestral. A manera de ejemplo, suponga que se
desea estimar usando el MAS en una población de tamaño N , la media poblacional Y para una característica Y con las
siguientes restricciones:

Una varianza deseada para el estimador:

n S2
V0 V (Yˆ ) 1 . (1)
N n

Un costo total de recolección especificado:

CT0 C0 C1.n (2)

191 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
Una sencilla función del costo total de recolección es:

CT0 C0 C1.n

Que como puede verse es de tipo lineal y en ella:

C0 : representa el costo fijo (Gastos en que se incurre cuando se realizan las encuestas y que no dependen del número de
encuestas que se realicen),
C1 : representa el Costo de levantar una encuesta y
n : representa el tamaño de la muestra.

Al graficar las dos funciones (1) y (2), en el mismo plano cartesiano se tienen las siguientes situaciones:

3.12.1 La precisión dependiendo del costo de recolección de información (trabajo de campo)

Si se da un costo fijo de C ( n) C1 para la recolección de la información, solo se puede tomar una muestra de tamaño n1
para la cual la mínima varianza obtenida será V1 . Ver figura 3.13.

Figura 3.13. La precisión alcanzada dependiendo del costo de recolección.

3.12.2 El costo de recolección de la información dependiendo de la precisión del estimador

Si se da como varianza deseada para el estimador V 2 , la cual solo se puede alcanzar con una muestra de tamaño n 2 la cual a
su vez determina el costo mínimo total de recolección de información que será C2 . Ver figura 3.14 que representa la
situación que relaciona las dos funciones para el caso dado.

192 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Figura 3.14. El costo de recolección dependiendo de la precisión del estimador.

Para saber más sobre costos y muestreo el lector puede consultar Groves (1989).

Ejemplo 3.22
Un investigador desea conocer la duración promedio para cierto tipo de unidad electrónica sellada y para ello ha establecido
de acuerdo a los requerimientos de la investigación que los costos fijos de laboratorio para examinar dichas unidades es de
$ 3000000 y la prueba y revisión de cada unidad tiene un costo de $ 80000. El lote de unidades sobre las cuales desea
obtener la estimación está compuesto por 800 unidades.

a) ¿Cuántas unidades se podrá examinar si se dispone de $ 5560000


b) Si con el tamaño de muestra definido en a) se obtuvo en el laboratorio para la duración promedio de las unidades
examinadas que Sˆ y2 76 . ¿Qué error absoluto de muestreo (error máximo tolerable) se puede esperar en la estimación
de Y con un nivel de confianza del 95%?

Solución//

Para la parte a):

C C01 5600000 3000000


C C0 C1 .n n 32
C1 80000

Para la parte b):

193 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

2
N n Sˆ y
2
800 32 76
Vˆ(Yˆ) . . 2.20 y Vˆ(Yˆ)
N n 800 32 Z
2

Por lo tanto al igualar las varianzas se tiene como error absoluto de muestreo estimado:
2

2.20 2.91
1.96

La figura 3.15 muestra amanera de resumen que los costos, el tamaño de la muestra y la variabilidad del estimador están
íntimamente ligados presentando tres relaciones básicas a saber:

Varianza Tamaño de muestra Costo implicado


Deseada V (θˆ ) Alcanzado n C (n )

Costo Tamaño de muestra Varianza


Implicado C (n ) Alcanzado n Deseada V (θˆ )

Varianza Tamaño de muestra Costo implicado


Deseada V (θˆ ) Alcanzado n C (n )

Figura 3.15. Relaciones básicas entre la varianza deseada, el tamaño de la muestra y el costo de recolección.

La flecha indica el elemento que queda determinado.


 

Ejemplo 3.23
Si en el ejemplo anterior se desea un tamaño de muestra para satisfacer un error de muestreo de 1.65 con un nivel de
confianza del 95%. ¿Cuál será el costo total en el que incurrirá el trabajo de campo?. Estudios anteriores permiten estimar
anticipadamente que Sˆ y2 55.49 .

Solución//

Z 2 .Sˆ y2 2
1.96 . 55.49 n0 78.29
2
n0 2 2
78.29, 5%
1.65 N 800

Y por lo tanto el tamaño de muestra será:

n0 78 .29
n 71
n0 78 .39
1 1
N 800

194 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

De acuerdo con los costos ya establecidos en el problema anterior para este nuevo tamaño de muestra el costo total para el
trabajo de campo será:

C $ 3000000 $ 80000 . 71 $ 8680000

Nota
Es fácil ver en los gráficos anteriores que al reducir costos de recolección se incrementa la varianza del estimador, esto es se
pierde precisión y al aumentar varianza en el estimador, se reduce el costo de recolección. Lo anterior muestra que el
comportamiento entre estas funciones es inversamente proporcional.
Si se hace:

n S2
L ( n) C ( n) .V (n) C0 C1.n . (1 ).
N n

Donde es una constante a determinar, se involucran los dos factores presentados en la gráfica anterior en una sola función.

Esta función es en sí misma un modelo estadístico ya que lleva implícito un componente aleatorio y es razonable entonces
que se quiera minimizar la función L (n ) , vale decir se minimiza conjuntamente el costo y la varianza del estimador. El
segundo sumando de la función L (n ) , suele llamarse función de perdida.

Suponiendo que =1, la figura 3.16 muestra el comportamiento de la función L (n ) y su valor mínimo para una muestra n ,
L ( n)
el cual se obtiene haciendo 0.
n

Figura 3.16. Comportamiento de la función L(n)= C(n)+ .V(n).

195 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

3.13 AJUSTES AL TAMAÑO DE MUESTRA DEBIDOS A LA NO RESPUESTA Y LOS COSTOS DE


TRABAJO DE CAMPO

Dos aspectos fundamentales para realizar ajustes a los tamaños de muestra son los siguientes:

La no respuesta

Los estudios anteriores, el tipo de forma para la obtención de la información o los estudios piloto aportan buenas
estimaciones sobre la tasa de no respuesta TNR. Este conocimiento permite ajustar el tamaño de muestra ya definido
mediante la expresión:

nf n.(1 TNR ) (3.36)

nf : Tamaño de muestra final o tamaño de muestra ajustado,


n : Tamaño de muestra definido para un error y nivel de confianza específicos,
TNR : Tasa de no respuesta.
Presupuesto para el trabajo de campo

Los costos en una investigación son una limitante fuerte para la obtención de buenas estimaciones, por lo regular se pueden
conocer fácilmente los siguientes insumos de costos:

PTC : Presupuesto total para la realización del trabajo de campo.


CF : Costos fijos.
GV : Gastos varios (transporte, alimentación, etc.).

CE: Costo de realizar una encuesta o medición.

Con base en el conocimiento de los valores anteriores, el tamaño de muestra resultante será:

PTC CF GV
n (3.37)
CE

El tamaño de muestra final debe entones balancear el tamaño definido con base en el error y nivel de confianza con el tamaño
de muestra definido por los costos del trabajo de campo.

EJERCICIOS

Ejercicio 3.A
Considerando los datos generados en el ejercicio 2.A como una población, los cuales están almacenados en la columna C4 de
la hoja de datos del paquete MINITAB; genere una muestra de tamaño n 30 sin reemplazo.

Ayuda
Al seguir simultáneamente los siguientes pasos se obtiene el siguiente cuadro de diálogo:

196 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Cal Random Data Sample From Columns

Tamaño de la
muestra solicitada 

Columna que
contiene los datos
poblacionales

Columna que
almacenará los datos
de la muestra

Al pulsar OK se obtendrá la siguiente salida que muestra al frente de los datos poblacionales (c4) los datos que contiene la
muestra generada (almacenada en C6)

Datos poblacionales
Datos muestrales
(Muestra de tamaño n)

Ejercicio 3.B
En el ejercicio 3.A encuentre la muestra del mismo tamaño para la misma población pero con reemplazo

Ayuda
Basta con marcar una X en Sample With Remplacemet y luego OK para obtener

197 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Ejercicio 3.C
De la base de datos RAKAN que se anexa al final del libro.
a) Genere una muestra sin reemplazo de tamaño n 80 registros
b) Establezca un intervalo de confianza para cada uno de los parámetros que se indican con un nivel de confianza del 95%.
Interprete.

VARIABLE PARÁMETRO
Proporción de familias propietarias de la vivienda que
VIVI-PRO=Vivienda propia habitan.
NUM-PER=Número de personas que habitan la vivienda Promedio de personas que habitan en la vivienda.
NUM-PERT= Número de personas que trabajan Total de personas que tienen trabajo en la ciudad.
ING-FAMI=Ingreso mensual familiar Ingreso promedio familiar.
GAST-ALI=Gasto mensual familiar en alimentos Gasto promedio en alimentos
AR-DE-PRE= Área construida del predio Área promedio de las viviendas.
IMPU-PRE=Impuesto predial Impuesto predial promedio.

c) ¿Qué tamaño de muestra se requiere para estimar cada uno de los parámetros anteriores considerando para cada
estimación un error del 10% del respectivo parámetro encontrado en el literal b) y un nivel de confianza del 95%

Ayuda
La primera columna de la base de datos (hoja Excel) corresponde al código de la vivienda el cual esta compuesto por 6
dígitos con la siguiente distribución:

Número de la vivienda

Número del sector 

Número de la comuna 

198 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

El archivo RAKAN tiene en total 2600 viviendas repartidas en 5 comunas, las cuales están a su vez divididas en sectores y
estos finalmente en viviendas.

Apóyese en el ejercicio 3.A y el siguiente cuadro de diálogo

Tamaño de la muestra Variables que contendrán


los registros muestreados
(80 registros)

Columnas que contendrán


los valores de las variables
seleccionadas registros
muestreados

La salida del paquete le proporciona 80 registros en las columnas por usted estipuladas para las variables seleccionadas (El
número de variables seleccionadas debe ser igual al número de columnas por usted estipuladas). Posteriormente para cada
columna se procede a obtener los indicadores estadísticos respectivos. Es bueno incluir siempre el código que identifica cada
registro con él se podrá confrontar la muestra en la población.
Para la obtención de las muestras considere la muestra obtenida en el paso anterior y proceda a aplicar las formulas
respectivas. Recuerde que la muestra para cumplir con todas las estimaciones requeridas será la mayor de todas.

Ejercicio 3.1
Si consideramos que la función de costo para el trabajo de campo viene dada por C C0 C 1 .n b con b 0 , demuestre

que el valor de n que minimiza la función de pérdida L(n) V (Yˆ ) C viene dado por:

1
S y2 ( b 1)
n
b.C1

Ejercicio 3.2
En un muestreo de insectos realizado en un centro de investigación de agricultura, se quiere estimar el número de gusanos por
acre con un límite de error del 15% y una probabilidad del 95% en campos en donde la cantidad de gusanos se cree que
supera los 250000 por acre, en la capa superior del suelo con un espesor de 6 pulgadas. se dispone de una barren para
muestrear que mide 12 x 12 x 6 plg3.suponiendo que para el número de gusanos en una muestra puede suponerse que
s 2 1.3 y . ¿qué tamaño de muestra aleatoria simple será necesario? (Un acre = 43560 pies2, Un pie2=144 pulgadas2)
 
Ejercicio 3.3
En una encuesta realizada sobre predios agrícolas en el Distrito ABC de un Dpto. con vocación agrícola, se ha obtenido la
siguiente información:

199 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

CV(%)
Característica CV(%) estimado
estimado Característica
Cantidad de acres cultivadas 40 Acres con trigo 45
Acres con soya 37 Nº de trabajadores de la familia 100
Nº de trabajadores contratados 105 Número de máquinas cosechadoras 320

Se plantea una encuesta para estimar las características de área con un coeficiente de variación del 3.5% y para el número de
trabajadores un coeficiente de variación del 8%. Ignore cpf.
a) ¿Qué tamaño de muestra se necesita?
b) ¿Qué tan buena es está muestra para estimar el número de máquinas cosechadoras?

Ejercicio 3.4
Se sabe que la desviación estándar para la característica analizada Y es Y 230 .8 en una población de tamaño N 500
, si la distribución muestral del estimador de Y es:

Y 18 20 21 19 22

Pr (Yˆ ) 3/10 2/10 2/10 2/10 1/10

¿Cuál es el tamaño de muestra que sea consistente con la formación suministrada?

Ejercicio 3.5
La siguiente información corresponde a una muestra piloto de de 30 familias que residen en el barrio LA PAILA de la
comuna 10 de la ciudad ABC en el cual hay 3500 familias.

Número de personas que componen la Consumo de


Ingresos Vivienda Nº de personas que
Familia familia Energía/mes
(miles pesos/semana) propia trabajan
Total Masculino Femenino KWh
001 301 si 5 3 2 3 236,6
002 355 no 4 2 2 2 229,6
003 221 si 5 3 2 2 231
004 398 si 4 2 2 2 205,8
005 508 si 4 3 1 2 230,6
006 376 no 3 2 1 1 256,3
007 588 no 3 1 2 1 231,1
008 477 no 2 1 1 1 249,1
009 248 si 3 1 2 1 262,9
010 485 si 2 1 1 1 239,5
011 387 no 5 3 2 2 259,1
012 283 si 7 4 3 1 270,6
013 299 no 5 2 3 2 251,2
014 173 si 6 2 4 1 189,2
015 500 no 5 2 3 2 236,6
016 296 si 6 2 4 1 268,4
017 422 si 6 3 3 2 229
018 573 si 6 2 4 2 180
019 350 si 3 1 2 2 269,9
020 313 si 4 1 3 1 258
021 442 no 4 2 2 2 214,5
022 428 no 6 3 3 1 260,5
023 384 no 3 1 2 2 274
024 301 si 4 1 3 1 261,1
025 445 no 5 1 4 2 283,2
026 539 si 4 2 2 1 280,7

200 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
027 214 no 6 3 3 2 244,8
028 411 si 6 2 4 1 277,2
029 500 no 5 3 2 1 199,4
030 422 si 5 2 3 1 248

Estime el tamaño de una muestra aleatoria para la población de las 3500 familias para que se cumplan todas las
especificaciones establecidas en cada una de las siguientes estimaciones:

a) Estimación del ingreso familiar medio, con un error máximo permisible de $12000 y un nivel de confianza del 95%.
b) Estimación del consumo medio de energía, con un coeficiente de variación de 0.001.
c) Estimación de la proporción de familias con vivienda propia, para una varianza del estimador igual a 0,004.

Ejercicio 3.6
En una zona forestal hay aproximadamente 5000 arbolitos de pino para los cuales se ha detectado cierta enfermedad en
algunos de ellos. SSE desea estimar la proporción de arbolitos enfermos con un error relativo de r 0 . 19 y un nivel de
confianza del 95%. Mediante fotografías aéreas se ha estimado que la proporción de pinos enfermos está aproximadamente
entre 58% y 65%, ¿Qué tamaño de muestra sería necesario?

Ejercicio 3.7
En una amplia extensión agrícola compuesta por 10000 árboles se ha detectado la existencia de dos enfermedades, una en la
zona periférica que se cree afecta al 1% de sus árboles y otra en el resto (zona especial del bosque) que se cree afecta al 20%
de sus árboles. En la zona periférica hay aproximadamente 3000 árboles. ¿Cuál es el tamaño de muestra necesario para
estimar la proporción de árboles enfermos en cada zona para que los errores de estimación (errores de muestreo) no superen
el 3% y 2% respectivamente?

Ejercicio 3.8
En una población de tamaño N se quiere extraer una muestra de aleatoria simple de tamaño n para estudiar la característica Y.
a) ¿Cuál debe ser el tamaño de la muestra si se desea que el coeficiente de variación CV ( y ) C 0 ?.
b) ¿Cuál sería dicho tamaño si se ignora la corrección por población finita (1 f) (N n) / N ?.
n0
c) Verifique que: n .
1 n0 N
d) Se desea conocer parámetros poblacionales y para ello determino una muestra que a su vez depende de dichos parámetros
desconocidos. ¿Cómo se vence este círculo vicioso?.

Ejercicio 3.9
En una población de tamaño N, se sabe que el valor de la característica Y para la unidad i–ésima Ui es yi . Se toma una
muestra aleatoria simple de tamaño n, de las (N-1) unidades poblacionales. Verifique que el estimador del total
Yˆ yi ( N 1). y tiene una varianza menor que la varianza del estimador del total definido por Yˆ N . y . Este hecho
significa que entre más información se posea sobre una población mejor será la estimación de sus parámetros.

Ejercicio 3.10
Un ingeniero forestal desea realizar un muestreo de insectos en la capa superior de 5 pulgadas del suelo y para ello utiliza
una barrena cuyo volumen para obtener la muestra es de 9x9x5 plg3 (5 de profundidad). Bajo los siguientes supuestos:

a) El campo tiene muy probablemente más de 200000 insectos por acre,

201 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
b) El número en la unidad muestral sigue una distribución ligeramente más variable que la Poisson y por ello se puede tomar
S2 (1 .2 )Y .

¿Qué tamaño de muestra se requiere para estimar el número de insectos por acre con un límite de error del 30% al nivel de
probabilidad del 95%?

Ejercicio 3.11
Los siguientes coeficientes de variación fueron obtenidos mediante una encuesta realizada a predios agrícolas en el estado
ABC.

Coeficiente de
Característica analizada
variación estimado
Acres dedicados a la agricultura en el
32%
predio
Acres con cultivo de cebolla 37%
Acres con cultivo de sorgo 48%
Nº de trabajadores contratados en el
102%
predio
Nº de Trabajadores de la familia
99%
propietaria del predio
Nº de equipos de riego mecanizado 207%

Mediante un estudio posterior se pretende estimar las características de área con un coeficiente de variación deseado del 2.8%
y las características relacionadas con los trabajadores con un coeficiente deseado del 5% usando MAS.
a) ¿Cuántos predios se requieren?
b) ¿Qué tan buena es la muestra resultante en a) para estimar el Nº de equipos de riego.

Ejercicio 3.12
En una comuna hay 6000 casas y se desea estimar el porcentaje de propietarios con un CV 0.08 y el porcentaje de
personas mayores de 50 años con un error estándar no mayor al 3%. Se cree que el porcentaje de propietarios, está entre 38%
y 70%, mientras que el porcentaje de personas mayores de 50 años en una investigación pasada dio menor del 14%. ¿Qué tan
grande debe tomarse una muestra para satisfacer las dos estimaciones?

Ejercicio 3.13
*
Una muestra piloto de n 120 medidores de agua son analizados dentro de una comunidad con miras a estimar el
promedio del consumo de agua diario por casa, durante un período seco. La media y la varianza de la muestra piloto fueron:
y 13 .5 y s 2 1234 . Suponiendo que hay 20000 casas en la comunidad analizada, ¿cuál será el tamaño de la muestra
necesaria para estimar (promedio verdadero del consumo diario) deseado de: CV( ˆ ) 0.09 .

Ejercicio 3.14
Un dentista está interesado en la efectividad de la crema dental marca ABC-1 y en este sentido desea estimar la proporción
pacientes que en sus 1200 que lo consultan usan dicha marca dental. ¿Cuál será el tamaño de muestra en cada uno de los
siguientes casos?

a) No conoce nada acerca de la verdadera proporción O y desea V ( Pˆ ) 0 .020 .


b) El cree que: 0 . 52 P 0 . 82 y desea V ( Pˆ ) 0 . 12 .
c) El supone que 0 . 21 P 0 . 42 y desea un error de magnitud 0 . 09 , con un nivel de confianza del 90%.

202 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 
d) Desea un error relativo de 0.12 con un nivel del 90% y se sospecha que P es aproximadamente igual a 0.38.

Ejercicio 3.15
Se desea estimar la cantidad promedio de dinero para las cuentas por cobrar del hospital MBICO. Aunque so se tiene
información anterior para estimar la varianza poblacional, se sabe que la mayor parte de las cuentas caen dentro de una
amplitud de variación de 100 euros, el hospital tiene 1200 cuentas abiertas. Encuentre el tamaño de muestra n necesario para
estimar , con un límite de error de 39 euros y un nivel de confianza del 95%.

Ejercicio 3.16
Una comercializadora de carne de pollo desea estimar la ganancia en peso total después de 5 semanas para una población de
3000 pollitos alimentados con el concentrado AB-3. Determine el número de pollitos que deben ser seleccionados para
estimar el total Y con un límite de error de 1200 gramos. Estudios nutricionales con concentrados similares en la
2
misma raza avícola ha dado como resultado para la variable analizada s 42 . Determine el tamaño de muestra requerido
usando un nivel de confianza del 90%.

Ejercicio 3.17
Un gerontólogo realiza una investigación en una pequeña ciudad mediante llamadas telefónicas con el propósito de estimar la
proporción de hogares donde habita al menos una persona mayor de 65 años. La ciudad tiene 700 hogares, según el directorio
telefónico más reciente. Una muestra aleatoria de n= 60 hogares fue seleccionada del directorio. Al terminar la encuesta, de
los 80 hogares se encuentra que en 12 hogares habitan personas de más de 65 años de edad. Estime la proporción verdadera P
sobre la base del directorio, y establezca un límite de error al 95% de confianza.

Ejercicio 3.18
¿Qué tamaño de muestra se requiere en una población de N 2500 para estimar el total de la variable Y en cada uno de los
siguientes casos:

a) La distribución de la característica Y analizada tiene forma triangular (rectángulo a la izquierda) y el dominio de


definición de dicha característica es 4.9 y 13.2 . Se desea una varianza de estimación V (Yˆ ) 0 , 031 y un nivel de
confianza del 95%.
b) La distribución de la característica Y analizada tiene forma normal con rango de R 6 y su dominio de definición es
305 .5 y 680 .3 . Se desea un error de estimación de magnitud 10 y un nivel de confianza del 95%.

Ejercicio 3.19
En un zoológico se está interesado en estimar la proporción de personas que opinan positivamente sobre el estado de las
instalaciones del parque y sus servicios, para ello se toma una muestra piloto de 30 visitantes y se les pregunta su opinión con
30
uno de dos resultados: opinión negativa y 0 y opinión positiva y 1 ; obteniendo i 1
yi 22 . Determine el tamaño
de muestra para estimar P para todos los visitantes en un día determinado asumiendo un límite de error 0 . 043 y un
nivel de confianza del 95%.

Ejercicio 3.20
El Dpto. de ventas está interesado en estimar el total de facturas que fueron archivadas incorrectamente. Una muestra piloto
*
de n 20 facturas tomadas de un grupo de 1000, se arrojó 10 archivadas incorrectamente. ¿Qué tan grande debe ser una
muestra para estimar dicho total deseando que esta estimación tenga una varianza de V ( Aˆ ) 468 ?.

203 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Ejercicio 3.21
En una muestra de 100 colegios de educación primaria tomada de un directorio que contiene 600 establecimientos con estas
características se analizaron las variables Y: Número de estudiantes y, X: Número de profesores obteniendo los siguientes
resultados:

Tipo de colegio n yi xi
Público 60 47960 911
Privado 40 24131 483

Tipo de colegio yi2 yi xi xi2


Público 2338540606 728000 844068
Privado 14577713 291763 5981

a) Para cada tipo de colegio estime la razón (Número de estudiantes/Número de profesores).


b) Calcule el error estándar de las estimaciones.
c) Para los colegios privados, encuentre los límites de confianza del 95% para la razón: Número de estudiantes/Número de
profesores.

Ejercicio 3.22
Para estimar el número total de unidades de la clase A en el dominio 1 de una población, se recomienda utilizar el estimador:
a1
Aˆ1 N1Pˆ1 si se conoce N1 , frente al estimador Aˆ1* N
; cuando no se conoce N1 . Ignorando el factor de corrección
n
ˆ ) V ( Aˆ * ) es aproximadamente
en poblaciones finitas, demuestre que para muestras grandes la razón de varianzas V ( A1 1

igual a Q1 (Q1 .P1 ) donde es la proporción de la población que no pertenece al dominio 1 y P1 la proporción de las
unidades en el dominio 1 que pertenecen a la clase A. Establezca las condiciones bajo las cuales el conocimiento de N1
produce mayor reducción en el cociente de varianzas.

Ejercicio 3.23
En una empresa se desea estimar el total de euros involucrado en 8000 facturas de una empresa metalmecánica
correspondientes al año 2009, con una precisión de 110000 euros. El jefe de contabilidad toma una muestra piloto de 20
facturas las cuales contienen las siguientes cantidades:

252,5 286,8 192,3 324,5 258,4


290,5 277,3 222,7 383,5 252,6
365,7 327,7 374,3 281,5 292
271,8 270,8 303,3 366,7 316,8

¿Cuántas facturas debe tomar el jefe de contabilidad?

204 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Ejercicio 3.24
Una empresa con 500 tiendas prestadoras de servicios a lo largo de un país desea estimar la cantidad total (miles de euros)
que será registrada en el inventario de las ventas en determinado mes. Para ello en una muestra de 30 tiendas se determinó
para cada una de ellas las ventas acumuladas a determinado día del mes. Las cantidades (miles de euros) halladas fueron:

30,7 35,1 32,5 27,9 32,9 32,6 30,1 37,5

31 32,1 26,2 29,7 24,5 29,8 31,2 31,6

40 31,4 25,4 32,4 33,7 37,1 34

26,3 33,7 37,6 30,7 31 35,3 29,3

a) Estimar las ventas totales acumuladas para la empresa y dar una estimación del error de muestreo.
b) Establecer un intervalo de confianza al 98% para las ventas totales acumuladas hasta ese día.
c) ¿Cuál debe ser el tamaño de muestra para estimar dicha venta total reduciendo el error del literal a en un 10%?
d) Estime la proporción de tiendas cuyas ventas acumuladas a dicho día superan los 32 mil euros. De una estimación del
error cometido con dicha estimación.
e) Si se pudiera reducir el error en la estimación anterior en un 25% ¿cuál debe ser el tamaño de muestra resultante?

Ejercicio 3.25
Para los estudiantes de primer semestre, la Facultad de Ciencias de una universidad ofrece 10 cursos de Cálculo I. Cada
curso tiene en promedio 40 estudiantes. Se realiza una muestra de 30 estudiantes de dicho curso obteniendo 20 de ellos
satisfechos con la enseñanza recibida. Además se tiene la siguiente distribución del número de horas dedicadas a estudio por
fuera de la clase.

Horas de estudio 20 25 30
Nº de estudiantes 10 25 5

a) Estime la proporción de estudiantes satisfechos con el desarrollo del curso y su error. ¿Cuántos alumnos habrá
satisfechos?
b) Estime el número de horas de estudio por alumno, su error de muestreo. DE un intervalo de confianza al 95% para el
verdadero promedio de horas por alumno.

Ejercicio 3.26
En los cursos de programación de computadores se selecciona de entre ellos una muestra de estudiantes y se les realiza las
siguientes preguntas:
Pregunta Nº 1: ¿Cuenta con computador en casa?
Pregunta Nº 2: ¿Utiliza frecuentemente en sus trabajos algún tipo de software?
Los resultados fueron:

Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Respuesta
si si si no no no si si si no si no no no si
Nº 1
Repuesta Nº
no no no si si si no no no no si si si no no
2
Estudiante 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Respuesta
no no no si si si si si no si si si no si si
Nº 1
Respuesta
si si si no no si no si no no si si si no no
Nº 2

205 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

a) Estimar la proporción de estudiantes que poseen computadora en casa.


b) Estimar el número de estudiantes que utiliza habitualmente software en sus trabajos. Establezca un intervalo de confianza
al 90%.
Ejercicio 3.27
En una determinada empresa se toma una muestra de 32 trabajadores de un total de 400, con el fin de obtener información
acerca de aquellos trabajadores que están a favor de trabajar a la semana 40 horas. De los trabajadores encuestados, 25 están a
favor. Estime la proporción de trabajadores que están a favor de semanas laborables de 40 horas. Dé un intervalo de
confianza de por lo menos el 96% para la verdadera proporción poblacional. Si se desea la misma estimación con una
precisión de 0.08como máximo de error, ¿Cuál es el tamaño de muestra resultante?. ¿Qué ocurriría si el diseño muestral con
igual probabilidad y reemplazo?

Ejercicio 3.28
Se realiza un diagnostico dental a 500 niños de la comuna 4 de Santiago de Cali por parte de los odontólogos A y B.
El doctor A seleccionó una muestra aleatoria de 30 niños y contó el número de dientes cariados en cada niño obteniendo:

yi 0 1 2 3 4 5 6 7 8 9 10
ni 9 4 2 8 1 1 0 0 0 2 3

yi : Número de dientes cariado,


ni : Número de niños.

El doctor B usando las mismas técnicas dentales, examina a 500 niños registrando aquellos que no tenin dientes cariados
encontrando 60 niños.
Estime el número el total de dientes cariados en la población infantil de la comuna 4 en cada caso

a) Usando la información del Doctor A solamente.


b) Usando la información A y B.
c) ¿Son insesgados los estimadores usados?
d) ¿Qué estimación es más precisa?

Ejercicio 3.29
Una fábrica de tornillos tiene en bodega N 2000 lotes de M 20 varillas de acero de ½ pulgada, las cuales utiliza
como materia prima en la fabricación de cierto tipo de tornillo. Los operarios de planta han encontrado que no todas las
varillas tienen la misma longitud y en consecuencia se propone al Departamento de Calidad que estime la proporción de
varillas defectuosas (con longitud menor a la estipulada).
Como la planta tiene 10operarios torneros, se ha entregado a cada uno de ellos un lote de varillas escogido aleatoriamente y
se ha pedido que reporten el total de varillas con longitud menor encontrando la siguiente información:

OP Nº1 OP Nº2 OP Nº3 OP Nº4 OP Nº5 OP Nº6 OP Nº7 OP Nº8 OP Nº9 OP Nº10
12 6 2 8 10 1 0 7 5 4

¿Qué tamaño de muestra (cuantas pacas de 20 varillas) se deben revisar para estimar la proporción de varillas defectuosas con
un error de 6 % y un nivel de confianza del 95%

Ejercicio 3.30
Un investigador desea obtener estimaciones para los parámetros en las variables X 1 ; X 2 y X 3 de una población de 2000
unidades. Para ello toma una muestra piloto de 45 unidades poblacionales obteniendo la siguiente información muestral para
cada una de las variables:

206 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

Variable X 1 Variable: X 2 Variable: X 3


2 2
x1i 2148,12 x1i 269 ,2 x 2i 9115,23 x 2i 628,3 x3i 30

a) ¿Qué tamaño de muestra se requiere para estimar la media poblacional de la variable X 1 con un error del 8,3% de la
media piloto y un nivel de confianza del 95%?
b) Si finalmente se decide realizar todas las estimaciones con una muestra de 200 unidades ¿Qué tan buena es esta muestra
para estimar la media poblacional de la variable X 2 ?
c) Con las 200 unidades muestrales se obtiene para la variable X 1 los estimadores muestrales: X 1
ˆ 9,304 y
Sˆ 2
1 28,275184 .

Indicador Dominio A Dominio B Total


Tamaño de muestra nA 40 nA 160 n 200
Media x1A 7 ,16 x1B 9,84 x1 9,304
2 2 2
Cuasivarianza s 1A 85,99 s 1B 12,41 s 1 28,275184

Posteriormente se sabe que la población está divida en dos dominios A y B de tamaños poblacionales N A 800 y
NB 1200 respectivamente y realizando un análisis de las unidades muestreadas se obtiene la tabla anterior.
Un estudio censal reciente realizado en el domino A muestra para la variable X 1 , que X 1A 7 ,7 . ¿En qué porcentaje se
reduce la varianza del estimador de la media poblacional de la variable X 1 al considerar la información censal realizada
sobre el dominio A?
d) La variable X 3 es un atributo. Basándose en la muestra piloto y utilizando la desigualdad de Tchebycheff determine el
tamaño de muestra para la estimación de la proporción PX 3 de tal manera que:

1
Pr PˆX 3 PX 3 k V(PˆX 3 ) 0,05
k2
Asuma un error de 0,06.

Ejercicio 3.31
Una firma investigadora de mercados realiza un muestreo piloto en el barrio ABC de la ciudad de Cali, con el propósito de
estimar el ingreso promedio mensual para hombres y mujeres que habitan en el barrio. La muestra piloto correspondió a 20
casas de dicho barrio registrando en cada una de ellas las variables: sexo, edad, salario (Número de salarios mínimos). La
muestra arrojó los siguientes resultados

Hombres registrados= 20 Mujeres registradas= 40


Edad > 40
Número Salario Número Salario Edad > 40
años
Trabajan x s 2 p Trabajan x s2 p
15 6.07 8.5 30% 16 5.3 3.8 20%

207 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

a) Determine el tamaño de muestra (número de mujeres y número de hombres) para estimar el ingreso promedio de hombres
y mujeres que viven en dicho barrio asumiendo un nivel de confianza del 95% y un error relativo en cada dominio igual al
8% del salario promedio piloto.
b) ¿Cuántas personas en total debe entrevistar?
c) Si de acuerdo con el último censo en dicho barrio hay 3.5 personas mayores de edad por vivienda, ¿Cuántas viviendas de
dicho barrio se espera que seleccione aleatoriamente para cumplir con la muestra definida en a)
d) Determine el tamaño de muestra en cada dominio y global para estimar la proporción verdadera de hombres por separado
que tienen una edad superior a 40 años en el barrio. Asuma para el dominio de los hombres CV (PˆH ) 16% y para el
dominio de las mujeres CV ( PˆM ) 20%

Ejercicio 3.32
Se tiene un archivo compuesto por 5000 carpetas para cada uno de los pacientes del hospital HBC en su pabellón de adultos.
Se desea estimar un tamaño de muestra que garantice la estimación del número promedio de consultas anuales para hombres
y mujeres. Una muestra piloto arrojó los siguientes estimadores adelantados:

Hombres Mujeres
Nº de consultas Edad > 40 años Nº de consultas Edad > 40 años
x s 2 p x s 2 p
4.5 7.5 45% 3.3 3.5 30%

La muestra permite estimar las proporciones de hombres y mujeres respectivamente en H 0.36 y M 0.64 .Así
mismo se desea que las estimaciones tengan respectivamente un nivel de confianza del 95% y errores de estimación iguales a
H 0.87 y M 0.32 . Si se desea estimar la diferencia entre los dos promedios de consultas anuales asumiendo
V ( x H ) V ( xM ) 0.13 ¿Cuál será el tamaño de muestra requerido?

Ejercicio 3.33
Si en el ejercicio anterior se desea estimarla proporción P de personas mayores de 40 años tanto para hombres como para
mujeres con un nivel de confianza del 95% y errores H 0.115 y M 0.13 ¿Qué tamaño de muestra se requiere?

Ejercicio 3.34
Para el ejemplo 3.9 explique cómo estimaría los siguientes parámetros:
a) Número de personas en la ciudad.
b) Número de personas mayores de 70 años.
c) Total de predios con viviendas de más de dos pisos con acceso a ellos mediante escaleras externas a la vivienda.
 
Ejercicio 3.35
La siguiente figura corresponde al plano urbanístico del pueblo ABC en el cual aparecen numeradas las manzanas
en las cuales hay predios dedicados a vivienda. Adicionalmente se presenta una tabla conteniendo para una
muestra de 12 manzanas escogidas aleatoriamente con la siguiente información por manzana:

208 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

31

30 32 33

34
35 36
39
37
38 40
09 11 22 27 41 46
08
07 59
05 06 10 12
21
23
42
47 53 57
04 24 58
13 14 15
16 48 62
02 03 16 25 54 56 61
01 28 60
17 18 43
49
19 20 63
26 44 50 55
66
45 65
29 51 64
67 69
52 68

70

Manzana X Y Manzana X Y Manzana X Y


Nº Nº Nº
01 38 164 37 42 160 54 50 155
13 30 64 43 60 300 55 38 160
16 50 210 67 45 131
20 50 175 68 45 104
34 40 160 70 45 164

X: Número de viviendas
Y: Número de personas que habitan en las viviendas de dicha manzana.

a) Estime el total de personas que habitan en el pueblo ABC.


b) Estime el número promedio de viviendas por manzana.
c) Determine el número de manzanas que deben muestrearse para estimar el promedio de viviendas por
manzana en el pueblo. Utilice la información de la tabla como una muestra piloto y establezca un nivel de
confianza del 95% y un error de 3 viviendas por manzana.

Ejercicio 3.36
La siguiente gráfica representa el comportamiento de la variable Y para diferentes valores de otra variable X.
Determine el tipo de muestreo aleatorio que debe implementarse para encontrar la estimación del promedio
poblacional de la variable Y. Justifique su decisión.

209 
 
CAPÍTULO 3. ELEMENTOS BÁSICOS PARA DETERMINAR EL TAMAÑO DE LA MUESTRA
 
 

6
Variable Y

0
0 5 10 15 20 25
Variable X
 

Ejercicio 3.37
El coeficiente de elevación se utiliza cuando se desea conocer el valor en la población de un resultado obtenido en
la muestra (Vivanco, 2005). Si en el resultado de una muestra de tamaño n da como resultado con relación al (sí)
para una pregunta dicotomica (sí-no) 300 encuestados y este resultado significa que en la población muy
probablemente estarían por el sí 30000, ¿cuál es el factor de expansión?, Si la muestra fue de 500 parsonas, ¿Cuál
es el tamaño de la población?
Nota: Recuerde que Nˆ N .Pˆ
 

210 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

 
 
MUESTREO ALEATORIO ESTRATIFICADO (MAE)

Introducción.
Hipótesis fundamentales del Muestreo Aleatorio Estratificado (MAE).
Representación gráfica del MAE.
Procedimiento para seleccionar una muestra aleatoria estratificada.
Razones para el uso del muestreo aleatorio estratificado.
Tres preguntas que se deben contestar antes de realizar un MAE.
Muestreo aleatorio estratificado para variables.
La media poblacional y su estimador.
El total poblacional y su estimador.
Propiedades relacionadas con el estimador de la media y el total poblacionales.
Asignación o afijación de la muestra.
Determinación del tamaño de la muestra para la estimación de la media y el total poblacionales. Caso
general.
Determinación del tamaño de la muestra para la estimación de la media y el total poblacionales según el
tipo de asignación.
Tamaño de la muestra para satisfacer un presupuesto establecido C dependiendo del tipo de asignación.
Muestreo aleatorio estratificado para atributos.
La proporción poblacional y su estimador.
El total poblacional y su estimador.
Propiedades relacionadas con los estimadores de la proporción y el total poblacionales.
Asignación de la muestra para atributos.
Determinación del tamaño de la muestra para la estimación de la proporción y el total poblacionales. Caso
general.
Determinación del tamaño de la muestra para la estimación de la proporción y el total poblacionales según
el tipo de asignación.
Tamaño de la muestra para satisfacer un presupuesto establecido C dependiendo del tipo de asignación.
¿Qué hacer cuando la asignación de la muestra en uno o varios de los estratos supera el tamaño de ellos?
Comparando el MAS con el MAE.
La ganancia en la estimación de la media o la proporción debida a la estratificación de una población.
La construcción de los estratos.
El número de estratos y su efecto en la estimación de la media poblacional.
El número de estrato al suponer que la variable analizada se distribuye uniforme.
Dominios de estudio en el MAE.

211 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
La Media Poblacional para el dominio j-ésimo sobre todos los estratos y su estimador si se conoce N hj .

La media Poblacional para el dominio j-ésimo sobre todos los estratos y su estimador si no se conoce N hj .
Este estimador es sesgado.
Post estratificación.
Post estratificación para variables: La media y el Total.
Propiedades de los estimadores de la media y el total en la Post estratificación para variables.
Ejercicios.

212 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

4.1 INTRODUCCIÓN

Obtener una muestra de una población homogénea es muy sencillo y tranquilizante en el sentido de que la conclusión
obtenida con base en dicha muestra es muy cercana a la realidad, vale decir la estimación del parámetro en dicha población es
bastante cercana al parámetro y una MAS es lo suficientemente buena para lograr los objetivos establecidos con el muestreo.

Situaciones como la anterior no son muy comunes, en realidad casi siempre la población que se investiga tiene bastante
variabilidad y se requiere que ésta afecte lo menos posible a las estimaciones que se obtengan de dicha población mediante
una muestra de ella.

Realizar un muestreo en una población muy heterogénea utilizando MAS requiere grandes esfuerzos para alcanzar cierto
nivel de precisión y por el contrario una muestra obtenida de cada una de las partes en que se divida la población, buscando
que en cada parte, las unidades contenidas sean muy homogéneas, permitirá tomar una muestra con mucho menor esfuerzo en
cada parte, logrando así un esfuerzo global mucho menor que el requerido utilizando un MAS sin dividir la población.

Se denomina estratificación a un proceso mediante el cual se asignan las unidades poblacionales a cada grupo en que se ha
dividido una población, de acuerdo con unos criterios prefijados con anticipación. Cada grupo se llamará ESTRATO. El
proceso de muestreo una vez encasilladas las unidades poblacionales (estratificada), permitirá realizar en cada estrato un
muestreo independiente, lo cual facilitará la aplicación de diferentes métodos de muestreo de acuerdo con la información
disponible, el costo y las razones que motivaron la estratificación de la población.

Los criterios para estratificar una población, así como el número de estratos a considerar, dependerá de los objetivos de la
investigación, de la información disponible y de la estructura de la población. Se debe tener siempre presente que las
variables utilizadas para realizar la estratificación deben estar altamente correlacionadas con las variables objeto de estudio
en la investigación.

4.2 HIPOTESIS FUNDAMENTALES DEL MUESTREO ALEATORIO ESTRATIFICADO (MAE)

El Muestreo probabilístico Estratificado está fundamentado en las siguientes hipótesis:

La población se encuentra encasillada o distribuida en clases que alteran (o hay por lo menos esa apreciación) la
característica investigada.
Los estratos son relativamente grandes y su definición no establece ambigüedades insuperables.
Tanto las unidades de la población como las de cada grupo se pueden listar.

4.3 REPRESENTACIÓN GRÁFICA DEL MÉTODO

En la figura 4.1 se debe tener presente que:

Una población heterogénea con N unidades U i , i 1, 2, 3,...... N , se divide en L grupos lo más homogéneas
posibles no solapados (sin intersección) denominados estratos.

U hi , h 1, 2, 3,......L; i 1, 2, 3,....... N h

Nh : Tamaño del estrato h .

213 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

La muestra estratificada de tamaño n , se conforma seleccionando nh unidades ( h 1,2,3,..L ) en forma independiente


de cada uno de los L estratos en que se subdivide la población. Se pueden utilizar diferentes formas para seleccionar la
muestra dentro de cada estrato.

Si la selección dentro de cada estrato se hace mediante un MAS, entonces el muestreo se llama: MUESTREO
ALEATORIO ESTRATICADO (MAE).

Para un estrato en particular pueden pertenecer todas sus unidades a la muestra final n . El número de las unidades que se
extraigan de cada estrato depende de los objetivos de la investigación.

POBLACIÓN ESTRATIFICADA MUESTRA POR ESTRATO


POBLACIÓN OBJETIVO
U 11 , U 12 , U 13 ,....., U 1 N1 Estrato 1 U 11 , U 12 , U 13 ,....., U 1n1 Estrato 1
U1 ,U 2 ,U 3 ,.......,U i ,.....,U N U 21 , U 22 , U 23 ,...., U 2 N 2 Estrato 2 U 21 , U 22 , U 23 ,...., U 2 n2 Estrato 2
.......... .......... .......... .......... .......... ......... .......... .......... .......... .......... .......... .........
U L1 , U L 2 , U L 3 ,..., U LN L Estrato L U L1 , U L 2 , U L 3 ,..., U Ln L Estrato L

L L
N h 1
Nh n n
h 1 h

Figura 4.1. Esquema de la estratificación de una población.

4.4 PROCEDIMIENTO PARA SELECCIONAR UNA MAE

1. Seleccione un marco de muestreo adecuado.


2. Seleccione las características que servirán de base para la estratificación y defina el número de estratos L .
3. Divida la población en L estratos, con base en las características definidas y distribuya los elementos en cada estrato.
Cada unidad poblacional debe pertenecer a uno y solo uno de los estratos establecidos.
4. Enumere las unidades en cada estrato, de 1 hasta N h , ( N h será el número de unidades que contiene el estrato h ).
5. Determinar el tamaño de muestra global n y realizar la afijación o repartición de esta en cada estrato de acuerdo con
L
la regla que se haya escogido previamente. Lógicamente: n nh .
h 1

4.5 RAZONES PARA EL USO DEL MUESTREO ESTRATIFICADO

Se puede obtener información más precisa para algunas subpoblaciones de interés.


Se puede obtener ganancia en precisión para las estimaciones. “Al dividir una población heterogénea se busca que el error
cometido al muestrear estos estratos sea menor, debido precisamente a la homogeneidad de ellos. El error total derivado
de los estratos puede ser menor que si no se realiza la estratificación”.
Por conveniencia administrativa. (Una empresa que realiza un estudio, puede tener sucursales en varias zonas de un
amplio territorio).
La estratificación puede estar motivada por las necesidades de estimaciones para ciertas áreas o regiones geográficas.
(Cada estrato será un área compacta como por ejemplo: un municipio, un Departamento, una comuna, etc.).

214 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

La eficiencia del MAE debe considerar conjuntamente la precisión para las estimaciones globales y los recursos de que
disponga.
Los problemas del muestreo pueden tener marcadas diferencias para diferentes partes en que se divide la población. Ej:
para la población de una ciudad, un estrato puede definirse como las personas que viven en casas comunes y corrientes
otro estrato para las personas que viven en unidades residenciales o bloques de apartamentos y un tercero para las
personas que están radicadas en hospitales, cárceles y destacamentos militares. Si se requiere un estudio para las empresas
del Valle del Cauca, aquí un estrato puede ser el conformado por las grandes empresas, otro por las medianas y uno
tercero por los microempresarios.
Se debe disponer de una(s) característica(s) muy precisas o adecuadas para la división de la población en estratos
altamente homogéneos.

4.6 TRES PREGUNTAS QUE SE DEBEN CONTESTAR ANTES DE REALIZAR UN MAE.

La figura 4.2 sintetiza tres preguntas básicas que todo investigador debe formularse a la hora de implementar un MAE para
la obtención básica de información que satisfagan los objetivos de su proyecto

¿Cuál es la mejor característica para construir los


estratos?
“Debe existir alta correlación entre la característica analizada y
las características utilizadas para la estratificación”

Los objetivos de la investigación 

La estructura de la población. 
La Información disponible   
Dependen de: 
¿Cómo deben definirse los límites de los estratos?

¿Cuántos estratos se deben considerar?

Figura: 4.2. Preguntas antes de realizar un muestreo estratificado.

La mejor característica para la construcción de los estratos es desde luego, la distribución de frecuencias de la característica
investigada Y , pero no siempre se dispone de ella o de una aproximación. En éste caso lo más conveniente es utilizar la
distribución de frecuencias de alguna característica correlacionada con Y , ó la misma característica medida en una
investigación anterior. Cuando se desea hacer uso de varias características para la estratificación se puede establecer una
nueva variable que sea una combinación lineal de las variables disponibles, aunque éste planteamiento no es fácil en la
práctica.

Una población puede estratificarse utilizando el llamado criterio de clasificación cruzada o múltiple, mediante el cual se
estratifica la población separadamente con respecto a cada característica, para luego considerar la clasificación cruzada
resultante, y elegir después una muestra en cada estrato resultante. Esta forma de proceder puede generar problemas entre el
tamaño de la muestra y el número de estratos como es el caso de que el tamaño de la muestra sea menor al número de
estratos o la representación muestral de cada estrato sea muy pobre.

215 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
4.7 MUESTREO ALEATORIO ESTRATIFICADO PARA VARIABLES

Sea yhi , el valor de la variable Y en estudio para la unidad i-ésima i 1, 2, 3, ........., N h del estrato h -ésimo,
h 1, 2, 3, ....., L . En éste contexto se está interesado en estimar la media ó el total poblacionales para la variable Y .

Si h representa el estrato en cual se realizan las estimaciones, entonces se tendrá presente la siguiente nomenclatura. Ver
tabla 4.1.

Notación Significado

N :Número de unidades en la población


Nh : Número total de unidades en el estrato h
nh : Número de unidades en la muestra del estrato h
yhi : Valor de la característica Y para la unidad i-ésima del estrato h .
Nh
Wh : Ponderación o peso del estrato h
N

nh
fh : Fracción de muestreo en el estrato h
Nh
Nh
yhi : Media verdadera para la variable Y en el estrato h
i 1
Yh (Parámetro en el estrato h )
Nh
nh
yhi
i 1 : Media muestral para la variable Y en el estrato h .
yh
nh
Nh
( yhi Yh ) 2
: Cuasi-varianza verdadera (poblacional) para la variable Y en el estrato h
S h2 i 1
.
Nh 1
nh
( y hi yh ) 2
: Cuasi-varianza muestral para la variable Y en el estrato h
Sˆ h2 s h2 i 1

nh 1
Tabla 4.1. Notación básica en el MAE.

A continuación se presentan los principales estimadores para variables y sus propiedades en el MAS.

4.7.1 La Media Poblacional y su Estimador

PARÁMETRO ESTIMADOR

L L
N 1
i
y
1 i Yˆ y ES N h . yh Wh . yh (4.1)
Y N h 1 h 1
N

216 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Nota

L : Número de estratos.
y ES : Estimador de la media poblacional en el MAE.

Ejemplo 4.1
Una empresa fabricante de tornillos dispone de una máquina automática M1 y una semiautomática M2 para el llenado de las
cajas de tornillos TOR-1, cuyo contenido se estipula en una libra. Con el propósito de estimar el número promedio de
tornillos por caja para dicho producto elaborado y empacada un día determinado, se ha tomado en cada máquina una muestra
correspondiente al 10 % de las cajas elaboradas dicho día, obteniéndose los siguientes resultados al contar el número de
tornillos en cada caja.

Estrato I: Máquina M1
80 68 72 85 90 62 61
92 85 87 91 81 79 83

Estrato II: Máquina M2


85 48 53 65 49 72 53 68 71 59
82 75 73 78 69 81 59 52 61 42

Estime el número promedio de tornillos TOR-1 para las cajas fabricadas en dicho día en la empresa.

Solución//

Mediante una regla de tres se calculan los tamaños N1 y N2.

14 _______ 0.1 20 _______ 0.1


N1 140 y N2 200
N1 _______1 N 2 _______1

Por lo tanto:

N 340 y W1 0.41, W2 0.59

Para el número de cajas en cada máquina se encuentra respectivamente para el número de tornillos por caja:

Yˆ1 79.7 y Yˆ2 64 .75

Finalmente para todas las cajas de tornillos TOR-1 elaboradas el día analizado se encuentra un promedio de tornillos por
caja igual a:

2
Yˆ Wh .Yˆh (0.41).(79.7) (0.59).(64 .75) 70.88 71
h 1

217 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

4.7.2 El Total Poblacional y su Estimador

PARÁMETRO ESTIMADOR
(4.2)
N
Y yi N .Y YˆES N . y ES
i 1

Ejemplo 4.2
Con base en el ejemplo 4.1 el total de tornillos TOR-1 fabricados en dicho día por las maquinas de la empresa se estima en:

Yˆ N .YˆES (340).(70.88) 24099.2 24099 tornillos

4.7.3 Propiedades relacionadas con el estimador de la Media y del Total poblacionales

A continuación se presentan las propiedades fundamentales para el estimador de la media y el total poblacionales en el MAE.

Propiedad 4.1: Insesgamiento del estimador de la media poblacional

L
El estimador de la Media poblacional yES Wh . yh es un estimador insesgado en el muestreo aleatorio estratificado
h 1
MAE.

En cada estrato h en forma independiente se toma una muestra aleatoria simple y como en el MAS la media muestral es un
estimador insesgado, entonces: E ( yh ) Yh para todo h , luego:

L L L
E ( yES ) E Wh . yh Wh .E ( yh ) Wh .Yh Y
h 1 h 1 h 1

Ejemplo 4.3
Considere que una población está conformada por los siguientes valores para la característica Y analizada:

Estrato I Estrato II
4 4 5 6 12 10 12 14 10

Si se obtiene en el estrato I muestras de tamaño n1 3 sin reemplazo y en el estrato II muestras de tamaño n2 4 sin
reemplazo, se tendrán en total 20 muestras con dicha distribución. La tabla siguiente relaciona las 20 muestras y el estimador
de la media poblacional utilizando el MAE.

Estrato I Estrato II
Yˆ1 Yˆ2
Unidades muestrales Ŝ 2 Unidades muestrales Ŝ 22
1
4 4 5 13/3 6/18 12 10 12 14 48/4 128/48

218 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
4 4 5 13/3 6/18 12 10 12 10 44/4 64/48
4 4 5 13/3 6/18 12 10 14 10 46/4 176/48
4 4 5 13/3 6/18 12 12 14 10 48/4 128/48
4 4 5 13/3 6/18 10 12 14 10 46/4 176/48
4 4 6 14/3 24/18 12 10 12 14 48/4 128/48
4 4 6 14/3 24/18 12 10 12 10 44/4 64/48
4 4 6 14/3 24/18 12 10 14 10 46/4 176/48
4 4 6 14/3 24/18 12 12 14 10 48/4 128/48
4 4 6 14/3 24/18 10 12 14 10 46/4 176/48
4 5 6 15/3 1 12 10 12 14 48/4 128/48
4 5 6 15/3 1 12 10 12 10 44/4 64/48
4 5 6 15/3 1 12 10 14 10 46/4 176/48
4 5 6 15/3 1 12 12 14 10 48/4 128/48
4 5 6 15/3 1 10 12 14 10 46/4 176/48
4 5 6 15/3 1 12 10 12 14 48/4 128/48
4 5 6 15/3 1 12 10 12 10 44/4 64/48
4 5 6 15/3 1 12 10 14 10 46/4 176/48
4 5 6 15/3 1 12 12 14 10 48/4 128/48
4 5 6 15/3 1 10 12 14 10 46/4 176/48

Con la tabla anterior se puede escribir la distribución probabilística del estimador de la media poblacional de la siguiente
manera:

YˆES W1 .Yˆ1 W2 .Yˆ2

8352 7812 8496 7956 8226 8640 8100 8370


YˆES
8082
972 972 972 972 972 972 972 972 972
ni 2 2 1 2 1 2 4 2 4

Calculando el promedio de las medias muestrales se tiene:

166320
YˆES 972 77
Y 8.55
20 20 9
Mostrando el insesgamiento del estimador de la media poblacional mediante el uso del MAE.

Propiedad 4.2: Insesgamiento del estimador del total

El estimador del total poblacional YˆES N . yES , es un estimador insesgado en el MAE.

E (YˆES ) E ( N . yES ) N .E ( yES ) N .Y Y

Ejemplo 4.4
Utilizando la distribución de la media muestral obtenida en el ejemplo 4.3 se puede escribir:

219 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

166320
9.
YˆES N . YˆES 972 9. 77
Y 77
20 20 20 9
Propiedad 4.3: Varianza para el estimador de la media poblacional

Como las muestras aleatorias se extraen utilizando MAS en forma independiente en cada estrato, entonces la varianza del
estimador de la media poblacional en el MAE viene dada por:

L L
Sh2 L
Wh2 .Sh2 L
Wh2 .S h2
V ( yES ) Wh2 .V ( yh ) Wh2 . (1 f h ). (4.3)
h 1 h 1 nh h 1 nh h 1 Nh

Nota
Aquí V ( yh ) es la varianza de la media muestral en el MAS para el estrato h .

Ejemplo 4.5
Utilizando a información del ejemplo 4.3, se puede encontrar la varianza de la distribución probabilística del estimador de la
media población, de la siguiente manera:

2
1101600
Yˆi Y .ni (972) 2 85
V (YˆES )
K 20 1458
Por otro lado utilizando la información poblacional por estrato:

Estrato S h2 Yh
I 11/12 19/4
II 14/5 58/5
Poblacional 133/9 77/9

Por lo tanto:

2 11 2 14
2
S h2 4 3 5 4 85
V (YˆES ) Wh2 (1 f h ). .1 . 12 .1 . 5
h 1 nh 9 4 3 9 9 4 1458
0.058299039

Propiedad 4.4: Simplificación de la expresión de la varianza del estimador de la media poblacional debido a la
fracción de muestreo
nh
Si la fracción de muestreo en cada estrato f h < 5% , entonces la varianza del estimador de la media poblacional en
Nh
el MAE será:

L S h2 L S h2 (4.4)
2 2
V ( y ES ) W .(1 f h ).
h W .
h
h 1
nh h 1
nh
220 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Propiedad 4.5: La varianza para el estimador del total

La varianza del estimador del total YˆES N . yES en el MAE, viene dada por:

L
Sh2
V (YˆES ) N h .( N h nh ). .
h 1 nh

L
S h2 L
S h2
V (YˆES ) V ( N . y ES ) 2
N .V ( y ES ) N 2
W .(1
h
2
f h ). N h .( N h nh ). (4.5)
h 1 nh h 1 nh

Ejemplo 4.6
Con base en el ejemplo 4.3 se puede escribir la siguiente función de distribución para el estimador del total poblacional
mediante la siguiente tabla:

YˆES N .YˆES

8082 8352 7812 8496 7956 8226 8640 8100 8370


ŶES 108 108 108 108 108 108 108 108 108
ni 2 2 1 2 1 2 4 2 4

De la cual se obtiene:

2
Yˆi Y .ni 85
V (YˆES )
K 18
Y por otro lado:

11 14
2
S2 5 85
V (YˆES ) Nh (N h nh ). h 4.(4 3). 12 5.(5 4).
h 1 nh 3 4 18

Para la varianza del estimador de la media poblacional V ( y ES ) , su estimador insesgado viene dado por:

nh nh
( yhi yh ) 2 yhi
L
Sˆ 2
Vˆ ( y ES ) 2
W .(1
h f h ). h , Sˆh2 i 1
, yh i 1
(4.6)
h 1 nh nh 1 nh

Análogamente el estimador de la varianza del estimador insesgado para el total será:

221 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Vˆ (YˆES ) N 2 .Vˆ ( yES ) (4.7)

Propiedad 4.6: Insesgamiento de los estimadores de las varianzas para el estimador de la media y el total
poblacionales

Los estimadores de las varianzas V ( y ES ) y V (YˆES ) , son estimadores insesgados.


2
Como se sabe al usar un MAS en cada estrato, un estimador insesgado de la cuasivarianza S h para la variable Y en el

estrato h , es la cuasivarianza muestral Sˆh2 sh2 . Entonces para el estimador de la varianza del estimador de la media
poblacional:

L
Sˆh2 L
(1 fh ) L
S h2
E (Vˆ ( yES )) E Wh2 .(1 f h ). Wh2 . .E ( Sˆh2 ) Wh2 .(1 f h ).
h 1 nh h 1 nh h 1 nh

En forma análoga para el estimador del total en el MAE:

E (V (YˆES )) E ( N 2 .Vˆ ( y ES )) N 2 .E (Vˆ ( y ES )) N 2 .V ( y ES ) V (YˆES ) )

Ejemplo 4.7
Tomando como base el ejemplo 4.6, la distribución probabilística del estimador de la varianza para YˆES es:

2
Sˆ h2
Vˆ (YˆES ) W h2 .(1 f h ).
h 1 nh

Distribución probabilística del estimador de la


varianza de la media muestral en el MAE
Vˆ (YˆES ) ni
0.046639231 2
0.0260631 1
0.06207133 2
0.063100137 2
0.042524005 1
0.078532235 2
0.057613168 4
0.037037037 2
0.073045267 4
Total 20

Calculando el valor esperado para Vˆ (YˆES ) :

222 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

1 9 ˆ ˆ 1.165980785
E Vˆ (YˆES ) . V (YES ).ni 0.058299039 V (YˆES )
20 i 1 20

4.7.4 Asignación ó afijación de la muestra.

En el muestreo aleatorio estratificado una vez determinado el tamaño de muestra n , se debe definir o asegurar la
participación en dicha muestra de todos los estratos previamente definidos, mediante una cuota de unidades de cada estrato.
L
Vale decir n debe ser repartida en los estratos de tal forma que: n nh .
h 1
La forma de repartir la muestra total n entre los diferentes estratos depende de las necesidades del investigador. Debe tenerse
en cuenta que la forma de repartir la muestra incide en la precisión del estimador, de tal manera que se escoge aquella
repartición que de la menor varianza.

Las siguientes son las formas convencionales de repartir la muestra entre los estratos:

Asignación uniforme

Este tipo de asignación da igual participación a todos los estratos

L
n
nh A, h n nh L. A nh A , h (4.8)
h 1 L

nh A
En esta situación la fracción de muestreo para cada estrato será f h y la varianza para el estimador de la media
Nh Nh
y el total serán respectivamente:

L
Sh2 L
A Sh2
V ( yES ) Wh2 .(1 f h ). Wh2 .(1 ). , V (YˆES ) N 2 .V ( yES ) (4.9)
h 1 nh h 1 Nh A

Nota
2
Si se desean los estimadores de las varianzas anteriores se reemplaza S h por:

nh
( yhi y) 2
Sˆh2 i 1

nh 1

Que es la cuasivarianza muestral en el estrato h .

Asignación proporcional

Con esta asignación se reparte la muestra final n entre los estratos en forma proporcional al tamaño de estos, esto es, al
estrato más grande le corresponderá más muestra y al más pequeño menos muestra, lo cual significa que se iguala la
proporción poblacional del estrato h con su respectiva proporción muestral. Véase la figura 4.3

223 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

PROPORCIÓN POBLACIONAL  PROPORCIÓN MUESTRAL 
 
Wh ( N h N )   ( wh ) (nh n)  

Figura 4.3. La proporción poblacional igual a la proporción muestral.

De acuerdo con el diagrama anterior:

Nh nh n nh
f fh , h
N n N Nh

Luego:

Nh
nh n. n.Wh (4.10)
N

Las expresiones para las varianzas del estimador de la media y el total serán respectivamente:

L
S h2 L
Sh2 (1 f) L
(1 f) L
V ( yES ) Wh2 .(1 f h ). Wh2 .(1 f ). . Wh .Sh2 2
. nh .Sh2 (4.11)
h 1 nh h 1 n.Wh n h 1 n h 1

V (YˆES ) N 2 .V ( yES ) (4.12)

Nota
2
Si para todos los estratos la variabilidad para la característica Y es aproximadamente igual “constante” ( S h SW2 , h ),
entonces:

(1 f) L
(1 f) L
(1 f) N n SW2
V ( yES ) . nh .S h2 .SW2 . nh .SW2 . (4.13)
n2 h 1 n2 h 1 n N n
Si se desean los estimadores de las varianzas anteriores reemplace S h por
2
Sˆh2 .

Asignación de mínima varianza (Neyman)

En esta forma de asignación se da importancia al tamaño de cada estrato y también a la variabilidad del mismo. Teniendo
L
como objetivo minimizar la varianza del estimador de la media poblacional V ( y ES ) , bajo la condición de que: n nh
h 1
Se define la función de Lagrange:

224 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

L L
S h2 L
(nh ) V ( y ES ) . nh n Wh2 .(1 f h ). . nh n
h 1 h 1 nh h 1

Derivando parcialmente con respecto a nh y a e igualando a cero, se obtienen las siguientes igualdades:

Wh .S h L
0 nh (1), y 0 n n h ( 2)
nh h 1

1 n
Reemplazando la ecuación (1) en la (2): L
y reemplazando a su vez esta última expresión en la ecuación
W h .S h
h 1
(1), se tiene finalmente que:

Wh .S h
nh n. L
(4.14)
Wh .S h
h 1

Las varianzas resultantes con esta asignación para el estimador de la media y el total son respectivamente:

2
L
2 S2 1 L L
Wh2 .S h2
V ( y ES ) W .(1
h f h ). h Wh .S h (4.15)
h 1 nh n h 1 h 1 Nh

Y
V (YˆES ) N 2 .V ( yES ) (4.16)

Nota
Si se desean los estimadores de las varianzas anteriores reemplace S h por
2
Sˆh2 .

Asignación óptima

Mediante esta asignación se busca minimizar la varianza del estimador de la media bajo la condición dada por la siguiente
ecuación de costo:

  L Número de encuestas en el Estrato


Costo Total del trabajo de Campo C C h .nh h
  h 1

Costo de realizar una


encuesta en el Estrato h

225 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Se define la siguiente función de Lagrange:

L
(nh ) V ( y ES ) . C h .nh C
h 1

Derivando parcialmente dicha ecuación con respecto a nh e igualando a cero se tiene:

1 Wh .S h
0 nh . (1)
nh Ch

Pero:

L L
1 Wh .S h 1 L
Wh .S h 1 n
n nh . . ( 2)
h 1 h 1 Ch h 1 Ch L
Wh .S h
h 1 Ch

Reemplazando la expresión (2) en la expresión (1), se tiene:

Wh .S h
1 Wh .S h n Wh .S h Ch
nh . . n. , h (4.17)
Ch L
Wh .S h Ch
L
Wh .S h
h 1 Ch h 1 Ch

Las varianzas para el estimador de la media poblacional y para el total con esta asignación vienen dadas por:

L
Wh2 .S h2 L
Wh2 .S h2 1 L
Wh .S h L L
Wh2 .S h2
V ( y ES ) . . Wh .S h . C h (4.18)
h 1 nh h 1 Nh n h 1 Ch h 1 h 1 Nh

V (YˆES ) N 2 .V ( yES ) (4.19)

Nota
Si se desean los estimadores de las varianzas anteriores reemplace S h por
2
Sˆh2 .

226 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Ejemplo 4.8
La siguiente tabla corresponde a una población de 519 unidades dividida en tres estratos:

Información poblacional
Estrato I II II
Ch $4000 $8000 $10000
2
S h 36 51.84 45.20
Nh 212 168 139

Encontrar las asignaciones para los tres estratos correspondientes a cada una de las formas de asignación vistos
anteriormente, encontrando en cada caso el posible valor de la varianza que se obtendría con dicha asignación si se pretende
estimar la media poblacional utilizando un MAE con una muestra global de tamaño n 80 .

Asignación uniforme:

n1 26.67 27
n 80
nh n2 26.67 27
L 3
n3 26 .67 27

Aplicando la expresión de la varianza para esta asignación se tiene:


3
A S h2
V (YˆES ) Wh2 . 1 .
h 1 Nh A
2 2 2
212 27 36 168 27 51.84 139 27 45.20
.1 . .1 . .1 .
519 212 27 519 168 27 519 139 27
0.459740

a) Asignación proporcional:

212
n1 80 . 32.6 33
519
168
nh n.Wh n2 80. 25.89 26
519
212
n1 80 . 32.6 33
519

227 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

La varianza obtenida con esta asignación será:


3
(1 f)
V (YˆES ) n h .S h2
n2 h 1

1 81
2
1 . 33. 36 26. 51.84 22. 45.20 0.45408896
81 519

b) Asignación de Neyman:

Wh .S h 2.450867052 2.33063538 1.80059757 6.58210046

2.450867052
n1 80 . 29 .788 30
6 .58210046
W h .S h 2 .330635838
nh n. n2 80 . 28 .326 29
W h .S h 6.58210046
1 .80059757
n3 80 . 21 .88 22
6 .58210046

La correspondiente varianza será:

Wh2 .S h2
Wh .S h 6.58210046, 0.083991075
Nh
1 Wh2 .S h2
V (YˆES )
2
. Wh .S h
n Nh
1 2
6.58210046 0.083991075 0.450873696
81
c) Asignación óptima:

Wh .S h
0.03875161 0.026573 0.018005975 0.082814885
Ch
0.03875161
n1 80 . 37 .43 38
0.082814885
Wh .S h
Ch 0.0260573
nh n. n2 80 . 25 .17 26
Wh . S h 0.082814885
Ch
0.018005975
n3 80 . 17 .39 18
0.082814885
Para la varianza se obtiene:

228 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Wh .S h Wh2 .S h2
0.082814885 , 0.083991075 ,
Ch Nh
W h .S h . C h 543 .5246062
1 Wh .S h Wh2 .S h2
V (YˆES ) . . Wh .S h . C h
n Ch Nh
1
0.082814885 . 543.5246062 0.083991075 0.4649348
82
En estas condiciones de acuerdo con la información suministrada se encuentra que el método de asignación Neyman
presenta menor variabilidad.

La tabla 4.2 resume los tipos de asignación y su justificación:

Tipo de asignación muestral por estrato Expresión Razones que la justifican


Estratos de igual tamaño/ No se
conocen los tamaños/Muy grandes.
Asignación igual wh 1 L; h Cuasivarianzas iguales.
Costos iguales por estrato.
Costos iguales por estrato.
Cuasivarianzas iguales.
Asignación proporcional wh Nh N ; h
Tamaños de los estratos muy
diferentes.
L
Costos iguales por estrato.
Asignación de Neyman wh Wh .S h h 1
Wh .S h ; h Cuasivarianzas diferentes.
Tamaños diferentes en los estratos.
Wh .S h Ch Costos por estrato diferentes.
Asignación Óptima wh L
; h Cuasivarianzas diferentes.
h 1
Wh .S h Ch Tamaños diferentes en los estratos.
Tabla 4.2. Resumen de los tipos de asignación muestral y sus razones.

Nota

Todos los estratos en que se divide la población deben quedar representados en la muestra
L
h 1
wh 1
L
La forma de repartir la muestra determina el tamaño final de muestra global n h 1
nh

4.7.5 Determinación del tamaño de la muestra para la estimación de la media y el total poblacionales. Caso
general.

La expresión para el tamaño de muestra necesario en la estimación de la media suponiendo una forma de repartir la muestra
nh
final general (para cualquier ponderación muestral en cada estrato, esto es wh ).
n

229 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Se sabe que la varianza del estimador de la media poblacional en el MAE, viene dada por:

L
Wh2 .S h2 L
Wh .S h2
V ( y ES ) (1)
h 1 nh h 1 N

nh
Se desea para la asignación de la muestra que: wh nh n.wh (2) y reemplazando la expresión (2) en la (1):
n
L
Wh2 .S h2 L
Wh .S h2 1 L Wh2 .S h2 L
Wh .S h2
V ( y ES ) .
h 1 n.wh h 1 N n h 1 wh h 1 N

Y al despejar n se tiene:

Wh2 .S h2
L

h 1 wh
L
Wh2 .S h2 V ( y ES )
h 1 wh n0
n ( 3) (4.20)
1 L L L
V ( y ES ) . Wh .S h2 Wh .S 2
h Wh .S 2
h
N h1 1 h 1 1 h 1
1 1
N V ( y ES ) N V ( y ES )

En la expresión anterior, V ( yES ) V0 es la varianza deseada, la cual está en función del error absoluto de
Z
2
muestreo y del nivel de confianza bajo el supuesto de normalidad como se explico en forma análoga en el MAS.
L
Igualmente wh es el peso de la asignación para el estrato h . ( wh 1 ).
h 1
L
Wh2 .S h2
h 1 wh
La expresión n0 , se llama primera aproximación y se obtiene cuando el tamaño de la población es muy
V ( yES )

n0
grande. Recuerde que una población se considera grande (infinita), si < 5% .
N
Si se quiere estimar el total poblacional para una varianza deseada (dados un error absoluto de muestreo * y un nivel de
confianza (1 ) ), el tamaño de muestra se obtendrá de la expresión (3), en la que se reemplaza la varianza del estimador
de la media por la varianza del estimador del total dividida por el cuadrado del tamaño de la población, esto es:

230 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

V (YˆES ) V0 *
V ( y ES ) , en donde V0
N2 N2 Z
2
2
S será estimada para cada estrato en forma anticipada.
h

Toda asignación de la muestra requerida o definida produce una varianza diferente para la estimación de la media
poblacional. Es claro que cualquier asignación debe ser justificada por el investigador.

Ejemplo 4.9
Se quiere estimar la media poblacional sobre la base de la siguiente información usando diferentes asignaciones wh .
Encuentre el tamaño de muestra requerido y la variabilidad alcanzada con la asignación planteada. Determine la mejor y la
peor asignación de la muestra. Use como varianza deseada para el estimador V0 0.02

INFORMACIÓN POBLACIONAL
ESTRATOS
I II III
Nh 112 60 40

S h2 2.25 3.24 3.20

Solución//

Las expresiones usadas son:

3
Wh2 .S h2 ( wh ) n0 S h2
; V (Yˆ )
3 2
n0 h 1
; n W (1 f h ).
V0 n h 1 h
nh
1 0
N
Ponderación Tamaño
Primera Asignación Final para la Muestra
Muestral Final de la
Aproximación Determinada
Deseada Muestra
w1 w2 w3 n0 n n1 n2 n3
0.5 0.3 0.2 134,531862 82,3034123 41,1517062 24,6910237 16,4606825
0.5 0.2 0.3 146,66548 86,6910352 43,3455176 17,338207 26,0073106
0.3 0.2 0.5 180,936276 97,6201305 29,2860391 19,5240261 48,8100652
0.3 0.5 0.2 159,095764 90,8884045 27,2665214 45,4442023 18,1776809
0.2 0.5 0.3 201,934259 103,422372 20,6844744 51,711186 31,0267116
0.2 0.3 0.5 211,641153 105,910212 21,1820425 31,7730637 52,9551062
0.4 0.3 0.3 140,738104 84,5853557 33,8341423 25,3756067 25,3756067
0.3 0.4 0.3 156,090542 89,8996067 26,969882 35,9598427 26,969882
0.3 0.3 0.4 162,157351 91,8794148 27,5638244 27,5638244 36,7517659
0.2 0.2 0.6 231,369408 110,630805 22,126161 22,126161 66,3784829
0.2 0.6 0.2 207,102172 104,761233 20,9522467 62,85674 20,9522467
0.6 0.2 0.2 145,692417 86,350146 51,8100876 17,2700292 17,2700292

231 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Las casillas sombreadas exigen la realización de censo en el estrato respectivo.

Para las asignaciones que no exigen realizar censo en el estrato, encontrar la mejor y la peor asignación respecto de la
varianza de estimador alcanzada con dicho tamaño.

Ejemplo 4.10
La siguiente información corresponde a 200 expendios de venta de la firma comestibles SA, los cuales están distribuidos por
razones administrativas en 4 grupos de acuerdo con el número de unidades vendidas por semana aproximadamente. Se
muestra en la tabla siguiente, el número de expendios por grupo y la estimación adelantada para la cuasivarianza de cada
grupo.

Grupo Número de expendios


Cuasi-varianza
(Estrato) del grupo
I Menos de 50 80 200.19
II 51-100 50 690.96
III 101-150 40 630.13
IV Más de 150 30 1700.32

Determine el tamaño de muestra para las siguientes asignaciones arbitrarias utilizando V0 15.8 para la estimación del
promedio de ventas por expendio

wh Estrato
Asignación
I II III IV
1 0.22 0.3 0.45 0.03
2 0.4 0.22 0.22 0.16
3 0.20 0.32 0.25 0.23

Solución//

Aplicando la expresión:

232 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

L
Wh2 .S h2
h 1 wh
n
1 L
V ( y ES ) . Wh .S h2
N h1
Para cada una de las asignaciones:

Asignación 1:
n 85.44; n1 18.79; n 2 25.63; n3 38.448; n 4 2.56

Asignación 2:
n 33.21; n1 13.28; n 2 7.31; n3 7.31; n 4 5.31
Asignación 3:
n 29.64; n1 11.92; n 2 9.48; n3 7.41; n 4 6.82

4.7.6 Determinación del tamaño de la muestra para la estimación de la media y el total poblacionales, según tipo de
asignación.

Para la deducción de las diferentes fórmulas requeridas para el tamaño de muestra en los diferentes tipos de asignación vistos
nh
anteriormente, simplemente se obtiene la ponderación muestral wh para cada tipo de asignación y se reemplaza ésta
n
en la fórmula (4.18).

L Wh2 .S h2
h 1
wh
n (4.21)
1 L
V ( y ES ) W .S h2
h 1 h
N

Tamaño de muestra para la Asignación Uniforme en la estimación de la media y el total poblacionales para la
variable Y , cuando se supone una varianza V 0 deseada para los estimadores.

Mediante esta asignación: n h A, h , entonces para la ponderación muestral:

nn nh A 1
wh L
n L. A L
nh
h 1

Y reemplazando en la expresión del tamaño general para la media:

233 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

L
Wh2 .S h2 L
1 L
Wh2 .S h2 L. Wh2 .S h2
h 1 wh h 1 L h 1
n (4.22)
1 L 1 L 1 L
V ( y ES ) . Wh .S h2 V0 . Wh .S h2 V0 . Wh .S h2
N h1 N h1 N h1

La primera aproximación será:

L
L. Wh2 .S h2
h 1
n0
V ( y ES )
Y si:
n0
5% ,
N
Entonces:
n0
n L
.
2
W .S
1 h1 h h
1 .
N V ( y ES )

Nota
2

V0 V ( y ES ) es la varianza deseada, en donde es el error de muestreo máximo admitido y Z es el


Z 2
2
percentil obtenido bajo el supuesto de normalidad para un nivel de confianza de (1 )% .
2
La cuasivarianza S h para cada estrato se debe estimar en forma adelantada. Si se quiere el tamaño de muestra para la
estimación del total, se reemplaza:

Z
V (YˆES ) V0 2
V ( y ES )
N2 N2 N 2

En la fórmula de n para la estimación de la media.

Aquí * es el error absoluto de muestreo máximo permitido en la estimación de total poblacional.

Tenga presente la nota anterior para los demás cálculos de n en los restantes tipos de asignación.

234 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Tamaño de muestra para la Asignación Proporcional en la estimación de la media y el total poblacionales para la
variable Y , cuando se supone una varianza V 0 deseada para los estimadores.

Siguiendo un procedimiento idéntico al anterior:

nh n.Wh wh Wh
Y reemplazando:

L
Wh2 .S h2 Wh2 .S h2
L
L
h 1 wh h 1 Wh h 1
Wh S h2 n0
n (4.23)
1 L 1 L 1 L 2 n
V ( y ES ) . Wh .S h2 V0 Wh .S h2 V0 Wh S h 1 0
N h1 N h1 N h 1
N

L
n0 h 1
Wh S h2 V0

Es la primera aproximación.

Tamaño de muestra para la Asignación de Neyman (mínima varianza) en la estimación de la media y el total
poblacionales para la variable Y , cuando se supone una varianza deseada V 0 para los estimadores.

Aquí se tiene:

Wh .S h nh Wh .S h
nh n. L
wh L
n
Wh .S h Wh .S h
h 1 h 1

Y reemplazando en la formula general para n:

L
Wh .S h
2 2 Wh2 .S h2 2
L
W .S
h h h 1
L L
Wh .S h Wh .S h
h 1 wh h 1 h 1
n (4.24)
1 L 1 L
1 L
V ( y ES ) . Wh .S h2 V ( y ES ) . Wh .S h2 V0 . Wh .S 2
h
N h1 N h1 N h 1

La primera aproximación será:

235 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

L 2

Wh .S h
h 1
n0
V0
Y si:

n0
5%
N
Entonces:

n0
n L
.
2
Wh .S h
1 h 1
1 .
N V0

Tamaño de muestra para la Asignación Optima en la estimación de la media y el total poblacionales para la
variable Y , cuando se supone una varianza deseada V 0 para los estimadores.

Aquí la asignación viene dada por:

Wh .S h Ch Wh .S h Ch
nh n. L
wh L
Wh .S h Ch Wh .S h Ch
h 1 h 1

Y reemplazando adecuadamente:

L Wh .S h Ch
2 2 Wh2 .S h2
L
W .S
h h h 1
L
Wh .S h Ch
h 1 wh h 1 (4.25)
n
1 L 1 L
V ( y ES ) . Wh .S h2 V ( y ES ) . Wh .S h2
N h1 N h 1

L L
Wh .S h Ch . Wh S h . C h
h 1 h 1
n (4.26)
1 L
V0 . Wh .S h2
N h1

La primera aproximación será:

236 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

L l
Wh .S h Ch . Wh .S h . C h
h 1 h 1
n0
V0
Y si:
n0
5%
N
Entonces:

n0
n L
Wh .S h2
1 h 1
1 .
N V0

Ejemplo 4.11
Se tiene una población de 1000 unidades estadísticas de las cuales se sabe que están distribuidas en cuatro estratos con la
siguiente conjetura sobre cada uno para la forma como se distribuye la variable analizada Y :

Estrato I Estrato II Estrato III


Distribución Normal Triangular Exponencial positiva
Valor mínimo 9,0 32,9 98,0
Valor máximo 31,2 97,3 200
Valor mínimo 9,0 32,9 98,0

Se desea realizar un muestreo para encontrar una estimación de la media poblacional con un margen de error del 3% de la
media poblacional cuyo valor es 106.7134 y un nivel de confianza del 95%. ¿Qué tamaño de muestra sería conveniente
usando MAE con asignación de mínima varianza?

Los tamaños de los estratos se muestran en la siguiente tabla:

Estrato I Estrato II Estrato III Estrato IV


Tamaño 200 300 400 100

R2 R2
Sˆ 2 Sˆ 2
24 36
(31.2 9.0) 2
20.5 (97.3 32.9) 2
24 115.2
36
9 .0 31 .2 32.9 97.3

237 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

R2
Sˆ 2
36
R2
(200 98) 2 Sˆ 2
578 12
18
(368.4 201.2) 2
2329,6
12
98 200 201.2 368.4

0,04876687 5
2

n
Wh .S h
108,74 Wh Sˆh 0,17340655 19
1 nh n. ( 108.74 ).
V(Xˆ) Wh .S h2 Wh .Sˆh 0,51789522 57
N
0,2599313 29
Ejemplo 4.12
Se desea estimar el número medio de cabezas de ganado en una población compuesta por 2055 fincas, estratificadas de
acuerdo con la superficie total (en acres) de cada una de ellas (Un acre = 4046, 9 m2).

Estrato Nh S h2 Ch
0-15 625 20.25 $ 5000
16-30 564 53.29 $ 5000
31-50 476 92.16 $ 5000
51-75 304 148.84 $8000
76-100 86 249.64 $8000
Total 2055

Determine el tamaño de muestra requerido para la realización de dicha estimación con una varianza deseada de V0 0.11
en cada una de las siguientes asignaciones: Uniforme, Proporcional, Neyman y Optima. C h : es el costo de tomar la
información en una finca del estrato h .

Solución//

Tamaño de muestra requerido según tipo de asignación.


Tipo de asignación Tamaño de muestra n
Uniforme 496.45
Proporcional 509.88
Neyman 444.24
Óptimo 449.61

4.7.7 Tamaño de muestra para satisfacer un presupuesto C establecido, dependiendo del tipo de asignación
establecido.

En muchas circunstancias el tamaño de muestra debe establecerse para un presupuesto C definido en la recolección de la
información.

238 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

En lo que sigue se determinan las expresiones para la obtención de un tamaño de muestra dependiendo del tipo de asignación,
cuando se predetermina un presupuesto C para la realización del trabajo de campo.

Suponga que se dispone de un costo total fijo para la realización del trabajo de campo (Groves, 1989) igual a:

L
C C0 h 1
Ch .nh (4.27)

Tamaño de muestra para satisfacer un costo C y una asignación uniforme.

n
Aquí n h A , para cada estrato, luego A y reemplazando esta asignación en la función de costo antes definida:
L
L L
n n L (C C0 ).L
C C0 C h .nh C0 Ch . (C C0 ) . Ch n L (4.28)
h 1 h 1 L L h1
Ch
h 1

Ejemplo 4.13
De acuerdo con los datos del ejemplo 4.12, si se desea estimar el número medio de cabezas de ganado por finca ¿Qué tamaño
de muestra se requiere si se dispone para el trabajo de campo de $23600000 y se han estimado los costos fijos de esta labor
en $500000?

Solución//

(C C0 ).L (2360000 500000).5


n L
300
31000
Ch
h 1

Tamaño de muestra para satisfacer un costo C y una asignación proporcional.

En este tipo de asignación, n h n.Wh , y reemplazando ésta en la función de costo:

L L L
(C C0 )
C C0 C h .nh C0 C h .(n.Wh ) (C C0 ) n. C h .Wh n L (4.29)
h 1 h 1 h 1
C h .Wh
h 1

Tamaño de muestra para satisfacer un costo C y una asignación de Neyman.

Wh .S h
Análogamente si se reemplaza nh n. L
, en la función de costo definida, se tiene:
Wh .S h
h 1

239 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

L
(C C o ). Wh .S h
L
Wh .S h h 1
(C C 0 ) C h . n. L
n L
(4.30)
h 1
Wh .S h Wh .S h .C h
h 1 h 1

Ejemplo 4.14
¿Qué costo tendrá el trabajo de campo para que la muestra requerida en la estimación del número de medio de cabezas de
ganado por finca sea de n 300 , si se desea utilizar la afijación de Meyman y los datos proporcionados por el ejemplo
4.12. Mantenga los costos fijos en $500000.

Solución//

L
(C C o ). Wh .S h
h 1 (C 500000).(8.061751825)
n L
300 C $22437659.47
589519.8875
Wh .S h .C h
h 1

Tamaño de muestra para satisfacer un costo C y una asignación óptima.

En este caso se tiene que:

Wh .S h Ch
nh n. L
Wh .S h Ch
h 1

Y reemplazando en la función de costo se tiene:

L L
Ch .Wh .S h Ch Wh .S h . Ch
L L
Wh S h Ch h 1 h 1
(C C0 ) Ch .nh Ch n. L
n. L
n. L
h 1 h 1
Wh .S h Ch Wh .S h Ch Wh .S h Ch
h 1 h 1 h 1

Entonces:

L
(C C0 ). Wh .S h Ch
h 1
n L
(4.31)
Wh .S h . Ch
h 1

240 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Nota
Para la asignación de Neyman y para la asignación óptima se requiere que S h , sea estimado en forma adelantada.

Nota

Si se quiere combinar la varianza V ( y ES ) y la función de costo C para los tipos de asignación establecidos anteriormente,
se pueden presentar dos situaciones de mucho interés, como son:

1) Determinar una varianza deseada V 0 y establecer el tamaño de muestra necesario para satisfacer esta varianza en un tipo
de asignación deseado, para luego determinar el costo C de obtención de la información con dicha cantidad de unidades.

2) Estableciendo un costo C para la recolección de la información, determinar el tamaño de la muestra adecuado para este
costo y finalmente determinar la varianza alcanzada (grado de precisión) con este tamaño de muestra.

Ejemplo 4.15
¿Qué tamaño de muestra se requerirá para la estimación del número medio de cabezas de ganado para satisfacer los
siguientes costos:

C C0 $1400000 , utilizando asignación óptima en el ejemplo 4.12?

Solución//

Reemplazando en la expresión (4.29)

L
(C C 0 ). Wh .S h Ch
h 1 (1400000).(0.106706642)
n L
243
616.2448779
Wh .S h . C h
h 1

Ejemplo 4.16
Con base en el ejemplo 4.12, se toma una muestra con afijación proporcional de 513 fincas con los siguientes resultados:

Yˆh Sˆh2
Estrato nh
0-15 155.11 156 4.05 20.19
16-30 139.97 140 10.31 69.96
31-50 118.13 119 15.29 63.13
51-75 75.44 76 23.16 170.32
76-100 21.34 22 28.71 184.90
Total 513

Estime el número medio de cabezas de ganado por finca y establezca un intervalo de confianza al 95% para el verdadero
promedio.

Solución//

241 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

El número medio de cabezas de ganado por finca estimado será:

5
YˆES Wh .Yˆh 12.23
h 1

513
5
1
(1 f) 2055
Vˆ (YˆES ) 2
. n h .Sˆ h2 .(37468.63) ee(YˆES ) 0.3268
n h 1 (513) 2

Y 95 %
12 .23 (1 .96 ).( 0 .3268 ) (11 .59 ; 12 .87 )

El verdadero promedio de cabezas de ganado por finca se encuentra entre 11.59 y 12.87 cabezas de ganado por finca con una
probabilidad del 0.95.

4.8 MUESTREO ALEATORIO ESTARTIFICADO PARA ATRIBUTOS

Realmente para conocer la proporción de unidades que pertenecen a una determinada clase C en una población investigada,
la estratificación ideal sería la mostrada por la figura 4.4 de tal forma que, al estimar la proporción P poblacional, si en la
muestra de tamaño n , se obtienen n1 , elementos de la clase C , entonces: Pˆ n1 n, con n1 n2 n.

Una situación como la anterior, no siempre es posible en la vida real, pues en muchas oportunidades la característica que se
investiga, está relacionada con otras características, que la alteran sustancialmente ó simplemente por razones administrativas
la población se encuentra dividida en grupos, haciéndose necesario la utilización del Muestreo Estratificado para la
estimación de la proporción ó el total de unidades que pertenecen a la clase C (poseen determinada característica)

   
Clase C de tamaño N1 Clase C’ de tamaño N1

Población: N =N1+ N2 P = N1/N

Figura 4.4. División de la población por la presencia de un atributo en sus componentes.

Suponiendo que la característica Y , toma el valor 1 o 0, dependiendo de sí la unidad analizada pertenece a la clase C o no,
entonces, en este sentido, yhi será valor de la variable Y en estudio para la unidad i-ésima dentro del estrato h -ésimo y
como se vio antes:

U hi , h 1, 2, 3,......L; i 1, 2, 3,....... N h

Nh : Tamaño del estrato h

De acuerdo con lo anterior, entonces en lo que sigue se utilizará la siguiente notación. Ver tabla 4.3

242 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

N : Número de unidades en la población


: Número total de unidades que pertenecen a la clase C .
A (Objeto de Investigación).
A : Proporción poblacional de unidades que pertenecen a la clase C (Objeto de
P
N investigación).
Nh : Número total de unidades en el estrato h .
Ah : Número de unidades poblacionales que pertenecen a la clase C en el estrato h .
nh : Número de unidades en la muestra del estrato h .
ah : Número de unidades muestrales que pertenecen a la clase C en el estrato h .
Tabla 4.3. Notación básica para el MAE en atributos.

Ah
Ph : Proporción poblacional de unidades que pertenecen a la clase C en el estrato h
Nh
ah
Pˆh ph : Proporción muestral de unidades que pertenecen a la clase C en el estrato h .
nh
Nh : Ponderación o peso del estrato h .
Wh
N
nh
fh : Fracción de muestreo en el estrato h .
Nh
Tabla 4.3. Notación básica para el MAE en atributos (continuación).

N h .Ph .Qh : Cuasi-varianza verdadera (poblacional) para la pertenencia ó no a la clase C en


S h2 el estrato h. ( y hi 1, 0 ).
Nh 1
nh . ph .qh : Cuasi-varianza muestral para la pertenencia ó no de las unidades a la clase C en
Sˆ h2 sh2 el estrato h. ( y hi 1, 0 ).
nh 1
Tabla 4.3. Notación básica para el MAE en atributos (continuación).

En lo que sigue se presentan los estimadores de la proporción y del total así como sus propiedades en el MAE para atributos.

4.8.1 La proporción poblacional y su estimador

(4.32)
PARÁMETRO ESTIMADOR

L L
1
P
A PˆES p ES N h .Pˆh Wh . p h
N N h 1 h 1

L : Número de estratos
p ES : Estimador de la proporción poblacional en el MAE

243 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Ejemplo 4.17
Un estudio exhaustivo sobre las 1000 viviendas de un barrio en las cuales sus ocupantes pagan arriendo mostró los siguientes
resultados:

Valor del arriendo Número de


Miles de pesos viviendas
200-400 68
401-600 343
601-800 415
801-1000 141
1001-1200 33

Teniendo en cuenta este estudio, una empresa de vigilancia desea conocer la intensión (si o no) de sus ocupantes para que la
vivienda sea vigilada, obteniendo los siguientes resultados en cada nivel acorde con el valor del arrendamiento pagado.

Valor del Número de viviendas Número de viviendas en donde sus ocupantes desean
arriendo muestreados tomar servicio de vigilancia
200-400 20 8
401-600 80 20
601-800 100 34
801-1000 30 15
1001-1200 10 9

¿En qué proporción de viviendas alquiladas en el barrio, sus ocupantes desean tomar el servicio de vigilancia?

Solución//

5
PˆES Wh .Pˆh
h 1

(0.068).(0.4) (0.343).(0.25) (0.415).(0.34) (0.141).(0.5) (0.033).(0.9) 0.35425

El 35.42% de las viviendas en que sus ocupantes pagan arriendo desean tomar servicio de vigilancia.

4.8.2 El total poblacional y su estimador

PARÁMETRO ESTIMADOR (4.33)

A N .P Aˆ ES N .PˆES

Ejemplo 4.18
De acuerdo con el ejemplo 4.17, el total de viviendas en las cuales sus ocupantes pagan arriendo y desean tomar el servicio
de vigilancia será:

Aˆ ES N .PˆES (1000).(0.35425) 354

244 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

4.8.3 Propiedades relacionadas con el estimador de la proporción y del total poblacionales para un atributo.

A continuación se relacionan las principales propiedades para los estimadores de la proporción y el total poblacionales en el
MAE para atributos:

Propiedad 4.7: Insesgamiento del estimador de la proporción poblacional

L
El estimador de la Proporción poblacional PˆES p ES Wh .Pˆh es un estimador insesgado en el muestreo aleatorio
h 1
estratificado MAE.

En cada estrato h en forma independiente se toma una muestra aleatoria simple y como en el MAS la proporción muestral es
un estimador insesgado, entonces: E ( p h ) Ph para todo h, luego:

L L L
E ( PˆES ) E Wh . p h Wh .E ( p h ) Wh .Ph P
h 1 h 1 h 1
Ejemplo 4.19
Ocho bolas de una población entre negras y ralladas se divide en dos grupos de 4 bolas cada uno de la siguiente manera:

Grupo Nº 1: 7 3 Grupo Nº 2: 7 3

Escribir la distribución de la proporción de bolas negras que hay en la población si se toman aleatoriamente sin reemplazo, 2
bolas del grupo 1 y 3 del grupo 2 y mostrar su insesgamiento:

Solución//

La distribución de la proporción de bolas negras en cada grupo será respectivamente:

Grupo Nº 1 Grupo Nº 2
P̂1 Frecuencia P̂2 Frecuencia
1 3 1/3 2
1/2 3 2/3 2

Recuerde que en el grupo Nº 1 se pueden obtener 6 muestras de tamaño 2 y en el grupo Nº 2, 4 muestras de tamaño 3. Por
otro lado como los grupos tienen igual número de bolas, entonces W1 W2 0.5 .

La forma del estimador de la proporción del total de bolas negras que hay en la población tendrá la siguiente forma:

PˆES (0.5).( Pˆ1 Pˆ2 )

245 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

El total de muestras de la población que contienen dos bolas del grupo Nº 1 y 3 bolas del grupo Nº 2, aplicando el principio
de la multiplicación será:
 

4 4
n n1 .n2 . 6 x4 24
2 3

Por lo tanto la distribución del estimador P̂ES , será:

P̂ES 4/6 5/6 5/12 7/12


Frecuencia ni 6 6 6 6

Calculando el valor esperado de P̂ES , en la distribución anterior se tiene:

4
PˆESi .ni 5
E ( PˆES ) P
i 1 n 8

Observe que en la población de las 8 bolas hay 5 negras, luego se verifica el insesgamiento del estimador de la proporción de
bolas negras que hay en la población.

Propiedad 4.8: Insesgamiento del estimador del total de unidades vía proporción

El estimador del total poblacional Aˆ ES N . p ES , es un estimador insesgado en el MAE.

E ( Aˆ ES ) E ( N . p ES ) N .E ( p ES ) N .P A

Propiedad 4.9: Expresión de la varianza para el estimador de la proporción poblaciomnal

Como las muestras aleatorias se extraen utilizando MAS en forma independiente en cada estrato, entonces la varianza del
estimador de la proporción poblacional en el MAE viene dada por:

1 L N h2 .( N h nh ) Ph .Qh
V ( p ES ) . (4.34)
N2 h 1 Nh 1 nh

Nota
Qh : Proporción de unidades que no pertenecen a la clase C .

Al definir como antes para el estrato h , la variable yhi por:

246 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

1 si U hi C
y hi , U hi i: Unidad i-ésima del estrato h
0 si U hi C

Se tiene respectivamente para la población y la muestra las siguientes igualdades:

Nh
Ah
Yh y hi Ah Yh Ph
i 1 Nh
Nh

Nh yhi N h .Yh2
( yhi Yh ) 2 Ah N h .Ph2
S h2 h 1

i 1 Nh 1 Nh 1 Nh 1

2 N h .Ph N h .Ph2 N h .Ph .(1 Ph ) N h .Ph .Qh


S h
Nh 1 Nh 1 Nh 1

En forma análoga para la muestra:

nh
ah nh . p h .q h
yh y hi ah yh ph Pˆh , y Sˆ h2 s h2
i 1 nh nn 1

Nota
Una propiedad que establece la varianza para el estimador de la media poblacional en el MAE, dice que:

1 L S h2
V ( y ES ) . N h .( N h nh ).
N2 h 1 nh

Y reemplazando adecuadamente para el estimador de la proporción se tiene:

1 L N h .( N h nh ) N h .Ph .Qh 1 L
N h2 .( N h nh ) Ph .Qh
V ( PˆES ) . . .
N2 h 1 nh Nh 1 N2 h 1 Nh 1 nh

Nota
Si el tamaño de cada estrato es grande entonces:
El cociente 1 N h 0 , (despreciable), entonces el cociente: N h ( N h 1) 1 y por lo tanto:

L L
1 Ph .Qh Ph .Qh
V ( PˆES ) N h .( N h nh ). Wh2 .(1 f h ).
N2 h 1 nh h 1 nh

Ejemplo 4.20
Una población integrada por 14 conejos de 3 razas diferentes presenta la siguiente distribución:

247 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Raza A Raza B Raza C


A1 A2 A3 A4 A5 B1 B2 B3 B4 B5 C1 C2 C3 C4

La raza A presenta 3 conejos enfermos y las razas B y C presentan así mismo 4 y 2 conejos enfermos respectivamente. En
todos los casos ellos aparecen subrayados en la tabla anterior.

Encuentre la distribución probabilística del estimador de la proporción de conejos enfermos en la población ( PES ), tomando
4 conejos de raza A, 4 conejos de la raza B y 3 conejos de la raza C.

Solución//

El total de posibles muestras cumpliendo con la distribución según las razas será:

5 5 4
Total de muestras . . 5 x5 x 4 100
4 4 3

La siguiente tabla relaciona todas y cada una de las muestras resultantes y el estimador de la proporción de conejos enfermos
para cada una de las razas.

MUESTRAS RESULTANTES
Raza A Raza B Raza C
P̂A P̂B P̂C
A1 A2 A3 A4 2/4 B1 B2 B3 B4 3/4 C1 C2 C3 2/3
A1 A2 A3 A4 2/4 B1 B2 B3 B4 3/4 C1 C2 C4 1/3
A1 A2 A3 A4 2/4 B1 B2 B3 B4 3/4 C1 C3 C4 1/3
A1 A2 A3 A4 2/4 B1 B2 B3 B4 3/4 C2 C3 C4 2/3
2/4 B1 B2 B3 B5 1 C1 C2 C3 2/3
2/4 B1 B2 B3 B5 1 C1 C2 C4 1/3
2/4 B1 B2 B3 B5 1 C1 C3 C4 1/3
2/4 B1 B2 B3 B5 1 C2 C3 C4 2/3
A1 A2 A3 A4 2/4 B1 B2 B4 B5 3/4 C1 C2 C3 2/3
A1 A2 A3 A4 2/4 B1 B2 B4 B5 3/4 C1 C2 C4 1/3
A1 A2 A3 A4 2/4 B1 B2 B4 B5 3/4 C1 C3 C4 1/3
A1 A2 A3 A4 2/4 B1 B2 B4 B5 3/4 C2 C3 C4 2/3
2/4 B1 B3 B4 B5 3/4 C1 C2 C3 2/3
2/4 B1 B3 B4 B5 3/4 C1 C2 C4 1/3
2/4 B1 B3 B4 B5 3/4 C1 C3 C4 1/3
2/4 B1 B3 B4 B5 3/4 C2 C3 C4 2/3
A1 A2 A3 A4 2/4 B2 B3 B4 B5 3/4 C1 C2 C3 2/3
A1 A2 A3 A4 2/4 B2 B3 B4 B5 3/4 C1 C2 C4 1/3
A1 A2 A3 A4 2/4 B2 B3 B4 B5 3/4 C1 C3 C4 1/3
A1 A2 A3 A4 2/4 B2 B3 B4 B5 3/4 C2 C3 C4 2/3
A1 A2 A3 A5 3/4 B1 B2 B3 B4 3/4 C1 C2 C3 2/3
A1 A2 A3 A5 3/4 B1 B2 B3 B4 3/4 C1 C2 C4 1/3
A1 A2 A3 A5 3/4 B1 B2 B3 B4 3/4 C1 C3 C4 1/3
A1 A2 A3 A5 3/4 B1 B2 B3 B4 3/4 C2 C3 C4 2/3

248 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
3/4 B1 B2 B3 B5 1 C1 C2 C3 2/3
3/4 B1 B2 B3 B5 1 C1 C2 C4 1/3
3/4 B1 B2 B3 B5 1 C1 C3 C4 1/3
3/4 B1 B2 B3 B5 1 C2 C3 C4 2/3
A1 A2 A3 A5 3/4 B1 B2 B4 B5 3/4 C1 C2 C3 2/3
A1 A2 A3 A5 3/4 B1 B2 B4 B5 3/4 C1 C2 C4 1/3
A1 A2 A3 A5 3/4 B1 B2 B4 B5 3/4 C1 C3 C4 1/3
A1 A2 A3 A5 3/4 B1 B2 B4 B5 3/4 C2 C3 C4 2/3
3/4 B1 B3 B4 B5 3/4 C1 C2 C3 2/3
3/4 B1 B3 B4 B5 3/4 C1 C2 C4 1/3
3/4 B1 B3 B4 B5 3/4 C1 C3 C4 1/3
3/4 B1 B3 B4 B5 3/4 C2 C3 C4 2/3
A1 A2 A3 A5 3/4 B2 B3 B4 B5 3/4 C1 C2 C3 2/3
A1 A2 A3 A5 3/4 B2 B3 B4 B5 3/4 C1 C2 C4 1/3
A1 A2 A3 A5 3/4 B2 B3 B4 B5 3/4 C1 C3 C4 1/3
A1 A2 A3 A5 3/4 B2 B3 B4 B5 3/4 C2 C3 C4 2/3

MUESTRAS RESULTANTES
Raza A Raza B Raza C
P̂A P̂B P̂C
A1 A2 A4 A5 2/4 B1 B2 B3 B4 3/4 C1 C2 C3 2/3
A1 A2 A4 A5 2/4 B1 B2 B3 B4 3/4 C1 C2 C4 1/3
A1 A2 A4 A5 2/4 B1 B2 B3 B4 3/4 C1 C3 C4 1/3
A1 A2 A4 A5 2/4 B1 B2 B3 B4 3/4 C2 C3 C4 2/3
2/4 B1 B2 B3 B5 1 C1 C2 C3 2/3
2/4 B1 B2 B3 B5 1 C1 C2 C4 1/3
2/4 B1 B2 B3 B5 1 C1 C3 C4 1/3
2/4 B1 B2 B3 B5 1 C2 C3 C4 2/3
A1 A2 A4 A5 2/4 B1 B2 B4 B5 3/4 C1 C2 C3 2/3
A1 A2 A4 A5 2/4 B1 B2 B4 B5 3/4 C1 C2 C4 1/3
A1 A2 A4 A5 2/4 B1 B2 B4 B5 3/4 C1 C3 C4 1/3
A1 A2 A4 A5 2/4 B1 B2 B4 B5 3/4 C2 C3 C4 2/3
2/4 B1 B3 B4 B5 3/4 C1 C2 C3 2/3
2/4 B1 B3 B4 B5 3/4 C1 C2 C4 1/3
2/4 B1 B3 B4 B5 3/4 C1 C3 C4 1/3
2/4 B1 B3 B4 B5 3/4 C2 C3 C4 2/3
A1 A2 A4 A5 2/4 B2 B3 B4 B5 3/4 C1 C2 C3 2/3
A1 A2 A4 A5 2/4 B2 B3 B4 B5 3/4 C1 C2 C4 1/3
A1 A2 A4 A5 2/4 B2 B3 B4 B5 3/4 C1 C3 C4 1/3
A1 A2 A4 A5 2/4 B2 B3 B4 B5 3/4 C2 C3 C4 2/3
A1 A3 A4 A5 2/4 B1 B2 B3 B4 3/4 C1 C2 C3 2/3
A1 A3 A4 A5 2/4 B1 B2 B3 B4 3/4 C1 C2 C4 1/3
A1 A3 A4 A5 2/4 B1 B2 B3 B4 3/4 C1 C3 C4 1/3
A1 A3 A4 A5 2/4 B1 B2 B3 B4 3/4 C2 C3 C4 2/3
2/4 B1 B2 B3 B5 1 C1 C2 C3 2/3
2/4 B1 B2 B3 B5 1 C1 C2 C4 1/3
2/4 B1 B2 B3 B5 1 C1 C3 C4 1/3
2/4 B1 B2 B3 B5 1 C2 C3 C4 2/3
A1 A3 A4 A5 2/4 B1 B2 B4 B5 3/4 C1 C2 C3 2/3
A1 A3 A4 A5 2/4 B1 B2 B4 B5 3/4 C1 C2 C4 1/3

249 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
A1 A3 A4 A5 2/4 B1 B2 B4 B5 3/4 C1 C3 C4 1/3
A1 A3 A4 A5 2/4 B1 B2 B4 B5 3/4 C2 C3 C4 2/3
2/4 B1 B3 B4 B5 3/4 C1 C2 C3 2/3
2/4 B1 B3 B4 B5 3/4 C1 C2 C4 1/3
2/4 B1 B3 B4 B5 3/4 C1 C3 C4 1/3
2/4 B1 B3 B4 B5 3/4 C2 C3 C4 2/3
A1 A3 A4 A5 2/4 B2 B3 B4 B5 3/4 C1 C2 C3 2/3
A1 A3 A4 A5 2/4 B2 B3 B4 B5 3/4 C1 C2 C4 1/3
A1 A3 A4 A5 2/4 B2 B3 B4 B5 3/4 C1 C3 C4 1/3
A1 A3 A4 A5 2/4 B2 B3 B4 B5 3/4 C2 C3 C4 2/3

MUESTRAS RESULTANTES
Raza A Raza B Raza C
P̂A P̂B P̂C
A2 A3 A4 A5 3/4 B1 B2 B3 B4 3/4 C1 C2 C3 2/3
A2 A3 A4 A5 3/4 B1 B2 B3 B4 3/4 C1 C2 C4 1/3
A2 A3 A4 A5 3/4 B1 B2 B3 B4 3/4 C1 C3 C4 1/3
A2 A3 A4 A5 3/4 B1 B2 B3 B4 3/4 C2 C3 C4 2/3
3/4 B1 B2 B3 B5 1 C1 C2 C3 2/3
3/4 B1 B2 B3 B5 1 C1 C2 C4 1/3
3/4 B1 B2 B3 B5 1 C1 C3 C4 1/3
3/4 B1 B2 B3 B5 1 C2 C3 C4 2/3
A2 A3 A4 A5 3/4 B1 B2 B4 B5 3/4 C1 C2 C3 2/3
A2 A3 A4 A5 3/4 B1 B2 B4 B5 3/4 C1 C2 C4 1/3
A2 A3 A4 A5 3/4 B1 B2 B4 B5 3/4 C1 C3 C4 1/3
A2 A3 A4 A5 3/4 B1 B2 B4 B5 3/4 C2 C3 C4 2/3
3/4 B1 B3 B4 B5 3/4 C1 C2 C3 2/3
3/4 B1 B3 B4 B5 3/4 C1 C2 C4 1/3
3/4 B1 B3 B4 B5 3/4 C1 C3 C4 1/3
3/4 B1 B3 B4 B5 3/4 C2 C3 C4 2/3
A2 A3 A4 A5 3/4 B2 B3 B4 B5 3/4 C1 C2 C3 2/3
A2 A3 A4 A5 3/4 B2 B3 B4 B5 3/4 C1 C2 C4 1/3
A2 A3 A4 A5 3/4 B2 B3 B4 B5 3/4 C1 C3 C4 1/3
A2 A3 A4 A5 3/4 B2 B3 B4 B5 3/4 C2 C3 C4 2/3

El estimador de la proporción total de conejos enfermos vendrá dado por:

3
5 ˆ 4 ˆ
PˆES Wh .Pˆh . PA PˆB .PC
h 1 14 14

Y por lo tanto su distribución probabilística será:

1498 1274 1708 1484 1918 1694


P̂ES 2352 2352 2352 2352
2352 2352
Frecuencia 24 24 22 22 4 4

Calculando el valor esperado de esta distribución se encuentra que:

250 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

6
PˆESi .ni 9
E PˆES P 0.642857
i 1 100 14

Por otro lado la varianza de P̂ES , será:

2
6
PˆESi P .ni 1 3018400 3773
V ( PˆES ) . 0.005456
i 1 100 100 (2352) 2 691488

Si se aplica la expresión que aparece en la propiedad 4.9, se tiene:

2 2
1 L
N h2 .( N h n h ) Ph .Qh 1 6 4 16 1 77
V ( p ES ) . . 0.005456
N2 h 1 Nh 1 nh 14 16 16 36 14 72

Ejemplo 4.21
La compañía de seguros ACME, tiene 2000 clientes afiliados en dos categorías: los que corren en riesgos innecesarios de
manera voluntaria y cotidiana (CA) y los que no incurren en riesgos de ningún tipo en forma voluntaria (CB). La compañía
desea estimar el total de clientes que están interesados en realizar sus pagos vía Internet, para ello ha encuestado en cada
categoría el 10% de sus afiliados obteniendo los siguientes resultados:

Afiliados por Afiliados a favor de la propuesta


categoría En la muestra
CA: 1200 afiliados 95
CB: 800 afiliados 60

Solución//

2 2
95 60
Aˆ ES N .PˆES N. Wh .Pˆh N h .Pˆh 1200. 800. 1550
h 1 h 1 120 80

Propiedad 4.10: Simplificación de la varianza del estimador de la proporción poblacional debido a la fracción de
muestreo
nh
Si la fracción de muestreo en cada estrato f h < 5% , es despreciable, entonces la varianza del estimador de la
Nh
proporción poblacional en el MAE será:

Ph Qh Ph Qh (4.35)
V ( PˆES )
L L
W 2 (1
1 h
f h ). W2
1 h
h
nh h
nh

251 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Propiedad 4.11: Varianza para el estimador del total de unidades con determinado atributo

La varianza del estimador del total Aˆ ES N . p ES en el MAE, viene dada por:


L
N h2 .( N h nh ) Ph .Qh
V ( Aˆ ES ) . (4.36)
h 1 Nh 1 nh

Fácilmente:

L
Wh2 .( N h nh ) Ph .Qh
V ( Aˆ ES ) V ( N . pES ) 2
N .V ( pES ) N 2
. .
h 1 Nh 1 nh

L
N h2 N h nh Ph .Qh L
N h2 .( N h nh ) Ph .Qh
V ( Aˆ ES ) N2 2
. . .
h 1 N Nh 1 nh h 1 Nh 1 nh

Propiedad 4.12: Estimadores insesgados para las varianzas de los estimadores de la media y el total poblacionales en
el MAE

Para la Varianza del estimador de la media poblacional V ( p ES ) , su estimador viene dado por:
L
ph .qh
Vˆ ( p ES ) v( p ES ) Wh2 .(1 f h ). (4.37)
h 1 nh 1

Análogamente el estimador de la varianza del estimador para el total será:

Vˆ ( Aˆ ES ) N 2 .Vˆ ( p ES ) . (4.38)

Ejemplo 4.22
Un intervalo de confianza al 95% para el verdadero número de clientes de ACME que desea realizar sus pagos por Internet
será:

2
p h .q h
Vˆ ( Aˆ ES ) N 2. Wh2 .(1 f h ).
h 1 nh 1
95 25 1 60 20 1
(1200) 2 .(0.9). . . (800) 2 .(0.1). . . 3163.31
120 120 119 80 80 79

Aˆ Aˆ ES Z . Vˆ ( Aˆ ES ) 1550 1.96.(56.24) (1439.76; 1660.24)


95% 2

Propiedad 4.13: Insesgamiento del estimador de la varianza para la estimación de la proporción y el total
poblacionales

Los estimadores de las varianzas V ( p ES ) y V ( Aˆ ES ) , son estimadores insesgados.

252 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Como se sabe al usar un MAS en cada estrato, un estimador insesgado de:

( N h nh ).Ph .Qh
V ( ph )
nh .( N h 1)

Para la estimación de proporción en el estrato h , viene dado por:

N h nh p h .q h
Vˆ ( p h ) v( p h ) .
Nh nh 1

Como el muestreo es independiente en cada estrato, entonces para el estimador de la varianza de la proporción poblacional
se tiene:

L L L
ph .qh
E (Vˆ ( pES )) E Wh2 .(1 f h ). E Wh2 .v ( ph ) Wh2 .E (v( ph ))
h 1 nh 1 h 1 h 1

L L
N h nh Ph .Qh
E (Vˆ ( pES )) Wh2 .V ( ph ) Wh2 . . V ( pES )
h 1 h 1 Nh 1 nh

En forma análoga para el estimador del total en el MAE:

E (V ( Aˆ ES )) E ( N 2 .Vˆ ( p ES )) N 2 .E (Vˆ ( p ES )) N 2 .V ( p ES ) V ( AES )

4.8.4 Asignación o afijación de la muestra en el MAE para atributos

Para hallar las expresiones que permiten asignar la muestra en los diferentes estratos, con base en los resultados hallados
para la asignación de la muestra al estimar la media poblacional.

Se reemplaza:

N h .Ph .Qh
S h2 .
Nh 1

Asignación uniforme.

En este caso como antes:

253 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

L
n
nh A, h n nh L. A nh A , h.
h 1 L

N h .Ph .Qh
Para hallar la varianza que obtendríamos con este tipo de asignación se reemplaza S h2 en la expresión de
Nh 1
V ( y ES ) correspondiente:

L
A N .P .Q 1
V ( p ES ) Wh2 . 1 . h h h . (4.39)
h 1 Nh Nh 1 A

Y:

V ( Aˆ ES ) N 2 .V ( p ES ) (4.40)

Nota
Para un estimador insesgado de V ( p ES ) se reemplaza la asignación nh en la expresión insesgada para la varianza es decier
en:

L
p h .q h L
nh p h .q h
Vˆ ( p ES ) v( p ES ) Wh2 .(1 f h ). Wh2 . 1 . (4.41)
h 1 nh 1 h 1 N h nh 1

Asignación proporcional

En este caso:

Nh
nh n. n.Wh
N

Y la varianza obtenida después de realizar los reemplazos adecuados es:

(1 f) L
N h .Ph .Qh
V ( p ES ) . Wh . (4.42)
n h 1 Nh 1

Y para el estimador del total:

V ( Aˆ ES ) N 2 .V ( p ES )

Nota

254 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Para un estimador insesgado de V ( p ES ) se reemplaza la asignación nh en la expresión insesgada para la varianza.

Asignación de mínima varianza

En este caso la asignación es:

N h .Ph .Qh
Wh .
Wh .S h Nh 1
nh n. L
n.
Wh .S h
L
N h .Ph .Qh
Wh .
h 1 h 1 Nh 1

Nota

Ph , debe ser estimado anticipadamente.

Las varianzas resultantes con esta asignación para el estimador de la proporción y el total son respectivamente:

2
1 L
N h .Ph .Qh L
Wh2 . N h .Ph .Qh
V ( p ES ) Wh . (4.43)
n h 1 Nh 1 h 1 Nh Nh 1

Y para el estimador del total:

V ( Aˆ ES ) N 2 .V ( p ES )

Nota
Para un estimador insesgado de V ( p ES ) reemplazando la asignación nh en la expresión insesgada para la varianza:

Asignación óptima

En este caso se tiene:

N h .Ph .Qh
Wh .
( N h 1).C h
nh n. , h
L
N h .Ph .Qh
Wh .
h 1 ( N h 1).C h

Nota
Ph , debe ser estimado en forma adelantada.

Las varianzas para el estimador de la proporción población y para el total poblacional con esta asignación vienen dadas por:

255 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

1 L
N h .Ph .Qh L
N h .Ph .Qh .C h L
Wh2 .Ph .Qh
V ( p ES ) . Wh . . Wh . (4.44)
n h 1 ( N h 1).C h h 1 Nh 1 h 1 Nh 1

V ( Aˆ ES ) N 2 .V ( p ES )

Nota
Para un estimador insesgado de V ( p ES ) reemplazando la asignación nh en la expresión insesgada para la varianza.

4.8.5 Determinación del tamaño de muestra para la estimación de la proporción y el total poblacionales en el MAE.
Caso general

Con base en la expresión obtenida en el apartado 4.7 y realizando adecuadamente el reemplazo, se tiene:

L
N h .Ph .Qh
Wh2 wh
h 1 Nh 1
n (4.45)
1 L N .P .Q
V ( p ES ) . Wh . h h h
N h1 Nh 1

En la expresión anterior:

V ( p ES ) V0
Z
2

Es la varianza deseada, la cual está en función del error absoluto de muestreo y del nivel de confianza bajo el supuesto de
normalidad como se explico en forma análoga en el MAS.

L
Igualmente wh es el peso de la asignación para el estrato h.( wh 1 ).
h 1

La expresión:

L
N h .Ph .Qh
Wh2 . wh
h 1 Nh 1
n0
V ( p ES )

256 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Será la primera aproximación

Si se desea estimar el total poblacional para una varianza deseada (dados un error absoluto de muestreo * y un nivel de
confianza (1 ) ), el tamaño de muestra se obtendrá de la expresión para n anteriormente hallada, reemplazando la
varianza del estimador de la proporción por la varianza del estimador del total dividida por el cuadrado del tamaño de la
población, esto es:

V ( Aˆ ES ) V0 *
V ( p ES ) , en donde V0
N2 N2 Z
2

Ph será estimada para cada estrato en forma anticipada.

4.8.6 Determinación del tamaño de muestra para la estimación de la proporción y el total poblacionales en el MAE,
según tipo de asignación.

Reemplazando las diferentes asignaciones en la expresión general para el tamaño de muestra en la estimación de la
proporción poblacional, se tiene:

Tamaño de muestra para la Asignación Uniforme en la estimación de la proporción y el total poblacionales, cuando se
supone una varianza deseada V 0 para los estimadores.

nn nh A 1
wh , n A, h
n L
L. A L h
nh
h 1

L
N h .Ph .Qh 1
Wh2 .
h 1 Nh 1 L
n
1 L N .P .Q (4.46)
V0 . Wh . h h h
N h1 Nh 1

La primera aproximación será:

L
N h .Ph .Qh
L. Wh2 .
h 1 Nh 1
n0 (4.47)
V ( p ES )

n0
Y sí 5% entonces:
N

257 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

n0
n (4.48)
L
N .P .Q
Wh . h h h
1 h 1 Nh 1
1 .
N V ( p ES )

Nota
Recuerde que la varianza deseada V0 viene dada por:
2

V0 V ( p ES ) en donde es el error de muestreo máximo admitido y Z es el percentil obtenido bajo el


Z 2
2

supuesto de normalidad para un nivel de confianza de (1 )% . La proporción Ph , para cada estrato se debe estimar en
forma adelantada.
Si se quiere el tamaño de muestra para la estimación del total, reemplace:

Z
V ( Aˆ ES ) V0 2
V ( p ES )
N2 N2 N 2

En la fórmula de n para la estimación de la proporción.

Aquí * es el error absoluto de muestreo máximo permitido en la estimación de total poblacional. Tenga presente la nota
anterior para los demás cálculos de n en los restantes tipos de asignación.

Tamaño de muestra para la Asignación Proporcional en la estimación de la proporción y el total poblacionales,


cuando se supone una varianza deseada V 0 para los estimadores.

Siguiendo un procedimiento idéntico al anterior se tiene:

nh n.Wh wh Wh

Obteniendo:

L
N h .Ph .Qh
Wh .
h 1 Nh 1
n (4.49)
1 L N .P .Q
V ( p ES ) . Wh . h h h
N h1 Nh 1

258 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
En donde la primera aproximación al tamaño de la muestra es:

L
N h .Ph .Qh
Wh .
h 1 Nh 1
n0
V ( p ES )

Tamaño de muestra para la Asignación de Neyman en la estimación de la proporción y el total poblacionales,


cuando se supone una varianza deseada V 0 para los estimadores.

Aquí, se tiene:

2
N h .Ph .Qh
L
N h .Ph .Qh
Wh . Wh .
Nh 1 h 1 Nh 1
nh n. L
, h n (4.50)
N h .Ph .Qh 1 L
N .P .Q
Wh . V ( p ES ) . Wh . h h h
h 1 Nh 1 N h 1 Nh 1

La primera aproximación será:


2
L
N h .Ph .Qh
Wh .
h 1 Nh 1
n0
V ( p ES )

Y sí:
n0
5%
N
Entonces:

n0
n . (4.51)
L
N .P .Q
Wh . h h h
1 h 1 Nh 1
1 .
N V ( p ES )

Tamaño de muestra para la Asignación Óptima en la estimación de la proporción y el total poblacionales, cuando
se supone una varianza deseada V 0 para los estimadores.

Aquí se tiene para la asignación en el estrato h :

259 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

N h .Ph .Qh N h .Ph .Qh


Wh . Ch Wh .
Nh 1 ( N h 1).C h
nh n. n.
L
N h .Ph .Qh L
N h .Ph .Qh
Wh . Ch Wh .
h 1 Nh 1 h 1 ( N h 1).C h

Y reemplazando

L
N h .Ph .Qh. L
N h .Ph .Qh .C h
Wh . . Wh
h 1 ( N h 1).C h h 1 ( N h 1)
n (4.52)
1 L N .P .Q
V ( p ES ) . Wh . h h h
N h1 Nh 1

La primera aproximación será:


L
N h .Ph .Qh l
N h .Ph .Qh .C h
Wh . . Wh .
h 1 ( N h 1).C h h 1 ( N h 1)
n0
V ( p ES )
Y sí:
n0
5% ,
N
Entonces:

n0
n (4.53)
L
N .P .Q
Wh . h h h
1 h 1 Nh 1
1 .
N V ( p ES )

Ejemplo 4.23
El transporte urbano destinado al servicio público en una gran ciudad está compuesto por 3000 taxis y 2000 buses. La
Secretaría de Tránsito y Transporte de dicha ciudad desea estimar la proporción de vehículos de servicio público que son
conducidos por sus dueños exclusivamente. Se cree que este porcentaje puede ser del 20% para buses y del 40%, para taxis.
Determine el número de buses y de taxis que se deben revisar para encontrar tal estimación con un nivel de confianza del
95% y un margen de error máximo tolerable de 6%. Use diferentes tipos de asignación.

Solución//

Asignación uniforme:

260 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

2
N h .Ph .Qh 2 2000 .(0.2).(0.8) 3000 .(0.4).(0.6)
L. Wh2 . 2 . 0 .4 . 2.(0.6) 2
h 1 Nh 1 1999 2999
0.224083

2
N h .Ph .Qh 2000.(0.2).(0.8) 3000.(0.4).(0.6)
Wh . 0.4 . (0.6) 0.20808
h 1 Nh 1 1999 2999

L
N h .Ph .Qh 1
2
Wh2 .
0.06 h 1 Nh 1 L
V0 0.0009371 , n 228.96 229
1.96 1 L N .P .Q
V0 . Wh . h h h
N h1 Nh 1

Por lo tanto la secretaria de transito y transportes debe investigar 115 buses y 115 taxis.

Asignación proporcional:

L
N h .Ph .Qh
Wh .
h 1 Nh 1 0.20808
n 212.6
1 N .P .Q
L 0.20808
V ( p ES ) . Wh . h h h 0.0009371
N h1 Nh 1 5000

(212.6).(0.6) 127.56 128


nh n.Wh
(212.6).(0.4) 85.04 86

Se requieren muestrear 128 taxis y 86 buses para realizar la estimación planteada con la precisión establecida.

Asignación de Neyman:
2
L
N h .Ph .Qh
Wh .
h 1 Nh 1 0.454028
2
n 210.6
1 L
N .P .Q 0.20808
V ( p ES ) . Wh . h h h 0.0009371
N h 1 Nh 1 5000

N h .Ph .Qh 0.160040015


Wh . (210.6). 74.23 75
Nh 1 0.454028
nh n.
L
N h .Ph .Qh 0.293987771
Wh . (210.6). 136.36 137
h 1 Nh 1 0.454028

261 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Se requieren 75 buses y 137 taxis para obtener la estimación planteada con la precisión establecida.

Ejemplo 4.24
Después de realizar el muestreo se obtuvo para cada una de las asignaciones el siguiente resultado respecto de si el vehículo
de servicio público es conducido exclusivamente por su propietario. En el extremo inferior derecho de la tabla aparece el
tamaño de muestra utilizado (área sombreada).

Asignación
Buses Taxis
20 70
Uniforme
115 115
35 80
Proporcional
86 128
45 70
Neyman
75 137

¿Cuál de las distribuciones produce el menor error de muestreo (raíz cuadrad de la varianza del estimador)?

Solución//

Se calcula primero el estimador obtenido con cada forma de asignación utilizando la expresión:

PˆES WB .PˆB WT .PˆT (0.4).PˆB (0.6).PˆT

Asignación P̂B P̂T P̂ES


Uniforme 0.1739 0.6087 0.4348
Proporcional 0.40698 0.625 0.5378
Neyman 0.6 0.51095 0.5466

Las varianza estimada para cada tipo de asignación será:

a) Uniforme

2
nh p h .q h
Vˆ ( PˆES ) Wh2 . 1 .
h 1 N h nh 1
115 (0.1739).(0.8261) 115 (0.6087).(0.3913)
(0.4) 2 . 1 . (0.6) 2 . 1 . 0.0009134
2000 114 3000 114

b) Proporcional

Utilizando la misma expresión anterior con los respectivos valores para la asignación:

262 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
V ( PˆES ) 0 .001070789

c) Neyman

V ( PˆES ) 0.0011307006

La siguiente tabla muestra los errores de muestreo cometidos con cada asignación. En ella se ve que el mejor método en este
caso es la distribución uniforme.

Asignación Error de muestre


V ( PˆES )
Uniforme 0.0302218*
Proporcional 0.032723
Neyman 0.0336258

4.8.7 Tamaño de muestra para satisfacer un presupuesto C establecido dependiendo de la asignación establecida.

Para la obtención de las respectivas expresiones se toma como base las expresiones obtenidas para la estimación de la media
vistas en el apartado 4.7.

Asignación de Neyman

Para esta asignación se tiene que:

N h .Ph .Qh
Wh .
Nh 1
nh n.
L
N h .Ph .Qh
Wh .
h 1 Nh 1

Entonces el tamaño de muestra para satisfacer un consto:

L
C C0 C h .nh
h 1

Es:

L
N h .Ph .Qh
(C C 0 ). Wh .
h 1 Nh 1
n (4.54)
L
N h .Ph .Qh .
Wh . .C h
h 1 Nh 1

Nota

263 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Ph , debe ser estimado para cada estrato en forma adelantada.

Ejemplo 4.25
La Secretaría de Agricultura de un determinado Dpto. ha contratado una firma de ingenieros forestales para estudiar la
infestación de cierta variedad de chinche existente en un determinado cultivo compuesto por 4100 arbustos diseminados en
tres zonas definidas con base en la altitud de los terrenos donde están los cultivos.

La secretaria de agricultura sospecha que el porcentaje de arbustos infectados de acuerdo con la altitud del terreno puede ser
la siguiente:

Zona según Número de Conjetura sobre porcentaje


altitud del terreno arbustos por zona de árboles infectados
(Nj)
Plana 2100 30%
Ladera 1300 18%
Alta montaña 600 10%

Se dispone de $4000000 para el trabajo de campo y los ingenieros han presupuestado un costo fijo de $600000. Así mismo la
observación de un árbol tiene costos diferentes dependiendo de la zona en la que esté ubicado, siendo estos valores de $
10000, $12000 y $ 15000 para la zona plana, de ladera y alta montaña respectivamente. ¿Qué tamaño de muestra se alcanza
utilizando la asignación de Neyman para estimar el porcentaje total de árboles infectados?

Solución//

L
N h .Ph .Qh
(C C0 ). Wh .
h 1 Nh 1 (3400000).(0.410589035 )
n 304.74
L
N h .Ph .Qh . 4580.89602
Wh . .Ch
h 1 Nh 1

Y la asignación para cada estrato (zona según altitud) será:

0.240642517
N h .Ph .Qh (304.74). 178.6 179
Wh . 0.410589035
Nh 1 0.124908972
nh n. (304.74). 92.70 93
L
N h .Ph .Qh 0.410589035
Wh . 0.045037545
h 1 Nh 1 (304.74). 33.43 34
0.410589035

Se requiere entonces para la zona plana 179 arbolitos, para la zona media 93 arbolitos y para la zona alta 34 arbolitos.

Asignación Óptima.

Aquí.

264 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
N h .Ph .Qh
Wh .
( N h 1).C h
nh n.
L
N h .Ph .Qh
Wh .
h 1 ( N h 1).C h

Y para el tamaño de muestra que satisfaga la función de costo anteriormente establecida:

L
N h .Ph .Qh
(C C 0 ). Wh .
h 1 ( N h 1).C h
n (4.55)
L
N h .Ph .Qh .C h
Wh .
h 1 ( N h 1)

Nota
Ph , para cada estrato debe ser estimado en forma adelantada.

Ejemplo 4.26
Si en el ejemplo 4.25 se desea saber el costo en que se incurriría para el estudio al considerar el costo fijo establecido y los
costos de observación de cada árbol según la zona pero se desea un error de muestreo igual a 0.010, se procedería de la
manera siguiente:

Solución//

Se calcula el tamaño de muestra n


L L
N h .Ph .Qh . N h .Ph .Qh .C h
Wh . . Wh
h 1 ( N h 1).C h h 1 ( N h 1) ( 0 .00036773 ).( 43 .26329564 )
n
1 L
N .P .Q 0 .171831991
V ( p ES ) . Wh . h h h ( 0 .010 ) 2
N h1 Nh 1 4000
111 .286

Al repartir la muestra:
(111.29).(0.0024064252)
Plana 68.41 69
N h .Ph .Qh 0.003914413
Wh .
( N h 1).C h (111.29).(0.0011402577)
nh n. Ladera 32.42 33
L
N h .Ph .Qh 0.003914413
Wh .
( N h 1).C h (111.286).(0.00036773003)
h 1 Alta M 10.45 11
0.003914413

Y finalmente el costo en que se incurriría es:

265 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
L
C C0 C h .n h
h 1

(600000) (10000).(69) (12000).(33) (15000).(11) $1851000

4.9 ¿QUE HACER CUANDO LA ASIGNACIÓN EN UNO DE LOS ESTRATOS SUPERA EL TAMAÑO DEL
ESTRATO?

La fórmula de la asignación de Neyman puede producir para algún estrato que nh N h (asignación para el estrato h
de más del tamaño del estrato). Esta situación (Cochran, 1980) ocurre cuando la fracción global de muestreo es
importante (grande) y algunos estratos son muy variables en comparación con otros. La figura 4.5, ilustra el
procedimiento que debe seguirse.

Figura 4.5. Procedimiento de reasignación de una muestra.

Nota
hm : Estrato muestreado,
hC : Estrato censado.

Ejemplo 4.27
Suponga que se tiene una población integrada por 4 estratos con la siguiente información sobre la variable Y :

Estrato I II III IV
Nh 40 60 100 200
2
S h 9527,83178 39181,7016 1586,33518 667,550496

266 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

a) Encontrar el tamaño de muestra requerido para estimar la media poblacional Y con una varianza deseada V0 14.7 :
Use asignación de Neyman.

b) Realice la respectiva asignación.

Solución//

a) Para el tamaño de muestra:

4 2

h
WS
1 h h n0
n0 264,27 n 159,135329
V0 n
1 0
N
b) Para la asignación:

n1 25
Wh S h n2 76 N2 60
nh 4
Wh S h n3 26
h 1
n4 33

Se debe realizar censo en el estrato 2, se procede entonces a realizará la reasignación en los estratos 1, 3 y 4 de la
siguiente manera:

n~1 29,65 30
Wh S h
n~h (n N 2 ) n~
3 30,24 31
WS
n~ 1, 3, 4 h h n~4 39,24 40

De tal manera que la muestra finalmente queda repartida de la siguiente manera:

n1 30
n2 60 Censo 4
n nh 161
n3 31 h 1

n4 40

Al censar uno o varios estratos la varianza del estimador global se reduce al perder las contribuciones de la variabilidad del
estimador en estos estratos, la figura 4.6 indica esta situación al analizar del parámetro Y para la variable Y si se realiza
censo en los estratos I y V.

267 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

CENSO 
NI ESTRATO ESTRATO
N II
ESTRAT N IV

N III
NV
ESTRATO CENSO
ESTRATO

Figura: 4.6. Censo y muestreo en la misma población.

El estimador del total tendrá la siguiente estructura:

Yˆ YI YˆII YˆIII YˆIV YV hC


Yh hm
Yˆh hC
N hYh hm
N hYˆh
Constante Variable Constante Variable

En la expresión anterior

hm : Estrato muestreado
hC : Estrato censado

Para el estimador de la media poblacional globalmente se tendrá

YˆN hC
N hYh hm
N hYˆh Yˆ hC
WhYh hm
WhYˆh (4.56)

Y para la varianza:

V (Yˆ ) V hC
WhYh V hm
WhV (Yˆh ) 0 hm
Wh2V (Yˆh )

Y por lo tanto:

Sh2
V (Yˆ ) W V (Yˆh )
h
2 2
W (1 f h ).
h (4.57)
hm hm
nh

La varianza del estimado de la media poblacional solo se debe a la variabilidad suministrada por los estratos muestreados; en
este sentido si en todos los estratos se hubiese realizado muestreo se obtendría una varianza para el estimador global de la
media mayor al valor dado por la expresión (4.57) Lo anterior equivale a decir que a mayor información sobre una población
menor varianza o incertidumbre tendrán las estimaciones de los parámetros considerados en ella.

Como generalmente nh en la expresión (4.57) proviene de una reasignación en vista de que algunos estratos requirieron más
del 100% de asignación, la expresión correcta para la reasignación final tendrá como varianza:

268 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

~ Sh2 ~ Wh Sh
V (Yˆ )min h
2
W (1 f h ). ~ ; nh n~ ; n~ n Nh
hm
nh Wh Sh
hC
hm

Es decir:

~ S h2 Wh2 .S h2 Wh2 .S h2 ~ n~h


V (Yˆ ) min Wh2 (1 f h ). ~ ; fh
hm
nh hm hm
Nh Nh
Wh .S h
n~
hm
Wh S h

Simplificando:

1 1
V (Yˆ ) min
2

~ Wh .S h Wh .S h2 (4.58)
n hm
N hm

Ejemplo 4.28
Para la asignación del ejemplo 4.27 estime la varianza para la media poblacional estimada. Se asume que la información de
las cuasivarianzas dada en la tabla es poblacional.

Solución//

n~ n N 2 159 .13 60 99.13

1 2 1
Vˆ (Yˆ ) min ~ Wh .S h Wh .S h2 6.54
n hm
N hm

4.10 COMPARANDO EL MAS CON EL MAE

En el MAE para la estimación de la media poblacional correspondiente a la variable Y , la expresión (4.11) establece que:

L
(1 f)
V (YˆES ) PROP . Wh .S h2
n h 1

Mientras que en el MAS, la varianza para el mismo estimador vienen dada por:

S2
V (Yˆ ) (1 f ).
n
Cuando la población está dividida en estratos, la cuasi varianza para la variable Y , se expresa por:

L Nh
( y hi Y)2 L Nh
S2 h 1 i 1
( N 1).S 2 ( y hi Y ) 2 (1)
N 1 h 1 i 1

269 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Donde:

L Nh Nh
y hi y hi
h 1 i 1 i 1
Y ,y Yh
N Nh

Sumando y restando la media poblacional en el estrato h en la expresión (1), se tiene:

L Nh 2
2
( N 1).S y hi Yh Yh Y
h 1 i 1

L Nh L Nh L Nh
( N 1).S 2 ( yhi Yh ) 2 (Yh Y ) 2 2 ( yhi Yh ).(Yh Y )
h 1 i 1 h 1 i 1 h 1 i 1
Pero:

L Nh L Nh L
( y hi Yh ).(Yh Y) Yh Y . y hi Yh Yh Y .0 0
h 1 i 1 h 1 i 1 h 1

Finalmente:

L Nh L Nh
( N 1).S 2 ( y hi Yh ) 2 (Yh Y )2
h 1 i 1 h 1 i 1

L L
2
N h 1 .S h2 N h . Yh Y
h 1 h 1

Para simplificar la expresión anterior, suponga que N es suficientemente grande como para que N h 1 Nh y
N 1 N , entonces:

L L L L 2
2
N .S 2 N h .S h2 N h . Yh Y S2 Wh .S h2 Wh . Yh Y
h 1 h 1 h 1 h 1

Y reemplazando en la varianza del estimador de la media poblacional para el MAS, resulta:

L L 2
(1 f ) 2 (1 f )
V ( y ) MAS S Wh .S h2 Wh . Yh Y
n n h 1 h 1

270 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
(1 f ) L (1 f ) L
2
V ( y ) MAS . Wh S h2 Wh . Yh Y
n h1 n h 1

(1 f ) L 2
V ( y ES ) PROP . Wh . Yh Y
n h1

Donde V ( y ES ) PROP es la varianza del estimador de la media poblacional en el MAE, usando asignación proporcional.

De acuerdo con la expresión anterior:

L
(1 f)
V ( y ) MAS V ( y ES ) PROP Wh .(Yh Y )2 0 V ( y ) MAS V ( y ES ) PROP
n h 1

Para la asignación proporcional y para la asignación de Neyman respectivamente que:

L L 2
(1 f) 2 1 1 L
V ( y ES ) PROP . Wh .S , V ( y ES ) Ne
h . Wh .S h . Wh .S h2
n h 1 n h 1 N h1

Calculando la diferencia entre estas varianzas:

2
(1 f ) L 1 L
1 L
V ( y ES ) PROP V ( y ES ) Ne . Wh .S h2 . Wh .S h . Wh .S h2
n h1 n h 1 N h1
2
(1 f ) 1 L 1 L
V ( y ES ) PROP V ( y ES ) Ne . Wh .S h2 . Wh .S h
n N h1 n h 1
2
(1)
L L
1 2
. Wh .S h Wh .S h
n h 1 h 1

Por otro lado, haciendo:

L
S Wh .S h
h 1

Entonces:

L L L l
(S h S ) 2 .Wh S h2 .Wh S 2 .Wh 2. S .S h .Wh
h 1 h 1 h 1 h 1
L L L L L
S h2 .Wh S. Wh 2S . S h .Wh S h2 .Wh S 2 .(1) 2.S . S h .Wh
h 1 h 1 h 1 h 1 h 1

271 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
L L L 2 L L
2 2
(S h S ) .Wh S .Wh
h Wh .S h 2. Wh .S h . Wh .S h
h 1 h 1 h 1 h 1 h 1

L 2 2
2
S .Wh
h Wh .S h
h 1 h 1

Reemplazando en la expresión (1):

L L 2
1 2
V ( y ES ) PROP V ( y ES ) Ne . Wh .S h Wh .S h
n h 1 h 1
(2)
L
1 2
. Sh S .Wh 0 V ( y ES ) PROP V ( y ES ) Ne
n h 1

Comparando ahora la varianza del estimador de la media poblacional en el MAE mediante la asignación de Neyman, con la
varianza del estimador de la media poblacional en el MAS se tiene:

Sumando miembro a miembro las desigualdades presentadas en las expresiones (1) y (2):

V ( y ) MAS V ( y ES ) PROP

V ( y ES ) PROP V ( y ES ) Ne

V ( y ) MAS V ( y ES ) Ne

Nota
Algunas veces cuando se estima S h , por:

nh
( y hi yh ) 2
Sˆ h sh i 1

nh 1

Puede ocurrir que Vˆ ( y ) MAS < Vˆ ( y ES ) Ne .

En conclusión, se tiene que:

V ( y ES ) Ne V ( y ES ) PROP V ( y ) MAS (4.59)

272 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
4.11 LA GANACIA EN LA ESTIMACIÓN DE LA MEDIA DEBIDA A LA ESTRATIFICACIÓN DE UNA
POBLACIÓN.

Se propone ahora estimar, cual es la ganancia en precisión al usar una muestra estratificada n1 , n2 , n3 ,..., n L , en lugar de una
L
muestra aleatoria simple de tamaño n nh .
h 1

Se sabe que en el MAE, la varianza del estimador para la media vienen dada por:

L
Wh2 .S h2 L
1 1
V ( y ES ) (1 f h ). .Wh2 .S h2
h 1 nh h 1 nh Nh

Y para el MAS igualmente:

S2 1 1 2
V ( y ) MAS (1 f ). .S
n n N

Anteriormente se vio que:

L L
( N 1).S 2 ( N h 1).S h2 N h (Yh Y ) 2
h 1 h 1
Entonces:

L L L L
1 N
S2 . ( N h 1).S h2 . Wh .Yh2 2.Y . Wh .Yh Y 2 . Wh
N 1 h 1 N 1 h 1 h 1 h 1
L L
1 N
. ( N h 1).S h2 . . Wh .Yh2 2.Y .Y Y 2 (1)
N 1 h 1 N 1 h 1
L L
1 N
. ( N h 1).S h2 . Wh .Yh2 Y 2
N 1 h 1 N 1 h 1

Ahora:

2 2 2 2 S h2
V ( yh ) E( y ) h E( yh ) E( y ) Y
h h (1 f h ).
nh

De donde se deduce que:

273 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
nh S h2
Yh2 E ( y h2 ) 1 .
N h . nh

2
Y un estimador insesgado para Yh será:

nh Sˆ h2
Yˆh2 y h2 1 . (1)
N h nh

Análogamente:

2 2 2
V ( y ES ) E ( y ES ) E ( y ES ) E ( y ES ) Y2

Pero:

L
1 1
V ( y ES ) .Wh2 .S h2
h 1 nh Nh

Luego:

L L
2 1 1 1 1
V ( y ES ) E ( y ES ) Y2 .Wh2 .S h2 Y2 2
E ( y ES ) .Wh2 .S h2
h 1 nh Nh h 1 nh Nh

2
Y un estimador insesgado de Y es:

L
1 1
Yˆ 2 2
y ES .Wh2 .Sˆ h2 (2)
h 1 nh Nh

2
En éste contexto un estimador de la cuasivarianza poblacional S , después de reemplazar las expresiones (1) y (2) será:

L L
1 N
Sˆ 2 s2 ( N h 1).Sˆ h2 Wh Yˆh2 Yˆ 2
N 1h 1 N 1 h 1

L L L
1 N 1 1 ˆ2 1 1
( N h 1).Sˆ h2 Wh . y h2 .S h y ES .Wh2 .Sˆ h2
N 1h 1 N 1 h 1 nh Nh h 1 nh Nh

274 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
L L L L
1 N 1 1 ˆ2 1 1
Sˆ 2 (N h 1).Sˆ h2 Wh . y h2 Wh .S h 2
y ES .Wh2 .Sˆ h2
N 1h 1 N 1 h 1 h 1 nh Nh h 1 nh Nh
L L L
1 N 1 1 ˆ2
. (N h 1).Sˆ h2 Wh . y h2 2
y ES Wh .(1 Wh ). .S h
N 1 h 1 N 1 h 1 h 1 nh Nh

Ahora:
L L L L L
Wh ( y h y ES ) 2 Wh y h2 2. y ES . Wh . y h 2
y ES . Wh Wh y h2 2
y ES
h 1 h 1 h 1 h 1 h 1

Reemplazando para el estimador de la cuasivarianza:

L L L
1 N 1 1 ˆ2
Sˆ 2 ( N h 1).Sˆ h2
2
. Wh . y h y ES Wh .(1 Wh ). .S h (3)
N 1 h 1 N 1 h 1 h 1 nh Nh

Ahora:

L L L
( N h 1).Sˆ h2 N. Wh .Sˆ h2 Sˆ h2
h 1 h 1 h 1

L
1 1 ˆ2 L
Sˆ h2 L
N . Wh (1 Wh ). .S h N Wh .(1 Wh ). (1 Wh ).Sˆ h2
h 1 nh Nh h 1 nh h 1

L
Sˆ h2 L L
N. Wh .(1 Wh ). Sˆ h2 Wh .Sˆ h2
h 1 nh h 1 h 1

Reemplazando en la expresión (3), el estimador de la cuasivarianza poblacional quedará:

1 L
N L N L 1 1 ˆ2
Sˆ 2 ( N h 1).Sˆh2 Wh .( yh yES ) 2 . Wh .(1 Wh ). .Sh .
N 1h 1 N 1h 1 N 1h 1 nh Nh

L L
1 N L
Sˆ 2 N. Wh .Sˆh2 Sˆh2 . Wh .( yh y ES ) 2
N 1 h 1 h 1 N 1 h1
1 L
Sˆh2 L L
N. Wh .(1 Wh ). Sˆh2 Wh .Sˆh2
N 1 h 1 nh h 1 h 1

De donde, se concluye:

275 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
L
1 N L N L
Sˆ 2 ( N 1).Wh .Sˆ h2 Wh .( y h y ES ) 2 . Wh .(1 Wh )..Sˆ h2 .
N 1h 1 N 1h 1 N 1h1
L
N L
N L
Sˆ 2
Wh Sˆ h2 . Wh .( y h y ES ) 2 . Wh .(1 Wh ). h
h 1 N 1 h1 N 1 h1 nh

Por lo tanto, un estimador de la varianza del estimador de la media poblacional si se usa MAS, con base en la muestra
estratificada n1 , n2 , n3 ,..., nL , será:

Sˆ 2 (1 f) L
N L
N L
Sˆ 2
Vˆ ( y ) MAS (1 f ). Wh .Sˆh2 . Wh .( yh y ES ) 2 . Wh .(1 Wh ). h
n n h 1 N 1 h1 N 1 h1 nh

L
Con n nh
h 1

Ahora para la varianza del estimar de la media poblacional si se usa MAE, con la misma muestra:

L
1 1 L
Wh2 .Sˆ h2 L
Wh2 .Sˆ h2 L
Wh2 .Sˆ h2 1 L
Vˆ ( y ES ) .Wh2 .Sˆ h2 Wh .Sˆ h2
h 1 nh Nh h 1 nh h 1 Nh h 1 nh N h 1

Para la diferencia entre la varianza del MAS y la Varianza del MAE para el estimador de la media poblacional, se tiene como
estimador:

Vˆ ( y ) MAS Vˆ ( y ES )
1 1 L
N L
N L
Sˆ 2
. Wh .Sˆ h2 . Wh .( y h y ES ) 2 . Wh .(1 Wh ). h
n N h 1 N 1 h1 N 1 h1 nh
L
Wh2 .Sˆ h2 1 L
. Wh .Sˆ h2
h 1 nh N h1

L
Wh .Sˆh2 L
Wh2 .Sˆh2
Vˆ ( y ) MAS Vˆ ( y ES )
h 1 n h 1 nh
L L
N N
Wh .( yh y ES ) 2 Wh .( yh y ES ) 2
n.( N 1) h 1 N .( N 1) h 1

N L
Sˆ 2
h N L
Sˆh2
Wh .(1 Wh ). . Wh .(1 Wh ).
N .( N 1) h 1 nh n.( N 1) h 1 nh

276 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
L
1 Wh
Vˆ ( y ) MAS Vˆ ( y ES ) Wh .Sˆh2 .
h 1 n nh
N L
Wh .( yh y ES ) 2 1 L
. Wh .( yh y ES ) 2
N 1 h 1 n N h 1

N 1 L Sˆ 2 1 L Sˆ 2
. . Wh .(1 Wh ). h . Wh .(1 Wh ). h
N 1 N h1 nh n h1 nh

L
1 Wh
Vˆ ( y ) MAS Vˆ ( y ES ) Wh .Sˆh2 .
h 1 n nh
N 1 1 L N 1 1 L Sˆ 2
. . Wh .( yh y ES ) 2 . . Wh .(1 Wh ). h
N 1 n N h! N 1 N n h1 nh

L L
1 Wh N N n
Vˆ ( y ) MAS Vˆ ( yES ) Wh .Sˆh2 . . . Wh .( yh yES ) 2
h 1 n nh N 1 N .n h !

N N n L
Sˆh2
. Wh .(1 Wh ).
N 1 N .n h 1 nh

Y finalmente el estimador de la diferencia de varianzas quedará:

L
1 Wh N n L
Vˆ ( y ) MAS Vˆ ( y ES ) Wh .Sˆ h2 . . . Wh .( y h y ES ) 2
h 1 n nh .n.( N 1) h !

N n L
Sˆ h2
. Wh .(1 Wh ).
n.( N 1) h 1 nh

Nota
La ganancia en precisión del MAE sobre el MAS se expresa como:

Vˆ ( y ) MAS Vˆ ( y ES )
x 100%
Vˆ ( y ES )

Los resultados hallados en este apartado al comparar el MAS con el MAE para variables son validos para atributos y pueden
ser hallados considerando que la variable Y toma solamente dos valores ( 0 cuando la unidad investigada no pertenece a la
clase C y 1 cuando pertenece a la clase C ). Se puede también calcular el efecto de diseño usado en encuestas de opinión al

277 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
comparar la varianza del estimador de P en el MAE con asignación proporcional ( V ( PˆES ) Prop ) con su correspondiente

varianza en el MAS ( V ( PˆMAS ) (Martínez, 2003) el cual viene dado por:

L
Wh ( Ph P) 2
V ( PˆES ) prop h 1
Deff 1 (4.60)
V ( Pˆ )MAS
P.Q

La cual en detalle es hallada de la siguiente manera:

Anteriormente se vio que:

L
(1 f)
V (YˆMAS ) V (YˆES ) prop Wh (Yh Y ) 2
n h 1

Y aplicando esta igualdad al muestreo para atributos se tiene:

L
(1 f)
V ( PˆMAS ) V ( PˆES ) prop Wh ( Ph P) 2
n h 1

Dividiendo por la varianza en el MAS se tendrá:

L L
(1 f) (1 f)
Wh ( Ph P) 2 Wh ( Ph P) 2
V ( PˆES ) prop n h 1 n h 1
1 Deff
V ( Pˆ )MAS V ( PˆMAS ) (1 f ) NP.Q
n N 1
Asumiendo población grande:

L
Wh ( Ph P) 2
h 1
Deff 1
P.Q

Ejemplo 4.29
Utilizando el efecto de diseño encuentre el tamaño de muestra para estimar la proporción poblacional asumiendo
V ( PˆES ) prop
2
Z y suponiendo que se ha estimado el efecto de diseño por D̂eff .

Solución//

V ( PˆMES ) prop Z
2
Deff .S 2
Deff n (4.61)
V ( Pˆ ) S2 Z
2 1
Deff .S 2
MAS
(1 f)
n N

278 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
4.12 LA CONSTRUCCIÓN DE LOS ESTRATOS

Cuando se trata de la construcción de estratos el número de ellos y los límites adecuados de cada uno, desde luego que la
mejor variable para ello es la variable objeto de estudio en la investigación. Por lo regular no se dispone de suficiente
información sobre ella salvo que se haya realizado una investigación anterior sobre la misma o se realice un estudio piloto; es
lógico suponer que para la misma variable analizada en dos estudios consecutivos exista una buena correlación. Si no se
dispone de información sobre la variable investigada que permita la estratificación de la población debe usarse una variable
X altamente correlacionada con la variable de estudio Y para estratificar la población.
En cuanto al número de estratos con base en la variable X , debe ser a lo sumo n 2 , pues para que sea posible estimar la
varianza en los estratos, deberá ser nh 2 (Fernández, 1995).
La división de la población en estratos se realiza con el propósito de mejorar la estimación al interior de los estratos (con
poca muestra) y por ende mejorar la estimación global; en este sentido mejorar la precisión puede aumentar el número de
estratos, pero existe un límite para el número de ellos en el cual se produce muy poca ganancia en la precisión del estimador.
Para efectos prácticos, se recomienda un número de ellos menor o igual a 6 (Cochran 1987).

También se acostumbra definir los límites de cada estrato y el número de ellos con base en los objetivos de investigación para
dicha variable y quizás sea suficiente considerar entre 3 y 10 estratos para cualquier variable considerada (Kish, 1979). Para
la formación de estratos suele utilizarse en presencia de mucha información sobre la variable que será estratificada un método
práctico y sencillo debido a Dalenius-Hodges que puede sintetizarse en los cinco pasos siguientes (Ospina, 2001)

1. Agrupar la variable objeto de estratificación en número grande de clases de igual tamaño que se llamara m.
2. Determinar la frecuencia relativa f i ( y ) de cada clase i; i 1, 2,..., m .
3. Encontrar para cada clase el valor vi f i ( y ) y su acumulado Fi (v) .
4. Determinar el número de estratos L y encontrar el cociente C Fm (v) L .
5. Determinar en la comuna Fi (v) los valores C; 2C; .......,( L 1)C los cuales determinarán a su vez al tomar el límite
de clase más cercano para la variable original el límite superior de cada estrato.

Ejemplo 4.30
Se aclara la metodología anterior con un ejemplo hipotético para 200 unidades de la variable analizada Y sobre la base de
tabla de frecuencias para 20 clases de igual tamaño.

Frecuencia
Límites de Frecuencia
Clase i relativa vi fi ( y) Fi (v)
clase Absoluta ni fi ( y)
1 010; 020 2 0,01 0,1 0,1
2 020; 030 4 0,02 0,14142136 0,24142136
3 030; 040 5 0,025 0,15811388 0,39953524
4 040; 050 8 0,04 0,2 0,59953524
5 050; 060 10 0,05 0,2236068 0,82314204
6 060; 070 C 1,07885319
12 0,06 0,24494897 1,06809101
7 070; 080 12 0,06 0,24494897 1,31303999
8 080; 090 11 0,055 0,23452079 1,54756077
9 090 ; 100 12 0,06 0,24494897 1,79250975
10 100; 110 2C 2,15770638
26 0,13 0,36055513 2,15306488

279 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
11 110; 120 14 0,07 0,26457513 2,41764001
12 120; 130 10 0,05 0,2236068 2,6412468
13 130; 140 12 0,06 0,24494897 2,88619578
14 140; 150 3C 3,23655956
17 0,085 0,29154759 3,17774337
15 150; 160 12 0,06 0,24494897 3,42269235
16 160; 170 9 0,045 0,21213203 3,63482438
17 170; 180 8 0,04 0,2 3,83482438
18 180; 190 8 0,04 0,2 4,03482438
19 190 ; 200 5 0,025 0,15811388 4,19293826
20 200; 210 3 0,015 0,12247449 4,31541275
Total X 200 1.0 4,31541275

Al definir que el número de estrato sea 4 entonces:

C Fm (v) L 4,31541275 4 1,07885319 y por lo tanto en la columna Fi (v) se marcan los puntos:
C 1,07885319; 2C 2,15770638; 3C 3,23655956 menores o iguales a estos valores. Y por lo tanto los
estratos para la variable Y con sus respectivos tamaños Nh y pesos serán:

Limites de clase
Estrato h
para el estrato
Nh Peso del estrato: Wh
1 010; 070 41 0,205
2 070 ; 110 61 0,305
3 110; 150 53 0,265
4 150 ; 210 45 0,225
Total de unidades 200 1,0

Un procedimiento bastante útil para construir estratos es la curva de Lorenz que permite analizar la concentración de una
población.

Ejemplo 4.31 (Escuder, 2002).


La siguiente es la construcción de la curva de Lorenz para la generación de tres estratos en un problema de auditoría contable.

Número de clientes Porcentaje facturado sobre el total en el


(grupos de 10) periodo considerado
10 1%
10 3%
10 5%
10 6%
10 7%
10 8%
10 9%
10 11%
10 16.66%
10 33,33%
Total 100% 100%

280 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Se tiene una empresa con 100 clientes cuya estructura según el número de ellos y el porcentaje del total facturado es el
presentado en la tabla anterior.

Con base en la tabla anterior y representando en el eje de las abscisas ( X ) el porcentaje acumulado de los clientes y en el de
las ordenadas ( Y ) los porcentajes acumulados sobre el total facturado, se construye la grafica anterior. Como se desean tres
estratos con el mismo porcentaje de facturación (33.33%) basta con identificar las ordenadas correspondientes al 33.33% y
66.66% para obtener las respectivas abscisas, con lo que en este eje se identificarían perfectamente los tres estratos, los cuales
estarían formados de la siguiente manera: Primer estrato: desde el cliente más pequeño hasta el que ocupe el lugar 63 en el
ranking de facturación, el segundo desde el ranking 63 hasta el 90, y el tercero desde el 90 hasta el cliente más importante.

Cualquier regla para la estratificación óptima puede servir como guía práctica para formar los estratos, pero muy raras veces
serán procedimientos precisos para obtener soluciones óptimas (Kish, 1979). Debe tenerse cuidado cuando la variable es
cualitativa o cuando varias variables pueden producir mejores resultados de estratificación que una sola.

Otras reglas para definir los límites de los estratos sobre la variable X correlacionada con la variable Y objeto de estudio
después de definir el número de estratos son los siguientes (Fernández, 1995):

Regla de Ekman (1959).


Mediante esta regla los extremos de los estratos se determinan de modo que el producto del peso del estrato por su rango
de variación sea constante, es decir:

(Wh ). max( X h ) min( X h ) cte; h

281 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Regla de Dalenius-Gurney (1951).
Aquí los extremos de los estratos se determinan de tal manera que el producto del peso del estrato por la raíz cuadrada de
la cuasivarianza sea constante para cada estrato, es decir:

2
(Wh ). S Xh cte; h

Estas reglas involucran la variabilidad existente al interior de cada estrato y la importancia del estrato (peso) para la variable
X en la población. Puede consultarse Cochran (1987) y Särndal, Swensson y Wretman (1992).

4.12.1 El número de estratos y su efecto en la varianza del estimador de la media poblacional.

De apartados anteriores se sabe que la varianza del estimador de la media poblacional en el MAE viene dada por:

S h2
V (Yˆ )
L
W 2 (1
1 h
fh )
h
nh

En donde se puede apreciar que la varianza del estimador depende de:

2
La variabilidad de la variable analizada Y en cada estrato S h (cuasivarianza).
L
Los tamaños de los estratos Wh Nh N ; h 1
Nh 1.
La asignación que de la muestra n se haga para cada estrato es decir de los valores de nh .

Por facilidad se considera en este apartado que la asignación de la muestra es proporcional es decir nh Wh .n en cuyo caso
como se vio antes la varianza del estimador de la media poblacional será:

(1 f)
V (Yˆ )
L
Wh .S h2
n h 1

Es lógico pensar que al aumentar el número de estratos, disminuya el tamaño de ellos Nh , y por lo tanto se espera que las
2
unidades dentro de ellos sean muy parecidas en los valores de la variable que se analiza implicando que S h 0 , o esta sea
2 2
la misma en cada estrato S h S ; h.
0

De acuerdo con lo anterior y considerando que la varianza del estimador disminuye a medida que se incrementa el número de
estratos se supone que:

K
V (Yˆ ) (1)
f ( L)

En donde K es una constante y f (L) es una función creciente que depende del número de estratos, esto indica que la
precisión del estimador de la media poblacional de Y , se disminuye a medida que aumenta el número de estratos L .
Dalenius encontró que:

282 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
K
V (Yˆ )
L2
Asiendo L 1 se obtiene el valor de K, esto es:

K V (Yˆ ) (2)

La varianza del estimador de la media poblacional al considerar un solo estrato es lo mismo que la varianza en el MAS es
decir:

S2
V (Yˆ ) (1 f ) (3)
n
Igualando las expresiones (2) y (3) se obtiene:

S2
K (1 f)
n
Y al suponer que la población es grande, entonces:
S2
K
n
Reemplazando en la expresión (1) se tiene:

K S2 n S2
V (Yˆ ) (4.62)
L2 L2 n.L2
Considerando la función de costos:
C C0 .L C1.n
En donde:
C0 : Costo de trasladarse de un estrato a otro,
L : Número de estratos,
C1 : Costo de enumerar una unidad dentro del estrato h (costo por unidad),
n : Tamaño de la muestra.
Involucrando la función de costos y la expresión (4.62) se establece la siguiente función de Lagrange:

S2
( L, n) (C0 L C1n C ) (4.63)
n.L2

Derivando la expresión (4.63) con respecto a L y n respectivamente se tiene:

2.S 2 S2
C0 0y C1 0
L n.L3 n n 2 .L2
Las cuales al ser divididas permiten obtener:

283 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
S 2 n 2 L2 C1 2nC1
L (4.64)
2S 2 nL3 C0 C0

Reemplazando en la función de costos se tiene:

2nC1 C
C C0 C1n 0 n (4.65)
C0 3C1

Finalmente reemplazando en la expresión (4.64) se tiene:

C
2 .C1
3C1 2 C
L (4.66)
C0 3 C0

4.12.2 El número de estratos al suponer que la variable analizada Y, se distribuye uniforme.

Si la variable analizada Y se distribuye uniforme, entonces:

1 (b a) si y a, b
f ( y) ; b yMAX , a yMIN
0 otro lugar

Bajo esta restricción aplicando las propiedades de una variable aleatoria se tiene:

b 1
V ( y) f ( y )d y (b a ) 2 S2
a 12
Para la varianza del estimador de la media poblacional en el MAS entonces:

(1 f) (1 f) 1
V (Yˆ ) S2 (b a ) 2
n n 12
En donde al suponer f 0 se tiene:
1
V (Yˆ ) (b a ) 2
12n

Si se desea dividir esta población uniforme en L estratos, de tal manera que la amplitud de cada uno sea igual a R L ,
donde R es el rango de la variable Y ; esto es R (b a) . En este contexto la función de densidad para la variable Y en
cada estrato será:

1
f ( y) ; yh 1 y yh , h; h 1, 2,...., L
R L

De acuerdo con lo anterior la cuasivarianza de Y en cada estrato será:

284 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
( R L) 2 R2 ( R L) 1
Sh2 , además Wh
12 12L2 R L
Asumiendo que se desea realizar una asignación proporcional entonces:

Wh nWh n(1 L)

Suponiendo que la población es grande, la expresión de varianza mínima de Neyman quedará:

1 1 1
V (Yˆ )
L L L
Wh S h2 Wh S h2 Wh S h2
n h 1
N h 1
n h 1

Reemplazando la cuasivarianza de cada estrato, se tiene:

1 1 R2 1 1 R2 1 R2 1
V (YˆMAE ) V (Yˆ )
L
L
n h 1
L 12 L2 n L 12 L2 L2 12n L2

En donde V (Yˆ ) es la varianza del estimador de la media poblacional en el MAS, que al suponer población grande:

1 1 S2 S2
V (YˆMAE ) 2
V (Yˆ ) (1 f )
L L2 n nL2
La eficiencia relativa del MAE respecto del MAS será:

V (Yˆ ) S2 n
L2 (4.67)
V (Yˆ ) MAE
S 2 nL2

En la expresión (4.67), al aumentar el número de estratos L , será más preciso el MAE que el MAS.

Al suponer que la estratificación se realiza sobre una variable X correlacionada con la variable de análisis o la misma
variable cuando sobre ella se ha realizado una investigación anterior (CENSO) se considera entonces que la relación entre
dichas variables es: y a bx e ; de tal forma que:

E y x a bx
Cov ( x, e) 0
2
Considerando que la cuasivarianza del error S e y los coeficientes a y b del modelo son constantes para todos los estratos,
entonces:

2
S yh b 2 S xh2 S e2

285 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Asumiendo población grande, y reemplazando nh n L y S yh2 entonces:

1 L
V (Yˆ )
L L L
Wh2 S h2 nh Wh S h2 Wh2 (b 2 S xh2 S e2 )
h 1
N h 1
n h 1

L L 2 L 2
V (Yˆ )
L L L
Wh2 (b 2 S xh2 S e2 ) b Wh2 S xh2 Se Wh2 (4.68)
n h 1
n h 1
n h 1

Ahora para una muestra estratificada con S xh


2
R 2 12 L2 y Wh 1 L para todos los estratos se tiene:

L 2 L 1 S x2
V (Yˆ )
L L 2
W 2 S h2 nh
1 h
1L R 2 12 L2 L1 L R 2 12 L2 R 2 12
h
n h 1
n nL2 2
nL2
Sx
Reemplazando en la expresión (4.68) se tiene:

L 2 L 2 S x2 Se2
V (Yˆ )
L 2 2 L 2 2 2
b W S h xh Se W h b L Wh2
n h 1
n h 1
nL2 n h 1

L
Asumiendo que h 1
Wh2 1 L , entonces:

S2 Se2 S x2 Se2
V (Yˆ ) b 2 x2
2
L W2
1 h
b2 (4.69)
nL n h
nL2 n
1L

Pero:
S y2 b 2 S x2 Se2
Entonces:

2
S yx2 ( S y2 .S x2 ) y b S yx2 S x2 de donde S y2 b 2 S x4 , luego: 2
b 2 S x4 ( S y2 .S x2 ) (b 2 S x2 ) S y2

Y volviendo a la expresión (4.69) se tiene:

2
S2 Se2 S y2 S x2 Se2
2
S y2 2
Se2 S y
V (Yˆ ) b 2 x2
nL n S x2 nL2 n nL2 n S y2
Se sabe además que:

S e2 2
1
S y2
Y reemplazando

286 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
2
S y2 2
Se2 S y
2
S y2 S y2 2
S y2
V (Yˆ ) (1 2
) (1 2
)
nL2 n S y2 nL2 n L2 n
Pero:
V (Yˆ ) S y2 n

Cuando N es grande y por lo tanto:

2
S y2 2
V (Yˆ ) (1 2
) (1 2
V (YˆMAS ) (4.70)
L2 n L2

Despejando de la expresión (4.70) el número de estratos L se tiene:

2 2
L (4.71)
V (YˆMAE )
2
2
ER (1 )
(1 )
V (Yˆ )
MAS

La eficiencia relativa ER será menor en la medida en que V (YˆMAE ) < V (YˆMAS ) . Simulando la eficiencia relativa para
diferentes valores de L y se tiene la tabla 4.4

V (YˆMAE ) 2
2
ER (1 )
V (Yˆ ) MAS
L2

L 1 0,99 0,95 0,9 0,85 0,8 0,75 0,7 0,65


2 0,25 0,264925 0,323125 0,3925 0,458125 0,52 0,578125 0,6325 0,683125
3 0,111111111 0,1288 0,19777778 0,28 0,35777778 0,43111111 0,5 0,56444444 0,62444444
4 0,0625 0,08115625 0,15390625 0,240625 0,32265625 0,4 0,47265625 0,540625 0,60390625
5 0,04 0,059104 0,1336 0,2224 0,3064 0,3856 0,46 0,5296 0,5944
6 0,027777778 0,047125 0,12256944 0,2125 0,29756944 0,37777778 0,453125 0,52361111 0,58923611
7 0,020408163 0,03990204 0,11591837 0,20653061 0,2922449 0,37306122 0,44897959 0,52 0,58612245
8 0,015625 0,03521406 0,11160156 0,20265625 0,28878906 0,37 0,44628906 0,51765625 0,58410156
9 0,012345679 0,032 0,10864198 0,2 0,28641975 0,36790123 0,44444444 0,51604938 0,58271605
10 0,01 0,029701 0,106525 0,1981 0,284725 0,3664 0,443125 0,5149 0,581725
Tabla 4.4. Eficiencia relativa ER para diferentes valores de y número de estrato.

De la tabla 4.4 se puede concluir lo siguiente:

287 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Cuando el coeficiente de correlación disminuye la ER del MAS respecto de MAE aumenta o sea el MAE se hace
más ineficiente.
Cuando esta fijo y se aumenta el número de estratos L , la ER disminuye, haciendo que el MAE sea más eficiente que
el MAS.
Cuando y L aumentan, la ER aumenta haciendo menos eficiente el MAE sobre el MAS.
Para valores mayores a L 6 , manteniendo constante , se observa que ER disminuye relativamente poco. Por esta
razón para efectos prácticos se recomienda que L 6 .

4.13 DOMINIOS DE ESTUDIO EN EL MAE

Existen situaciones en donde los dominios de estudio se presentan en todos los estratos así por ejemplo suponga que la
familias de una comunidad se encuentran estratificadas en tres estratos socioeconómicos I, II y III. Dentro de cada estrato las
familias a su vez se consideran clasificadas de acuerdo a la presencia de personas menores de 18 años de acuerdo a los
siguientes rangos: F1: Familias con 2 o menos personas menores de 18 años, F2: Familias con más de dos y hasta 5 personas
menores de 18 años y finalmente F3: Familias con más de 5 personas menores de 18 años. Se desea estimar el consumo total
en la comunidad de cierto producto en las familias con más de dos y hasta 5 personas menores de 18 años. La figura 4.7,
representa la situación del ejemplo

En este contexto se seguirá la siguiente notación:

N hj : Número de unidades poblacionales que pertenecen al dominio j-ésimo del estrato h-ésimo; N h j 1
N hj
n hj : Número de unidades muestrales que pertenecen al dominio j-ésimo del estrato h-ésimo; n h j 1
nhj

En este tipo de estimaciones se presentan dos situaciones:

Muestra
Muestra 
Estrato II Muestra 
Estrato I  Estrato III

n 11 N 21 n 21 N 31 n 31
N 11

N 12 n 12 N 22 n 22 N 32 n 32

N 13 N 23
n 13 n 23 N 33 n 33

3
3 N2 N2j
N1 N1j j 1 3
j 1 N3 j 1
N3j n2
3
n2 j
j 1
3 3
n1 j 1
n1 j n2 n2 j
j 1

Figura 4.7. Estrato y dominios por estrato.

Se conocen los tamaños N hj para todos los dominios en cada estrato

4.13.1 La Media Poblacional para el dominio j-ésimo sobre todos los estratos y su estimador se conoce N hj
El parámetro y su estimador para la media poblacional para el dominio j-ésimo en el estrato h vienen dados por

288 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

PARÁMETRO ESTIMADOR
(4.72)
N hj nhj
yhij 1
Yhj i 1 Yˆhj y ES y hij
N hj nhj i 1

Con base en estos el total y su estimador para el dominio j-ésimo sobre todos estratos vienen dados por:

PARÁMETRO ESTIMADOR

(4.73)
N Yˆ
L
Yˆj'
L
Yj h
N Y
1 hj hj h 1 hj hj

Para la media en el dominio j-esimos sobre todos los estratos viene dado por:

PARÁMETRO ESTIMADOR
(4.74)

N hjYˆhj
L L
Yj N hjYhj Yˆj'
Yj h 1
L Yˆj' h 1
Nj N hj Nj Nj
h 1

La varianza del estimador el total y su estimación vienen dadas por:

N hj2 S hj2 nhj N hj2 S hj2 nhj


V (Yˆj' ) ) V ( N jYˆj' ) N 2j V (Yˆj' )
L L
h 1
(1 h 1
(1 )
nhj N hj nhj N hj
N hj2 S hj2 nhj nhj S hj2
V (Yˆj' )
L L 2
(1 ) W (1 hj ) ; nhj 0
h 1
N 2j nhj N hj h 1
N hj nhj

N hj2 Sˆ hj2 nhj nhj Sˆhj2


Vˆ (Yˆj' )
L L 2
(1 ) W (1 hj ) ; nhj 0 (4.75)
h 1
N 2j nhj N hj h 1
N hj nhj

No se conocen los tamaños N hj para todos los dominios en cada estrato.

En este caso los tamaños de los dominios en cada uno de los estratos deben ser estimados.

4.13.2 La media Poblacional para el dominio j-ésimo sobre todos los estratos y su estimador cuando no se conoce
N hj .
Este estimador es sesgado y vienen dado por:

289 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

PARÁMETRO ESTIMADOR

L Nh
yhij
Yj
L
N Y Yˆj h 1
nh i 1

Yj h 1 hj hj Yˆj (4.76)
Nj L
N hj Nˆj L Nh
h 1 .nhj
h 1
nh
El estimador de su varianza (Cochran, 1980) viene dado por:

1 N h2 (1 f h ) nhj 2
Vˆ (Yˆj ) . yhj Yˆj
L 2
y hij yhj nhj 1 (4.77)
ˆ
N 2j h 1
nh (nh 1) i 1
nh

En lo que respecta al total poblacional se tiene:

PARÁMETRO ESTIMADOR

n hj
yhij (4.78)
Yˆj Yˆ N Yˆ
L L L L
Yj N Y
1 hj hj 1 hj 1 h hj
N
1 h
i 1
h h h h
nh

Para el estimador de la varianza del estimador se tiene:

nhj 2
2
L N h (1 fh ) y
Vˆ (Yˆj )
nhj 2 i 1 hij
yhij (4.79)
h 1
nh (nh 1) i 1
nh

Ejemplo 4.31
Mediante una encuesta realizada en la comunidad La Ponderosa divida en tres estratos socioeconómicos se ha realizado una
encuesta al jefe del hogar en 70 viviendas encontrando para cada uno de dos dominios (casa alquilada o casa propia) en cada
estrato los siguientes resultados con respecto a la variable: Total de personas con una edad comprendida en el rango
18 Edad < 25 en la comunidad para las viviendas alquiladas.

Nº de personas en el rango de edad 18 Edad < 25


Estrato I Estrato II Estrato III
Dominio Dominio Dominio
Vivienda Alquilada Propia Alquilada Propia Alquilada Propia
01 2 3 0 1 2 2
02 3 3 2 3 2 1

290 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
03 3 0 3 3 4 0
04 2 5 2 2 4 1
05 3 4 3 2 3 0
06 1 1 1 0 1
07 0 0 2 2 0
08 0 1 1 0
09 3 2 3 2
10 3 1 2
11 3 4 2
12 3 2 1
13 2 3 1
14 0 3 0
15 2 2 2
16 4 1
17 0
18 2
n11 16 n12 18 n21 9 n22 15 n31 5 n32 7
n1 34 n2 24 n3 12 n 70

Estimar el número promedio de personas por vivienda con una edad comprendida en el rango 18 Edad < 25 . Estime su
varianza. El número de viviendas por estrato es: N I 800 , N II 400 y N III 100 .

Solución//

En este caso no se conoce el tamaño de los dominios en cada uno de los estratos considerados aplicando la expresión (4.78)
se tiene:

L Nh 800 400 100


yhij (34) (17) (15)
Yˆj h 1
nh i 1
Yˆj 34 24 12 2.13
Nˆ j L Nh 800
(16)
400
(9)
100
(5)
.nhj
h 1
nh 34 24 12

Para la estimación de la varianza:

Estrato Nh nh ( yhij yhj ) 2 nhj y hj ( yhj Yˆj ) 2


I 800 34 23,75 16 2,125 0,000025
II 400 24 8,88888889 9 1,88888889 0,05813457
III 100 12 4 5 3 0,7569

Nh
Además: Nˆ j
L
.nhj 568.1373
h 1
nh

Aplicando la expresión (4.79):

291 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

1 N h2 (1 f h ) nhj 2
Vˆ (Yˆj ) . yhj Yˆj
L 2
yhij yhj nhj 1 0.04925
Nˆ 2j h 1
nh (nh 1) i 1
nh

4.14 POST-ESTRATIFICACIÓN

Este método es utilizado cuando no se conoce a priori cuales son las unidades de la población que pertenecen a los diferentes
estratos. En la aplicación del MAE se requiere de un lado conocer el tamaño de los estratos y de otra parte disponer de un
marco de muestreo para cada uno de los estratos. En una gran cantidad de investigaciones se puede disponer de alguna
manera del tamaño de los estratos, pero no se dispone de marcos muestrales para dichos estratos haciendo imposible
clasificar a priori las unidades poblacionales en dichos estratos. Estas situaciones se presen a menudo en las encuestas de
opinión o en investigaciones que involucren preguntas de carácter político o religioso (Fernández et al., 2004).

Mediante la post-estratificación se selecciona una muestra grande mediante un MAS en la población investigada para después
clasificar estas unidades y su información en estratos antes de proceder a realizar las estimaciones requeridas. La figura 4.8,
representa este método de muestreo.

Figura 4.8. Postestratificación de una población con Nh conocidos.

La variable aleatoria nh se distribuye bajo el modelo Hipergeométrico con función de probabilidad:

Nh N Nh
k n k Nh n.N h .( N N h ).( N n)
pR (nh k) ; E (nh ) n ; V (nh )
N N N 2 .( N 1)
n

4.14.1 Postestratificación para variables: La media y el Total

En este apartado se presentan los estimadores para la media y el total poblacionales para la variable Y respectivamente

292 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

PARÁMETRO ESTIMADOR

nh
yi y hi (4.80)
YˆPOST
N L L
Y W y W i 1
i 1
N 1 h h 1 h
h h
nh

PARÁMETRO ESTIMADOR

(4.81)
N .YˆPOST
N
Y i
y
1 i
YˆPOST

4.14.2 Propiedades de los estimadores de la media y el total en la post-estratificación para variables

Las siguientes son las propiedades básicas para el estimador de la media y el total para variables en la post-estratificación:

Propiedad 4.13: Insesgamiento del estimador para la media y el total poblacionales en la postestratificación

En necesario tener presente que los valores de la media muestral y h están condicionados a la variable aleatoria nh . Cuando
hay variables condicionadas como por ejemplo U / H ( los valores de U están condicionados a valores de H) entonces se
tiene que:

E (U ) E1 ( E2 (U )) E ( E (U / H ))

Y de acuerdo con esto:

E (YˆPOST )
L L L L L
E h 1
Wh yh h 1
Wh E ( yh ) h 1
Wh E ( E ( yh nh )) h 1
Wh E (Yh ) h 1
WhYh Y

En forma análoga se puede ver que ŶPOST es un estimador insesgado para el total poblacional.

Propiedad 4.14: Varianza del estimador para la media y el total poblacionales en la postestratificación

La varianza para el estimador de la media poblacional en la post-estratificación viene dada por:

(1 f) (1 f)
V (YˆPOST )
L L
h 1
Wh S h2 2 h 1
(1 Wh ) S h2 (4.82)
n n
La obtención de esta expresión es la siguiente:
Asumiendo que:

293 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
1 1 1
nh nWh nh nWh nh nWh
nWh 1
nWh

Y obteniendo el valor esperado se tiene:

1 1 1
E E (1)
nh nWh nh nWh
1
nWh

Teniendo presente que:

nh es una variable aleatoria.


nh nWh
<1
nWh
1 1
Si r < 1 , entonces ( 1) n r n ( r)n
n 0 n 0
1 ( r) 1 r

Asumiendo que:

nh nWh
r
nWh

Se tiene:

2 2
1 1 n nWh nh nWh nh nWh
1 h 1 ........
1 r nh nWh n 0
nWh nWh nWh
1
nWh

Reemplazando los tres puntos anteriores en la expresión (1) se tiene:

2
1 1 1 1 nh nWh nh nWh
E E E 1
nh nWh nh nWh nWh nWh nWh
1
nWh

294 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
2
1 1 1 n nWh 1 nh nWh 1 E (nh ) nWh E (nh nWh ) 2
E E h E
nh nWh nWh nWh nWh nWh nWh n 2Wh2 n 3Wh3

Pero:

1 1 V ( nh )
E (nh ) nWh y E (nh nWh ) 2 V ( nh ) E 0
nh nWh n 3Wh3
De acuerdo con el modelo Hipergeométrio:

N n
V ( nh ) nWh (1 Wh )
N 1
Y reemplazando adecuadamente:

1 1 V ( nh ) 1 1 N n 1 (1 Wh )( N n)
E nWh (1 Wh )
nh nWh n 3Wh3 nWh 3
n Wh3
N 1 nWh n 2Wh2 ( N 1)

Asumiendo N 1 N entonces:

1 1 (1 Wh )(1 f )
E (2)
nh nWh Wh2 .n 2

Nota
Si U es una variable aleatoria, la varianza de U es la suma del valor esperado de la varianza condicional con la varianza del
valor esperado condicional (Raj, 1980), es decir:

V (U ) E1 (V2 (U )) V1 ( E2 (U ))

De acuerdo con la nota anterior:

V ( yh ) E nh (V y ( y h )) Vnh ( E y ( y h ))

Pero:

(1 f h ) 2 S h2 S h2 2 1 S h2
Enh (V y ( y h )) E nh Sh E nh S .Enh
h
nh nh Nh nh Nh
Y

1 S h2
Vnh ( E y ( y h )) Vnh (Yh ) 0 V ( yh ) S h2 .Enh (3)
nh Nh

295 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Reemplazando la expresión (2) en la (3) se tiene:

2 1 (1 Wh ) (1 f ) S h2 1 1 (1 Wh ) (1 f ) 2
V ( yh ) S .
h .S h2 . .S h
nWh Wh2 n2 Nh nWh Nh Wh2 n2

1 nWh (1 Wh ) (1 f ) 2 nWh n
V ( yh ) 1 .S h2 2 2
.S h , pero
nWh Nh Wh n Nh N
Entonces:

(1 f ) (1 Wh ) (1 f ) 2
V ( yh ) . .S h
nWh Wh2 n2
Y finalmente se tiene:

L L (1 f ) L (1 f ).(1 Wh ) 2
V ( y POST ) Wh2V ( y h ) Wh S h2 .S h
h 1 h 1
n h 1
n2

(1 f ) L (1 f ) L
V ( y POST ) Wh S h2 (1 Wh ).S h2
n h 1
n2 h 1
(4.83)

Varianza de la media muestral estratificada Varianza introducida por la Post


usando afijación proporcional estratificación.

Ejemplo 4.32
En una reunión de 1200 empresarios llevada a cabo en un coliseo se sabe que el 40% son de las industrias metalmecánicas y
el resto de la industria del cuero. Mediante una encuesta realizada a una muestra grande ellos se obtuvo los siguientes
indicadores con respecto a la pregunta, Y : Número de personas empleadas en su industria.

Industria Industria
metalmecánicas del cuero
nh 54 66
yh 300 150
sh 50 12

Se desea estimar el número promedio de empleados por empresa para los dos tipos de industria en forma conjunta. Estime la
varianza correspondiente.

Solución//

296 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
En este caso no se sabe de antemano a qué tipo de industria se dedica un empresario determinado es decir no hay marcos
muestrales precisos en este caso pero si se conoce el peso de cada estrato.

Aplicando la expresión (4.80):

YˆPOST
2
h 1
Wh y h (0.40)(300) (0.60)(150) 210

Aplicando la expresión (4.83)

2 (1 f ) 2 (1 f ).(1 Wh ) 2
V ( y POST ) Wh S h2 .S h 8.148 0.09735 8.25
h 1
n h 1
n2

EJERCICIOS

Ejercicio 4.A
Generar 200 datos con distribución uniforme entre X MIN 10 y X MAX 80 mediante MINITAB
Ayuda: Ver ejercicio 2.A del capítulo 2 y el siguiente cuadro de diálogo.

Columna que
contiene la los
datos generados

X MIN
X MAX

Ejercicio 4B
Ordenar los datos del ejercicio anterior (columna C4) de la hoja de datos MINITAB de menor a mayor y asignar a cada uno
de ellos en la columna C5 un número de acuerdo con los siguientes rangos:

Rango Número Estrato


xi < 30 1 I

30 xi < 50 2 II

50 xi < 70 3 III

50 xi 4 IV

297 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Columna que
Ayuda contiene los datos

Datos

A
Z Columna donde se
realiza el Sort

Columna donde se
almacena el Sort

Una vez realizado el Sort de menor a mayor se procede a asignar el número correspondiente dependiendo del valor de X de
acurdo con los rangos establecidos. La hoja de datos MINITAB mostrará

Columna de números
asignado

Columna de números
originales ordenados

Columna de números
originales en desordenados

Ejercicio 4.C
De acuerdo con el resultado del ejercicio anterior presentar en columnas separadas los datos correspondientes a cada estrato
para posteriormente obtener sus indicadores estadísticos.

Data Unstack Columns

298 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Los datos de cada estrato se presentan en forma decreciente y fácilmente puede verse el tamaño de cada estrato en la primera
columna marcada con de la hoja de datos. En este caso se obtuvo: NI 49 ; N II 62 ; N III 63 y N IV 26 .

Ejercicio 4.D
Utilizando la información suministrada en la base de datos RAKAN. Divida la población en los 6 estratos y establezca el
tamaño de cada uno de ellos.
Ayuda: apóyese en el ejerció anterior y el siguiente cuadro de diálogo Se seleccionan todas las variables que se
desea tengan los diferentes grupos que se
formaran de acuerdo con los valores de
una de ellas.

De acuerdo con los valores de esta


variable (Estrato) se formaran los grupos

Indica que a continuación de las columnas


en uso se formarán los diferentes grupos

Las columnas que contienen los datos de


cada grupo tendrán nombres

Es bueno que la variable que formará los diferentes grupos sea la primera seleccionada. A partir de cada valor se formarán los
grupos. La siguiente figura es parte de la salida.

Ejercicio 4.E
Utilizando el resultado del ejercicio anterior:
a) Estime mediante una muestra de tamaño 80 con asignación igual la proporción de familias que viven en vivienda propia.
Establezca un intervalo de confianza al 95% para la verdadera proporción (POBLACIONAL)
b) Estime el número de personas por vivienda utilizando una muestra de tamaño 80 y asignación proporcional. Establezca un
intervalo de confianza al 95% para el parámetro respectivo.
c) Estime el total de personas en la ciudad mediante una muestra de tamaño 80 usando asignación de Neyman con una
muestra de tamaño 80. Establezca un intervalo de confianza al 95% de confianza
d) Estime el ingreso familiar promedio en le ciudad y determine un intervalo para el verdadero valor al 95% de confianza
utilizando asignación de Neyman con una muestra de tamaño 80.

299 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
e) Estime el total de niños en la ciudad y establezca un intervalo de confianza al 95% de confianza utilizando asignación
proporcional con una muestra de tamaño 80.
f) Estime la proporción de familias con vehículo en la ciudad mediante asignación de Neyman con una muestra de tamaño
80. Determine el intervalo de confianza respectivo al 95% de confianza.

Ejercicio 4.F
Genere mediante software estadístico 4 grupos (estratos) de N h unidades con la distribución que se indica

Normal 20 ; 6 N1 130
Uniforme YMIN 50 ; YMAX 60 N1 150
Triangular YMIN 65 ; YMAX 75 ; Moda 70 N1 140
Normal 100 ; 3 N1 120

a) Encuentre la media y la cuasivarianza para cada grupo


b) Forme una sola base con los cuatro grupos mediante la instrucción Stack de MINITAB.
2
c) Encuentre en b) los parámetros poblacionales Y y S Y
d) Encuentre el tamaño de muestra para estimar la media poblacional poblacional con asignación proporcional, un error
(0.08).Y y un nivel de confianza del 95%
e) Determine nh para cada estrato y obtenga en cada estrato (grupo) mediante MAS la muestra correspondiente. Estime para

cada muestra Ŷh y Sˆh .


2

ˆ
f) De acuerdo con el resultados en del ejercicio anterior, encuentre Y y Vˆ (Yˆ )
g) Establezca con el resultado del ejercicio f) el intervalo de confianza para la media poblacional, ¿contiene dicho intervalo
la media poblacional?

Ejercicio 4.1
Una empresa publicitaria está interesada en determinar qué tanto debe enfatizarse la publicidad televisiva en una determinado
municipio, y decide realizar una encuesta por muestreo para estimar el número promedio de horas por semana que se ve
televisión en los hogares del municipio. Éste comprende dos pueblos, el pueblo A y el pueblo B, y un área rural. El pueblo A
circunda una fábrica, y la mayoría de los hogares son de trabajadores fabriles con niños en edad escolar. El pueblo B es un
suburbio exclusivo de una ciudad vecina y consta de habitantes más viejos con pocos niños en la casa. Existen 155 hogares
en el pueblo A, 62 en el pueblo B y 93 en el área rural.
Analice los méritos de usar un MAE en la situación planteada.

Ejercicio 4.2
Si en el caso anterior se lleva a cabo la encuesta planeada y la empresa publicitaria tiene tiempo y dinero para entrevistar
n 40 hogares, y decide seleccionar muestras aleatorias n1 20 del pueblo A, n2 8 del pueblo B, y n3 12 del
área rural. Después de realizar las entrevistas se obtuvo la siguiente información:

Tiempo que se ve televisión, en horas por semana


Estrato I (Pueblo A) Estrato II (Pueblo B) Estrato III (Área rural)
35 28 26 41 27 4 49 10 8 15 21 7
43 29 32 37 15 41 25 30 14 30 20 11
36 25 29 31 12 32 34 24
39 38 40 45
28 27 35 34

300 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Estime el tiempo que se ve televisión, en horas por semana, para todos los hogares del municipio, fije un límite para el error
de estimación.

Ejercicio 4.3
En el caso anterior determine el total de horas por semana que las familias del municipio dedican a ver televisión. Determine
un límite para el error de estimación.

Ejercicio 4.4
2 2
Una encuesta anterior sugiere que las varianzas en los estratos del ejercicio 1) son aproximadamente: 1 25 , 2 225
2
y 3 100 . Deseamos estimar la media poblacional. Determine el tamaño de muestra para obtener un límite en el error de
1
estimación igual a 2 horas, si las fracciones asignadas son wh ; h . ¿Cómo queda repartida la muestra en cada estrato?
3
Ejercicio 4.5
En el ejercicio anterior, determine el tamaño de muestra para estimar el total poblacional con un límite de error de 400 horas
para el error de estimación. Se desea tomar una muestra de igual tamaño en cada estrato

Ejercicio 4.6
La firma publicitaria ha estimado los siguientes valores: c1 c2 US$9 , c3 US$16 . Encuentre el tamaño de muestra
y el reparto en cada estrato de tal manera que la empresa publicitaria pueda estimar, al mínimo costo, el tiempo promedio que
se ve televisión con un límite de error de 2 horas y un nivel de confianza del 95%

Ejercicio 4.7
Cierto tipo de materia prima utilizado en la obtención de azúcar de caña, es suministrado por los proveedores A y B. En la
actualidad en bodega el 60% de los bultos de la materia prima son del proveedor A. Estudios anteriores del Dpto. de CC,
permiten establecer que el porcentaje de bultos con contenido inexacto de materia prima para cada proveedor está establecido
en los siguientes rangos:

0.13 PA < 0.22; 0.1 < PB 0.35

¿Qué tamaño de muestra se requiere para establecer el total de bultos en bodega con contenido inexacto para un error de 20 y
un nivel de confianza del 95%? Suponga que la cantidad de bultos en bodega es de 400 y que Nh= Nh-1, para los dos estratos.

Ejercicio 4.8
Se tiene una población dividida en dos estratos, cuyas ponderaciones son: W1 y W2 . Si se desea estimar la media
poblacional satisfaciendo el costo: C C1n1 C2 n2 y suponiendo que S1 S 2 demuestre que:

V (Yˆ ) PROP Wh Ch

V (Yˆ )
2
OPT Wh Ch

Ejercicio 4.9
Una población presenta la siguiente distribución:

N1 N2 N3

0 4 50 90 160

301 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Se desea estimar la media poblacional con un margen de error de magnitud 0 .03 y un nivel de confianza del 95%.
Usando afijación de mínima varianza, ¿qué tamaño de muestra se debe tomar para cada uno de los estratos?

Ejercicio 4.10
En una población de tres estratos se tiene que: Wh 0.5, 0.4, 0.1 y una muestra piloto arrojó la siguiente información:

Estrato I II III
2
S h 9.48 11.23 13.42

Yˆh 4.32 8.25 13.28

¿Qué tamaña de muestra estratificada con afijación proporcional, nos daría la misma precisión que una muestra aleatoria
simple de tamaño n 1500 , cuando se desea estimar la media poblacional?. Los valores de N h son muy grandes con
relación a nh .
L L
Recuerde que: S2 h 1
Wh S h2 h 1
Wh (Yh Y ) 2

Ejercicio 4.11
En una determinada población se desea estimar el total poblacional A de unidades que poseen determinada característica,
usando afijación proporcional con una varianza deseada para dicha estimación de V0 2.28 .
De los diferentes estratos se tiene la siguiente información:

Estrato Nh Posible valor de Ph


I 100 0 P1 0.10
II 200 0.6 P1 0.80
III 400 No se sabe nada

Asuma que N h ( N h 1) 1 .
¿Qué tamaño de muestra se debe asumir para cada estrato?

Ejercicio 4.12
Para estimar la proporción jóvenes menores de 18 años que han tenido contacto con drogas en la ciudad ABC, se ha
estratificado esta ciudad en tres zonas. La siguiente tabla muestra información básica sobre cada zona.

Zona Nº de jóvenes Porcentaje que ha tenido


menores de 16 años contacto con drogas
Norte 900 40%
Centro 300 14%
Sur 1400 67%

Determine el tamaño de muestra global y los tamaños de muestra en cada estrato para satisfacer un error de estimación del
8% cuando:
a) El costo por observación en la zona norte es de 5 dólares, 10 3n 3l centro y 8 en el sur.
b) Las entrevistas no tienen ningún costo.

302 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Ejercicio 4.13
Un estadístico desea estimar el dinero total invertido en los colegios privados de una determinada zona. Para ello se clasifican
los trabajadores de dichos establecimientos educativos en tres clases: docentes, administrativos y personal de servicios varios.
En total existen en la zona: 800 docentes, 140 administrativos y 300 empleados de servicios varios. El estadístico realiza el
estudio basado en una muestra de 25 docentes, 8 administrativos y 12 trabajadores del área de servicios. Los resultados de los
salarios netos mensuales (miles de pesos) se muestran en la tabla siguiente:

Docentes Administrativos Servicios varios


1200 1340 1500 1800 1900 800 899 640 620 750
2000 2050 1389 2000 2300 778 900 710 640 700
1700 2130 1800 2000 2155 779 800 700 690 665
1200 1100 1811 1828 1983 770 900 780 790 640
1345 1589 1755 2100 2260

a) ¿Qué estimación encontró el estadístico?


b) Estimar el sueldo neto medio para el personal docente.

Ejercicio 4.14
Para estimar la calificación promedio de un grupo de 10000 trabajadores a nivel nacional, estos se han clasificado en grupos
de acuerdo con la primera evaluación con los siguientes resultados:

Primera parte de la Nº de Sh Ch
evaluación trabajadores
5 6.5) 5800 0.7 16*

6.5 8) 2000 0.48 11

8 9) 1600 0.23 9

9 10) 600 0.43 10

*Dólares
Determine el tamaño de muestra y las respectivas asignaciones de la muestra en cada grupo bajo los siguientes supuestos:

a) Se disponme de 500 dólares para el muestreo.


b) Se desea incurrir en el menor costo posible y conseguir una estimación con una amplitud máxima de 0.4 pontos.

Ejercicio 4.15
La facultad de Ingeniería de una universidad desea estimar la calificación promedio obtenida por los estudiantes en entres
cursos de la asignatura Emprendimiento Empresarial calificada sobre la base de 100 puntos. El curso I tiene 55 alumnos, el II
80 alumnos y el curso III 65 alumnos. Una muestra aleatoria estratificada de 50 estudiantes es asignada proporcionalmente y
produce muestras de 14, 20 y 16 respectivamente, obteniéndose las siguientes calificaciones:

Curso I Curso II Curso III


90 88 66 66 88 66 84 42 56 66 88
77 80 59 99 95 59 59 43 54 72 60
4374 80 70 87 88 59 59 44 70 49 52
92 90 88 77 65 70 70 65 59
63 75 56 59 83 66 69 54

303 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Estimara la calificación promedio para el curso y establecer un límite para el error de estimación. Compare este error con el
obtenido mediante un MAS con la misma muestra.

Ejercicio 4.16
Se desea estimar el número total de hectáreas dedicadas al cultivo pastos en determinada región forestal. Se realiza para ello
una estratificación basada en el tamaño de las fincas. Las 300 fincas de la zona son clasificadas en cuatro categorías y de cada
categoría se ha extraído una muestra de 30 fincas encontrándose los siguientes estimadores para la característica Y: Número
de hectáreas dedicadas al cultivo de pastos.

Estrato Categoría 1 Categoría 2 Categoría 3 Categoría 4


Nh 90 80 64 66

Yˆh 65.8 184.09 352.4 467.9

S h2 32.7 89.9 130.7 296.7

Estime el número total de hectáreas dedicadas al cultivo de pastos en la región forestal analizada y determine el estimador de
su varianza.

Ejercicio 4.17
La siguiente tabla representa la información suministrada por las familias de una ciudad dividida en tres distritos (Norte;
centro y sur). Se utilizo una muestra piloto.

Distrito Norte Centro Sur

Tamaño del distrito 7000 5000 8000

Tamaño de la muestra piloto 20 50 48

Gasto promedio en alimentos 3,7 2,3 1,8


Cuasivarianza
1,23 0,44 0.05
muestral

Suponga que el presupuesto disponible es de $ 3.400.000 y los costos de cada encuesta por distrito son: C1=4500; C2=5500 y
C3=6500, ¿qué tamaño de muestra se ajusta a dicho presupuesto?

Ejercicio 4.18
La siguiente tabla corresponde a una muestra piloto de familias de una determinada ciudad divida en tres estratos (Norte,
Centro y Sur), en cada uno de los cuales se investigó la proporción de familias que poseen al menos un automóvil.

Estrato Wh Ph Ch
Norte 0.20 0.90 1000
Centro 0.30 0.60 2000
Sur 0.5 0.20 1500

Se desea estimar la verdadera proporción poblacional con un error del 3%. Asuma un nivel de confianza del 95% ¿Cuál será
el tamaño de muestra requerido?

304 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Ejercicio 4.19
El producto de una multinacional se presenta 3 presentaciones (estratos). Los pesos de cada estrato son:
WI 0.5; WII 0.3; WIII 0 .2
Determine el tamaño de muestra con afijación proporcional requerido para estimar la proporción de unidades fabricadas que
presentan problemas de empaque, con un error de muestreo del 5%. (Los tamaños de los estratos son suficientemente grandes
para el tamaño de la muestra y no se conoce la proporción de productos con problemas de empaque en cada presentación o
estrato).

Ejercicio 4.20
Una empresa de la ciudad de Cali, desea estimar el promedio de horas perdidas debido a accidentes de trabajo de sus
empleados en un mes determinado. Ya que los obreros, técnicos y administrativos tienen diferentes tasas de accidentalidad, el
investigador decide usar un muestreo estratificado. Datos de años anteriores sobre la accidentalidad permiten asignar valores
a las cuasivarianzas para la variable Y: Nº de horas perdidas en cada uno de los grupos considerados. Determine con afijación
de mínima varianza el tamaño de la muestra y su repartición para cada grupo considerando un error de estimación de 0.5.

Obreros Técnicos Administrativos


2
S h 36 25 9
Nh 132 92 28

Ejercicio 4.21
Un biólogo de un prestigioso laboratorio de la ciudad ABC quiso estimar el peso promedio de 90 ratas (50 machos y 40
hembras) que han sido vacunadas con el medicamente AC2 y después de alimentadas con cierta dieta. Las rayas fueron
separadas por sexo haciéndose necesario el uso del MAE. Para aproximar la variación de peso dentro de cada sexo, el biólogo
selecciona la rata más grande y más pequeña dentro de cada grupo y las pesa. Él encontró una amplitud de variación de 10 gr
para los matos y 8 gr para las hembras y además estudios similares suponen que la variabilidad del peso de las ratas puede
considerarse normal con amplitud 4 . ¿Cuál es el tamaño de muestra usando afijación proporcional con una varianza
deseada para el estimador igual a 0.26?. ¿Cómo quedará repartida la muestra?

Ejercicio 4. 22
Un dispositivo electrónico se fabrica en tres modelos diferentes. Antes de salir al mercado cada dispositivo es sometido a una
determinada prueba para observar el tiempo que se demora para reaccionar al la prueba. Se quiere estimar el tiempo
promedio de respuesta para 220 de tales dispositivos de los cuales se tiene la siguiente información:

Tipo A Tipo B Tipo C


Valor de la prueba por dispositivo Ch 9 Euros 25 Euros 36 Euros
Cuasivarianza anticipada del tiempo de
2 2.25 3.24 3.24
reacción S h
Nh 112 68 40

¿Cuál será el tamaño de muestra adecuado para obtener dicha estimación con V0 0.1 ?

305 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
Ejercicio 4.23
El control de calidad de cierta empresa exige que la materia prima (ejes) que provienen de dos distribuidores, sea verificada
en el número de unidades defectuosas por distribuidor y el total de ellas para toda la población de unidades recibidas. El
proveedor A establece que la proporción de defectuosos para su producto normalmente no supera el 8%, mientras que para el
proveedor B dicha proporción está en el intervalo 4% PˆB 12% . La empresa ha recibido 5000 ejes de los cuales 3000
son del proveedor A. ¿Qué tamaño de muestra será necesario para estimar el total de unidades defectuosas del lote recibido si
ˆ )
se desea un error estándar de estimación ee( A 102 . Utilice afijación proporcional.
MAE

Ejercicio 4.24
En una industria que elabora tapas de plástico existen 400 máquinas que elaboran dicho producto. Las máquinas han sido
adquiridas por la empresa según sus condiciones económicas a través de varios años y así, existen en ella 240 que son
operadas manualmente y por lo tanto de bajo rendimiento; 100 semiautomáticas y 60 completamente automáticas, de alto
rendimiento. Se desea estimar el número medio de tapas producidas por máquina en la primera semana de junio. Aunque es
factible practicar una muestra aleatoria simple sobre las máquinas, ya que es relativamente fácil numerarlas y realizar la
selección, sabemos que este tipo de selección revolvería máquinas de pequeño y alto rendimiento, por lo que es más
aconsejable practicar una estratificación según el criterio: modo de operación de la máquina (manual, semiautomática y
automática).

a) Un investigador decide utilizar para cada estrato las siguientes fracciones de muestreo:

Estrato Propiedad fh
I Máquinas manuales 0.05
II Máquinas semiautomáticas 0.05
III Máquinas automáticas 0.05

¿Qué tamaño de muestra por estrato y global utilizó el investigador.

b) De acuerdo con las fracciones de muestreo asignadas en la tabla anterior, el investigador obtiene la siguiente información
sobre el número de tapas producidas:

Estrato y hi y hi2 y hi
2

I 23500 48010000 552250000


II 30100 191490000 906010000
II 60900 1257410000 3708810000

Encuentre la estimación de la varianza para la estimación del número promedio de tapas por máquina en cada estrato.

c) Encuentre el número promedio de tapas por máquina para todas las máquinas. ¿Cuál será la varianza estimada para la
estimación promedio de tapas por máquina globalmente?
d) ¿Cuál es el error estándar de estimación.
e) Para el mismo tamaño global obtenido en a) ¿cuál sería la distribución proporcional?
f) ¿Cuál puede ser el total de tapas producidas en la empresa?

Ejercicio 4.25
Se desea realizar un estudio sobre el personal que labora en una fábrica que cuenta con edificios en 15 regiones de un país. El
estudio se refiere a opiniones y actitudes de los empleados y obreros.

306 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
a) Si se decide tomar una muestra de 1 en 30 (fracción de muestreo) y la población de empleados y obreros es de 42090,
¿Cuál es tamaño de la muestra?
b) Si cada región es independiente en el manejo, vinculación y tratamiento del personal ¿Cómo se podrá repartir la muestra
determinada en el literal a). Explique.
c) Los siguientes datos corresponden a una muestra con afijación igual tomada en una población divida en cuatro estrato

Estrato Nh nh P̂h yh y h2 xh x h2 x h. y h
I 270 20 0.35 207.4 2181.04 169.3 1.446,19 1770.66
II 260 20 0.50 324.3 5539.01 246.3 3087.29 4045.23
III 227 20 0.80 543.3 14860.71 356.1 8411.97 9763.78
IV 354 20 0.20 846.1 36156.83 676.8 23147.10 28791.08

d) Estime el promedio y el total poblacional para la variable X, fijando límites del 95%
e) Estime el promedio y el total poblacional para la variable Y, fijando límites del 95%
f) Estime la proporción y el total poblacional (A), fijando límites del 95%

Ejercicio 4.26
Una empresa publicitaria está interesada en determinar qué tanto debe enfatizarse la publicidad televisiva en una determinado
municipio, y decide realizar una encuesta por muestreo para estimar el número promedio de horas por semana que se ve
televisión en los hogares del municipio. Éste comprende dos pueblos, el pueblo A y el pueblo B, y un área rural. El pueblo A
circunda una fábrica, y la mayoría de los hogares son de trabajadores fabriles con niños en edad escolar. El pueblo B es un
suburbio exclusivo de una ciudad vecina y consta de habitantes más viejos con pocos niños en la casa. Existen 155 hogares
en el pueblo A, 62 en el pueblo B y 93 en el área rural. Analice los méritos de usar un MAE en la situación planteada.

Ejercicio 4.27
Si en el caso anterior se lleva a cabo la encuesta planeada y la empresa publicitaria tiene tiempo y dinero para entrevistar
n 40 hogares, y decide seleccionar muestras aleatorias n1 20 del pueblo A, n2 8 del pueblo B, y n3 12 del
área rural. Después de realizar las entrevistas se obtuvo la siguiente información:

Tiempo que se ve televisión, en horas por semana


Estrato I (Pueblo A) Estrato II (Pueblo B) Estrato III (Área rural)
35 28 26 41 27 4 49 10 8 15 21 7
43 29 32 37 15 41 25 30 14 30 20 11
36 25 29 31 12 32 34 24
39 38 40 45
28 27 35 34

Estime el tiempo que se ve televisión, en horas por semana, para todos los hogares del municipio, fije un límite para el error
de estimación.

Ejercicio 4.28
En el caso anterior determine el total de horas por semana que las familias del municipio dedican a ver televisión. Determine
un límite para el error de estimación.

Ejercicio 4.29
Una encuesta anterior sugiere que las cuasivarianzas en los estratos del ejercicio 4) son aproximadamente: S12 25 ,
S 22 225 y S 32 100 . Deseamos estimar la media poblacional. Determine el tamaño de muestra para obtener un límite

307 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 
1
en el error de estimación igual a 2 horas, si las fracciones asignadas son wh ; h . ¿Cómo queda repartida la muestra en
3
cada estrato?

Ejercicio 4.30
En el ejercicio anterior, determine el tamaño de muestra para estimar el total poblacional con un límite de error de 400 horas
para el error de estimación. Se desea tomar una muestra de igual tamaño en cada estrato.

Ejercicio 4.31
La firma publicitaria ha estimado los siguientes valores: c1 c2 US$9 , c3 US$16 . Encuentre el tamaño de muestra
y el reparto en cada estrato de tal manera que la empresa publicitaria pueda estimar, al mínimo costo, el tiempo promedio que
se ve televisión con un límite de error de 2 horas y un nivel de confianza del 95%.

Ejercicio 4.32
Demostrar la siguiente propiedad del estimador de la media poblacional en el MAE.
E ( Xˆ MAE ) X

Ejercicio 4.33
Demostrar que en el MAE la varianza del estimador de la media poblacional vienen dada por:

L
Wh2 .S h2 L
Wh .S h2
V ( Xˆ MAE )
h 1 nh h 1 N

Ejercicio 4.34
¿Cómo queda la varianza en el problema anterior si las fracciones de muestreo en todos los estratos son despreciables?

Ejercicio 4.35
En el ejercicio anterior si se desea encontrar el tamaño de muestra para estimar la media poblacional con asignación
proporcional asumiendo una varianza deseada de V0 ¿cuál será la expresión para su cálculo?

Ejercicio 4.36
Si un muestreo aleatorio estratificado se ha realizado con afijación proporcional demuestre que la varianza del estimador de
la media poblacional viene dada por:

L
1 f
V ( Xˆ MAE ) . Wh .S h2
.n h 1

Ejercicio 4.37
L
En el MAE si se dispone de un presupuesto C C0 C h .n h en donde C0 son los costos fijos del trabajo de campo C .
h 1

Ch es el valor de una encuesta en el estrato h .

308 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

¿Cuál será el tamaño de la muestra si se desea que la muestra quede distribuida de acuerdo con la siguiente relación
nh Wh S h Ch
(proporcionalidad) L
?.
n
Wh S h Ch
h 1

Ejercicio 4.38
¿Cómo quedaría la expresión hallada en el numeral anterior si se trata de estimar la proporción poblacional P?.

Ejercicio 4.39
La siguiente información corresponde a una población ABC.

Estrato Ph Ch Nh
I P1 0.8 $2000 4000
II 0.4 < P2 < 0.8 $1500 6000
III P3 0.3 $1000 10000

¿Qué tamaño de muestra se requiere para estimar la proporción poblacional asumiendo un costo total de $ 1500000 con
costos fijos de $ 500000?.

Ejercicio 4.40
La siguiente información corresponde al gasto mensual en servicios públicos de una muestra aleatoria piloto de 120 familias
en una ciudad geográficamente divida en tres estratos: Norte, Centro y Sur.

Estrato Norte Centro Sur


Nh 4000 6000 10000
nh 36 40 44

Yˆh 2.4 1.2 0.6

Sˆ h2 1.21 0.36 0.04

a) Encuentre un intervalo de confianza al 97% para el gasto total de la población en materia de servicios públicos.
b) Supóngase que el costo de recolectar la información por familia para cada uno de los estratos es la siguiente:
CN $5800; CC $3000 y C S $1000 . Si el presupuesto asignando a la recolección de información no puede
ser mayor de $2500000, ¿Cuál debe ser el tamaño de la muestra global y cómo debe ser repartida entre los diferentes
estratos?

Ejercicio 4.41
Debido a la necesidad de construir más pistas de aterrizaje en determinado aeropuerto se realiza un estudio sobre
contaminación acústica alrededor del aeropuerto. Para ello el área investigada se divide en tres zonas en la zona I se
colocaron aleatoriamente en 6 de los 410 bloques de edificios habitados, aparatos de medida del ruido. En la zona II
igualmente se seleccionan aleatoriamente 10 bloques de de los 650 edificios habitados y en la zona III, donde hay 2000
bloques de edificios, se seleccionaron por el mismo método 40. Se midió en todos los bloques muestreados el número
máximo de decibeles registrados en 24 horas, obteniéndose:

309 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Zona Nh nh Yˆh Sˆh2


I 410 6 80 6.55
II 650 10 70 11.43
III 2000 40 62 4.98

a) Estime el promedio de decibeles por bloque en el área investigada y su varianza.


b) ¿qué tamaño de muestra se requiere para afijación proporcional y afijación de Neyman asumiendo un error de
0.05(Yˆ ) y un nivel de confianza del 95%. Asuma la información de la tabla como información piloto.
MAE

Ejercicio 4.42
La siguiente grafica muestra el comportamiento de la variable Y en función de la variable X en una población de tamaño N.
Determine el tipo de muestreo que debe usarse para estimar la media poblacional de la variable Y. Explique.

Comportamiento de Y=f(x)
25

20
Variable Y

15

10

0
0 5 10 15 20 25 30 35 40
Variable X

Ejercicio 4. 43
La siguiente gráfica muestra la distribución de la característica X en una población de tamaño N. Determine el muestreo más
apropiado para la estimación de la media poblacional X . Explique.

ni

x1 x2 X

310 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Ejercicio 4.44
Para estudiar la rentabilidad de diferentes tratamientos en la producción de té, se utilizó una plantación con 250 parcelas de
una hectárea c/u. En 120 parcelas se aplicó el tratamiento convencional (A1), en otras 90 el tratamiento (A2) y en las
restantes el tratamiento (A3). Se determinó obtener una muestra de la producción de las parcelas para estimar la producción
total de té en la plantación y para ello se escogieron por muestreo en cada estrato igual número de parcelas obteniendo los
siguientes resultados:

Tratamiento A1 A2 A3
Nh 120 90 40
nh 10 10 10

Kg de hoja verde /ha/año Yˆh 2456 3109 8799

Ŝh 987 1228 1404


Costo en miles $/ha de tratamiento 490 896 2020

Estime la producción total de té en las 250 parcelas y su varianza.

Ejercicio 4.45
Se desea estimar el número medio de cabezas de ganado y su varianza en una población compuesta por 2072 fincas
ganaderas. La estratificación se realizó con base en la superficie total de cada finca de la siguiente manera: 0-15 acres, 16-30
acres, 31-50 acres, 51-75 acres y 76-100 acres. (1 acre =4046,9 m2). Una muestra sobre la variable Y: Número de cabezas de
ganado arrojó los siguientes resultados:

Estrato Nh nh yh y hi
0-15 635 84 4.24 356
16-30 570 125 11.63 1442
31-50 475 138 15.95 2200
51-75 303 112 23.59 2642
76-100 89 41 29.61 1214
Total 2072 500

a) Estime el promedio de cabezas de ganado por finca y su varianza usando.


b) ¿Qué tamaño de muestra se obtendría asumiendo un error del 2% de la media global calculada en a) y un nivel de
confianza del 95% usando: afijación uniforme, proporcional, y Neyman.

Ejercicio 4.46
Una Psicóloga investiga sobre el retraso mental en personas adultas, ella considera que muy probablemente los varones y las
mujeres presentan diferencias notables en los tiempos de reacción a determinados estímulos. En un grupo de 96 personas
tiene 43 varones. En estudios previos de este tipo ella ha investigado que los tiempos de reacción presentan una amplitud de
variación de 5 a 20 segundos para varones y de 3 a 14 para mujeres. Los costos de muestreo son los mismos para cada grupo.
Usando afijación de Neyman, encuentre el tamaño de muestra necesario para estimar el tiempo promedio de reacción para el

grupo con V (Yˆ ) 1 . Se acepta que la desviación en cada grupo es la cuarta parte de la amplitud.

311 
 
CAPÍTULO 4. MUESTREO ALEATORIO ESTRATIFICADO
 
 

Ejercicio 4. 47
En una región que está divida en L provincias se realiza una encuesta consultando a n ocupantes de fincas. El número de
consultados es el que daba el menor error de muestreo al estimar cierto parámetro para la característica Y que se desea volver
a estimar en una nueva ocasión en donde se consideran los costos por estrato que en la investigación anterior no se
consideraron.
Se supone que tanto las varianzas poblacionales de Y como el número de fincas por estrato no han cambiado desde el estudio
/
anterior. Se dispone para realizar la encuesta de un costo total C, y se desea saber los tamaños de muestra nh en cada
provincia para cometer el menor error de muestreo posible.

Ejercicio 4.48
Una población de tamaño N se encuentra divida en dos subpoblaciones de tamaños N1 y N 2 respectivamente. Se desea
estimar para la característica Y el parámetro θ Y1 Y2 obteniendo muestras aleatorias independientes en cada dominio de
tamaños n1 y n2 respectivamente. ¿Qué estimador debe considerarse para estimar el parámetro θ ?. Calcule su esperanza y
varianza.

312 
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

 
 
 

ESTIMADORES DE RAZÓN

Introducción.
Objetivo fundamental de los estimadores indirectos.
Procedimiento para el uso de los estimadores de razón.
Definición de la razón entre dos variables.
La razón poblacional de Y sobre X y su estimador en el MAS.
Propiedades relacionadas con el estimador de razón en el MAS.
Condiciones bajo las cuales el estimador de razón puede considerarse insesgado.
Cuando usar estimadores de razón.
Estimadores para el total y la media poblacional con base en estimadores de razón.
El total poblacional y su estimador.
La media poblacional y su estimador.
Propiedades relacionadas con los estimadores de la media y el total.
Tamaño de muestra para la estimación de una razón poblacional.
Estimadores de razón en el MAE.
Estimador de razón separada.
Propiedades del estimador de razón separada.
Estimador de razón combinada.
Propiedades del estimador de razón combinada.
Estimadores para la media y el total en el MAE con base en la razón.
Estimador de razón separada para la media y el total.
Propiedades del estimador de razón separada.
Estimador de razón combinada para la media y el total.
Propiedades del estimador de razón combinada.
Comparación del estimador de razón separada con el estimador de razón combinada para la media.
Tamaño de muestra para la estimación de la media y el total en al MAE con base en la razón.
Ejercicios.

____________________________________________________________________________________

313
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

5.1 INTRODUCCIÓN

En los capítulos anteriores se ha manejado para el MAS y el MAE una sola característica de interés la cual se ha denominado
Y y para algunos parámetros de la población asociada a dicha característica se han definido los tamaños de muestra para su
estimación bajo determinadas circunstancias y requisitos.

En varias ocasiones se puede disponer de otras características (al menos una): X 1 , X 2 , .. X k , que dan información
adicional sobre la característica de interés. Esto es, para la característica Y (objeto de análisis), existe una característica X
que está altamente correlacionada con ella, dando información adicional para mejorar las estimaciones realizadas sobre los
parámetros poblacionales asociados a Y .

Los métodos que utilizan información de variables adicionales se denominan métodos indirectos de estimación. La
característica auxiliar X , puede corresponder a la misma característica Y objeto de análisis medida en un censo anterior, o
puede tratarse de otra característica estudiada antes pero altamente correlacionada con Y .

La estimación por Razón ( Y sobre X ), la estimación de regresión ( Y en función de X ) y el estimador por diferencia ( Y
menos X ), son los estimadores clásicos indirectos (Pérez, 2005).

5.2 OBJETIVO FUNDAMENTAL DE LOS ESTIMADORES INDIRECTOS

La figura 5.1 muestra el objetivo de los estimadores indirectos al compararlo con un estimador directo.

Tipo de  
estimador usado 

Estimaciones  Vˆ (θˆD )
Directo: θˆD MUESTRA

POBLACIÓN
?
Estimaciones  Vˆ (θˆI )
Indirecto: θˆI MUESTRA
Información 
Adicional

Información suministrada por una


variable auxiliar a la variable V (θˆI ) < Vˆ (θˆD )
analizada, altamente correlacionada

Figura 5.1.Próposito de los estimadores indirectos.

314
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
En este capítulo se analiza el estimador de razón. Mediante este método se pretende mejorar la variabilidad (reducir) de un
estimador asociado a la característica Y objeto de estudio, utilizando información sobre otra característica auxiliar X que se
supone está altamente correlacionada con ella.
Para usar un estimador de razón es fundamental que el comportamiento de Y sea proporcional a X , lo cual significa que la
relación entre las dos variables consideradas sea aproximadamente la señalada en la figura 5.2.

Figura 5.2. Relación aproximada para estimadores de razón.

La tabla 5.1 muestra para algunas variables el uso del método de razón

Unidad de Muestreo Variable estudiada Y Variable auxiliar X Parámetro a estimar


Fincas cafeteras del
Producción de café por Producción total de café en el
Norte del Valle del Tamaño de la Finca
finca Norte del Valle del Cauca
Cauca
Ciudades del Valle del Población actual por Población en la ciudad Población actual del Valle del
Cauca ciudad según el último censo Cauca
Familias del barrio Proporción del ingreso invertido
Gastos en alimentación Ingreso mensual familiar
Alfonso López en alimentos
Supermercados e la plaza Ventas actuales del Ventas del producto
Ventas totales del producto XYZ
de Santa Helena producto XYZ XYZ el año pasado
Naranjas de un gran Cantidad de jugo de Cantidad total de jugo en el
Peso de la naranja
cargamento naranja cargamento
Número de personas que Número de cuartos Número de personas por cuarto
Casas del barrio la Selva
habitan la vivienda destinados a dormitorio de dormitorio
Pollos de una granja Peso del pollo al final del Peso del pollo al iniciar Peso total (todos los pollos) al
avícola período de engorde el período de engorde final del periodo de engorde
Número de árboles por Número de árboles por
Parcelas de un bosque Total de árboles en el bosque
conteo fotografía
Tabla 5.1. Ejemplos de parámetros estimables mediante el uso de una razón.

5.3 PROCEDIMIENTO PARA EL USO DE LOS ESTIMADORES DE RAZÓN

El procedimiento a seguir para el uso de los estimadores de razón es el siguiente:

1. Seleccione un marco de muestreo adecuado.


2. Seleccione la característica que servirá de variable auxiliar ( X )

315
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
3. Cerciórese de que exista alta correlación entre X e Y .
4. Determine el tamaño de muestra n .
5. Mida para cada unidad estadística muestral las características X e Y .

5.4 DEFINICIÓN DE LA RAZÓN ENTRE DOS VARIABLES

Sea U 1 , U 2 , U 3 ,......U N una población de tamaño N , en la cual para cada unidad estadística U i , se miden las
variables X e Y . Aquí, Y será la variable principal ó variable objeto de estudio y X será la variable auxiliar correlacionada
con Y . En este contexto, se define la razón poblacional de Y sobre X por el siguiente cociente:
N
yi
i 1 Y Y N Y
R N
(5.1)
X X N X
xi
i 1

5.4.1 La razón poblacional de Y sobre X y su estimador en el MAS.

El parámetro razón poblacional y su estimador en el MAS vienen dados por:

PARÁMETRO ESTIMADOR

N n
yi yi
Y Y y (5.2)

i 1
R N r i 1
X X n
x
xi xi
i 1 i 1

5.4.2 Propiedades relacionadas con el estimador de razón en el MAS.

Las propiedades básicas del estimador definido mediante 5.2 son:

Propiedad 5.1: ¿Cuándo el estimador de razón puede ser insesgado?


 
Si las variables Y e X son medidas en c/u de las unidades de un MAS de tamaño n grande, entonces el estimador de la
razón poblacional se considera insesgado.

Tomando la siguiente relación:

y y R. x
Rˆ R R
x x

Si n es grande, entonces no hay mucha diferencia entre la media poblacional y la media muestral para la variable X , luego:

316
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

y R.x
x X , y Rˆ R (1)
X
Sacando valor esperado a ambos lados de la expresión (1):

1 1 1
E ( Rˆ R) E( y R.x ) E ( y ) R.E ( x ) .Y R. X ,
X X X
Pero:

Y
R
X
Luego:

1 Y
E ( Rˆ R) . Y .X 0 E ( Rˆ ) R
X X

Propiedad 5.2: Expresión aproximada para la varianza del estimador de razón


 
Si las variables Y e X son medidas en c/u de las unidades de un MAS de tamaño n grande, entonces la varianza del
estimador de la razón viene dada aproximadamente por la siguiente expresión:

N
( yi R.x i ) 2
(1 f )
ECM ( Rˆ ) V ( Rˆ ) . i 1
(5.3)
n. X 2 N 1

Donde:

Y
R
X
Partiendo de la expresión:
y R.x
Rˆ R
X
La cual se eleva al cuadrado para obtener:
1
( Rˆ R) 2 .( y R.x ) 2 .
X2
Sacando valor esperado a ambos lados:

2 1
E Rˆ R .E ( y R.x ) 2 ECM ( Rˆ ) .
X2

317
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
Se define la variable D de tal manera que para cada unidad U i poblacional se tenga:

di yi R.xi

Y así:

En la muestra d y R.x
En la población D Y R. X

Y Y
Y como R , entonces D Y R. X Y .X 0.
X X

Ahora, para la varianza del estimador de razón por definición:

2
V ( Rˆ ) E Rˆ E ( Rˆ )

Y como n es una muestra grande:

E ( Rˆ ) R

Entonces:

2 2
V ( Rˆ ) E Rˆ E ( Rˆ ) E Rˆ R ECM ( Rˆ )

Ahora:

2 1 1 1 1 S d2
E Rˆ R
2 2
.E ( y R.x .E ( d D) .V (d ) .(1 f ).
X2 X2 X2 X2 n
d y R. x
D 0

N N
(d i D )2 ( yi R.xi ) 2
2 1 (1 f ) 1 (1 f )
E Rˆ R . . i 1
. . i 1
,
X2 n N 1 X2 n N 1

Finalmente:
N
( yi R.xi ) 2
1 (1 f )
V ( Rˆ ) ECM ( Rˆ ) . . i 1

X2 n N 1

Ejemplo 5.1
Un censo realizado en una cooperativa de trabajadores arrojó los siguientes parámetros respecto de las variables Y : Gasto en
alimentos semanalmente por el cooperado (dólares) y X : Número de personas de la unidad familiar de cooperado que
generan dicho gasto.

318
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Gasto promedio semanal por familia en alimentos:

7401
Y 37,005
200
Número promedio de personas que componen la unidad familiar de cooperado:

544
X 2.72
200
Gasto promedio semanal en alimentos por persona en unidad familiar de cooperado:

Y 37.005
R 13,6048
X 2.72
¿Cuál será la varianza del estimador de la razón R para las 200 unidades familiar analizadas si se utiliza una muestra de
tamaño n 60 familias de igual número de cooperados?

Solución//

Como se tiene la información censal de la población analizada, de ella:


200
( yi R.xi ) 2
i 1
1816 .819977
199

Y aplicando la expresión de la varianza del estimador de R dada en la propiedad 5.3:

1 1 60
V ( Rˆ ) ECM ( Rˆ ) 2
. .1 .(1816.819977) 2,865
(2.72) 60 200

Propiedad 5.3: Estimador de la varianza del estimador de razón

El estimador de la varianza del estimador de razón V (Rˆ ) , viene dado por:

n
( yi Rˆ .xi ) 2
1 (1 f )
Vˆ ( Rˆ ) v( Rˆ ) Eˆ CM ( Rˆ ) . . i 1
(5.4)
X2 n n 1

n n n
yi2 2 Rˆ . yi xi Rˆ 2 . xi2
(1 f )
Vˆ ( Rˆ ) v( Rˆ ) i 1 i 1 i 1
(5.5)
n. X 2 n 1

319
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Nota
N n
( yi R.xi ) 2 ( yi Rˆ .x i ) 2
i 1 i 1
Aquí el estimador de , es:
N 1 n 1
Si no se conoce el parámetro X , se usa su estimador x

Ejemplo 5.2
Si en el ejemplo 5.1, una muestra de tamaño n 60 ha dado como resultado la siguiente información:
60 60 60 60 60
yi 2672 .5 ; y i2 143641 .75 ; xi 166 ; x i2 606 ; y i .x i 7879
i 1 i 1 i 1 i 1 i 1

Encuentre el gasto semanal promedio por persona estimado y su correspondiente estimación de la varianza:

Solución//

Yˆ 44.5417
Rˆ 16.08 ;
Xˆ 2.77
n n n
y i2 2 Rˆ . y i xi Rˆ 2 . xi2
(1 f) 60 1 1
Vˆ ( Rˆ ) i 1 i 1 i 1
1 . . .(796,897) 1.21
n. Xˆ 2 n 1 200 60 (2.77) 2

Propiedad 5.4: Expresión exacta para el sesgo del estimador de razón

El estimador de razón es un estimador sesgado y la expresión exacta de su sesgo se debe a Hartley y Ross (1954),
expresándose de la siguiente manera. (Corhan, 1980).

Cov ( Rˆ , x )
B ( Rˆ ) (5.6)
X

Con base en la covarianza de las variables aleatorias Rˆ r y Xˆ x , al tomar todos sus valores en todas las posibles
muestras de tamaño n de una población N , utilizando MAS:

y
Cov( Rˆ , x ) E ( Rˆ .x ) E ( Rˆ ).E ( x ) E .x X .E ( Rˆ ) Y X .E ( Rˆ )
x

Pero:

Y
R
X

320
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Luego:

Cov ( Rˆ , x ) Y X .E ( Rˆ ) R. X X .E ( Rˆ ) X. R E ( Rˆ ) X E ( Rˆ ) R X .B ( Rˆ )

Y finalmente:

Cov ( Rˆ , x )
B ( Rˆ )
X
Propiedad 5.5: Expresión aproximada del sesgo para el estimador de razón

La expresión aproximada del sesgo para el estimador de razón viene dada por:

(1 f) 1
B( Rˆ ) . 2 . R.S x2 S xy
n X
Considerando nuevamente la relación:

y y R.x 1
Rˆ R R (y R.x ) (1)
x x x

En ella se reemplaza la media muestral x del denominador por una expresión equivalente x (X x X ) , de tal forma
que:

1 1 1
x (X x X) x X
X 1
X

Reemplazando esta última expresión en (1):

1 (y R.x ) 1
Rˆ R (y R.x ). . (2)
x X X (x X )
X. 1 1
X X

Nota
x X
Observe que < 1, X 0
X
Si en una serie, r < 1 , entonces:
1 1
( 1) n .r n ( r)n
n 0 n 0 1 ( r) 1 r

Asumiendo:

321
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

x X
r
X
Y aplicando la nota:
n 2 3
1 1 x X x X x X x X
1. 1 ...
1 r x X n 0 X X X X
1
X

Reemplazando ésta última expresión en la igualdad (2):

2
y R.x x X x X
Rˆ R . 1 .......
X X X

Efectuando el producto y despreciando los sumandos en donde el exponente de la media poblacional sea mayor que 2, se
obtiene:

y R.x y R.x x X y R.x (y R.x ).( x X)


Rˆ R .
X X X X X2

Sacando valor esperado a ambos lados:

y R.x (y R.x ).( x X)


E ( Rˆ R) E ( Rˆ ) R Sesgo( Rˆ ) B ( Rˆ ) E E
X X2
(3)
1 1
.E ( y R.x ) .E ( y R.x ).( x X)
X X2

Nota

E ( y R.x ) E ( y ) R.E ( x ) Y R. X 0
E ( y R.x ).( x X ) E y.( x X ) R.x.( x X ) E y.( x X ) R.E x .( x X)
E ( x X ) E ( x ) X 0 , Idén E ( y Y ) E ( y ) Y 0
1 f
Cov ( x , y ) .S xy E ( y Y ).( x X ) E y.( x X ) Y .( x X )
n
E y.( x X ) Y .E ( x X ) E y.( x X )
(1 f ) 2
Cov ( x , x ) .S x V ( x ) E ( x X ).( x X )
n
E x .( x X ) X .E ( x X ) E x.( x X )

De los elementos de la nota se puede deducir que:

322
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

(1 f) (1 f)
E (y R.x ).( x X) E y.( x X) R.E x.( x X) .S xy R. .S x2
n n

Reemplazando las notas en la expresión (3), se tiene para la expresión del sesgo de R̂ que:

1 1 1 (1 f ) (1 f)
B( Rˆ ) E ( y R.x ) 2
.E ( y R.x ).( x X ) 2
. .S xy R. .S x2
X X X n n
1 (1 f ) 1 (1 f )
2
. . R.S x2 S xy 2
. R.S x2 xy .S x .S y
X n X n

Observando la expresión anterior para el sesgo del estimador de razón, se puede notar fácilmente que B (Rˆ ) , se reduce en las
siguientes circunstancias:

El tamaño de muestra aumente o lo que es lo mismo la fracción de muestreo f n


N sea grande.
La media poblacional para la variable X sea grande.
CV ( x)
El coeficiente de correlación xy éste cercano a +1, o lo que es lo mismo el cociente 1 , lo cual se
CV ( y )
2
desprende del hecho de que si R.S x xy .S x .S y , para que el sesgo sea pequeño, entonces:

Sx CV ( x)
xy R. .
Sy CV ( y )

S x2 , sea pequeña para que también V (x ) lo sea.


R.S x2 sea aproximadamente igual a la cuasicovarianza S xy .

Propiedad 5.6: Estimador con base en la expresión aproximada para el sesgo del estimador de razón

Un estimador de la expresión anterior del sesgo viene dado por:


n n
( xi x)2 ( xi x ).( y i y)
1 (1 f ) ˆ ˆ 2
Bˆ ( Rˆ ) . . R.S x Sˆ xy , Sˆ x2 i 1
, Sˆ xy i 1

X2 n n 1 n 1

Propiedad 5.7: Expresión alterna para la varianza del estimador de razón

Para el estimador de razón, la varianza puede expresarse por:

(1 f )
V ( Rˆ ) 2
. S y2 2.R. xy .S x .S y R 2 .S x2
n. X
(5.7)
(1 f ) 2 2 2
.R . CV ( y ) 2. xy . CV ( x).CV ( y ) CV ( x)
n

323
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Partiendo de:

N N
( yi R.xi ) 2 ( yi Y Y R.xi )
(1 f ) (1 f )
V ( Rˆ ) . i 1
. i 1

n. X 2 N 1 n. X 2 N 1

N
(1 f ) 2
( yi Y ) ( R.xi Y)
n. X 2 ( N 1) i 1

Y reemplazando:

Y R. X

N
(1 f ) 2
V ( Rˆ ) ( yi Y ) ( R.xi R. X )
n. X 2 ( N 1) i 1

N
(1 f )
V ( Rˆ )
2
( yi Y ) R.( xi X)
n. X 2 .( N 1) i 1
N N N
( yi Y ) 2 ( yi Y ).( xi X) ( xi X )2
(1 f ) i 1
2.R. i 1
R2. i 1

n. X 2 N 1 N 1 N 1

(1 f ) 2
Sy 2.R.Cov( x, y ) R 2 .S x2
n. X 2
Pero:
N N
( xi X ).( y i Y) ( xi X ).( y i Y)
Cov( x, y ) i 1 i 1
xy Cov( x, y ) xy .S x .S y
S x .S y ( N 1).S x .S y N 1

Y reemplazando:

324
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

(1 f ) 2
V ( Rˆ ) 2
S y 2.R.Cov ( x, y ) R 2 .S x2
n. X
(1 f ) 2
S y 2.R. xy .S x .S y R 2 .S x2
n. X 2

2
(1 f ) Y2 Y Y Y
V ( Rˆ ) .S y2 2. . xy .S x .S y .S x2
n. X 2 Y 2
X Y X
1 R 1 R2

Mirando esta expresión rápidamente, se puede observar que la varianza de R̂ se reduce cuando:

El tamaño de la muestra es grande o lo que es lo mismo, la fracción de muestreo f n


N es igualmente grande.
Las desviaciones de los puntos con respecto a la recta y R.x , son pequeñas, o sea e i yi y i* 0, i ; donde
*
yi es el valor observado y y el valor dado por el modelo para la unidad i-ésima correspondiente.
i

El coeficiente de correlación xy , es cercano a +1.


X , es grande.
2 2
(1 f ).Y 2 Sy S Sy S
V ( Rˆ ) 2. xy . x . . x
n. X 2 Y X Y X

(1 f ). 2
V ( Rˆ )
2 2
R CV ( y ) 2. xy . CV ( x) . CV ( y ) . CV ( x)
n.
Donde CV (x ) y CV ( y ) son respectivamente los coeficientes de variación para las variables X e Y .

Ejemplo 5.3
Utilizando la información del ejemplo 5.1, encuentre la varianza del estimador de razón mediante la expresión dada en la
propiedad 5.7.

Solución//
200 200 200 200 200
yi 7401 ; y i2 359126 .5 ; xi 544 ; x i2 3249 ; y i .xi 22012
i 1 i 1 i 1 i 1 i 1

De donde:

S y2 428.4045 ; S x2 8.89105 ; R 13.6048 ; xy 0.153178

Y remplazando:

325
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

(1 f ) 0 .7
V ( Rˆ ) 2
. S y2 2 . R. xy .S x .S y R 2 .S x2 .(1816 ,8192 ) 2.8649
n. X 443,904

Note que la correlación entre las variables X e Y es muy deficiente pero en este caso se desea la razón Y sobre X. Este
hecho sería fatal si el objetivo fuera estimar la media de Y con base en la razón, al utilizar como variable auxiliar el total de
personas. Hay que tener presente que al utilizar estimadores indirectos tipo razón debe existir una correlación alta entre la
variable investigada y la variable auxiliar como se verá más adelante.

5.5 CONDICIONES BAJO LAS CUALES EL ESTIMADOR DE RAZÓN PUEDE CONSIDERARSE INSESGADO

Se sabe que:

y E( y) Y
E ( Rˆ ) E R
x E(x) X

Luego R̂ , es un estimador sesgado.

Primera condición
Considere la covarianza de las variables R̂ y x :

y
Cov ( Rˆ , x ) E ( Rˆ .x ) E ( Rˆ ).E ( x ) E .x E ( Rˆ ). X Y E ( Rˆ ). X
x

Pero:

Y
R Y R. X
X
Que al reemplazarla en la expresión anterior da:

Cov ( Rˆ , x ) Y E ( Rˆ ). X R. X E ( Rˆ ). X X .( R E ( Rˆ ))

Pero:

Sesgo de Rˆ B ( Rˆ ) E ( Rˆ ) R,

Luego:

Cov ( Rˆ , x )
Cov ( Rˆ , x ) X .( E ( Rˆ ) R) X .B ( Rˆ ) B ( Rˆ )
X
Por otro lado, se tiene que:

326
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Cov ( Rˆ , x )
Rˆ , x
Cov ( Rˆ , x ) Rˆ , x
. Rˆ
. x

. x

Reemplazando se tiene:

Rˆ , x
.( Rˆ
. ) Rˆ , x
. Rˆ
.
B( Rˆ )
x x x
Rˆ , x
. Rˆ
. Rˆ , x
. Rˆ
.CV ( x )
X E( x) E(x)

B( Rˆ )
Rˆ , x
.CV ( x ) ,

Y sacando valor absoluto:

B( Rˆ )
Rˆ , x
.CV ( x ) < CV ( x )

Recuerde que:

1< Rˆ , x
< 1 . Por otro lado B ( Rˆ ) 0 , cuando Rˆ , x
0

Lo cual implica que las variables R̂ y x son variables incorrelacionadas.

Nota
En la práctica se dice que el sesgo de un estimador ˆ es despreciable cuando:

B ( ˆ) 1
<
ˆ 10
De acuerdo con la nota anterior, se desea que:

B( Rˆ ) 1
< CV ( x ) <

10

Lo anterior deja en claro que el sesgo para el estimador de razón se hace insignificante cuando el coeficiente de variación de
la media muestral para la variable auxiliar X es menor que 1/10. Recuerde que las variables X e Y , deben estar
altamente correlacionadas.

Ejemplo 5.4
¿Qué tamaño de muestra será necesario para que en la estimación de la razón R̂ se pueda considerar el sesgo de dicho
estimador despreciable?

Se necesita que:

327
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

(1 f)
.S x2
V (x) n 1
CV ( x ) <
E(x) X 10

Y considerando la primera aproximación ( N muy grande):

S x2
.
n0 1 1 Sx 1 1 1 2 1
< . .CV ( x) < . CV ( x) <
X 10 n0 X n0 10 n0 100

Y finalmente:

2
n0 100. CV ( x)

n0
n
n0
1
N
Ejemplo 5.5
Se ha tomado una muestra de 20 plántulas de cierta variedad de nango en una plantación experimental con el objeto de
estimar el cambio relativo R en el grosor del tallo después de 6 meses de crecimiento. La variable auxiliar X corresponde al
grosor del tallo en un tiempo t 0 (primera medición). La muestra piloto arrojó los siguientes resultados:
20 20 20 20 20
y i 164 .7 ; y i2 1373 .71 ; x i 154 .5 ; xi2 1210 .55 ; y i .xi 1288 .95
i 1 i 1 i 1 i 1 i 1

a) Basándose en la muestra ¿De cuánto ha sido el incremento promedio de los diámetros de las plántulas 6 meses después
del tiempo t 0 ?
b) ¿Qué valor aproximado del sesgo se puede obtener con dicha muestra? Suponga que la plantación tiene 400 plántulas de
la variedad de mango estudiada.

Solución//

a) Encontrando la razón entre las variables X : medición de los diámetros en el tiempo t0 y la variable Y : medición actual
de los diámetros (6 meses después de t 0 ).

Yˆ 164.7
Rˆ 1.066
Xˆ 154.51

Lo que muestra que el incremento promedio 6 meses después de t 0 es del 6.6%.

b) Apoyándose en la expresión dada en la propiedad 5.6.

328
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

1 20 1
Sˆ * Rˆ .Sˆ x2 Sˆ xy 0.07988 ; Bˆ ( Rˆ )
5
.1 . 2
.(0.07988) 6.35 x10
20 400 154.5
20
Segunda condición.

La relación de la variable analizada Y con la variable auxiliar X para la unidad i-ésima poblacional es y i K .xi .

Bajo esta premisa se tiene que:


N N n n
yi K. xi yi K. xi
Y Yˆ
R i 1 i 1
K y Rˆ i 1 i 1
K.

N N n n
X
xi xi xi xi
i 1 i 1 i 1 i 1

Luego:

R Rˆ B ( Rˆ ) E ( Rˆ R) 0 , y R̂

Será insesgado.

5.6 CUANDO USAR ESTIMADORES DE RAZÓN

Se estudian a continuación algunas ideas bajo las cuales el estimador de razón puede considerarse una buena alternativa. Ellas
darán idea para un manejo correcto de dichos estimadores.

La relación entre la variable investigada Y y la variable auxiliar X , es lineal pasando por el origen.

yi R.xi , i E ( Rˆ ) R

La varianza de Y es proporcional a X . Ver figura 5.3.

Figura 5.3. Varianza de Y es proporcional al valor e X.

329
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Cuando no se puede visualizar previamente mediante gráfica la relación entre las variables X e Y , se calcula el
coeficiente de correlación xy , y si xy 0.5 , entonces los estimadores basados en la razón serán más precisos que
los estimadores de expansión.

Se puede conocer el máximo sesgo en que se incurrirá al usar R̂ .

Con base en una expresión anterior:

B( Rˆ ) V (x) .
B( Rˆ ) < Rˆ x
< CV ( x ) x
,

E(x) X X

Aquí, X es la variable auxiliar, de la cual usualmente se tiene suficiente información. R̂


y x se estiman para n
unidades poblacionales, al medir en ellas las variables X e Y.

Si el tamaño de la muestra n es: n 30 y si CV ( x ) < 0.10 , el sesgo de R̂ es despreciable.

El costo adicional de tomar una variable auxiliar X , debe considerarse para justificar el incremento en precisión del
estimador de razón. Este análisis, llevará a la posibilidad de tomar o no una muestra grande para disminuir el sesgo.

Hay situaciones en las cuales xy es muy grande y sin embargo las estimaciones de razón no funcionan bien, como lo
muestra la figura 5.4.

y A B.x

Figura 5.4. Comportamiento de X e Y en donde no es bueno el estimador de razón.

En una situación como esta, no hay proporcionalidad entre X e Y , presentándose evidencia para utilizar mejor un
estimador de regresión el lugar de uno de razón.

Ejemplo 5.6
Considerando el censo referido en el ejemplo 5.1, vea el comportamiento de la varianza estimada y del sesgo estimado para el
estimador de razón R , a medida que se agregan unidades a la muestra (aumentando de tamaño).

330
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

n R̂ Vˆ ( Rˆ ) Bˆ ( Rˆ )
60 16.08 1.21 0.04849
100 13.78 0.419 0.01549
120 13.54 0.325 0.01450
140 13.25 0.186 0.00830

Tanto la varianza como el sesgo disminuyen, lo cual era de esperarse ya que la muestra se hace cada vez mayor. En todos los
casos analizados se cumple que:

Bˆ ( Rˆ )
< 0.1
ˆ
V ( R)ˆ

5.7 ESTIMADORES PARA EL TOTAL Y LA MEDIA POBLACIONALES BASADOS EN EL ESTIMADOR DE


RAZÓN.

A continuación se definen los estimadores para el total y la media poblacionales para una variable Y , basados en el estimador
de razón y sus propiedades.

5.7.1 El total poblacional y su estimador para la variable Y usando estimadores de razón en el MAS.

PARÁMETRO ESTIMADOR

(5.8)
N
y
Y yi Yˆ Rˆ . X .X
i 1 x

Nota

En este contexto X , es el total de la variable auxiliar X , la cual está altamente correlacionada con la variable analizada Y .
Note que el estimador se deduce de la relación exacta: Y = R.X.

5.7.2 La media poblacional y su estimador para la variable Y, usando estimadores de razón en el MAS.

PARÁMETRO ESTIMADOR

N
yi y (5.9)
i 1 Yˆ Rˆ . X .X
Y x
N

331
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
Nota

En este contexto X es la media poblacional de la variable auxiliar X , la cual está altamente correlacionada con la variable
analizada Y . Note que el estimador se deduce de la relación exacta Y R. X .
5.7.3 Propiedades relacionadas con el estimador de la media y del total poblacionales para la variable Y, usando
estimadores de razón.

A continuación se analizan las propiedades básicas relacionadas con el estimador de la media y el total usando estimadores de
razón.

Propiedad 5.8: Expresión para la varianza del estimador de la media y el total cuando se usan estimadores de razón

En el MAS, al usar una muestra n grande, la varianza del estimador del total y la media poblacionales para la variable Y al
usar estimadores de razón, vienen dadas respectivamente por:

N N

2
( yi R.xi ) 2 ( yi R.xi ) 2
N .(1 f) (1 f)
V (YˆR ) . i 1
, V (YR ) . i 1
(5.10)
n N 1 n N 1

En apartes anteriores se vio que para la razón la varianza viene aproximadamente para muestras grandes expresada por:

N
( yi R.xi ) 2
(1 f )
V ( Rˆ ) . i 1

n. X 2 N 1

Con base en ella y aplicando las propiedades de la varianza para los estimadores del total y la media, se tiene.

N
( yi R.xi ) 2
N 2 .(1 f )
YˆR X .Rˆ V (YˆR ) X 2 .V ( Rˆ ) N 2 . X 2 .V ( Rˆ ) . i 1

n. N 1

N
( yi R.xi ) 2
(1 f)
YˆR X .Rˆ V (YˆR ) X 2 .V ( Rˆ ) . X 2 .V ( Rˆ ) . i 1

n. N 1

Propiedad 5.9: Estimadores para la varianza del estimador del total y la media cuando se usan estimadores de razón
 

Los estimadores de las varianzas para el total y la media poblacionales por el método de razón, vienen dados por:

332
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

n
( yi Rˆ .xi ) 2
(1 f )
Vˆ (YˆR ) v (YˆR ) X 2 .Vˆ ( Rˆ ) N 2 . X 2 .Vˆ ( Rˆ ) , Vˆ ( Rˆ ) v ( Rˆ ) . i 1

n. X 2 n 1

Vˆ (YˆR ) v (YˆR ) X 2 .Vˆ ( Rˆ ) X 2 .Vˆ ( Rˆ )

Propiedad 5.10 (Forma alterna de presentación de la varianza)

En el MAS, al usar una muestra n grande, la varianza del estimador del total y la media poblacionales para la variable Y ,
vienen dadas respectivamente por:

N 2 .(1 f ) 2
V (YˆR ) ECM (YˆR ) . S y 2 R. xy .S x .S y R 2 .S x2
n
(5.11)
N 2 (1 f ) 2 2 2
.Y . CV ( y ) 2. xy . CV ( x).CV ( y ) CV ( x)
n
.(1 f)
V (YˆR ) ECM (YˆR ) . S y2 2 R. xy .S x .S y R 2 .S x2
n
(1 f) 2 2
.Y 2 . CV ( y ) 2. xy . CV ( x).CV ( y ) CV ( x)
n

Para llegar a las expresiones anteriores, basta aplicar las propiedades de la varianza a los estimadores YˆR X .Rˆ y
YˆR X .Rˆ y reemplazarlas en las expresiones de la varianza de la razón dadas a continuación y vistas anteriormente.

(1 f )
V ( Rˆ ) . S y2 2.R. xy .S x .S y R 2 .S x2
n. X 2

(1 f)
V ( Rˆ )
2 2
.R 2 . CV ( y ) 2. xy . CV ( x).CV ( y ) CV ( x)
n
Propiedad 5.11: Expresiones para el estimador de la varianza de estimador del total y la media usando estimadores de
razón

Basándonos en la propiedad anterior se puede escribir un estimador de la varianza para el estimador del total y la media
poblacionales de la siguiente manera:

N 2 .(1 f ) ˆ 2
Vˆ (YˆR ) . Sy 2 Rˆ . ˆ xy .Sˆ x .Sˆ y Rˆ 2 .Sˆ x2 (5.12)
n

333
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

(1 f ) ˆ 2
Vˆ (YˆR ) . Sy 2 Rˆ . ˆ xy .Sˆ x .Sˆ y Rˆ 2 .Sˆ x2 (5.13)
n
Ejemplo 5.7
En un departamento de vocación ganadera integrado por 280 fincas se realizó un censo en el año 2005 para determinar la
cantidad, las razas y el estado de salud y mantenimiento de los vacunos. En esta oportunidad se encontró que el total de
cabezas de ganado en el departamento era de 60000.

Finalizando el 2008 se deseaba saber con cuantas cabezas de ganado contaba la región y para ello se determino una muestra
de 40 fincas en las cuales se procedió a determinar el número de cabezas de ganado en el 2008 y a relacionar este valor con
su correspondiente valor dado por el censo del 2005.

El resultado fue el siguiente:

Año 2005 (X) Año 2008 (Y) Año 2005 (X) Año 2008 (Y)
2
xi 8049 yi 17748 x
i 1643645 yi2 8819588 xi . yi 3648108

El promedio de cabezas de ganado por finca para el 2008 fue de: Yˆ Rˆ . X 472 .50 .

La varianza estimada para el promedio de cabezas de ganado para el 2008 fue: Vˆ (Y )


ˆ 397 .18 .

Un intervalo de confianza para Y es: Y 472.5 39.06 (433.44; 511.56) .


95%

El Total de cabezas de ganado para el 2008 fue de: Yˆ 132300 .

Un intervalo de confianza para Y es: Y (121363.2; 143236.8) .


95%

Propiedad 5.12: ¿cuándo el estimador del total puede ser insesgado?


 
Si se toma una muestra n grande, utilizando un MAS, se puede admitir el insesgamiento de los estimadores YˆR X .Rˆ y
YˆR X .Rˆ .

Como se mostró en una propiedad anterior, para el estimador de razón si la muestra es suficientemente grande, se puede
aceptar que E ( Rˆ ) R , por lo tanto:
Y
E (YˆR ) E ( Rˆ . X ) X .E ( Rˆ ) X .R X. Y E (YˆR ) Y
X
Y en forma análoga se puede admitir que:

E (YˆR ) Y

334
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Propiedad 5.13: Coeficiente de variación para el estimador de razón

Con base en las propiedades 5.10 y 5.12 anteriores, se puede admitir que en muestras grandes los estimadores: R̂ , YˆR , y

YˆR , tienen el mismo coeficiente de variación el cual será aproximadamente:

(1 f)
CV ( Rˆ ) CV (YˆR )
2 2
CV (YR ) CV ( y ) 2 xy . CV ( y ) . CV ( x) CV ( x) (5.14)
n

Para ver en detalle el resultado anterior se tiene:

(1 f) 2 2
R2. . CV ( y ) 2. . CV ( x) . CV ( y ) CV ( x)
2 V ( Rˆ ) n
xy
CV ( Rˆ ) 2
E ( Rˆ ) R2

2 V ( Rˆ ) (1 f)
CV ( Rˆ )
2 2
2
CV ( y ) 2. xy . CV ( x) . CV ( y ) CV ( x)
E ( Rˆ ) n
De donde:

(1 f)
CV ( Rˆ )
2 2
CV ( y ) 2. xy . CV ( x) . CV ( y ) CV ( x) (1)
n

Ahora, con base en las propiedades de la varianza y el valor esperado de una variable aleatoria:

V (YˆR ) X 2 .V ( Rˆ ) 2
CV (YˆR )
2 2 2
CV (YˆR ) 2 2
CV ( Rˆ ) ,y CV ( Rˆ ) (2)
E (Yˆ ) R X 2 . E ( Rˆ )

De (1) y (2), finalmente, se tiene:

CV ( Rˆ ) CV (YˆR ) CV (YR )

(1 f) 2 2
CV ( y ) 2. xy . CV ( x) . CV ( y ) CV ( x)
n

Propiedad 5.14: Expresiones aproximadas para el sesgo del estimador de la media y el total

De acuerdo con la expresión aproximada para el sesgo del estimador de razón vista anteriormente, se tienen expresiones
aproximadas para el sesgo de los estimadores de total y la media poblacionales para la característica Y .
Y
Aplicando la definición del sesgo de un estimador y teniendo en cuenta que R , entonces:
X

335
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
B (YˆR ) E (YˆR ) Y E Rˆ . X R. X X . E ( Rˆ ) R X .B ( Rˆ ) (5.15)

Pero anteriormente se vio que:


(1 f )
B( Rˆ ) 2
. R.S x2 S xy
n. X
Y por lo tanto:
(1 f )
B(YˆR ) X .B( Rˆ ) . R.S x2 S xy
n. X
Análogamente, para el sesgo del estimador del total poblacional:

N .(1 f )
B(YˆR ) X .B( Rˆ ) . R.S x2 S xy (5.16)
n. X

Propiedad 5.15: Expresión para estimar el sesgo del estimador del total por el método de razón

Las expresiones para la estimación del sesgo en los estimadores del total y la media poblacionales con base en las
expresiones aproximadas para los sesgos de dichos estimadores dadas en la propiedad anterior, son:

(1 f ) ˆ ˆ 2
Bˆ (YˆR ) X .Bˆ ( Rˆ ), Bˆ (YˆR ) X .Bˆ ( Rˆ ) , donde: Bˆ ( Rˆ ) . R.S x Sˆ xy (5.17)
n. X 2

Ejemplo 5.9
Para la información del ejemplo 5.7 halle una estimación del sesgo del promedio de cabezas de ganado por finca para el año
2008.

Solución//

(1 f ) ˆ ˆ 2 60000
Bˆ ( Rˆ ) . R.S x Sˆ xy 0.000324 ; Bˆ (YˆR ) X .Bˆ ( Rˆ ) .( 0.000324 ) 0.069
n. X 2 280

Propiedad 5.16: ¿Cuándo el estimador del total por el método de razón es mejor que el estimador del total por
expansión?

1 CV ( x)
En muestras grandes se cumple que V (YˆR ) < V (Yˆ ) , cuando xy . Aquí, Yˆ N . y , es el estimador en el
2 CV ( y )
MAS para el total de la variable Y . (Estimador de expansión).

Se sabe que:
N 2 .(1 f ) 2
V (Yˆ ) V ( N . y ) 2
N .V ( y ) .S y
n

336
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
N 2 (1 f ) 2
V (YˆR ) .( S y 2.R. xy .S x .S y R 2 .S x2 )
n
¿Cuándo?

V (YˆR ) < V (Yˆ )

Reemplazando en esta desigualdad las respectivas varianzas.

N 2 .(1 f) N 2 .(1 f)
.( S y2 2 . R. xy .S x .S y R 2 .S x2 ) < .S y2
n n

2.R. xy .S x .S y R 2 .S x2 < 0 R.S x < 2. xy .S y

Y despejando el coeficiente de correlación, entonces:

1 Sx 1 Sx Y 1 Sx 1 1 1 Sx 1 1 CV ( x)
xy . .R . . . . . . . .
2 Sy 2 Sy X 2 X Sy 1 2 X Sy 2 CV ( y )
Y Y
Luego:

1 CV ( x )
xy .
2 CV ( y )

Ejemplo 5.10 (Simulando en población pequeña con X e Y altamente correlacionadas)

Suponga que se tiene una población de tamaño N 4, U 1 , U 2 , U 3 , U 4 , para la cual se tiene la siguiente
información en las variables X , e Y .

Unidad U1 U2 U3 U4 Total
xi 2 3 4 5 14
yi 6 9 11 14 40

a) Indicadores poblacionales:
7
La media poblacional para la variable X : X .
2
La media poblacional para la variable Y:Y 10 .
20
La razón poblacional de la variable Y sobre la variable X : R .
7

337
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
2 5
La cuasivarianza poblacional para la variable X : S x .
3
34
La cuasivarianza para la variable Y : S y2 .
3
La cuasicovarianza poblacional para las variables X e Y :
13
S xy Cov( x, y )
3
El coeficiente de correlación para las variable X e Y :

Cov( x, y ) 13
xy 0.99705
S x .S y 170

b) Generado todas las posibles muestras de tamaño n 2 se tiene la siguiente tabla:

N 4
Número de muestras = 6.
n 2

Muestra X x Yˆ y R̂ YˆR Rˆ . X
(2, 6); (3, 9) 5/2 15/2 3 1512/144=10.5
(2, 6); (4, 11) 3 17/2 17/6 1428/144=9.917
(2, 6); (5, 14) 7/2 10 20/7 1440/144=10
(3, 9); (4, 11) 7/2 10 20/7 1440/144=10
(3, 9); (5,11) 4 23/2 23/8 1449/144=10.06
(4,11); (4,14) 9/2 25/2 25/9 1400/144=9.72

c) De acuerdo con la tabla anterior:

ˆ
Para el estimador Y :

El valor esperado:
6

E (Yˆ ) i 1
10 Y,
6
Mostrando el insesgamiento de Y .
ˆ

La varianza de Y :
ˆ

6
(Yˆi 10) 2
17
V (Yˆ ) i 1
2.833
6 6

ˆ
Para el estimador Y R :

338
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

El valor esperado de Y R :
ˆ
6
YˆR
8669
E (YˆR ) i 1
10.028 10
6 864
ˆ
Mostrando que Y R , es un estimador sesgado.

ˆ
La varianza de Y R .

6
8669 2
(YˆRi )
864 41213
V (YˆR ) i 1
0.05521 < V (Yˆ )
6 746496
ˆ
El estimador Y R , es más preciso que el estimador Y .
ˆ

El Error Cuadrático Medio de Y R :


ˆ
6
(YˆRi 10) 2
7009
ECM (YˆR ) i 1
0.05633 .
6 124416

ˆ
El Sesgo de Y R :
29
B(YR ) E (YˆR ) Y 0.0335648
864
d) Se muestra el cumplimiento de la siguiente igualdad:

2
2 7009 41213 29
ECM (YˆR ) V (YˆR ) B(YˆR )
124416 746496 864
c)
ˆ
Calcule para el estimador: Y R , el valor aproximado de su sesgo

2
1
(1 f) 1 4 1 20 5 13 36
B(YˆR ) . R.S x2 S xy . . . 0.03061
n X 2 7 7 3 3 1176
2
d) Estime el Sesgo, la varianza y el ECM para la muestrea: (2, 6); (4, 11).

2
1
(1 f) 1 4 1 17 16
Bˆ (YˆR ) . Rˆ .Sˆ x2 Sˆ xy . . .2 5 0.047619
n X 2 7 6 336
2

339
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

n
2 2
( yi Rˆ .xi ) 2 1
17 (1 f) 4 9 1
Rˆ , Vˆ (YˆR ) . i 1
. 0.05555
6 n n 1 2 1 18
2
Eˆ CM (YˆR ) Vˆ (YˆR ) Bˆ (YˆR ) 0.05555 (0.047619) 2 0.578176

5.8 TAMAÑO DE MUESTRA PARA LOS ESTIMADIORES BASADOS EN LA RAZÓN R Y


X
En apartes anteriores se vio que para muestras grandes la varianza del estimador de razón R̂ , puede aproximarse mediante
las expresiones siguientes:

N
( yi R.xi ) 2
(1 f ) (1 f ) 2
V ( Rˆ ) . i 1
Sy 2 R. xy .S x .S y R 2 .S x2
n. X 2 N 1 n. X 2

Para facilitar la obtención de las expresiones del tamaño de muestra se realiza el siguiente reemplazo:

N
( yi R.xi ) 2
i 1
S y2 2 R. xy .S x .S y R 2 .S x2 S *2
N 1

Bajo el acuerdo anterior entonces:


(1 f ) 2
V ( Rˆ ) .S *
n. X 2
Y de esta expresión se despeja n , para obtener:

(1 f ) 2 S *2 S *2 N .S *2
V ( Rˆ ) .S * , n (5.18)
n. X 2 n. X 2 N .X 2 N . X 2 .V ( Rˆ ) S *2

Y al dividir esta última expresión por N X 2 .V ( Rˆ ) , se obtiene:

S *2
X 2 .V ( Rˆ ) n0
n (3)
1 S 2 n0
1 * 1
N X .V ( Rˆ )
2 N

340
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
En la expresión anterior se debe tener presente lo siguiente:

n 0 , es la primera aproximación al considerar la población muy grande.


2
La cantidad S* ,debe ser estimada en forma adelantada, en donde una de las formas puede ser a través de una muestra
piloto de tamaño n* , de tal manera que:
n*
( yi Rˆ * .xi ) 2
Sˆ*2 i 1
Sˆ y2* 2.Rˆ * . ˆ xy* .Sˆ x* .Sˆ y* Rˆ *2 .Sˆ x2*
n* 1

Si no se conoce X , se utiliza su estimador.


2

La expresión V ( Rˆ ) R
, es la varianza deseada, que como se sabe, es igual al cuadrado del cociente entre el
Z
2
error absoluto de muestreo máximo admitido para la estimación de la razón R y el nivel de confianza bajo el supuesto de
normalidad.

Nota

Para la estimación de Y y Y (media y total respectivamente) se cambia en la expresión (5.18) del tamaño de muestra para la
razón, V (Rˆ ) por:

1
V ( Rˆ ) 2
.V (YˆR ); V (YˆR ) Y

X Z
2

Al estimar, la media poblacional y

1
V ( Rˆ ) .V (YˆR ); V (YˆR ) Y

X2 Z
2

Al estimar el total poblacional.

Se puede encontrar el tamaño de muestra para estimar la razón cuando se quiere satisfacer un coeficiente de variación para
este estimador.

En apartes anteriores se vio que para muestras grandes la varianza del estimador de razón puede expresarse por:

(1 f)
V ( Rˆ )
2 2
.R 2 . CV ( y ) 2 xy CV ( x).CV ( y ) CV ( x)
n

341
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
Y por lo tanto para el cuadrado del coeficiente de variación de R̂ , se tiene:

2
2 V ( Rˆ ) (1 f)
CV ( Rˆ )
2 2
. CV ( y ) 2 CV ( x).CV ( y ) CV ( x)
E ( Rˆ )
xy
n

Para facilitar el cálculo de la expresión para n , se realiza el siguiente reemplazo:

2 2
CV* CV ( y ) 2 xy CV ( x ).CV ( y ) CV ( x )

Y bajo éste, se puede escribir entonces:

2 (1 f)
CV ( Rˆ ) C0 .CV*
n
Y despejando n en ésta última expresión:

n N N .CV*
; n
CV* N .C 0 CV* N .C 0 CV*

Y finalmente dividiendo por N .C 0 :

CV*
C0 n0
n (5,19)
1 CV* n
1 . 1 0
N C0 N

En la expresión anterior, debe tenerse presente que:

2
CV ( Rˆ ) C 0 , esto es C0 , es el cuadrado del coeficiente de variación de R̂ , deseado.
CV* , debe estimarse en forma adelantada mediante una muestra piloto, de tal manera que:

2 2
Cˆ V* Cˆ V ( y) 2 ˆ xy Cˆ V ( x).Cˆ V ( y) Cˆ V ( x)

342
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
Nota
Si se quiere hallar el n para la estimación de Y y Y (media y total respectivamente), cuando se da el coeficiente de
variación deseado para el estimador, se debe recordar que para muestras grandes:

CV ( Rˆ ) CV (YˆR ) CV (YˆR ) .

Ejemplo 5.11

Se desea realizar una encuesta sobre ingresos y gastos para una determinada comuna. En este orden de ideas se desea estimar
la relación del dinero gastado en alimentos con el ingreso por año para las familias de dicha comunidad. Una muestra piloto
de 40 familias fue seleccionada de entre 500 que posee la comuna obteniendo la siguiente información:

X : Ingreso anual,
Y : Cantidad de dinero gastado en alimentos.
40
( yi Rˆ .xi ) 2
Sˆ*2 i 1 ˆ
373952 .63 ; X 30378.57
39

Si se desea un error de muestreo igual em( Rˆ ) V ( Rˆ ) 0.00225 , ¿Qué tamaño de muestra será necesario?

Solución//

Despejando n de la expresión V (Rˆ ) dada en la propiedad 5.2, se tiene como primera aproximación:

Sˆ*2 n0
n0 ;n
V ( Rˆ ). X 2 n
1 0
N
Utilizando los datos del estudio piloto:

373952.63 80.04
n0 80.04; n 68.99 69
(0.00225) 2 .(30378.57) 2 80.04
1
500
Ejemplo 5.12
Mediante un estudio sobre nutrición realizado en una granja avícola que tiene una población experimental de 2000 aves, se
pretende conocer la ganancia en peso promedio de las aves después de dos meses de ser nutridas con alimento ACD. Para
ello se tomo una muestra de 30 aves las cuales se pesaron encontrando los siguientes resultados:
Primer pesaje ( X ):

343
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ave X Ave X Ave X


001 1,68 011 2,41 021 2,23
002 2,78 012 1,4 022 1,81
003 2,67 013 1,87 023 3,06
004 3,06 014 2,43 024 2,52
005 2,37 015 2,67 025 2
006 1,21 016 3,06 026 2,37
007 2,13 017 2,46 027 2,2
008 2,82 018 1,74 028 2,45
009 2,18 019 2,17 029 1,44
010 1,44 020 2,28 030 1,6

Segundo pesaje ( Y ):

Ave Y Ave Y Ave Y


001 5,04 011 13 021 6,69
002 9 012 10 022 5,43
003 15 013 10 023 22
004 22 014 7,29 024 7,56
005 7,11 015 15 025 10
006 3,63 016 16 026 9
007 6,39 017 7,38 027 15
008 15 018 12 028 7,35
009 6,54 019 15 029 10
010 12 020 6,84 030 8

¿Qué tamaño de muestra será necesario (cuantas aves) se deben tomar para estimar la razón verdadera entre los pesos antes y
después para la población experimental de aves con un error absoluto de muestreo de 0.044 y un nivel de confianza
del 95%?
El comportamiento para las variables puede verse en la siguiente gráfica para la muestra obtenida:

PESO FINAL DEL AVE VS PESO INICIAL DEL AVE


25
Peso final del ave

20
15
10
5
0
0 0,5 1 1,5 2 2,5 3 3,5
Peso inicial del ave

344
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Solución//

De la información suministrada en las dos tablas se obtuvo la siguiente información:

Variable Promedio Cuasivarianza xy Rˆ y x


X 2,217 0,26523552 0,56273978 4,73988874
Y 10,5083333 21,7859799

De los indicadores de la muestra piloto se obtiene: 

S*2 ( SˆY2 2 Rˆ ˆ XY Sˆ X SˆY Rˆ 2 Sˆ X2 ) 14,9213001

Por lo tanto:

Sˆ*2 14.9213001 41.2692265


n0 41.2692265 n 34.21 35
V ( Rˆ ). Xˆ 2 41.2692265
2
0.044 1
.( 2,217) 2 200
1.96

Ejemplo 5.13
En una región forestal compuesta por 5600 árboles se desea determinar el tamaño de muestra (cuantos árboles) se deben
medir para estimar el volumen total de madera que representa toda la región forestal. Para ello se ha tomado una muestra
piloto de 12 árboles, determinándose en cada uno el volumen de madera ( X ) y el diámetro de la base ( Y ), obteniéndose
los siguientes valores:

Diámetro de la base (m) 0.6 0.5 0.8 0.4 0.8 0.6


Volumen del árbol (m3) 12 9 20 9 18 13
Diámetro de la base (m) 0.3 0.5 0.4 0.9 0.7 0.2
Volumen del árbol (m3) 6 9 7 19 15 5

Se ha establecido para dicho tamaño de muestra un error de absoluto de muestreo igual a 1400 m3 y un nivel de confianza del
95%.

Solución//

De la tabla anterior obtenemos:

( yi y) 2
Sˆ*2 1.75
11

Sˆ*2 Sˆ*2 N 2 .Sˆ*2 (5600) 2 .(1.75)


n0 107.56 n
X 2 .V ( Rˆ ) V (Yˆ )
2 2 2
X 1400
. 2 T
N X 1.96
Z
2

345
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

n0 1400.m 3
Observe que < 5% . El error absoluto de 1400 m3 representa más o menos T 0.02 , el 2% del
N Yˆ* 142
.5600
12
volumen total.

5.9 ESTIMADORES DE RAZÓN EN EL MAE.

Considerando que la población se encuentra dividida en L estratos de tamaños N h , y que se ha realizado un MAS en cada
estrato en forma independiente de tal manera que se ha obtenido para cada estrato el tamaño de muestra n h , según algún
criterio especificado previamente. El estimador de la razón poblacional para el cociente de la variable Y sobre la variable X

Y
R
X

Puede obtenerse de dos formas a saber:

5.9.1 Estimación de razón separada

Funciona obteniendo estimadores de la razón Y sobre X para cada uno de los estratos, para luego formar con estos
estimadores mediante su suma, el estimador global o poblacional para R .

PARÁMETRO ESTIMADOR

N nh (5.20)
yi y hi
Y Y L L L
N h .Yˆh L
Yˆh
R i 1
Rˆ S Wh .Rˆ h Wh . inh1 Wh Wh .
N . Xˆ Xˆ
N
X X
xi h 1 h 1
xhi h 1
h h
h 1 h
i 1 i 1

Note, que si las variables X e Y están fuertemente correlacionadas bajo el mismo modelo en todos los estratos entonces
yhi K .xhi , para todas las unidades poblacionales, luego:

L L L
Rh K, h R Wh Rh Wh .K K. Wh K .1 K
h 1 h 1 h 1

5.9.2 Propiedades del estimador de razón separada

Las principales propiedades del estimador de razón separada son:

346
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Propiedad 4.17: Insesgamiento del estimador de razón separada


Si para cada estrato se toma una muestra suficiente grande de tal manera que E ( Rˆ h ) Rh , entonces:

L L L
E ( Rˆ S ) E Wh .Rˆ h Wh .E ( Rˆ h ) Wh .Rh R
h 1 h 1 h 1

Propiedad 5.18: Varianza del estimador de razón separada


Si se toma un tamaño de muestra n h razonablemente grande en cada estrato, entonces la varianza del estimador de razón
separado viene dada por:

Nh
( y hi Rh .x hi ) 2
L
(1 f h )
ECM ( Rˆ S ) V ( Rˆ S ) Wh2 . i 1
(5.21)
h 1 nh . X h2 Nh 1

L
(1 f h )
ECM ( Rˆ S ) V ( Rˆ S ) Wh2 . 2
2
. S yh Rh2 .S xh2 2 .R h . S xh S yh (5.22)
h 1 nh . X h h

Aquí:
Yh nh Covh ( x, y )
Rh , f , xyh
Xh Nh S xh .S yh

L
Sacando varianza a ambos lados de la expresión Rˆ S W h .Rˆ h , y recordando que se realiza un MAS en cada estrato en
h 1
forma independiente, entonces:

L L
V ( Rˆ S ) V Wh .Rˆ h Wh2 .V ( Rˆ h ) (1)
h 1 h 1

Pero la varianza del estimador de razón en el estrato h está expresada por:

Nh
( yhi Rh .xhi ) 2
(1 f h ) (1 f h ) 2
V ( Rˆ h ) . i 1
. S yh Rh2 .S xh2 2.Rh h .S xh .S yh
nh . X h2 Nh 1 nh . X h2

Reemplazando esta última expresión en la ecuación (1) se encuentra V ( Rˆ S ) .

347
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Nota
Si las muestras son grandes en cada estrato, entonces V ( Rˆ S ) ECM ( Rˆ S ) .

Propiedad 5.19: Estimador de la varianza del estimador de razón separada

El estimador de la varianza del estimador de razón separada viene dado por:

nh
( yhi Rˆ h .xhi ) 2
L
Wh2 .(1 f h ) L
Wh2 .(1 f h ) ˆ 2
Vˆ ( Rˆ S ) . i 1
. S yh Rˆ h2 .Sˆ xh2 2.Rˆ h ˆ h .Sˆ xh .Sˆ yh (5.23)
h 1 nh . X h2 nh 1 h 1 nh . X h2

5.9.3 Estimación de razón combinada

Funciona estableciendo la razón poblacional para la variable Y sobre X , dividiendo el estimador para la media o el total de
Y entre el estimador para la media o el total de X , utilizando para dichas estimaciones el MAE.

PARÁMETRO ESTIMADOR

L (5.24)
N
yi N h .yh
Y Y YˆES
R i 1 Rˆ C h 1


N L
X X N h .x h ES
xi
i 1 h 1

Aquí:

nh nh
y hi x hi
i 1 i 1
yh , y xh .
nh nh

5.9.4 Propiedades del estimador de razón combinada

Las propiedades básicas son:

Propiedad 5.20: Insesgamiento del estimador de razón combinada

Si la muestra es suficientemente grande para que el estimador obtenido en MAE para la media de la variable X , sea
aproximadamente igual parámetro, es decir:

348
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Xˆ ES X
Entonces:

YˆES YˆES R. Xˆ ES
( Rˆ C R) R
Xˆ ES Xˆ ES
Pero si la muestra es grande:

Xˆ ES X

Y reemplazando el denominador, se tiene:


YˆES R. Xˆ ES
( Rˆ C R)
X
Y sacando valor esperado a ambos lados:

1
E ( Rˆ C R) .E (YˆES R. Xˆ ES)
X
Pero en el MAE:
E (YˆES ) Y y E ( Xˆ ES ) X

Luego:

1 1 1 Y
E ( Rˆ C R) .E (YˆES R. Xˆ ES) E (YˆES ) R.E ( Xˆ ES ) Y .X 0
X X X X

Lo anterior significa que si la estimación realizada sobre el total de la variable X , es aproximadamente igual al parámetro
(muestras grandes), entonces el estimador de razón combinado R̂C se puede considerar insesgado y en consecuencia:

V ( Rˆ C ) ECM ( Rˆ C ) .

Propiedad 5.21: Expresión para la varianza del estimador de razón combinada

Si la muestra es suficientemente grande, entonces la varianza del estimador de razón combinada viene dado por:

1 L Wh2 .(1 f h ) 2
V ( Rˆ C ) . . S yh R 2 S xh2 2.R. h S xh .S yh (5.25)
X2 h 1 nh

Partiendo de la siguiente relación:

349
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

YˆES YˆES R. Xˆ ES
Rˆ C R R
Xˆ ES XˆES
ˆ
Al tomar muestras grandes se espera que la estimación dada por X ES sea aproximadamente igual al parámetro X .
Realizando este reemplazo en el denominador de la expresión anterior y sacando varianza a ambos lados:

L
Wh .Yh
1 Y
V ( Rˆ C R) V ( Rˆ C ) 2
.V (YˆES R. Xˆ ES ) , donde R h 1
L
X X
Wh X h
h 1

Suponga que para todas las unidades en todos los estratos se cumple que u hi y hi R.x hi , luego para el estrato h , al
tomar una muestra se tiene:

uh yh R.x h .

Multiplicando cada término por W h , y tomando sumatoria sobre todos los estratos:

L L L
W h .u h Wh . y h R. W h .x h , Uˆ ES YˆES R. Xˆ ES
h 1 h 1 h 1

Obteniendo esta última expresión, de la definición del estimador de la media en el MAE. De acuerdo con lo anterior, se tiene
que:

1 1
V ( Rˆ C ) 2
.V (YˆES R. Xˆ ES ) 2
.V (Uˆ ES )
X X
Pero la varianza de la media muestral en el MAE, viene expresada por:

L
Wh2 .(1 f h ) 2
V (Uˆ ES ) .S uh
h 1 nh

Donde:

Nh Nh
2 2
Nh 2 ( y hi R.x hi ) (Yh R. X ES ) ( y hi Yh ) R.( x hi Xh)
(u hi U h )
S uh2 i 1 i 1

i 1 Nh 1 Nh 1 Nh 1

S uh2 2
S yh R 2 .S xh2 2.R.S xyh 2
S yh R 2 .S xh2 2.R. h .S xh .S yh

Finalmente, reemplazando:

350
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
L
Wh .Yh
1 L Wh2 .(1 f h ) 2 Y
V ( Rˆ C ) . . S yh R S 2 2
xh 2.R. h S xh .S yh , R h 1
L
RC
X2 h 1 nh X
Wh X h
h 1

Propiedad 5.22: Expresión para el estimador de la varianza en el estimador de razón combinada


Un estimador de la varianza del estimador de razón combinado R̂C , viene dada por:
L
Wh .Yˆh
1 2
W .(1 f h ) ˆ 2
L

Vˆ ( Rˆ C ) . h
. S yh Rˆ 2 Sˆ xh2 2.Rˆ . ˆ h Sˆ xh .Sˆ yh , Rˆ h 1
Rˆ C (5.26)

2 L
X h1 nh
Wh Xˆ h
h 1

Nota
Si no se conoce el parámetro X , se usa su estimador.

5.10 ESTIMADORES PARA LA MEDIA Y PARA EL TOTAL DE LA VARIABLE Y POR EL MÉTODO DE


RAZÓN EN EL MAE.

A continuación se presentan los parámetros y sus respectivos estimadores básicos.

5.10.1 Utilizando la razón separada

Los estimadores para la media y el total utilizando el estimador de razón separada son respectivamente:

PARÁMETRO ESTIMADOR

(5.27)
N
yi
Y L
Yˆh L L
YˆRS Wh .Rˆ h . X h Wh .Yˆh
i 1
Y Wh . .X h
N N h 1 Xˆ h h 1 h 1

PARÁMETRO ESTIMADOR
(5.28)

N L
Yˆh L

Y yi N.Y YˆRS .X h Rˆ h . X h
i 1 h 1 Xˆh h 1

351
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Aquí debe tenerse presente lo siguiente:

La variable objeto de estudio es Y , la cual debe estar altamente correlacionada con la variable auxiliar X , de la cual se
conocen sus parámetros en cada estrato.

nh nh
y hi x hi
Yˆh N h .Yˆh Nh. i 1
y Xˆ h N h . Xˆ h Nh. i 1
, son los estimadores de los totales para Y y para
nh nh

 
X , obtenidos de las unidades muestreadas en cada estrato.
5.10.2 Propiedades del estimador de la media y el total por el método de razón separada

Propiedad 5.23: Varianza del estimador de razón separada para el total

Si el tamaño de muestra, obtenido mediante un MAS en cada estrato es grande, entonces, la varianza del estimador de la
media y el total para la variable Y , por el método de razón separada vienen dadas por las siguientes expresiones
respectivamente.

L
(1 fh ) 2
V (YˆRS ) N h2 . . S yh Rh2 .S xh2 2.Rh . S xh S yh (5.29)
h 1 nh . h

Sacando varianza a ambos lados del estimador:


L
YˆRS Rˆ h . X h
h 1
Se tiene:
L
V (YˆRS ) V Rˆ h . X h
h 1

Pero la muestra es independiente en cada estrato y por lo tanto:

L L L
V (YˆRS ) V Rˆ h . X h V ( Rˆ h . X h ) V (YˆRh )
h 1 h 1 h 1

Quedando así la varianza del total para Y por el método de razón separada como la suma de los estimadores del total de Y
de todos los estratos.
Por consiguiente remplazando esta varianza aplicada al estrato h V (YˆRh ) , se obtiene:

L
(1 fh ) 2
V (YˆRS ) N h2 . . S yh Rh2 .S xh2 2.Rh . S xh S yh
h 1 nh . h

352
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

ˆ
La varianza para el estimador YRS , se obtiene fácilmente, mediante:

Yˆ 1 L
(1 fh )
V (YˆRS ) V RS .V (YˆRS ) Wh2 . 2
. S yh Rh2 .S xh2 2.Rh . S xh S yh
N N2 h 1 nh . h

Nota
Como la muestra es grande, entonces se puede suponer que:

V (YˆRS ) ECM (YˆRS )

Propiedad 5.24: Estimador de la varianza para el estimador de la media y el total usando razón separada
ˆ
Los estimadores para la varianzas de YˆRS y YRS , son respectivamente:

L
(1 fh ) ˆ 2 1 ˆ ˆ
Vˆ (YˆRS ) N h2 . . S yh Rˆ h2 .Sˆ xh2 2.Rˆ h . ˆ h Sˆ xh Sˆ yh y Vˆ (YˆRS ) .V (YRS ) (5.30)
h 1 nh . N2

Propiedad 5.25: Expresión aproximada para el sesgo cuando se usa razón separada

La expresión aproximada del sesgo para el estimador del total por el método de razón separada viene dada por:

L
(1 f h ) N h2
B(YˆRS ) . . Rh .S xh2 S xyh (5.31)
h 1 nh Xh

Para la expresión anterior en detalle se tiene:

L L
Yh
B(YˆRS ) E (YˆRS ) Y E Rˆ h . X h Yh , Rh Yh Rh . X h
h 1 h 1 Xh

L L L L L
B(YˆRS ) E Rˆ h . X h Rh . X h E ( Rˆ h ). X h Rh . X h E ( Rˆ h ). X h Rh . X h
h 1 h 1 h 1 h 1 h 1
L L
B (YˆRS ) E ( Rˆ h ) Rh . X h B ( Rˆ h ). X h (1)
h 1 h 1

Pero antes se vio que la expresión aproximada para el sesgo de R̂ , es:

(1 f )
B( Rˆ ) 2
. R.S x2 S xy
n. X

353
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Aplicando la expresión anterior al estrato h , y reemplazándola en la expresión (1):

L L
(1 f h ) L
(1 f h ).N h2
B(YˆRS ) B( Rˆ h ). X h 2
. Rh .S xh2 S xyh . X h . Rh .S xh2 S xyh
h 1 h 1 nh . X h h 1 nh . X h

En forma análoga puede hallarse B (YRS ) .


ˆ

Propiedad 5.26: Expresión para estimar el sesgo en estimadores de razón separada

Un estimador de la expresión aproximada del sesgo dada en la propiedad anterior para el estimador del total por el método de
razón separada será:

L
(1 f h ).N h2 ˆ ˆ 2
Bˆ (YˆRS ) . Rh .S xh Sˆ xyh (5.32)
h 1 nh . X h

5.10.3 Utilizando la razón combinada.

Los estimadores para la media y el total, utilizando el estimador de razón combinada son respectivamente:

PARÁMETRO ESTIMADOR
(5.33)

N
yi YˆES YˆES
i 1 Y YˆRC .X .X
Y Xˆ
N N ES Xˆ ES

PARÁMETRO ESTIMADOR

(5.34)
N
YˆES YˆES
Y yi N.Y YˆRC .X .X
i 1 Xˆ ES Xˆ ES

En las expresiones anteriores recuerde que:

L L L L
YˆES N .YˆES N. W h .Yˆh N h .Yˆh , y Xˆ ES N . Xˆ ES N. W h . Xˆ h N h . Xˆ h
h 1 h 1 h 1 h 1

5.10.4 Propiedades del estimador de la media y el total por el método de razón combinada.

Las propiedades básicas de estos estimadores son:

354
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Propiedad 5.27: Expresión para la varianza del estimador del total usando razón combinada

Si se toma un MAS grande, entonces la varianza del estimador del total para la variable Y , por el método de razón
combinada, viene dada por:

L
(1 fh ) 2
V (YˆRC ) N h2 . . S yh R 2 .S xh2 2.R . S xh S yh (5.35)
h 1 nh . h

En detalle se tiene que:

YˆES YˆES YˆES .N . X


(YˆRC Y) .X Y .NX NY N .R. X , Y R. X
Xˆ ES Xˆ ES Xˆ ES

NX ˆ
(YˆRC Y) . YES R. Xˆ ES
Xˆ ES

Suponiendo que como la muestra es grande, la estimación dada por X ES


ˆ X , entonces, reemplazando el denominador de
la expresión anterior y sacando varianza a ambos lados:

(YˆRC Y) N . YˆES R. Xˆ ES V (YˆRC Y) V (YˆRC ) N 2 .V (YˆES R. Xˆ ES ) (1)

Ahora considerando para cada unidad i-ésima de todo estrato:

nh nh nh
u hi y hi R.x hi , hi u hi y hi R. x hi uh yh R.x h (2)
i 1 i 1 i 1

Análogamente tomando todas las unidades de cada estrato, se tiene:

Uh Yh R. X h

Multiplicando la última expresión e la derecha en (2), por Wh y sacando sumatoria sobre todos los estratos:

L L L
W h .u h Wh . y h R. W h .x h Uˆ ES YˆES R. Xˆ ES
h 1 h 1 h 1

Reemplazando en la expresión (1) anterior:

V (YˆRC ) N 2 .V (YˆES R. Xˆ ES ) N 2 .V (Uˆ ES ) (3)

De acuerdo con el MAE, la varianza de la media muestral es:

355
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

L
Wh2 .(1 f h ) 2
V (Uˆ ES ) .S uh ,
h 1 nh

Donde:

Nh
(u hi U h ) 2 Nh
2 1
S uh2 ( y hi R.x hi ) (Yh R. X h ) .
i 1 Nh 1 i 1 Nh 1
Nh
2 1 2
( y hi Yh ) R.( x hi Xh) . S yh 2 RS xyh R 2 .S xh2
i 1 Nh 1

Por otro lado:

S xyh h .S xh .S yh

Finalmente realizando todos los reemplazos en (3):

L
(1 fh ) 2
V (YˆRC ) N h2 . . S yh R 2 .S xh2 2.R . S xh S yh
h 1 nh . h

Nota
ˆ
Para encontrar V (YRC ) , se realiza:

Yˆ 1
V (YˆRC ) V RC .V (YˆRC )
N N2

Propiedad 5.28: Expresión para el estimador de varianza cuando se usan estimadores de razón combinada
Los estimadores de las varianzas para ŶRC y YRC son respectivamente:
ˆ

L
(1 fh ) ˆ 2 1 ˆ ˆ
Vˆ (YˆRC ) N h2 . . S yh Rˆ 2 .Sˆ xh2 2.Rˆ . ˆ h Sˆ xh Sˆ yh , y Vˆ (YˆRC ) .V (YRC ) (5.36)
h 1 nh . N2

Propiedad 5.29: Expresiones aproximadas para el sesgo en el estimador de razón combinada


La expresión aproximada del sesgo para el estimar ŶRC , viene dada por:

N2 L
Wh2 .(1 f h )
B (YˆRC ) . R.S xh2 S xyh . (5.37)
X h 1 nh
Para más detalle:

356
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

B(YˆRC ) E (YˆRC ) Y E Rˆ C . X R. X E RC . X R. X
(1)
E ( RC ) R . X B( Rˆ C ). X

Antes de seguir adelante recuerde que para una razón R Y , su expresión aproximada para el sesgo viene dada por:
X

(1 f) (1 f)
R. .S x2 .S xy
(1 f) 1 n n R.V ( x ) Cov( x , y )
B( Rˆ ) . 2 R.S x2 S xy 2
n X X X2

Aplicando el resultado anterior a la razón RC


YˆES , se tiene:
Xˆ ES

R.V ( Xˆ ES ) Cov( Xˆ ES , YˆES )


B( Rˆ C ) (2)
X2
Pero recuerde que en el MAE:

L
S xh2
V ( Xˆ ES ) W .(1
h
2
f h ).
h 1 nh

L L L L
(1 fh )
Cov Xˆ ES , YˆES Cov Wh . Xˆ h , Wh .Yˆh W .Cov Xˆ h , Yˆh
h
2
Wh2 . .S xyh
h 1 h 1 h 1 h 1 nh

Reemplazando estas últimas relaciones en la ecuación (2):

L L
S xh2 S xyh
R. Wh2 .(1 f h ). Wh2 .(1 f h ).
R.V ( Xˆ ES ) Cov ( Xˆ ES , YˆES ) nh nh
B ( Rˆ C ) h 1 h 1

X2 X 2

1 L
Wh2 .(1 f h )
B ( Rˆ C ) . R.S xh2 S xyh (3)
X2 h 1 nh

Reemplazando la expresión (3) en la ecuación (1), se tiene finalmente:

1 L
Wh2 .(1 f h )
B (YˆRC ) B ( Rˆ C ). X . R.S xh2 S xyh .X
X2 h 1 nh

357
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

N2 L
Wh2 .(1 f h )
B (YˆRC ) . R.S xh2 S xyh .
X h 1 nh

Nota
En forma análoga puede hallarse la expresión aproximada para el sesgo de YRC
ˆ

Propiedad 5.30: Estimador para el sesgo al usar estimadores de razón combinada

El estimador de la expresión aproximada del sesgo expresada en la propiedad anterior para el estimador del total por el
método de razón combinada será:

N2 L
Wh2 .(1 f h ) ˆ ˆ 2
Bˆ (YˆRC ) . R.S xh Sˆ xyh . (5.38)
X h 1 nh

Ejemplo 5.14
Un censo realizado en el año 2000 sobre las 500 fincas ganaderas de una determinada región permitió conocer los siguientes
indicadores para dos tipos de fincas:

Total de cabezas de ganado


Estrato Xh Nh
I 60000 300
II 36000 200

Estrato I : Fincas con una extensión de 20 acres o menos

Estrato II: Fincas con más de 20 acres de extensión

Una muestra piloto de 70 fincas (40 del estrato I y 30 del estrato II) arrojó los siguientes resultados después de contar en el
año 2009 el número de cabezas de ganado.

Estrato I Estrato II
Año 2000 (X) Año 2009 (Y) Año 2000 (X) Año 2009 (Y)
40 40 30 30
xi 3692 yi 7607 xi 5239 yi 10006
i 1 i 1 i 1 i 1
40 40 30 30
x i2 342192 y i2 1455507 x i2 955367 y i2 3519976
i 1 i 1 i 1 i 1
40 30
xi . y i 705147 xi . y i 1829669
i 1 i 1

a) Estime el total de cabezas de ganado para el año 2009 utilizando estimadores de razón separada.
b) Estime la varianza para el estimador solicitado en a).

358
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

c) Estime el sesgo para el estimador solicitado en a).


Solución//

Con base en la tabla anterior se encuentra que:

Estrato I Estrato II
R̂h Sˆ 2
yh Sˆ 2
xh
ˆ .Sˆ xh .Sˆ yh R̂h Sˆ 2
yh Sˆ xh2 ˆ .Sˆ xh .Sˆ yh
2.06 226.81 36.42 77.46 1.91 6297.98 1395.27 2837.51

2
a) YˆRS Rˆ h . X h ( 2.06).( 60000 ) (1.91).(36000 ) 192360
h 1
2
(1 fh ) ˆ 2
b) Vˆ (YˆRS ) N h2 . S yh Rˆ h2 .Sˆ xh2 2 Rˆ h . ˆ xyh .Sˆ xh .Sˆ yh 743288.55
h 1 nh

2
(1 f h ) ˆ ˆ 2
c) Bˆ (YˆRS ) . Rh .S xh Sˆ xyk 5.51108
h 1 X h .n h

Nota

Tenga presente que xy .S x .S y S xy .

Ejemplo 5.15
Con la información suministrada en el ejemplo 5.14 conteste las preguntas del ejercicio anterior asumiendo estimadores de
razón combinada.

Solución//

De los datos suministrados primeramente se encuentra:


2 2 2 2
YˆES N h .Yˆh 123759 .17 ; Xˆ ES N h . Xˆ h 62616 .67 ; X N h .X h Xh 96000
h 1 h 1 h 1 h 1

YˆES
Rˆ 1.98
Xˆ ES

Por lo tanto:

a) YˆRC Rˆ . X 190080
2
(1 fh ) ˆ 2
b) Vˆ (YˆRC ) N h2 . S yh Rˆ 2 .Sˆ xh2 2 Rˆ . ˆ xyh .Sˆ xh .Sˆ yh 724878.83
h 1 nh
N 2 2 Wh2 .(1 f h ) ˆ ˆ 2
c) Bˆ (YˆRC ) . . R.S xh Sˆ xyk 0.9926
X h1 nh

359
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
ˆ
5.11 COMPARACIÓN DE YˆRS CON YRC

Esta comparación se realiza mediante las varianzas respectivas para los dos estimadores:

L
(1 fh )
V (YˆRC ) N h2 . 2
. S yh R 2 .S xh2 2.R . S xh S yh
h 1 nh . h

L
(1 fh )
V (YˆRS ) N h2 . 2
. S yh Rh2 .S xh2 2.Rh . S xh S yh
h 1 nh . h

Restando de la varianza para el estimador del total usando razón combinada, la varianza del estimador del total usando razón
separada se tiene:

L
(1 fh )
V (YˆRC ) V (YˆRS ) N h2 . . R 2 .S xh2 2.R.S xyh Rh2 .S xh2 2 Rh .S xyh
h 1 nh .

Sumando y restando R h2 .S xh
2
:

L
(1 fh )
V (YˆRC ) V (YˆRS ) N h2 . . R 2 .S xh2 2.R.S xyh 2 Rh2 .S xh2 2 Rh .S xyh Rh2 .S xh2
h 1 nh .

Agrupando algunos términos:

L
(1 fh )
V (YˆRC ) V (YˆRS ) N h2 . . R 2 .S xh2 Rh2 .S xh2 2 Rh .S xyh 2 Rh2 .S xh2 2 R.S xyh
h 1 nh .

Sumando y restando 2 .R.R h2 .S xh


2
:

V (YˆRC ) V (YˆRS )
L
(1 fh )
N h2 . . R 2 .S xh2 2 R.Rh .S xh2 Rh2 .S xh2 2 Rh .S xyh 2 Rh2 .S xh2 2 R.S xyh 2.R.Rh .S xh2
h 1 nh .

Factorizando:

L
(1 fh ) 2
V (YˆRC ) V (YˆRS )
2
N h2 . . S xh . R Rh 2 Rh . S xyh Rh .S xh2 2 R. S xyh Rh .S xh2
h 1 nh .
L
(1 fh )
V (YˆRC ) V (YˆRS )
2
N h2 . . S xh2 . R Rh 2. R h R . S xyh R h .S xh2
h 1 nh .

360
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
Suponga ahora que y A.x , es la relación entre las dos variables analizadas, entonces en el estrato h se cumple:

2
S yh A 2 .S xh2 , Yh A. X h

Nh Nh
( y hi Yh ).( x hi Xh) ( Ax hi A. X h ).( x hi Xh)
S xyh i 1 i 1
A..S xh2
Nh 1 Nh 1

Yh A. X h Y A. X
Rh A, h; R A
Xh Xh X X

S xyh Rh .S xh2 A.S xh2 A.S xh2 0

Teniendo en cuenta lo anterior:

L
N h2 .(1 f h )
V (YˆRC ) V (YˆRS ) . ( R Rh ) 2 .S xh2 2.( Rh R).(S xyh Rh .S xh2 ) 0
h 1 nh

Es decir que:

V (YˆRC ) V (YˆRS )

Las siguientes conclusiones se desprenden de la comparación de varianzas antes realizada.

Si Rh A, h , entonces también R A y en este caso, es indiferente usar ŶRC , ó YˆRS para la estimación del total
poblacional de la variable analizada Y .
Si el tamaño de la muestra es grande para que V (YˆRS ) , sea válida y el sesgo acumulada que pueda afectar a YˆRS , se
ignore, se debe usar YˆRS , en lugar de ŶRC .

Si la muestra es pequeña en cada estrato, se debe usar ŶRC , a menos que exista una buena evidencia empírica de que YˆRS ,
sea mejor.

Ejemplo 5.16
Con los resultados obtenidos en los ejemplos 5.14 y 5.15, determinar ¿Cuál de los métodos es el más adecuado?. Para cada

Bˆ (Yˆ )
método determine el cociente , opine.
ˆ ˆ
V (Y )

Solución//

Realizando un cuadro resumen:

361
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
Estimadores obtenidos
Razón separada Razón combinada
Varianza Sesgo Varianza Sesgo
743288.55 -5.51108 724878.83 -0.9926

Bˆ (Yˆ ) 0.0063923 0.0011658


Vˆ (Yˆ )

Como puede verse el método de razón combinada presenta mejor comportamiento en cuanto a la varianza estimada,
igualmente para ambos métodos el sesgo puede considerarse despreciable pero es más insignificante para el método de razón
combinada.

5.12 TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA MEDIA Y EL TOTAL POBLACIONALES


USANDO ESTIMADORES DE RAZÓN EN EL MAE.

Si se desea usar estimadores de razón separada surge la pregunta, ¿cómo llegar a la expresión del tamaño de muestra para la
estimación del total para la variable Y , usando estimadores de razón en el MAE?

En apartes anteriores se vio que la varianza para el estimador del total por el método de razón separada en el MAE, viene
dada por:

L
(1 fh )
V (YˆRS ) N h2 2
. S yh Rh2 .S xh2 2 Rh . h .S xh S yh
h 1 nh

De donde se tiene que para el estimador de la media poblacional:

1 L
(1 fh )
V (YˆRS ) V (YˆRS ) Wh2 2
. S yh Rh2 .S xh2 2 Rh . h .S xh S yh
N2 h 1 nh

Por razones de facilidad se realiza el siguiente reemplazo:

2
S yh Rh2 .S xh2 2 Rh . h .S xh S yh S *2h

De tal forma que la varianza del estimador de la media poblacional quedará:

L
(1 fh )
V (YˆRS ) Wh2 .S *2h
h 1 nh

Apoyándose en la expresión del tamaño de muestra para la estimación de la media poblacional en el MAE al usar
estimadores directos, se llega a la expresión del tamaño de muestra para estimación de la media por el método de razón
separada, simplemente por analogía. De tal manera que:
Wh2 .S *2h
L

h 1 ( wh )
n (1) (5.39)
ˆ 1 L 2
V (YRS ) Wh .S *h
N h1

362
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 
2
Donde (wh ) , dependerá del tipo de asignación (forma de repartir el n en los estratos) que se desee, S *h se estimará en
forma adelantada:

Y la varianza deseada será:


2

V (YˆRS )
Z
2

Bajo el supuesto de normalidad.

La siguiente tabla 5.2 muestra el reemplazo que se debe realizar en (1) para (wh ) , dependiendo del tipo de asignación que se
determine.

Tipo de asignación Ponderación muestral para el estrato h: (wh )

Igual o uniforme ( wh) 1


L
Proporcional ( wh) Wh
Wh .S *h
Asignación de ( wh) L
Neyman Wh .S *h
h 1

Wh .S *h Ch
( wh) L
Asignación Óptima
Wh .S *h Ch
h 1

Tabla 5.2. La ponderación muestral dependiendo del tipo de asignación.

Para hallar el tamaño de muestra correspondiente para YˆRS , basta reemplazar en (1)

V (YˆRS )
V (YˆRS )
N2
Y tener presente que:

V (YˆRS ) T

Z
2

Siendo T el error establecido para la estimación del total.

363
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Nota
Si lo que se desea es determinar el tamaño de muestra para estimar la media y el total poblacionales por el método de razón
combinada, se usan las mismas expresiones a las que se ha llegado para la razón separada, pero teniendo presente que ahora:

S *2h 2
S yh R 2 .S xh2 2 R. h .S xh S yh

Y que debe ser estimada en forma adelantada.

Nota:
Para hallar las expresiones de los tamaños de muestra que satisfacen un presupuesto C, deseado, dependiendo del tipo de
asignación establecido, se aplican las mismas expresiones dadas en el MAE para estimadores directos pero cambiando S h
por S *h para razón separada o combinada según sea el caso.

Ejemplo 5.17

Considerando la información del ejemplo 5.14 como una muestra piloto, determine el tamaño de muestra necesario para
estimar el promedio de cabezas de ganado por finca en la región, si se desea utilizar la asignación de Neyman suponiendo un
error absoluto de muestreo igual a 2 y un nivel de confianza del 95%. ¿Cómo quedará la muestra hallada repartida en
los dos estratos?

Solución//

De la información suministrada se pueden obtener los siguientes indicadores:

Indicadores
Estrato Wh Sˆ*2h ( wh )
I 0.6 62,227 0.3356
II 0.4 548,776 0.6644

En consecuencia:

L
Wh2 .S *2h
2
Wh2 .Sˆ*2h 2
h 1 ( wh )
198.91 ; W h .Sˆ*2h 256 .85 ; V (Yˆ ) 1.0412 ; n 127.9
1 ( wh ) 1 L
h h 1
V (YˆRS ) Wh .S *2h
N h1
Teniendo en cuenta que:

nh
( wh ) nh n.( wh )
n
Por lo tanto, la asignación de dicha muestra para cada uno de los estratos será:

n1 43 y n2 85

Y finalmente el tamaño de muestra requerido será de n 128 fincas ganaderas.

364
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ejemplo 5.18
Deducir el tamaño de muestra para estimar la media poblacional Y mediante estimadores de razón combinada utilizando
asignación óptima para satisfacer un costo de toma de información igual a C .

Solución//

De la función de costo:
L L
C C0 C h .n h (C C0 ) C h .n h
h 1 h 1

De la asignación óptima:

Wh .S *h Ch nh Wh .S *h Ch
( wh) L
nh n. L
.
n
Wh .S *h Ch Wh .S *h Ch
h 1 h 1

Reemplazando esta última expresión en la primera y despejando n :

L
(C C 0 ). Wh .S *h Ch
h 1
n L
Wh .S *h . C h
h 1

Donde:

S *2h 2
S yh R 2 .S xh2 2.R.S xyh

EJERCICIOS

Ejercicio 5.A
Utilizando la información del archivo RAKAN grafique cada una de las siguientes relaciones. Encuentre el coeficiente de
correlación lineal XY .
a) Gasto en alimentos (GAST-ALIM) en función del Ingreso familiar (ING-FAMI)
b) Gasto total en la familia (GAST-ALIM+GAST-SERV+OTR-GAST) en función del ingreso familiar.
c) Impuesto predial (IMP-PRE) en función del área del predio (AR-DE-PRE)

Ayuda
Para los gráficos tenga presente los siguientes cuadros de diálogo en el paquete MINITAB

365
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Graph

Scatterplot

Variables de
la base
Variable
independiente

Variable
dependiente

Tanto para el gráfico como el cálculo del coeficiente de correlación puede usarse también Excel.

366
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ejercicio 5.B
Utilizando la información suministrada en el archivo RAKAN y mediante una muestra aleatoria de tamaño 100 estime las
siguientes razones estableciendo un intervalo de confianza en cada caso con un nivel del 95% de confianza:
a) Porcentaje de ingreso familiar invertido en gastos de alimentación: P1 GAST ALIM
INGR FAMI
b) Porcentaje del gasto total respecto de los ingresos familiares: P2
GAST TOTAL
INGR FAMI
c) Cantidad de dinero pagado en impuesto predial por unidad de área del predio: P3
IMP PRE
AR DE PRE

Ejercicio 5.C
Encuentre las estimaciones planeadas en el ejercicio anterior en cada uno de los siguientes casos. Utilice intervalo de confianza del
95% en cada caso para el intervalo de confianza.

a) Utilizando una muestra estratificada de tamaño 80 con asignación igual.


b) Utilizando una muestra estratificada de tamaño 80 con asignación proporcional.
c) Utilizando una muestra estratificada de tamaño 80 con asignación de Neyman

Ejercicio 5.D
¿Qué tamaño de muestra se requiere para estimar los parámetros involucrados en el ejercicio 2.C mediante asignación
proporcional y de Neyman asumiendo un error igual al 8% del estimador encontrado y un nivel de confianza del 95%?

Ejercicio 5.1
La siguiente tabla muestra 4 unidades poblacionales en las cuales se han medido las características X e Y.

Ui Xi Yi
U1 1 1
U2 2 3
U3 3 4
U4 4 6

Obtenga todas las muestras de tamaño 2 sin reposición:

a) Encuentre el valor exacto del sesgo y la varianza exacta del estimador de razón
b) Halle el valor aproximado del sesgo y la varianza aproximada para dicho estimador. Compare el resultado con los valores
hallados en el literal a)
c) Encuentre el valor de: , opine.

Ejercicio 5.2
En el muestreo estratificado; demuestre que una cota para el sesgo del estimador de razón por el método de razón combinada
viene dada por:

367
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ejercicio 5.3
Para medir la eficiencia del uso de los estimadores de razón en la estimación de la media poblacional frente al estimador
directo se debe verificar que . Demuestre que dicha relación entre las varianzas se da cuando .

Ejercicio 5.4
Se desea realizar una investigación acerca del salario que reciben los estudiantes en las prácticas de empresa ofertadas en una
determinada universidad. Para ello, se tuvo en cuenta la calificación media obtenida por el estudiante en el curso de práctica
profesional (de 1 a 5). La calificación media de los estudiantes del primer grupo fue de 2.5; mientras que la del segundo
grupo fue de 2.7.
De los dos grupos de práctica existentes, de tamaños 45 y 30 respectivamente, se tomaron muestras aleatorias simples de
tamaño 9 y 5 respectivamente. Los resultados obtenidos se muestran en la siguiente tabla.

PRIMER GRUPO SEGUNDO GRUPO


Salario: X (miles de
Calificación: Y Salario: X Calificación: Y
euros al mes)
1.85 2.95 2.12 3.1
2 3.2 2.1 3.15
2.11 3.4 2.72 2.95
2.24 3.6 2.68 2.75
2.12 2.85 2.5 3.2
1.5 3.1
1.8 2.85
1.88 3.05
1.44 2.7

Nota
Si el estudiante tiene calificación cero, no puede hacer práctica empresarial.

a) Estime el salario medio de los alumnos en prácticas a partir de un estimador de razón separado y combinado. De la raíz
de la varianza en cada caso.
b) ¿Qué ocurre si no se tiene en cuenta la división en grupos de los alumnos de prácticas? Comente.
c) ¿Qué opina de la siguiente relación?
d) ¿Cuál de los dos estimadores RS o RC probablemente tiene un sesgo más significativo?. ¿Por qué?
e) ¿Qué ocurre si no tenemos en cuenta la información auxiliar relativa a la calificación?
f) ¿Cuál es el mejor estimador?, ¿por qué ocurre tal conclusión?

Ejercicio 5.4
Se utiliza un grupo de 100 conejos en un estudio de nutrición. En el estudio previo se registró el peso de cada conejo. El
promedio de estos pesos fue 3,5 libras. Después de dos meses, el experimentador quiere obtener una aproximación del peso
promedio de los conejos. Selecciona entonces, al azar una muestra de 10 conejos y los pesa. Los pesos originales y los
actuales se presentan en la tabla adjunta. Estime el peso medio actual, y establezca un límite para el error de estimación. ¿Qué
sugiere el gráfico de dispersión acerca de la relación entre el peso actual y el peso original de estos conejos?

Conejo Peso Original Peso actual Conejo Peso Original Peso Actual
1 3.2 4.1 6 3.1 4.1
2 3.0 4.0 7 3.0 4.2
3 2.9 4.1 8 3.2 4.1
4 2.8 3.9 9 2.9 3.9
5 2.8 3.7 10 2.8 3.8

368
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Si estos datos se toman como una muestra piloto, ¿Qué tamaño de muestra se requiere para estimar el peso promedio actual si
se desea que la varianza sea la mitad de la varianza obtenida con la muestra actual; es decir:

Ejercicio 5.5
Determine el tamaño de muestra para la estimación de la media poblacional mediante el uso de estimadores de razón cuando se
desea satisfacer un .

Ejercicio 5.6
Determine 10 ejemplos de variables en la cuales se deba usar estimadores de razón para mejorar la estimación de la media
poblacional. Determine en cada caso la variable auxiliar apropiada.
Ejercicio 5.7
La siguiente tabla corresponde a la información sobre las variables X e Y para7 unidades poblacionales dividas en dos estratos.

Estrato 1 Estrato 2
Ui Xi Yi Ui Xi Yi
U1 1 1 U1 4 5
U2 2 3 U2 6 8
U3 3 4 U3 8 10
U4 4 6

a) Encuentre la razón poblacional


b) Tomando muestras de tamaño 2 en cada estrato, encuentre todas las estimaciones de la razón poblacional R y complete
la siguiente tabla:

Muestra del Estrato 1 Muestra del Estrato 2 Estimación Sesgo


Muestra Xi Yi Xi Yi Xi Yi Xi Yi

Basado en la tabla encuentre ; ; ;

c) Realizar la misma tabla del literal b) para cada estrato por separado y verifique que: ;
; y finalmente .

Ejercicio 5.8
Un ingeniero forestal está interesado en estimar el volumen total de 350 árboles. Para ello registra el volumen y el diámetro
de la base de una muestra de aleatoria de 20 árboles con los siguientes resultados.

Diámetro del árbol (m) 0.7 0.5 0.9 0.5 0.9 0.7 0.5
Volumen del árbol (m3) 13 10 21 10 19 14 10
Diámetro del árbol (m) 0.4 0.6 0.5 1.0 0.7 0.3 0.6
Volumen del árbol (m3) 7 10 8 20 16 6 10
Diámetro del árbol (m) 0.8 0.6 1.0 0.9 0.7 0.8
Volumen del árbol (m3) 14 11 11 20 15 13

Estimar el volumen total que representan los 350 árboles, estime el error estándar de estimación. Asuma que el diámetro
total de los 350 árboles es de 80 m.

369
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ejercicio 5.9
Se desea determinar la relación existente entre los gastos familiares y el ingreso familiar para las familias que tienen uno de
sus miembros estudiando en último semestre de un programa de pregrado de la universidad ABC. Una muestra de 20
estudiantes fueron seleccionados en forma aleatoria y su familia visitada para conocer entre otras las variables involucradas
en la relación que se desea estimar. El estudio estableció 1100 familias.
Los datos de la muestra se presentan a continuación:

Familia Ingreso Gasto Familia Ingreso Gasto Familia Ingreso Gasto


1 8155608 1536166 8 6304421 1526566 15 6272190 1755074
2 7056376 1508210 9 5255496 1233541 16 9272504 1642166
3 8881620 1574007 10 11688039 1888642 17 9354088 1628052
4 7648059 1430502 11 8441839 1536783 18 4603255 1186599
5 5834374 1314962 12 6984555 1937210 19 4645734 1185766
6 5785062 1315964 13 8664910 1597121 20 12379890 984433
7 2746239 1121094 14 2404423 838209

Estimar la relación Rˆ Gastos Ingresos para la población de familias. Estime la variación relativa: cv Vˆ ( Rˆ ) Rˆ

Ejercicio 5.10
En un estudio para estimar el contenido de azúcar de una carga de naranjas, se pesó una muestra aleatoria de n = 30 naranjas
y se extrajo el jugo.

370
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

El peso total de todas las naranjas se obtuvo, pesando primero el camión cargado y luego descargado, encontrando un peso
de 1800 libras. Estimar el total de jugo de naranja para el cargamento y establezca un límite para el error de estimación.
Ejercicio 5.11
Deduzca la fórmula para estimar la media poblacional de la variable Y usando la razón R Y X . Establezca un error y un
nivel de confianza (1 )100% .

Ejercicio 5.12
Se desea conocer la superficie promedio por finca dedicada al cultivo ABC en determinada región agrícola con el ánimo de
conocer el nivel de su implantación. Para ello se midieron en una muestra de 100 fincas las variables Y (área total de la
finca) y X (área cultivada de ABC). Los resultados de la muestra se presentan en la siguiente tabla.

Superficie de la 2
Estratos Nh S yh S xh2 xyh yh xh nh
finca

1 0-1 Ht 1580 2055 320 0.62 82.5 19.4 70

2 >1 Ht 430 7357 922 0.3 244.8 51.6 30

Población 2010 7619 620 0.67 100

a) Estimar el promedio por finca para el cultivo ABC, use razón separada. Encuentre su varianza.
b) Estime el promedio por finca para el cultivo ABC, use razón combinada. Determine su varianza.
c) Si se toma la información de la tabla como una muestra piloto, determine el tamaño de muestra para la estimación de la
media de X usando RS y RC con asignación proporcional. Asuma V0=2,76

Ejercicio 5.13
La Secretaria de Salud Pública de un municipio desea estimar la razón Nº de habitaciones/Nº de personas en el barrio ABC
de la ciudad de Cali. Miembros de la secretaría toman una muestra aleatoria de 30 viviendas de las 300 que compone dicho
barrio. Sean las variables:
X: Número de personas que habitan la vivienda y
Y: Número de cuartos destinados a dormitorios de la vivienda.

xi 263 yi 110 xi yi 974


xi2 2427 yi2 426

Estime la razón R Y X para el barrio analizado y su varianza.

Ejercicio 5.14
Si en el ejerció anterior se toma la información suministrada como una muestra piloto. ¿Qué tamaño de muestra se requiere
para realizar la estimación propuesta con un margen de error y un nivel de confianza del 95%. Realice una simulación
para diferentes valores del error (adecuados). Y realice una gráfica que presente el comportamiento de la muestra a medida
que el error aumenta.

371
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ejercicio 5.15
Al realizar una encuesta en 10 viviendas se obtuvo la siguiente información

X : Número de Y1 : Número de Y2 : Número de Y3 : Número de


Vivienda Nº personas que la cuarto personas que animales domésticos
habitan dormitorio trabajan en la vivienda
1 5 3 3 0
2 4 2 2 1
3 3 2 1 1
4 2 3 1 2
5 6 4 4 3
6 5 4 3 2
7 3 2 2 2
8 2 2 1 0
9 4 3 2 1
10 3 1 3 0

Utilizando como variable auxiliar, X: Nº de personas que habitan la vivienda y suponiendo que se conoce el total de
personas que habitan en todas las viviendas que conforman la población N de viviendas, que recomendaría usted para
estimar el total en cada caso, si se pretende utilizar estimador de razón o expansión. ¿Cómo determina su decisión?

a) Estimación del total de cuartos.


b) Estimación del total de personas que trabajan.
c) Estimación del total de animales domésticos.

Ejercicio 5.16
Un director de recursos forestales esta preocupado por la cantidad de árboles de pino muertos debidos a determinada
enfermedad en un área de 300 acres. Por tal motivo desea estimar el total de árboles de pino muertos en dicha área y para
ello realiza el siguiente experimento:
Divide el área en 200 parcelas de 1.5 acres cada una y usando fotografías aéreas encuentra que el total de árboles de pino
muertos es de 4200; además toma una muestra piloto de 5 parcelas y de ellas extrae la siguiente información:

Parcela muestreada 1 2 3 4 5
Cantidad de pinos muertos según fotografía 12 30 24 24 18
Cantidad de pinos muertos en terreno 18 42 24 36 24

¿Qué margen de error absoluto de muestreo debe suponerse para que con un nivel de confianza del 95% se requiera una
muestra de 50 parcelas, para realizar dicha estimación utilizando estimadores de razón?

Ejercicio 5.17
En un campo sembrado de trigo se miden las siguientes variables para un número de unidades estadísticas localizadas
mediante una muestra aleatoria simple en todo el campo.
Yi: Peso del grano de la i-ésima unidad muestral.
Xi: Peso del grano más la cascara en la i-ésima unidad muestral.

Se conoce el peso total de la cosecha X (grano más cascara) y además se sabe que: c yy 1.10 ; c xx 1.05 y
c yx 0.48 . Además se requieren 40 minutos para cortar, trillar y pesar el grano en cada unidad de muestreo y 3.2 horas
para recolectar y pesar toda la cosecha del campo analizado.

372
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Si se quiere que la estimación del total de grano cosechado Y, utilizando el método de razón sea más económico que el total
de grano cosechado utilizando el método de expansión, ¿cuántas unidades de muestreo deben tomarse en el campo?, ¿cuál es
la ganancia en precisión obtenida al usar el estimador de razón en lugar del estimador de expansión?

2 2 S yx
Nota: c yy CV ( y ) ; c xx CV ( x) y c yx
XY
Ejercicio 5.18
Demostrar que el sesgo del estimador de razón B(Rˆ ) viene dado por:

Cov(r , x )
B( Rˆ )
X
Ejercicio 5.19
B( Rˆ )
Partiendo del resultado presentado en el ejercicio anterior muestre que: CV ( x )
Sr
Ejercicio 5.20
Se tiene la siguiente información para las variables X e Y en una población estratificada mediante dos estratos:

2
Estrato Wh S xh2   S yh   xyh   Xh  Yh
1 0.75 25 230 0.80 12 55
2 0.25 90 110 0.70 42 68

Calcule la eficiencia relativa de los estimadores: directo, razón separada y razón combinada para la estimación del total de la
variable Y usando afijación proporcional

Ejercicio 5.21
Una muestra piloto de 30 unidades tomada de una población de tamaño 400 presentó la siguiente información

Y X Variable X
89 95 101 112 114 120 Total
2.2 2 1 2 5
Variable Y

2.5 3 3 6
2.8 2 2 4
3.2 1 1 4 6
3.5 1 2 4 7
3.8 2 2
Total 2 4 8 4 6 6 30

Determinar el tamaño de muestra necesario para estimar la media de la variable Y con un error máximo asumido como
V (Yˆ ) 0.3 mediante:

a) Un MAS
b) Estimadores de razón

373
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ejercicio 5.22
En un barrio de la ciudad de Santiago de Cali, conformado por 700 viviendas se realiza un estudio sobre el hábito de fumar
para personas mayores de edad. Para ello se estratificaron las viviendas en dos estratos socioeconómicos Estrato A (ingresos
familiares inferiores a $1.000.000) y un estrato B( Ingresos familiares superiores a $1.000.000). De cada uno de estos
estratos se seleccionó una muestra de 10 viviendas con los siguientes resultados:

Estrato A: NA 200
Vivienda muestreada 1 2 3 4 5 6 7 8 9 10
Número de personas mayores de edad 3 5 6 7 3 2 4 5 2 2
Número de fumadores mayores de edad 1 2 1 0 0 1 0 1 1 2

Estrato B: NB 500
Vivienda muestreada 1 2 3 4 5 6 7 8 9 10
Número de personas mayores de edad 4 5 7 5 4 4 4 8 5 4
Número de fumadores mayores de edad 3 2 4 2 2 3 3 5 4 3

a) ¿Cuál es la estimación para la proporción de personas mayores de edad fumadores en dicho barrio.
b) Estime la varianza para la estimación del punto anterior.

Ejercicio 5.23
Para la siguiente población compuesta por las unidades (2,5); (3,6); (4,7.2); (5,9.6); (6,10)
a) Encuentre todas las muestras de tamaño n 3
Rˆ y x y Xˆ
b) Para cada una de las muestras halladas en el literal a) encuentre x.
c) Encuentre con las estimaciones del literal b) la covarianza Cov( Rˆ , x )
d) Encuentre el sesgo del estimador de razón B ( Rˆ ) E ( Rˆ ) R
e) Encuentre el sesgo mediante la expresión: B ( Rˆ ) Cov( Rˆ , x ) X

Ejercicio 5.24
(1 f ) 1 (1 f ) 1
En el ejercicio anterior encuentre B( Rˆ ) R.S x2 S xy R.S x2 xy .S x .S y . Opine
n X2 n X2
Ejercicio 5.25
Demuestre que el sesgo del estimador de razón puede expresarse aproximadamente por:

(1 f ) Sy
B ( Rˆ )
2
CV ( x) . R xy .
n Sx

Ejercicio 5.26
En el ejercicio 5.22. Encuentre con base en todas las muestras halladas los valores de:

B( Rˆ )
y CV (x ) , ¿puede considerarse el sesgo del estimador de razón despreciable?, opine.

374
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ejercicio 5.27
Se tiene una población de tamaño N 500 unidades en la cual se analiza las variables X e Y con el propósito de estimar la
razón: R Y / X . Se sabe que el coeficiente de variación para la variable auxiliar tiene un valor de CV ( x) 0.38 . ¿De
cuánto puede ser el tamaño de muestra para que el sesgo que se cometa con la estimación de R , pueda considerarse
despreciable.

Ejercicio 5.28
Utilizando las expresiones aproximada para el sesgo del estimador de razón B(Rˆ ) y del sesgo para el estimador del total
por razón separada B (YˆRS ) muestre que:

B (YˆRS ) N h B ( Rˆ h )
L
h 1

Ejercicio 5.29
Con base en la expresión:

N h2 .(1 f h )
L
V (YˆRC ) V (YˆRS ) . ( R Rh ) 2 .S xh2 2.( Rh R).(S xyh Rh .S xh2 )
h 1 nh
ˆ ˆ
Encuentre la expresión para V (YRC ) V (YRS )

Ejercicio 5.30
La siguiente información corresponde a una muestra de tamaño 100 con asignación proporcional

Estrato xhi y hi x hi2 y hi2 x hi y hi nh Nh


1 805,531 966,47608 16875,7067 24462,8215 20267,2925 40 4000
2 2986,3923 3596,43724 150769,154 218756,775 181442,246 60 60000

a) Estime la razón R Y X utilizando estimador de razón separada y combinada


b) Estime la varianza en cada caso
c) Estime V (YˆRC ) V (YˆRS ) .

Ejercicio 5.31
Con la información del ejercicio anterior, estime B(Rˆ ) en cada caso. ¿Cuál de los dos estimadores presenta un sesgo
menor.

Ejercicio 5.32
¿Qué tamaño de muestra con asignación óptima se requiere para estimar la razón por el método de razón separara y
combinada si se dispone de un presupuesto C y un costo por estrato C h ?. Deduzca las expresiones resultantes.

Nota
L
C C0 h 1
C h nh

375
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ejercicio 5.33
Con los datos del ejercicio 5.29. Encuentre el tamaño de muestra requerido para la estimación de la razón R Y X
utilizando razón separada y razón combinada. Asuma valores adecuados para C , C1 y C2 .

Ejercicio 5.34
Se tiene la siguiente población integrada por N 5 unidades estadísticas con los siguientes valores para las variables X e Y.

Variable X
2 2,3 3 4
6 *
Variable Y

8 *
9 * *
12 *
15 *

a) Encuentre todas las muestras de tamaño 4


( N 1)n
b) Para cada muestra determine el estimador de razón definido por (Hartley-Ross): Rˆ r ( y r .x ) ; donde
(n 1) NX
1 yi
n
r
n xi
i 1

c) Encuentre E (Rˆ ) y V (Rˆ ) directamente

1 (1 f ) ( yi Rxi )
d) Encuentre V ( Rˆ ) , comente.
X2 n N 1
Ejercicio 5.35
Si la unidad de análisis es el salón de clase de la Facultad de Ingeniería y se desea comparar la proporción de estudiantes de
sexo masculino que practican preferiblemente baloncesto con la proporción de estudiantes de sexo masculino que practican
preferiblemente fútbol.
Sea:

Y2 : Número de estudiantes de sexo masculino que practican baloncesto preferiblemente,


Y1 : Número de estudiantes de sexo masculino que practican futbol preferiblemente,
X : Número de estudiantes de sexo masculino.

Y2 Y1
Escriba el estimador para R2 R1 y el estimador de V ( R2 R1 ) . Razones con igual denominador.
X
Ejercicio 5.36
La siguiente información corresponde a una muestra piloto de 50 granjas en las cuales se midieron las variables:

X : Cantidad de arboles de mango encontrados en febrero de 2000.


Y : Cantidad de árboles de mango encontrados en febrero de 2010.

376
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

La muestra corresponde a 500 granjas productoras de mango la cuales fueron censadas en 2000 encontrando un total de
11784 árboles de mango en el estrato I y 38725 en el estrato II.

xi yi xi2 yi2 xi y i n N
ES-I 1566 1722 124422 144595 136844 20 151
ES-II 3300 3609 367864 440989 402201 30 349

a) Estime la cantidad de árboles de mango en 500 granjas en el año 2010 utilizando estimadores de razón separada. Estime
su varianza.
b) Estime la cantidad de árboles de mango en 500 granjas en el año 2010 utilizando estimadores de razón combinada.
Estime su varianza.

377
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ejercicio 5.37
Se ha tomado una muestra grande con el propósito de estimar Y para una variable Y. De la muestra se ha obtenido la
siguiente información:

Al usar un muestreo aleatorio simple (expansión) y estimadores de razón utilizando la variable auxiliar X. ¿Qué relación
ˆ
existe con alta probabilidad entre V (Y ) y V (YR ) ?
ˆ

200

150
Xˆ 101,22
Yˆ 111,50 100
Y

Sˆ2
x 407,47 50
Sˆ 2
y 534,98
ˆ xy 0
0.93
0 50 100 150 200
X

Ejercicio 5.38
Utilizando la información del ejercicio 5.35 como una muestra piloto
a) Estime el tamaño de muestra que se requiere para estimar el promedio de árboles de mango por granja utilizando
estimadores de razón separada para satisfacer una varianza igual al 0.9 de la varianza obtenida en el literal a). Use
asignación igual, proporcional y de Neyman.
b) Estime el tamaño de muestra que se requiere para estimar el promedio de árboles de mango por granja utilizando
estimadores de razón combinada para satisfacer una varianza igual al 0.9 de la varianza obtenida en el literal b). Uses
asignación proporcional y de Neyman.
Recuerde que: V (Yˆ ) N 2V (Yˆ ) .

Ejercicio 5.39
La siguiente gráfica muestra el comportamiento de las variables X e Y altamente correlacionadas para las unidades de una
población de tamaño N. Si se desea realizar la estimación de la media poblacional Y explique el tipo de muestreo que
implementaría y por qué.

Comportamiento de Y=f(x)
30
Variable Y

20
10
0
0 10 20 30 40
Variable X

378
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Ejercicio 5.40
La siguiente información corresponde a una muestra de n 180 unidades para las variables X e Y de una población de
tamaño N=2000 dividida en tres estratos. En un estudio censal muy reciente X 1 40000.84 ; X 2 38200.37 y
X 3 90050 .80 .

xi yi xi2 yi2 xi y i n N
Estr-I 3500,616 8655,7496 213873,366 1324710,28 525313,83 60 666
Estr-II 3162,64 7659,0624 250642,014 1472428,58 607023,39 40 445
Estr-III 7825,224 18159,9272 773084,664 4220238,49 1788883,69 80 889

a) Estime por el método de razón separada el promedio poblacional Y


b) Si se decide censar el estrato II encontrando: Y2 402000.53 ¿Cuál es el nuevo valor para la estimación de Y ?, ¿Cuál es
ahora la estimación de su varianza?

Ejercicio 5.41
La siguiente información corresponde a una muestra de 25 viviendas tomada en un barrio de la ciudad ABC conformado por
4000 viviendas. En cada una de las viviendas se ha preguntado el número de residentes y el ingreso total mensual en salarios
mínimos en la vivienda.

Nº de Ingreso Nº de Ingreso
Vivienda Vivienda
residentes total residentes Total
1 8 12,3 14 9 14,1
2 10 19,8 15 7 12,3
3 4 23,3 16 7 11,1
4 5 9,4 17 4 10,4
5 6 8,9 18 5 13,6
6 6 10,4 19 3 9,8
7 7 11,2 20 3 10,1
8 5 12,0 21 4 10,7
9 8 8,2 22 3 8,9
10 3 9,3 23 2 6,2
11 2 6,8 24 4 10,8
12 6 15,7 25 4 11,9
13 5 10,7

a) Estimar el ingreso medio por persona en el barrio y establezca el límite superior de dicha estimación al 95% de confianza.
b) Si la información de la tabla corresponde a una muestra piloto; determine el tamaño de muestra para estimar el ingreso
medio por persona con un límite de error de 0,3 salarios mínimos y un nivel de confianza del 95%.

Ejercicio 5.42
La siguiente información corresponde al ejercicio 3.35 (capítulo3) en el cual para el pueblo ABC se da una tabla conteniendo
para una muestra de 12 manzanas escogidas aleatoriamente la siguiente información por manzana:
X: Número de viviendas
Y: Número de personas que habitan en las viviendas de dicha manzana

379
 
CAPÍTULO 5. ESTIMADORES DE RAZÓN
 
 

Manzana Manzana Manzana


X Y X Y X Y
Nº Nº Nº
01 38 164 37 42 160 76 50 155
13 30 64 43 60 300 82 38 160
16 50 210 67 45 131
20 50 175 68 45 104
34 40 160 70 45 164

Se sabe que el total de viviendas en el pueblo es de 3650.

a) Estime el total de personas que habitan en el pueblo ABC utilizando estimadores de razón.
b) Utilice la información de la tabla como una muestra piloto y establezca un nivel de confianza y un error de estimación
adecuados para determinar el tamaño de muestra que se requiere para estimar el número de personas por manzana
utilizando estimadores de razón.

380
 
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

 
 
ESTIMADORES DE REGRESIÓN

 
 
 
 
Introducción.
Forma del estimador de regresión lineal.
Procedimiento para el uso de los estimadores de regresión.
El estimador de regresión con b conocido (preasignado).
La media poblacional y su estimador de regresión con b conocido (preasignado b b0 ).
El total poblacional y su estimador de regresión con b conocido.
Propiedades relacionadas con el estimador de la media y del total poblacionales para la variable Y, usando la
regresión lineal.
Estimadores de la media y el total para la variable y, utilizando el método de regresión con b desconocido.
Propiedades relacionadas con el estimador de la media y del total poblacionales para la variable Y, usando la
regresión lineal con b estimado.
ˆ ˆ ˆ
Comparaciones de las varianzas: V (Y ) , V (YR ) y V (YRE ) , bajo el supuesto de muestras grandes.
Tamaño de muestra para la estimación de la media poblacional y la estimación del total para la variable y, mediante el
uso del modelo de regresión simple en el MAS.
Estimación de regresión en el muestreo estratificado.
Estimación separada para la media y el total poblacionales de la variable Y .
Propiedades del estimador de la media y del total poblaciones por el método de regresión separada con b pre
asignado para la variable Y.
Estimación combinada para la media y el total poblacionales de la variable Y .
Propiedades del estimador de la media y del total poblacionales por el método de regresión combinada con b pre
asignado.
ˆ ˆ
Comparación de la V (YRES ) MIN y V (Y REC ) MIN .
Tamaño de muestra para el uso de los estimadores de regresión separada y combinada en el MAE.
Ejercicios.

381
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

6.1 INTRODUCCIÓN

Para los estimadores indirectos de razón, tratados en el capítulo anterior se estudió que este método tiene su aplicabilidad
cuando la variable investigada y la variable auxiliar están altamente correlacionadas siendo el comportamiento entre ellas el
de una recta que pasa por el origen ( y K . x ).

El análisis de regresión es una técnica estadística para investigar y modelar la relación entre variables. Son muchas las
aplicaciones de la regresión, y las hay en cualquier campo. De hecho, puede ser que el análisis de regresión sea la técnica
estadística más usada (Montgomery et al., 2004). En este capítulo se mostrará el uso de el modelo de regresión para obtener
mejores estimadores para parámetros poblacionales de interés gracias al conocimiento de la posible relación lineal entre la
variable objeto de estudio y una variable auxiliar altamente correlacionada con ésta.

En la práctica quizás sea más frecuente encontrar una relación entre las variables X e Y de la forma y a b . x , siendo
esta relación la base para los estimadores de regresión. En este sencillo modelo, como se sabe los parámetros a y b serán
determinados buscando la recta que mejor se ajusta a los puntos (xi , yi ) correspondientes a las unidades estadísticas
muestreadas. Ver figura 6.1.

La recta y a b . x , tiene por pendiente:


Sen ( ) (Y y)
b Tan ( ) .
Cos ( ) (X x)

De esta expresión se obtiene:

(Y y) b.(X x)

Y como puede verse en la gráfica para alcanzar el valor de Y se puede entonces utilizar la aproximación:

Yˆ y b.( X x)
y a b. x

Y
b.( X x) (Y y)
y
a (X x)

x X
Figura 6.1. La función f (x) y a bx; base de los estimadores de regresión.

382
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

6.2 FORMA DEL ESTIMADOR DE REGRESIÓN LINEAL

Sea:

Y : La variable investigada
X : La variable auxiliar (altamente correlacionada con Y, mediante un modelo de la forma y a b.x )

Aplicando el modelo anterior para la muestra y la población respectivamente, se tiene:

Muestra  Población 

n n N N
yi b. xi yi b. xi
i 1 n.a i 1 i 1 N .a i 1

n n n N N N

y a b.x (1) Y a b.X ( 2)

Restando de la expresión (2), de la expresión (1)

Y y b.( X x ), Y y b.( X x)

El estimador de la media poblacional por el método de regresión para la variable Y, será de acuerdo con lo anterior:

YˆRE y b.( X x)

Cuando:

b 0

El estimador de regresión es igual al estimador directo de la media poblacional (media muestral), esto es:

YˆRE y.

Igualmente, cuando:

383
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

b Rˆ y
x
El estimador de regresión es igual al estimador de razón, antes visto.

Un poco en detalle, esta situación es:

y
YˆRE y b.( X x) y .( X x) y Rˆ. X y Rˆ.X
x

6.3 PROCEDIMIENTO PARA EL USO DE LOS ESTIMADORES DE REGRESIÓN.

1. Seleccione un marco de muestreo adecuado,


2. Seleccione la característica que servirá de variable auxiliar ( X ),
3. Cerciórese de que exista alta correlación entre X e Y. La relación entre X e Y no debe pasar por el origen, esto es la
ausencia de la característica X (variable auxiliar) implica la ausencia de la característica investigada Y,
4. Determine el tamaño de muestra n ,
5. Mida para cada unidad estadística muestral las características X e Y.

6.4 EL ESTIMADOR DE REGRESIÓN CON b CONOCIDO (PREASIGNADO), b b0


A continuación se estudia el estimador de regresión cuando se conoce el valor de la pendiente o coeficiente de la variable auxiliar
X.

6.4.1 La media poblacional y su estimador de regresión con b conocido (pre asignado) esto es b b0

PARÁMETRO ESTIMADOR

N
yi
Y i 1 YˆRE y b0 .( X x) (6.1)
N

6.4.2 El total poblacional y su estimador de regresión con b conocido

PARÁMETRO ESTIMADOR
(6.2)

N
Y yi YˆRE N .YˆRE
i 1

384
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

6.4.3 Propiedades relacionadas con el estimador de la media y del total poblacionales para la variable Y, usando la
regresión lineal.

Las principales propiedades del estimador de la media y del total poblacionales para la variable Yson:

Propiedad 6.1: Insesgamiento del estimador de la media poblacional.


 
El estimador de la media población basado en una regresión lineal con b0 preasignado, es un estimador insesgado.

E (YˆRE ) E y b0 ( X x) E ( y ) b0 .E ( X x) Y b0 .( X X) Y

Nota:
En forma análoga para el estimador del total:

E (YˆRE ) E ( N .YˆRE ) N .E (YˆRE ) N .Y Y

Ejemplo 6.1
Considerando la población U conformada por 7 unidades estadísticas con los siguientes valores para las características X
e Y.

Unidad U1 U2 U4
U3 U5 U6 U7
X 1 2 2 3 2 4 0
Y 5/4 8/4 9/4 10/4 8/4 14/4 2/4

Calcule los parámetros poblacionales Y , X y B para el modelo de regresión y A B.x .

S xy 29
Y 2, X 2, B 2
S x 40

Generando todas las posibles muestras de tamaño n 5 y aplicando en cada una el estimador definido por
29
YˆRE y B.( X x) y .(2 x) , se tiene la siguiente información correspondiente a 21 muestras:
40

U1 U2 U3 U4 U5
1 5/4 2 8/4 2 9/4 3 10/4 2 8/4
U1 U2 U3 U4 U6
1 5/4 2 8/4 2 9/4 3 10/4 4 14/4
U1 U2 U3 U4 U7
1 5/4 2 8/4 2 9/4 3 10/4 0 2/4

385
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

U1 U2 U3 U5 U6
1 5/4 2 8/4 2 9/4 2 8/4 4 14/4
U1 U2 U3 U5 U7
1 5/4 2 8/4 2 9/4 2 8/4 0 2/4
U1 U2 U3 U6 U7
1 5/4 2 8/4 2 9/4 4 14/4 0 2/4
U1 U2 U4 U5 U6
1 5/4 2 8/4 3 10/4 2 8/4 4 14/4
U1 U2 U4 U5 U7
1 5/4 2 8/4 3 10/4 2 8/4 0 2/4
U1 U2 U4 U6 U7
1 5/4 2 8/4 3 10/4 4 14/4 0 2/4
U1 U2 U5 U6 U7
1 5/4 2 8/4 2 8/4 4 14/4 0 2/4
U1 U3 U4 U5 U6
1 5/4 2 9/4 3 10/4 2 8/4 4 14/4
U1 U3 U4 U5 U7
1 5/4 2 9/4 3 10/4 2 8/4 0 2/4

U1 U3 U4 U6 U7
1 5/4 2 9/4 3 10/4 4 14/4 0 2/4
U1 U3 U5 U6 U7
1 5/4 2 9/4 2 8/4 4 14/4 0 2/4
U1 U4 U5 U6 U7
1 5/4 3 10/4 2 8/4 4 14/4 0 2/4
U2 U3 U4 U5 U6
2 8/4 2 9/4 3 10/4 2 8/4 4 14/4
U2 U3 U4 U5 U7
2 8/4 2 9/4 3 10/4 2 8/4 0 2/4
U2 U3 U4 U6 U7
2 8/4 2 9/4 3 10/4 4 14/4 0 2/4
U2 U3 U5 U6 U7
2 8/4 2 9/4 2 8/4 4 14/4 0 2/4
U2 U4 U5 U6 U7
2 8/4 3 10/4 2 8/4 4 14/4 0 2/4
U3 U4 U5 U6 U7
2 9/4 3 10/4 2 8/4 4 14/4 0 2/4

Con base en las muestras anteriores se escribe la distribución probabilística del estimador de Y por el método de regresión.

Distribuciones Probabilísticas
Muestra x y YˆRE Muestra x y YˆRE
1 10/5 40/20 400/200 12 8/5 34/20 398/200
2 12/5 46/20 402/200 13 10/5 40/20 400/200

386
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

3 8/5 34/20 398/200 14 9/5 38/20 409/200


4 11/5 44/20 411/200 15 10/5 39/20 390/200
5 7/5 32/20 407/200 16 13/5 49/20 403/200
6 9/5 38/20 409/200 17 9/5 37/20 399/200
7 12/5 45/20 392/200 18 11/5 43/20 401/200
8 8/5 33/20 388/200 19 10/5 41/20 410/200
9 10/5 39/20 390/200 20 11/5 42/20 391/200
10 9/5 37/20 399/200 21 11/5 43/20 401/200
11 12/5 46/20 402/200

Al calcular el valor esperado de la variable aleatoria YˆRE , se tiene:

1 21 ˆ 1 8400
E(YˆRE ) . YREi . 2 Y
21 i 1 21 200

Propiedad 6.2: La varianza para el estimador de la media por el método de regresión


 
La varianza del estimador de la media poblacional utilizando el modelo de regresión lineal con b0 preasignado, viene dada
por:

(1 f)
V (YˆRE ) . S y2 2 .b0 .S yx b02 .S x2 (6.3)
n

Si para cada unidad poblacional el valor de la variable Y, se puede expresar por el modelo:

yREi yi b0 .( X xi )

Al aplicar dicho modelo a una muestra de tamaño n , se tiene:

yRE y b0 .(X x)

Al considerar todas las posibles muestras de tamaño n , la varianza de la media muestral, vendrá expresada por:

N N
2
( y REi Y ) 2 yi b0 .( X xi ) Y
(1 f ) 2 (1 f ) i (1 f ) i
V (YˆRE ) .S yRE . 1
. 1

n n N 1 n N 1

N
2
( yi Y ) b0 .( xi X)
(1 f)
V (YˆRE ) .i 1
n N 1
387
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

(1 f) N
( yi Y ) 2 N
( yi Y ).( xi X) N
( xi X ) 2
V (YˆRE ) 2.b0 b02 .
n i 1 N 1 i 1 N 1 i 1 N 1

(1 f)
S y2 2.b0 S yx b02 .S x2
n

Nota
En forma análoga, la varianza para el estimador del total por el método de regresión viene dado por:

V (YˆRE ) N 2 .V (YˆRE ) . (6.4)

Ejemplo 6.2
Para la distribución de YˆRE obtenida en el ejemplo 6.1 encuentre la varianza de YˆRE

Solución//
Directamente se tiene:
1 21 ˆ 1 (950)
V (YˆRE ) (YREi Y ) 2 . 0.0011309523
21 i 1 21 (200) 2

Aplicando la expresión dada en la propiedad 6.2 se tiene:

N
1 1 534 43
S Y2 yi2 N .Y 2 7.(2) 2
N 1 i 1 6 16 48
N
2 1 1 5
S X xi2 N .X 2 38 7.(2) 2
N 1 i 1 6 3

N
1 29
S XY xi . y i N . X .Y
N 1 i 1 24

Finalmente:

(1 f)
V (YˆRE ) S y2 2.b0 S yx b02 .S x2
n
5
1 2
7 43 29 29 29 5 190
2. . . 0.0011309523
5 48 40 24 40 3 168000

388
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Propiedad 6.3: (forma alterna de la expresión de la varianza para el estimador de la media poblacional con b
preasignado
La varianza para la media poblacional de la variable Y, por el método de regresión con b preasignado viene dada por:

V (YˆRE ) V ( y ) 2.b0 .Cov ( y , x ) b02 .V ( x ) (6.5)

V (YˆRE ) V ( y ) 2.b0 .Cov ( y , x ) b02 .V ( x )

(1 f) (1 f) (1 f) (1 f)
V (YˆRE ) S y2 2.b0 S yx b02 .S x2 .S y2 2.b0 . S yx b02 . .S x2
n n n n
V ( y ) 2b0 .Cov ( y , x ) b02 .V ( x )

Propiedad 6.4: Estimadores de la varianza para el estimador de la media con b preasignado

Los estimadores para la varianza del estimador de la media y la varianza para el estimador del total por el método de
regresión lineal con b preasignado son respectivamente:

(1 f)
Vˆ (YˆRE ) v (YˆRE ) . s y2 2 .b0 .s yx b02 .s x2 (6.6)
n

Y para el estimador del total:

Vˆ (YˆRE ) v(YˆRE ) N 2 .v(YˆRE ) (6.7)

Ejemplo 6.3
Un pequeño agricultor realiza una estimación ocular del número X de los frutos de cada árbol en un huerto de 300 árboles. El
encuentra que la cantidad total de frutos en el huerto es de X 18000 unidades. La cantidad de frutos en una muestra de
20 árboles es cosechada encontrándose los siguientes resultados:

X : Número de frutos por inspección ocular

Y: Número real de frutos.


20 20 20 20 20
xi 1161; yi 1131 ; xi2 68537 ; yi2 65281y xi . yi 66756
i 1 i 1 i 1 i 1 i 1

389
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Encuentre el estimador del total de frutos para los 300 árboles utilizando estimadores de regresión con B b0 0.9 .
Encuentre una estimación para el error absoluto con el 95% de confianza.

Solución//

Para el estimador del total de frutos en el huerto:

1131 18000 1161


YˆRE y b0 .( X x) (0.9). 58.05
20 300 20

YˆRE N .YˆRE 300.(58.05) 17415

Para estimar el error se calcula primero los siguientes indicadores con los datos muestrales:

n n
1 1
SˆY2 yi2 n.Yˆ 2 69.63 ; Sˆ X2 xi2 n. Xˆ 2 60.05
n 1 i 1 n 1 i 1

n
1
Sˆ XY xi . y i n. Xˆ .Yˆ 57.97
n 1 i 1

Por lo tanto:

N 2 .Vˆ (YˆRE )
(1 f)
Vˆ (YˆRE ) . s y2 2 .b0 .s yx b02 .s x2 0 .64981 y Vˆ (YˆRE ) 58482.9
n

Finalmente para el error:

Z . Vˆ (YˆRE ) 473.99
2

Que viene representando el 3.28% del valor estimando del total de frutos en el huerto.
La correlación estimada entre las variables involucradas es:

Sˆ XY
ˆ XY 0 .896
Sˆ .Sˆ
X Y

Propiedad 6.5: El,valor de b que minimiza la varianza para el estimador de la media poblacional

El valor de b que minimiza la varianza del estimador de la media poblacional para la variable Yes:

390
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

N
( yi Y ).(xi X ) N
( yi Y ).(xi X)
S yx i 1 N 1 i 1
b0 B (6.8)
S x2 N
( xi X ) 2 N
( xi X )2
i 1 N 1 i 1

En detalle esta propiedad se presenta a continuación

2
(1 f) (1 f) S yx S yx
V (YˆRE ) S 2
y 2.b0 S yx 2
b .S
0
2
x S 2
y 2. 2
.S yx 2
.S x2
n n S x S x

2 2 2
(1 f) 2
S yx S yx (1 f) 2
S yx
S y 2. S y
n Sx Sx n Sx

Multiplicando por:

S y2
S y2

2 2 2
(1 f ) 2 S yx (1 f ) 2 S yx S y2 (1 f ) 2 S yx
V (YˆRE ) Sy Sy . .S y . 1
n Sx n Sx S y2 n S y .S x

Y finalmente:

(1 f)
V (YˆRE ) .S y2 . 1 2
yx
(6.9)
n

Apoyándose en el cálculo diferencial se puede verificar fácilmente la condición de varianza mínima de V (YˆRE ) , en esta
situación particular del valor de b . Para ello se trabaja sobre la función (b0 ) , definida a continuación.

(1 f)
(b0 ) . S y2 2b0 .S yx b02 .S x2
n

391
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

/ (1 f) S yx
(b 0 ) . 2b0 .S x2 2 .S yx 0 b0
n S x2

Y para la segunda derivada de (b0 ) :

// (1 f)
(b0 ) . 2.S x2 0
n

Luego la función:

(b 0 ) V (YˆRE )

Tiene un mínimo, cuando:

S yx
b0 .
S x2

S yx
¿Cuál es el incremento en la varianza del estimador de la media, con respecto a la varianza mínima, cuando b0 ?
S x2

(1 f)
V (YˆRE ) MIN .S y2 . 1 2
yx
n

Haciendo:

S yx
b0 (B d ) , donde B
S x2

Se tiene:

(1 f) (1 f)
V (YˆRE ) . S y2 2 .b0 .S yx b02 .S x2 . S y2 2 .( B d ).S yx (B d ) 2 .S x2
n n

Desarrollando los paréntesis, se tiene:

(1 f)
V (YˆRE ) . S y2 2.B.S yx 2 d .S yx B 2 .S x2 2 .B.d .S x2 d 2 .S x2
n

392
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Reemplazando B y simplificando:

(1 f ) S yx2 (1 f ) S yx2 (1 f ) 2 2
V (YˆRE ) . S y2 2
d .S2 2
x . S y2 2
.d .S x
n S x n S x n
(1 f ) 2 2 (1 f ) 2 2
.S y . 1 . yx .d .S x
n n
V (YˆRE ) MIN

(1 f)
.d 2 .S x2
(1 f)
V (YˆRE ) V (YˆRE ) MIN 2
.d .S 2
x V (YˆRE ) MIN . 1 n
n (1 f)
.S y2 .(1 2
yx )
n

d 2 .S x2
V (YˆRE ) MIN . 1 2
S y .(1 yx
INCREMENTO

Note que cuando d 0 , entonces, b0 B y en este caso V (YˆRE ) V (YˆRE ) MIN .


Ahora:

2
S yx
2 2 2
.S x2
d .S2 2
x (b0 B ) .S 2
B 2
x
2
b0 B 2
B .S 2
x b0 S x
2 2 2 2
. 2 . 2 2
1 . 2 2
S .(1
y yx ) S y (1 yx ) B B S .(1
y yx ) B S .(1
y yx )

2 2 2 2
d 2 .S x2 b0 S yx 1 b0 yx
1 . 2 2. 1 .
S y2 .(1 yx 2
) B S y .S x (1 yx2 ) B (1 2
yx )

Siendo ésta última, la expresión del incremento de la varianza debido al alejamiento de b0 , respecto de B , esto es cuando
b0 (B d ) .

Ejemplo 6.4
Encuentre la varianza del estimador de la media poblacional por el método de regresión, utilizando la expresión dada en la
propiedad 6.5

393
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Solución//

Para la población presentada en dicho ejercicio se tienen los siguientes parámetros:

29 43 S XY
B ; S Y2 ; XY 0.98891791
40 48 S X .SY

Por lo tanto:

(1 f)
V (YˆRE ) MIN .S Y2 . 1 2
XY 0 .0011309524
n

6.5 ESTIMADORES DE LA MEDIA Y EL TOTAL PARA LA VARIABLE Y, UTILIZANDO EL MÉTODO


DE REGRESIÓN CON B DESCONOCIDO.

A continuación se presentan los estimadores para las parámetros tratados en al apartado 6.4 y sus propiedades cuando no se
conoce el valor de B.

6.5.1 Propiedades relacionadas con el estimador de la media y del total poblacionales para la variable Y, usando la
regresión lineal con b estimado

Cuando no se conoce el valor de b en el modelo de regresión lineal y a b. x , se estima por el método de mínimos
cuadrados obteniéndose:

n
( yi y ).( xi x) n 1
s yx
bˆ i 1
n
(6.10)
2 s x2
( xi x) n 1
i 1

Propiedad 6.6: Expresión aproximada para la varianza del estimador de la media en muestras grandes cuando se
estima el coeficiente b en los estimadores de regresión

s yx
En muestras grandes si b se estima por bˆ 2
, una expresión aproximada para la varianza de YˆRE es:
s x

(1 f)
V (YˆRE ) .S y2 . 1 2
yx
(6.11)
n

394
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Propiedad 6.7: Estimador de la varianza para el estimador de la media válido para muestras grandes (forma alterna)

Una estimación de V (YˆRE ) de acuerdo con Cochran (página 248), válida para muestras grandes cuando b es desconocido,
viene dada por:

(1 f ) n
Vˆ (YˆRE ) v(Yˆ )
2
. ( yi y) bˆ.(xi x) (6.12)
n.(n 2) i 1

En la cual desarrollando el cuadrado y reemplazando b̂ , se tiene:

n 2

n
( yi y ).( xi x)
(1 f )
Vˆ (YˆRE ) v(Yˆ ) . ( yi y) 2 i 1
n
n.(n 2) i 1
( xi x)2
i 1

2 2
(1 f ) ( n 1).s yx (1 f ).( n 1) s yx s y2
Vˆ (YˆRE ) v (Yˆ ) ( n 1).s y2 2. . s y2 .
n.( n 2) ( n 1).s x2 n.( n 2) s x2 s y2

2
(1 f ).(n 1) 2 s yx 1 (1 f ).(n 1) 2
Vˆ (YˆRE ) v(Yˆ ) .s y . 1 2
. 2 .s y . 1 ˆ yx2 (6.13)
n.(n 2) sx s y n.(n 2)

Nota

Análogamente para el estimador de la varianza del estimador del total, se tiene:

Vˆ (YˆRE ) v(YˆRE ) N 2 .Vˆ (YˆRE ) . (6.14)

Propiedad 6.8: Expresión del sesgo para el estimador de la media poblaciónal por el método de regresión con b
desconocido

Cuando se usa un b desconocido en el modelo de regresión y a b. x , el estimador de la media poblacional para la


variable Ypor el método de regresión, será sesgado. La expresión para dicho sesgo se obtiene de la siguiente manera:

Sea:

YˆRE y Bˆ .( X x)

395
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Entonces el valor esperado de YˆRE será:

E (YˆRE ) Y E Bˆ . X Bˆ . x Y X .E ( Bˆ ) E ( Bˆ . x ) Y E ( Bˆ . x ) X .E ( Bˆ )

E (YˆRE ) Y E ( Bˆ .x ) E ( x ).E ( Bˆ ) Y Cov( Bˆ , x )

Y finalmente:

E (YˆRE ) Y Cov( Bˆ , x ) E (YˆRE Y) Sesgo(YˆRE ) Cov( Bˆ , x )

Para encontrar la expresión aproximada para el sesgo del estimador de la media poblacional por el método de regresión, se
procede de la siguiente manera:

Como se vio antes

YˆRE y Bˆ .( X x) y Bˆ .( x X)

Sacando valor esperado a ambos lados de la expresión anterior.

E (YˆRE ) E ( y ) E Bˆ .( x X) Y E Bˆ .( x X)

E (YˆRE ) Y Sesgo(YˆRE ) E Bˆ .( x X)

Por otro lado

n n
( yi y ).( x i x) n n
y i .( x i x)
1
Bˆ i 1
n n
. y i .( x i x) y. ( xi x) i 1
n
2 2
( xi x) ( xi x) i 1 i 1
( xi x)2
i 1 i 1 i 1

Ahora, los valores reales de la variable Y, al aplicar el modelo, tendrán la siguiente estructura:

yi Y B.(xi X) ei

Reemplazando este valor en el estimador de B , se tiene:

396
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

n n n
Y B.( xi X) ei .( x i x) Y B.( xi X ) .( x i x) ei .( xi x)
Bˆ i 1
n
i 1
n
i 1
n
( xi x)2 ( xi x)2 ( xi x)2
i 1 i 1 i 1

Pero el primer término del miembro de la derecha en la expresión anterior es igual a B al asumir x X , ya que

n n n
Y. ( xi x) B. ( xi X ).( x i x) ( xi x)2
i 1 i 1 i 1
n
B. n
B
2 2
( xi x) ( xi x)
i 1 i 1

De acuerdo con lo anterior el estimador de B , puede escribirse de la siguiente manera:


n
ei .( x i x)
Bˆ B i 1
n
( xi x)2
i 1

Multiplicando la expresión anterior por ( x X ) , se tiene:


n
ei .( xi x ).( x X)
Bˆ .( x X) B.( x X) i 1
n
( xi x)2
i 1

Sacando valor esperado a ambos lados:

n n
e i .( x i x ).( x X) ei .( x i x ).( x X)
E Bˆ .( x X) B.E ( x X) E i 1
n
E i 1
n
(1)
( xi x)2 ( xi x)2
i 1 i 1

Pero:

n n n n
ei .(xi x) ei .xi x. ei ei .xi x.n.e
i 1 i 1 i 1 i 1

397
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Sumando y restando n.e . X :

n n n n
ei .( xi x) ei x i n.e X ne X nx e ei x i X. ei ne . X x
i 1 i 1 i 1 i 1
n
ei . x i X ne . X x
i 1

Multiplicando a ambos lados de la expresión anterior por x X :

n n
2
ei .(xi x ). x X ei . xi X.x X ne. x X
i 1 i 1

Reemplazando en la expresión (1) anterior, se tiene:

n
ei .( x i X ).( x X) 2
e. x X
E Bˆ .( x X) E i 1
n
n.E n
(2)
2 2
( xi x) ( xi x)
i 1 i 1

n
( xi x)2
Pero, se sabe que la cuasivarianza muestral para X viene dada por s2 i 1
y en virtud de su insesgamiento, se
n 1
puede escribir:

n
E ( xi x)2 (n 1).S x2 .
i 1

Y asignando a:

n
(xi x) 2
i 1
El valor promedio, se tiene para la expresión (2)

n
ei .( x i X ).( x X) 2
e. x X
E Bˆ .( x X) E i 1
n.E
( n 1).S x2 ( n 1).S x2

398
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Como el segundo término del miembro de la derecha, se hace pequeño, cuando las muestras son grandes, el término que
contribuye verdaderamente al sesgo es el primero de dicho miembro, por esta razón se puede escribir:

n
1
E Bˆ .( x X) E ei . xi X .x X
(n 1).S x2 i 1

Por lo tanto:

n
1
Sesgo(YˆRE ) E Bˆ . x X .E ei . x i X .x X (3)
(n 1).S x2 i 1

De otro lado, el error e i , puede expresarse como:

ei yi Y B. xi X

Y por lo tanto se tiene que:

N N N N
2
ei . x i X yi Y B. x i X . xi X yi Y . xi X B. xi X
i 1 i 1 i 1 i 1
N

N
yi Y . xi X N
i 1 2
yi Y . xi X N
. xi X 0
i 1 2 i 1
xi X
i 1

De acuerdo con lo anterior la variable:

ui ei . xi X

Tiene promedio poblacional U 0 y por lo tanto se puede escribir:

n
n. ei . x i X
i 1
E ei . x i X .x X E .x X n.E u U . x X
i 1 n

N
ui U . xi X
(1 f ).S ux i 1
n.Cov(u , x ) n. (1 f ).
n N 1

399
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Finalmente:

N
2
n
ei . x i X
i 1
E ei . x i X .x X (1 f ). (4)
i 1 N 1

Reemplazando la expresión (4) en la (3), se tiene:

n
1
Sesgo(YˆRE ) E Bˆ . x X .E ei . x i X .x X
(n 1).S x2 i 1
(5)
N
1 (1 f ) 2
2
. ei . x i X
( n 1).S x ( N 1) i 1

De la expresión yi Y B.(xi X) ei , se puede deducir que:

ei ( yi Y ) B.(xi X)

Y reemplazando en (5) se obtiene una expresión aproximada del sesgo como:

N
1 (1 f )
Sesgo(YˆRE )
2
2
. ( yi Y ) B.( xi X ) . xi X (6.15)
(n 1).S x ( N 1) i 1

Ejemplo 6.5
Considerando una población pequeña por facilidad. Hallar el sesgo del estimador de regresión para Y , generando todas las
posibles muestras aleatorias.

Información poblacional

X 0 1 2 2 3 xi 8 xi2 18 N 5

Y 1 3 4 4 7 yi 19 yi2 91 xi . yi 40

De la tabla anterior se pueden encontrar los siguientes indicadores poblacionales:

13 12 47 S XY
S X2 ; S XY ; S Y2 . Por lo tanto XY 0.971
10 5 10 S X .SY

Generando todas las posibles muestras de tamaño n 4 , se confecciona la siguiente tabla:

400
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Muestra Muestra
U1 U2 U3 U4 4 U1 U3 U4 U5
1 0 1 1 3 2 4 2 4 0 1 2 4 2 4 3 7
2 U1 U2 U3 U5 5 U2 U3 U4 U5
0 1 1 3 2 4 3 7 1 3 2 4 2 4 3 7
3 U1 U2 U4 U5
0 1 1 3 2 4 3 7

De la tabla anterior se genera la siguiente tabla auxiliar:

Muestra xi xi2 yi yi2 xi . y i SˆX2 SˆY2 Ŝ XY B̂


1 5 9 12 42 19 11/12 2 4/3 16/11
2 6 14 15 75 32 5/3 75/12 19/6 19/10
3 6 14 15 75 32 5/3 75/12 19/6 19/10
4 7 17 16 82 37 19/12 6 3 36/19
5 8 18 18 90 40 2/3 3 4/3 2

Con los datos de la tabla anterior se confeccionan las distribuciones probabilísticas de los estimadores: YˆRE y Bˆ.(X x) .
Es decir:

YˆRE y Bˆ.( X x) Bˆ.(X x)


772/220 28/55
788/200 19/100
788/200 19/100
1412/380 -27/95
74/20 -4/5
Total 786044/209000 -4078/20900

De la tabla anterior se calcula:

1 K ˆ 786044
E(YˆRE ) . YREi 3.760976077
K i1 209000

Por lo tanto el sesgo del estimador de Y por el método de regresión será:

786044 19 8156
Sesgo (YˆRE ) E (YˆRE ) Y 0 .039023923
209000 5 209000

Por otro lado aplicando la propiedad 6.8 se tiene:

401
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

1 4078 4078
Sesgo(YˆRE ) E Bˆ .( X x) . 0.039023923
5 20900 104500

Para saber si este sesgo es o no insignificante para la estimación de Y se realiza el siguiente cálculo:

B (YˆRE ) 0 .039023923
0 .23 10 % ;
V (Yˆ ) 0 .163282072
RE

2
ECM (YˆRE ) V (YˆRE ) B (Yˆ ) 0 . 028183901 0 .026661035 0 . 0015228665

Dejando ver que el sesgo es altamente significativo en la estimación de Y

De acuerdo con la expresión para el sesgo de YˆRE analizada en la propiedad 6.8, se puede afirmar lo siguiente:

El sesgo disminuye cuando n sea grande o lo que es lo mismo la fracción de muestreo f n aumenta.
N
La correlación entre X e Y se acerca a 1.
2
La cuasivarianza Sx, es grande.
N
2
No habrá sesgo cuando ei xi X 0 , vale decir el modelo es perfectamente lineal.
i 1

Ejemplo 6.6
Basándose en la propiedad 6.8 encuentre una expresión para el estimador del sesgo en la estimación de la media por el
método de regresión con B estimado.

Solución//

Si en
2
(1 f ) N ( y i Y) B .( x i X ) . x i X (1 f )
Sesgo (YˆRE ) . .S **
( n 1).S x2 i 1 N 1 n 1 .S X2

Se asume como estimador de S ** la expresión:

YˆRE ) Bˆ .( x i X ) . x i
2
n
( yi X
Sˆ **
i 1 n 1
Entonces el estimador del sesgo en la estimación de Y puede darse por:

402
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

(1 f ) ˆ
Bˆ (YˆRE ) .S** (6.16)
n 1 .Sˆ 2 X

6.6 COMPARACIONES DE LAS VARIANZAS: V (Yˆ ) , V (YˆR ) Y V (YˆRE ) , BAJO EL SUPUESTO DE


MUESTRAS GRANDES.

Al analizar en el MAS el estimador de la media poblacional para la variable Y, se tiene para los métodos básicos, las
siguientes expresiones de varianzas. Ver tabla 6.1.

Método Varianza.
N n 2
Expansión simple V (Yˆ ) .S y
N.n
N n
Estimadores de razón V (YˆR ) . S y2 R 2 .S x2 2.R. yx .S x .S y
N.n
N n 2 S yx
Estimadores de Regresión V (YˆRE ) .S y .(1 2
yx ), yx
N .n S x .S y
Tabla 6.1. Varianzas para expansión simple, razón y regresión en muestras grandes.

Teniendo en cuenta la tabla anterior, se analizan las siguientes situaciones:

Si yx 0 V (Yˆ ) V (YˆRE ) ,
Pero se sabe que:
1< yx <1
Y por lo tanto:
0< 2
yx < 1,

Luego:

V (YˆRE ) < V (Yˆ )

Véase ¿Cuándo V (YˆRE ) < V (YˆR ) ?

( N n) 2 ( N n)
.S y .(1 2
yx )< . S y2 R 2 .S x2 2 .R . yx .S x .S y
N .n N .n

.S y2 .(1 2
yx ) < S y2 R 2 .S x2 2.R. yx .S x .S y

403
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

S y2 . 2
yx 2.R. yx .S x .S y R 2 .S x2 , de donde .S y2 . 2
yx 2.R. yx .S x .S y R 2 .S x2 0

Obteniendo de esta última expresión la siguiente desigualdad:

(S y . yx R.S x ) 2 0 (1)
De otro lado:

S yx S yx Sx S yx
Sy. yx Sy. . .S x .B.S x (2)
S x .S y Sx Sx S x2

Reemplazando la expresión (2) en la (1):

(S y . yx R.S x ) 2 (S x .B R.S x ) 2 S x2 .(B R) 2 0 ( B R) 2 0

El resultado anterior, permite concluir lo siguiente:

Si R B
ˆ
V (YRE ) V (YR ) , ˆ
Lo cual ocurre cuando la relación entre las variables Y e X, es una recta que pasa por el origen.

N N
yi
Y y
yi a b.x i ; a 0, i yi b. xi b i 1
N
R , Rˆ
i 1 i 1 X x
xi
i 1

Si R B V (YˆRE ) < V (YˆR ) .

6.7 TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA MEDIA POBLACIONAL Y LA


ESTIMACIÓN DEL TOTAL PARA LA VARIABLE Y, MEDIANTE EL USO DEL MODELO DE
REGRESIÓN SIMPLE EN EL MAS.

Como se analizó antes, la varianza para el estimador de la media poblacional para la variable Y, cuando se utiliza el modelo
de regresión lineal simple con b pre asignado, viene dada por:

(1 f) (1 f)
V (YˆRE ) . S y2 2 .b0 .S yx b02 .S x2 .S *2
n n

Considerando la primera aproximación, tenemos:

404
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

.S*2
V (YˆRE ) (1)
n0

Por otro lado al considerar la varianza deseada para un error de muestreo M


y un nivel de confianza del (1 )% , el cual
determina un valor Z , se tiene:
2

V (YˆRE ) V0 M
(2)
Z
2

Igualando las expresiones (1) y (2) anteriores:

S *2 S *2 Z 2 .S *2
n0 2
(3)
V (YˆRE )
2 2
M
M

Z
2

En donde:

S*2 se estima en forma adelantada


Para la estimación del total con un nivel de confianza (1 )% y un error de muestreo T
, se realiza en la expresión (3), el
siguiente cambio:

1
V (YˆRE ) 2
. T
N Z
2

Obteniendo:

S *2 N 2 .Z 2 .S*2
n0 2 2
2
(6.18)
1 T
T

2
N Z
2

Finalmente realizamos el ajuste siguiendo la siguiente regla:

405
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

n0
n0 , si < 5%
N
n (6.19)
n0 n0
, si 5%
n0 N
1
N
Ahora, si la muestra es grande y el coeficiente de regresión debe estimarse, entonces recuerde que la varianza de YˆRE , viene
dada por:

(1 f)
V (YˆRE ) .S y2 (1 2
yx )
n

En estas condiciones, la primera aproximación dados un error de muestreo y un nivel de confianza para la estimación de Y
será:

(1 2
).S y2 (1 2
).S y2 Z 2 .(1 2
yx
).S y2
yx yx
n0 2
(6.20)
V (YˆRE )
2 2
M
M

Z
2

En forma análoga para el estimador del total:

N 2 .Z 2 .(1 2
yx
).S y2
n0 2
2
(6.21)
T

Ejemplo 6.7
Un examen de matemáticas realizado a 486 estudiantes de primer año universitario arrojó como puntuación promedio 52
preguntas buenas en un total de 100. Posteriormente los mismos estudiantes reciben explicaciones de Calculo I durante un
semestre. Para una muestra de 10 estudiantes se coteja el resultado en el examen de matemáticas con el resultado en Cálculo I
(número de preguntas buenas sobre 100), obteniendo los siguientes indicadores:

Sˆ X2 274.89 ; SˆY2 228.44 ; Bˆ 0 . 77

406
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Si se desea estimar la puntuación promedio en el examen de Cálculo para los 486 estudiantes mediante un estimador de
regresión con una muestra suficientemente grande, ¿Cuál debe ser el tamaño de dicha muestra para realizar tal estimación
con un nivel de confianza del 95% y un error absoluto igual a 3 preguntas.

Solución//

De los datos de la muestra preliminar de tamaño 10 se tiene:

Sˆ XY Sˆ XY
Bˆ Sˆ XY 211 .66 ; ˆ XY 0.84
Sˆ 2
X Sˆ .Sˆ
X Y
Por lo tanto:

(1 2
ˆ XY ). Sˆ Y2 81 .55
n0 81 .55 n 69 .83 70
2
2
81 .55
1
1 .96 486

Debe tomarse una muestra de 70 estudiantes

Ejemplo 6.8
Una muestre de 40 empresas de una pequeña zona industrial compuesta por 200 empresas presentó los siguientes indicadores
respecto de las variables:

X : Número de empleados; Y: Consumo semanal de energía (Kw/h)

ˆ XY 0 . 61342611 ; Sˆ X 73,314657; SˆY 122.017437; Xˆ 65.7750; Yˆ 122.01744

Encuentre el estimador del total de energía semanal consumida por las 200 empresas y un intervalo de confianza al 95% de
seguridad utilizando estimadores de regresión. El número total de empleados en las 200 empresas es de 20000.

Solución//

ˆ XY .Sˆ Y
Bˆ 1 . 020923848 ; YˆRE N y Bˆ ( X x) 31391.71
Sˆ X

(1 f ).(n 1) ˆ 2
Vˆ (YˆRE ) 2
.SY . 1 ˆ XY 190.605927; Vˆ (YˆRE ) N. Vˆ (YˆRE ) 2761.2021
n.(n 2)

Por lo tanto el intervalo de confianza para el total de energía semanal consumida por las 200 empresas será:

407
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Y 95%
YˆRE Z1 . Vˆ (YˆRE ) (25979.75Kw / h; 36803.67 Kw / h)
2

6.8 ESTIMACIÓN DE REGRESIÓN EN EL MUESTREO ESTRATIFICADO.

Se consideran en el MAE, el estimador de regresión separada y el estimador de regresión combinada.

6.8.1 Estimación separada para la media y el total poblacionales de la variable Y.

Los estimadores para la media y el total poblacionales utilizando el método de regresión separada con b preasignado para la
variable Y, son respectivamente:

PARÁMETRO ESTIMADOR

N (6.22)
yi L

i 1 YˆRES y RES W h .YˆREh


Y h 1
N

PARÁMETRO ESTIMADOR (6.23)

N
Y yi YˆRES N .YˆRES
i 1

En el estimador anterior:

YˆREh yh bh .( X h xh )

Es la estimación de la media poblacional en el estrato h siguiendo el modelo de regresión lineal simple. En éste caso, de
acuerdo con el coeficiente de regresión b , puede suceder que éste sea conocido (preasignado) ó que deba estimarse para cada
estrato.

6.8.2 Propiedades del estimador de la media y del total poblaciones por el método de regresión separada con b
preasignado para la variable Y.

Las propiedades básicas de los estimadores referidos en éste caso son:

408
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Propiedad 6.9: Insesgamiento del estimador de la media por el método de regresión separada con b preasignado
ˆ
El estimador YRES , es un estimador insesgado.

L L L
E (YˆRES ) E Wh .YˆREh Wh .E (YˆREh ) Wh .Yh Y
h 1 h 1 h 1

Propiedad 6.10: Expresión para la varianza del estimador de la media población utilizando regresión con b
preasignado
ˆ
La varianza YRES con b perasignado viene dada por:

L L L
(1 fh )
V (YˆRES ) V Wh .YˆREh Wh2 .V ( y REh ) Wh2 . 2
S yh 2.bh .S yxh bh2 .S xh2 (6.24)
h 1 h 1 h 1 nh

Propiedad 6.11: Estimador de la varianza para el estimador de la media poblacional utilizando regresión separada
con b preasignado

El estimador de la varianza del estimador YRES , cuando


ˆ bh está preasignado para cada estrato h, viene dada por:

L
(1 f h ) ˆ 2
Vˆ (YˆRES ) Wh2 S yh 2bh .Sˆ yxh bh2 .Sˆ xh2 (6.25)
h 1 nh

Propiedad 6.12: Varianza mínima para el estimador de la media por el método de regresión separada con b pre
asignado
ˆ
La varianza anterior, V (Y RES ) se minimiza cuando se minimice para cada estrato V (Y REh ) , lo cual ocurre, cuando en cada
ˆ
estrato se toma:

S yxh
bh Bh
S xh2

La expresión mínima que se obtendría en éste caso será:

L L
(1 fh )
V (YˆRES ) MIN Wh2 .V (YˆREh ) MIN Wh2 . 2
.S yh .(1 2
yxh ) (6.26)
h 1 h 1 nh

409
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

2 2
L
(1 f h ) S yxh L
(1 f h ) S yxh
V (YˆRES ) MIN Wh2 . 2
. S yh 2
S .
yh W . h
2 2
. S yh
h 1 nh S xh .S yh h 1 nh S xh2

S yxh
Pero como Bh , entonces:
S xh2

L
(1 f h ) 2
V (YˆRES ) MIN Wh2 . . S yh Bh .S yxh (4)
h 1 nh

Y por otro lado:

2 2
S yxh S S yxh
Bh .S yxh 2
.S yxh . xh 4
.S xh2 Bh2 .S xh2
S xh S xh S xh

Finalmente reemplazando en la expresión (4) esta última igualdad:

L
(1 f h ) 2
V (YˆRES ) MIN Wh2 . . S yh Bh2 .S xh2
h 1 nh
Nota
Cuando en el método de regresión lineal se tenga que estimar el coeficiente b en cada estrato, el estimador de la media
ˆ
poblacional YRES , será sesgado y para la expresión de la varianza con muestras grandes en cada estrato, se utiliza:

L L
(1 f h ) 2
V (YˆRES ) W .V (YˆREh )
h
2
Wh2 . .S yh .(1 2
yxh ) (6.27)
h 1 h 1 nh

Para la cual un estimador viene dado por:

nh
L L
(1 f h )
Vˆ (YˆRES ) v (YˆRES ) W h2 .v (YˆREh )
2
W h2 ( y hi y h ) bˆh .( x hi xh ) (6.28)
h 1 h 1 n h .( n h 2) i 1

Donde:
nh
( y hi y h ).( x hi xh ) nh 1
bˆh i 1
nh
( x hi xh ) 2 nh 1
i 1

410
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Propiedad 6.13: Expresión aproximada para el sesgo del estimador de la media poblacional utilizando regresión
separada con b estimado.

Una expresión aproximada para el sesgo del estimador de regresión separada de la media poblacional puede hallarse
apoyándose en la propiedad 6.8 antes vista para el modelo de regresión separada en el MAS.

Para más detalle en la obtención se tiene:

L
YˆRES Wh .YˆREh , donde YˆREh yh bˆh .( X h xh )
h 1

Luego:

L L L
YˆRES Wh . yh bˆh .( X h xh ) Wh . yh Wh (bˆh .xh bˆh .X h )
h 1 h 1 h 1

L
YˆRES YˆES Wh (bˆh .xh bˆh .X h )
h 1

Sacando valor esperado:

E YˆRES E YˆES Wh (bˆh .xh bˆh .X h ) Y Wh .E bˆh .xh E bˆh .E xh

Luego:

L L
E YˆRES Y Sesgo(YˆRES ) Wh .E bˆh .xh E bˆh .E xh Wh .Cov(bˆh , xh )
h 1 h 1

Si se aplica el resultado de la propiedad 6.8 al estrato h, se tiene:

1 (1 f h ) L
Sesgo(YˆREh ) 2
. . ( y hi y h ) Bh .( xhi X h ) .( xhi X h )2
( nh 1).S Xh ( N h 1) h 1

Por lo tanto se puede escribir el sesgo aproximado para YRES como:


ˆ

L
Sesgo(YˆRES ) Wh .Sesgo(YˆREh ) (6.29)
h 1

411
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Nota
El estimador de la varianza para ŶRES , vendrá dado por

Vˆ (YˆRES ) N 2 .Vˆ (YˆRES ) . (6.30)

Nota
En forma análoga se pueden expresar las propiedades de ŶRES , con b preasignado, teniendo en cuenta las propiedades del
valor esperado y la varianza de una variable aleatoria.

Ejemplo 6.9
La siguiente información corresponde a una muestra de predios agropecuarios cuya actividad principal es la ganadería. En
ellos se han analizado las variables X : Tamaño (acres); Y: Número de cabezas de ganado.

Estrato I: 10 X 60
Xˆ 39.4475 Yˆ 79.05
N1 800 xi 4733.7 yi 9486
X1 33000
xi2 203594.31 yi2 815448
n 120
Sˆ X 11.9035618 SˆY 23.4753044
xi . yi 407402.5; ˆ XY 0.99850199

Estrato II: 61 X 100


Xˆ 83.73 Yˆ 250.19
N2 600 xi 8373 yi 25019
X2 54000
xi2 716289.44 yi2 6400167
n 100
Sˆ X 12.398334 SˆY 37.6940622
xi . yi 2139458.5; ˆ XY 0.96435076

Estrato III X 100


Xˆ 281.02375 Yˆ 1648.125
N3 400 xi 22481.9 yi 131850
X 3 120000 xi2 6947869.37 yi2 244616462
n 80
Sˆ X 89.2955217 SˆY 587.972065
xi . yi 40711232.4; ˆ XY 0.88198263

412
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Estime el promedio de cabezas de ganado y su varianza utilizando estimadores de regresión separada.

Solución//

1.96917 82.5994
ˆ XYh. S Yh
bˆh 2.93187 YˆREh yh bˆh .( X h xh ) 268.5728
S Xh
5.80747 1758.3290

Por lo tanto el promedio de cabezas de ganado en las 1800 fincas es de:

3
YˆRES Wh .YˆREh 516.97
h 1
Para la varianza se tiene:

nh
L
(1 f h )
Vˆ (YˆRES )
2
W h2 ( y hi yh ) bˆh .( x hi xh )
h 1 n h .( n h 2 ) i 1

nh
2
( y hi y h ) bˆh .( x hi xh )
i 1
nh nh nh
( y hi yh ) 2 2bˆh . ( y hi y h ).( x hi x h ) bˆh2 . ( x hi xh ) 2
h 1 i 1 h 1

Pero:
nh
( y hi y h ).( x hi xh ) nh 1
bˆh i 1
nh
( y hi y ).( x hi x) bˆh . ( x hi xh ) 2
( x hi xh ) 2 nh 1
i 1

Reemplazando:

nh nh nh
( y hi yh ) 2 2bˆh . ( y hi y h ).( xhi xh ) bˆh2 . ( xhi xh ) 2
h 1 i 1 h 1
nh nh nh
( y hi yh ) 2 2bˆh2 . ( xhi xh ) 2 bˆh2 . ( xhi xh ) 2 (nh 1).SˆYh2 bˆh2 .(nh 1).Sˆ Xh
2

i 1 i 1 i 1

Por lo tanto:

413
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

L
(1 f h )
Vˆ (YˆRES ) W h2 (n h 1).Sˆ Yh2 bˆh2 .( n h 1).Sˆ Xh
2

h 1 n h .( n h 2 )

Se calcula primero:

0.01178586
(1 f h ).(nh 1) ˆ 2 ˆ 2 ˆ 2 3
S*h (.S Yh bh .S Xh 0.837608698 Vˆ (YˆRES ) Wh2 .S*h 38.499964
nh .(nh 2) h 1
777.692508

6.8.3 Estimación combinada para la media y el total poblacionales de la variable Y.

PARÁMETRO (6.31)
ESTIMADOR

N
yi
i 1 YˆREC y REC y ES b.( X x ES )
Y
N

PARÁMETRO ESTIMADOR (6.32)

N
Y yi YˆREC NYˆREC
i 1

En las definiciones anteriores del estimador de la media y del total poblacionales para la variable Y, por el método de razón
combinada, yES , y xES , son respectivamente iguales a:
L L
y ES Wh . yh , xES Wh .xh
h 1 h 1

En éste caso al igual que el estimador de regresión separada se presentan diferencias si b es preasignado ó estimado.

6.8.4 Propiedades del estimador de la media y del total poblacionales por el método de regresión combinada con b
preasignado.

Las propiedades básicas para los estimadores referidos son:

Propiedad 6.14: Insesgamiento del estimador de la media poblacional usando regresión con b preasignado

El estimador de la media poblacional por el método de regresión combinada es un estimador insesgado.

414
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

E (YˆREC ) E y ES b.( X x ES ) E ( y ES ) b.E ( X x ES ) E ( y ES ) b. X E ( x ES )

Pero como se sabe el estimador de la media muestral en el MAE es un estimador insesgado, luego:

E (YˆREC ) Y b. X X Y

Propiedad 6.15: varianza del estimador de la media poblacional cuando se usa regresión con b preasignado

ˆ
La varianza del estimador YREC , viene dada por:

L
(1 f h ) 2
V (YˆREC ) Wh2 . . S yh b 2 .S xh2 2.b.S yxh (6.33)
h 1 nh
En detalle la expresión anterior es:

V (YˆREC ) V y ES b.( X x ES ) V ( y ES ) b 2 .V ( X x ES ) 2.Cov y ES , b.( X x ES )


Nota
Recuerde las siguientes propiedades:

V (K x) V ( x ); Cov ( y , K x) Cov ( y , x ); Cov ( y , K . x ) K .Cov ( y , x ) ,

Donde K es constante

Luego:

V (YˆREC ) V ( y ES ) b 2 .V ( x ES ) 2.b.Cov ( y ES , x ES ) (5)

Nota
En el MAE la varianza de los estimadores de las medias poblacionales para las variables Y y X, vienen dadas
respectivamente por:

L
(1 f h ) 2 L
(1 f h ) 2
V ( y ES ) Wh2 . .S yh y V ( x ES ) Wh2 . .S xh
h 1 nh h 1 nh

Por otro lado, la covarianza de estos estimadores viene dada por:


L L L
Cov( y ES , x ES ) Cov Wh . y h , Wh .xh Cov Wh . y h , Wh .xh
h 1 h 1 h 1

415
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

L L L
(1 f h )
Cov( y ES , x ES ) Wh .Wh .Cov( y h , xh ) Wh2 .Cov( y h , xh ) Wh2 . .S yxh
h 1 h 1 h 1 nh

Reemplazando éste último resultado en la expresión (5), se tiene:

L
(1 f h ) 2 L
(1 f h ) 2 L
(1 f h )
V (YˆREC ) Wh2 . .S yh b2. Wh2 . .S xh 2b. Wh2 . .S yxh
h 1 nh h 1 nh h 01 nh
L
(1 f h )
V (YˆREC ) Wh2 . 2
. S yh b 2 .S xh2 2b.S yxh
h 1 nh

Propiedad 6.16: Estimador de la varianza para la estimación de la media poblacional cuando se usa regresión con b
preasignado

ˆ
El estimador de la varianza para YREC , cuando b es preasignado, viene dado por:

L
(1 f h ) ˆ 2
Vˆ (YˆREC ) Wh2 . . S yh b 2 .Sˆ xh2 2.b.Sˆ yxh (6.34)
h 1 nh

Propiedad 6.17: El valor de B que minimiza la varianza del estimador de la media poblacional

El valor de b que minimiza la varianza V (Y REC ) es:


ˆ

L
(1 fh )
Wh2 . .S yxh
h 1 nh
b BC (6.35)
L
2 (1 fh ) 2
W . h .S xh
h 1 nh

Y la varianza que se obtiene es:

L
(1 fh )
V (YˆREC ) Wh2 . 2
. S yh BC2 .S xh2 (6.36)
h 1 nh

En detalle puede verse esta propiedad considerando la siguiente función de b :

416
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

L
(1 f h ) 2
(b) Wh2 . . S yh b 2 .S xh2 2.b.S yxh
h 1 nh

Derivando e igualando a cero y despejando b , se tiene el valor dado antes para b . Además, se observa que la segunda

derivada de la función
ˆ
(b ) es siempre positiva, lo que dice entonces que la V (Y REC ) se hace mínima en dicho valor. Para
obtener la varianza mínima se reemplaza el valor b en la expresión de la varianza dada en la propiedad 6.15, obteniéndose
después de simplificar:

2
L
2 (1 fh )
W h .S yxh
L
(1 fh ) nh
V (YˆREC ) MIN 2 2 h 1
W . h .S yh
(6.37)
nh L
(1 f h ) 2
h 1
W h2 .S xh
h 1 nh

Pero expresándola en función de BC , se tiene:

L
(1 fh ) L
(1 fh ) L
(1 fh )
V (YˆREC ) MIN W h2 . 2
.S yh BC . W h2 . .S yxh W h2 . 2
. S yh B C .S yxh
h 1 nh h 1 nh h 1 nh

También se puede llegar a una expresión alterna de la siguiente forma:

2
L
2 (1 fh ) L
(1 fh )
W h .S yxh W h2 .S xh2
L
(1 fh ) nh nh
V (YˆREC ) MIN
h 1 h 1
W h2 . 2
.S yh .
nh L
(1 f h ) 2 L
(1 fh )
h 1
W h2 .S xh W h2 . .S xh2
h 1 nh h 1 nh
2
L
2 (1 fh )
W . h .S yxh
L
(1 fh ) nh L
(1 fh )
V (YˆREC ) MIN W .
h
2
.S 2
yh
h 1
Wh2 . .S xh2
nh L
(1 fh ) nh
h 1
Wh2 .S xh2 h 1

h 1 nh

L
(1 fh ) L
(1 fh ) L
(1 fh )
V (YˆREC ) MIN W h2 . 2
.S yh B C2 . W h2 . .S xh2 W h2 . 2
. S yh B C2 .S xh2
h 1 nh h 1 nh h 1 nh

Nota

417
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

En forma análoga se pueden expresar las propiedades de ŶREC, con b preasignado, teniendo en cuenta las propiedades del
valor esperado y la varianza de una variable aleatoria.

Propiedad 6.18: Estimador para el valor de BC

Cuando no se sabe el valor de b se estima por:

L
(1 fh )
W h2 . .s yxh
nh
bˆC h 1
(6.38)
L
2 (1 fh ) 2
W .h .s xh
h 1 nh

Y la varianza estimada vendrá dada por:

L
(1 f h ) 2
Vˆ (YˆREC ) Wh2 . . s yh 2.bˆC .s yxh bˆC2 .s xh
2
(6.39)
h 1 nh

ˆ
En este caso el estimador YREC es un estimador sesgado

Para obtener su sesgo se realiza:

YˆREC y ES bˆC .( X x ES ) YˆREC y ES bˆC .( x ES X)

Y sacando valor esperado se tiene:

E YˆREC y ES E bˆC .( x ES X) E bˆC .x ES E (bˆC ).E ( x ES ) Cov (bˆC , x ES ) (6.40)

Nota
En forma análoga para el estimador de la varianza para el estimador del total por el método de regresión combinado, cuando
no se conoce b , el estimador de la varianza será:

Vˆ (YˆREC ) N 2Vˆ (YˆREC )

Ejemplo 6.10
Resolver el ejemplo 6.9 utilizando estimadores de regresión combinada.

Solución//

418
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

De los datos del ejercicio anterior, al utilizar el MAE:

3
N h .X h 3
Nh X 1 3
207000
X . h Xh 115
h 1 N h 1 N Nh N h 1 1800

La estimación del coeficiente de regresión será:

L
(1 fh )
W h2 . .s yxh 3
nh 23 .6753407
bˆC h 1
5.53393223 ; y ES Wh . y h 484.78
L
2 (1 fh ) 2 4.27821298 h 1
W .h .s xh
h 1 nh
3
xES Wh .xh 107.8919444
h 1

Por lo tanto la media poblacional estimada será:

YˆREC y ES bˆc .( X x es ) 524 .115498

Para la varianza estimada:

1802.240402
Sˆ*2h SˆYh2 2.bˆc .Sˆ XYh bˆc2 .Sˆ Xh
2
1140.28597
77381.36077
3
Wh2 .(1 f h ) ˆ 2
V (YˆREC ) .S *h 41.79049124
h 1 nh

Al comparar los resultados obtenidos en el ejemplo 6.9 y 6.10 se observa que el estimador más preciso resulta ser el estimador que
usa el método de regresión separada ya que:

Vˆ (YˆRES ) 38.499964 < Vˆ (YˆREC ) 41.79049124

ˆ
6.9 COMPARACIÓN DE LA V (YRES ) MIN Y V (Y REC ) MIN .
ˆ

En apartes anteriores se vio que:

419
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

L
(1 f h ) 2
V (YˆRES ) MIN Wh2 . . S yh Bh2 .S xh2 (6)
h 1 nh

L
(1 f h ) 2
V (YˆREC ) MIN Wh2 . . S yh BC2 .S xh2 (7)
h 1 nh

Restando de la expresión (2), la expresión (1):

L
(1 f h ) 2
V (YˆREC ) MIN V (YˆRES ) MIN Wh2 . . Bh BC2 .S xh2 (8)
h 1 nh

Desarrollando ahora la siguiente expresión:

L
(1 fh )
Wh2 . .S xh2 .( Bh BC ) 2
h 1 nh
(9)
L
2 (1 fh ) 2 2
L
2 (1 fh ) 2
L
2 (1 fh ) 2 2
W .
h .S .B xh h 2. W . h .Bh .BC .S xh W .
h .S .B
xh C
h 1 nh h 1 nh h 1 nh

L
(1 f h ) 2
Multiplicando y dividiendo el segundo término del miembro de la derecha por Wh2 . .S xh , y reemplazando
h 1 nh
S yxh
Bh :
S xh2

L
(1 f h ) 2
Wh2 . .S xh
L
(1 f h ) 2 S nh
2. Wh2 . .S xh .BC . yxh h 1
. L
nh S xh2 (1 f h ) 2
h 1
Wh2 . .S xh
h 1 nh
L
(1 f h )
Wh2 .S yxh L L
nh (1 f h ) 2
2 2 (1 f h ) 2
h 1
2.BC . L . W .h .S xh 2.B . C Wh2 . .S xh
2 (1 fh ) 2 nh nh
Wh . .S xh h 1 h 1

h 1 nh

Reemplazando en la expresión (9):

420
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

L
(1 fh )
W h2 . .S xh2 .( B h BC ) 2
h 1 nh
L
(1 fh ) L
(1 fh ) L
(1 fh )
W h2 . .S xh2 .B h2 2.BC2 . W h2 . .S xh2 BC2 . W h2 . .S xh2 .
h 1 nh h 1 nh h 1 nh

L
(1 fh )
W h2 . .S xh2 .( B h BC ) 2
h 1 nh
(10)
L
2 (1 fh ) 2 2 2
L
2 (1 fh ) 2
L
2 (1 fh ) 2 2 2
W .h .S .B
xh h B . C W . h .S xh W . h .S . B
xh h B C
h 1 nh h 1 nh h 1 nh

De la expresión (8) y (10), finalmente:

2
L
(1 fh ) L
(1 fh )
V (YˆREC ) MIN V (YˆRES ) MIN W .
h
2
.B 2
h B .S 2
C
2
xh W . h
2 2
.S . Bh
xh BC
h 1 nh h 1 nh

De tal manera que:

V (YˆREC ) MIN V (YˆRES ) MIN 0

Y por lo tanto:

V (YˆREC ) MIN V (YˆRES ) MIN

ˆ ˆ
Lo que dice que el estimador YRES es más preciso que el estimador YREC , siendo indiferente el uso de uno u otro, cuando el

coeficiente de regresión en cada estrato es constante e igual a BC , en cuyo caso V (YˆREC ) MIN V (YˆRES ) MIN .

Nota
La estimación de regresión separada es útil, cuando se cree que los verdaderos coeficientes de regresión Bh varían
entre estratos cuando el comportamiento entre las dos variables es lineal en todos los estratos o se sospecha que siguen
tal comportamiento.
La estimación de regresión combinada es útil cuando se sospecha que los verdaderos Bh , son parecidos entre los
estratos y que las regresiones en los estratos sean lineales.

Nota
Si no hay linealidad (Cocrhan, 1980) en las regresiones de los estratos probablemente será mejor el estimador combinado a
no ser que las muestras sean suficientemente grandes en todos los estratos investigados.

421
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

6.10 TAMAÑO DE MUESTRA PARA EL USO DE LOS ESTIMADORES DE REGRESIÓN SEPARADA Y


COMBINADA EN EL MAE.

Existen dos situaciones para el estimador de la media poblacional en el MAE al usar regresión separada:

Los coeficientes Bh son preasignados en cada estrato, de tal manera que al suponerlos conocidos e iguales a bh :

L
(1 f h ) 2 L
(1 f h ) 2
V (YˆRES ) Wh2 . . S yh 2bh .S yxh bh2 .S xh2 Wh2 . .S*h
h 1 nh h 1 nh

De acuerdo con lo anterior y con apoyo en el MAE, se puede escribir para una asignación por estrato igual a (wh ) :

Wh2 .S*2h
L

h 1 ( wh )
n (6.41)
1 L
V (YˆRES ) Wh S*2h
Nh1
Aquí, tal y como se sabe:

V (YˆRES ) V0 M

Z
2

Y, S *h2 debe ser estimado para cada estrato en forma adelantada.


S yxh
Si se asume para cada estrato Bh , se vio que la varianza para el estimador de la media poblacional viene dada
S xh2
por:

L
Wh2 .(1 f h ) 2
V (YˆRES ) .S yh (1 2
yxh )
h 1 nh

Y con base en esta expresión se puede escribir:

L Wh2 .S yh
2
(1 2
yxh )
h 1 (wh )
n L (6.42)
1
V (YˆRES ) 2
Wh S (1
yh
2
yxh )
N h 1

422
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

2
En donde S yh y yxh , deben ser estimados en forma adelantada.
Nota
1
Para estimar el total poblacional se realiza el reemplazo V (YˆRES )
2
T Z 2
en las expresiones para n antes
N2
esbozadas.

La tabla 6.2 complementa el cálculo de n dependiendo del tipo de asignación.

Ponderación por estrato (wh ) para el uso del estimador de regresión en el


MAE con bh pera signado para cada h.
Tipo de asignación bh Bh bh Bh
Igual ( wh ) 1
L
Proporcional (wh ) Wh
Wh .S *h Wh .S yh (1 2
)
( wh ) yxh
L (wh ) L
Neyman Wh .S *h 2
h 1
Wh .S yh (1 yxh )
h 1

W h .S *h Ch Wh .S yh . (1 2
) Ch
Optima ( wh ) L ( wh )
yxh
L
W h .S *h Ch 2
h 1
Wh .S yh . (1 yxh ) Ch
h 1
Tabla 6.2. Tipos de asignación en el MAE para regresión.

Nota
Siguiendo idéntico procedimiento basado en las expresiones de la varianza vistas para los estimadores mediante el uso de la
regresión combinada se pueden hallar las expresiones para n correspondientes.

Ejemplo 6.11
En una región de vocación agrícola se desea estimar la superficie total de la región dedicada al cultivo de cebada. Para ello se
han estratificado las 800 fincas que componen la región investigada en dos clases de acuerdo con su superficie total ( X ):

Estrato I (fincas con una superficie inferior o iguala a 1 Ha =10000m2) y estrato II (fincas de más de 1 Ha). Una muestra
piloto de 80 fincas arrojo los siguientes indicadores por estrato:

n
Xˆ SˆX2 Yˆ SˆY2
Estrato
Ŝ XY XY

I: 50 0.584 0.0388 0.3123 0.03935 0.02636 0.6746


II 30 2.469 0.1571 2.163 0.16114 0.1326 0.8341

423
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

X : Superficie total en hectáreas; Y : superficie sembrada de cebada en hectáreas.

¿Qué tamaño de muestra se requiere para realizar la estimación solicitada utilizando estimadores de regresión separada si la
muestra final debe repartirse proporcionalmente al número de fincas por estrato y se desea un error absoluto de muestreo de
24 hectáreas y un nivel de confianza del 95%? En la región existen 500 fincas en el estrato I y 300 del estrato II.

Solución//

Se calcula primero:

Sˆ*2h SˆYh2 2.bˆh .SˆYXh bˆh2 .Sˆ Xh


2

Para cada estrato, obteniendo:

Sˆ*21 0.02144; Sˆ*22 0.04922

Para el tamaño de muestra se utiliza la formula:

2 2
Wh .Sˆ*2h N 2. Wh .Sˆ*2h
h 1 h 1 (800) 2 .(0.03186)
n0 135.99

2 2
24
V RES T
N 1.96
Z
2

La cual después del ajuste permite obtener como muestra:

135 .99
n 116 .23
135 .99
1
800
Al repartir la muestra proporcionalmente se obtiene:
(116.23).(0.625) 73
nh n.Wh
(116.23).(0.375) 44

Lo que determina una muestra de 117 fincas.

Ejemplo 6.12
Con los datos del ejemplo anterior, ¿Cuál hubiese sido el tamaño de muestra para la misma estimación utilizando estimadores de
regresión combinada?

Solución//

424
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Se obtiene primero un estimador adelantado del coeficiente de regresión poblacional bˆC 0.7960 .
Posteriormente se encuentran los estimadores adelantados de Sˆ *2h obteniendo:

Sˆ*21 0.0219692
Sˆ*2h SˆYh2 2.bˆC .SˆYXh bˆC2 .Sˆ Xh
2

Sˆ 2
*2 0.0495818

De acuerdo con lo anterior la primera aproximación será:

2
N 2. Wh .Sˆ*2h
h 1 (800) 2 .(0.032323925) 137 .97
n0 2 2
137.97 y n 117 .67
24 137 .97
T 1
1.96 800
Z
2

Para quedar finalmente repartida en:


(117.67).(0.625) 74
nh n.Wh
(117.67).(0.375) 45
Para un total 119 fincas.

Ejemplo 6.13
¿Qué costo tendrá el trabajo de campo para la muestra establecida en el ejemplo 6.11 cuando se desea repartir dicha muestra
utilizando afijación de Neyman para los siguientes costos: Costos fijos = C0 =$800000 Costo por estrato: C1 = $ 20000 y C2=
$25000.

Solución//

De acuerdo con lo visto en el sobre muestreo estratificado se puede escribir para la asignación de Neyman

L
(C C 0 ). W h .Sˆ*h
h 1
n L
W h .Sˆ*h .C h
h 1

En donde para el caso referido:

Sˆ * h Sˆ Yh2 2 .bˆh .Sˆ YXh bˆh2 .Sˆ Xh


2
.

De acuerdo con el planteamiento anterior:

425
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

2 2
Wh .Sˆ*h 0.174710954 Wh .S*h .Ch 3910.198731
h 1 h 1

Por lo tanto:
2
n. Wh .Sˆ*h .C h
h 1
C C0 2
$3418572 .22
Wh .Sˆ*h
h 1

Ejemplo 6.14
En un municipio se plantea una investigación para estimar en N empresas industriales clasificadas en L estratos de
acuerdo con la característica X (variable auxiliar) con tamaños respectivamente iguales a N 1 , N 2 ,..... N L , la media
poblacional de la característicaY mediante el uso de estimadores de regresión. De esta manera se encontraron los tamaños
de muestra utilizando la asignación de Neyman (mínima varianza) es decir:

n.N h .S *h
nh L
(1)
N h .S *h
h 1

Finalmente la investigación no se realizó y seis meses después otro investigador utilizando la información inicial y la
disponibilidad de un costo total para trabajo de campo C , realiza un estudio preliminar que le permite conocer el costo de la

toma de información por empresa en cada estrato Ch . El desea conocer los nuevos tamaños de muestra (nh ) mediante
asignación óptima para tener el menor error posible. El asume C0 $0 ¿Cuáles serán los tamaños muestrales?

Solución//
La fórmula que permite conocer los nuevos tamaños de muestra con asignación óptima es:

N h .S *h
n.
Ch
(nh ) (2)
L
N h .S *h
h 1 Ch

Utilizando las propiedades de las proporciones se divide la expresión (2) entre la (1) obteniendo:

L L
N h .S *h N h .S *h
(nh ) 1 h 1 nh h 1
(nh ) . (3)
nh Ch
L
S *h Ch
L
S *h
Nh. Nh.
h 1 Ch h 1 Ch

426
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Para satisfacer el costo establecido C :

L L

L L
N h .S*h N h .S h
h 1 h 1 C
C C h .(nh ) nh . C h . (4)
h 1 h 1 S*h L
S*h L
Nh. Nh. nh . C h
Ch h 1 Ch h 1

Reemplazando en (3) la expresión (4), se tiene finalmente:

nh C
( nh ) . L
Ch nh . C h
h 1

EJERCICIOS

Ejercicio 6.A
a) Utilizando el archivo RAKAN encuentre el ingreso promedio familiar ING FAMI para la ciudad
b) Genere una muestra aleatoria simple de 80 viviendas y estime mediante un modelo regresión lineal los siguientes
parámetros considerando como variable auxiliar ING-FAMI.
Gasto promedio familiar en alimentos GAST ALIM.

Impuesto predial promedio IMPU PRE .

Gasto promedio total ( GAT T) ( GAST ALIM ) ( GAST SERV ) ( OTR GAST ) , GASTT .
(Incluye las variables: Gasto en alimentos, gasto en servicios y otros gastos);

Ejercicio 6.B
Resolver el ejercicio anterior utilizando estimadores de regresión mediante una muestra estratificada de tamaño 80
utilizando:
a) Asignación igual.
b) Asignación proporcional.
c) Asignación de Neyman.

En cada caso encuentre un intervalo de confianza para el parámetro correspondiente a un nivel del 95% de confianza.

Ejercicio 6.C
a) Genere mediante el paquete MINITAB una población de 2000 datos de tal manera que: X N( 20 ,5; 6,4 )
b) Mediante Excel encuentre la distribución para la variable Y de tal manera que:

427
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

y 20 1, 23 x aleatorio .entre ( 20 ; 40 )

c) Para la distribución bidimensional (x, y) formada con los datos de las variables X e Y ajuste el modelo: y a bxy x
d) Encuentre los siguientes parámetros: xy ; Sx ; Sy ; el total X ; S xy .
(1 f)
e) Para una muestra de tamaño n 120 encuentre V (Yˆlr ) S y2 2b xy S xy b xy2 S x2
n

(1 f)
f) Para el mismo tamaño de muestra asumido en e) encuentre V (Yˆlr ) S y2 (1 2
xy ) . Opine
n
g) De la población conformada en c) obtenga una muestra de tamaño n 120 y encuentre la estimación de la varianza
usando a) y b)
h) Estime con la muestra generada en el punto anterior Ylr
ˆ

i) ¿Qué tamaño de muestre se requiere para encontrar el estimador requerido en h) asumiendo 0,94 V (Yˆlr ) ? Use la
varianza encontrada en e) y f). Opine.

Ejercicio 6.1
En la comunidad ABC de la ciudad XYZ se ha tomado una muestra de 60 viviendas estudiando en cada una de ellas el
consumo de energía eléctrica (KW/h) mensual y el consto de los servicios públicos (agua + energía) (miles de pesos)
correspondiente a dicho mes. La comunidad está integrada por 1000 viviendas
X: Consumo de energía (KW/h)
Y: Consto de los servicios públicos (miles de pesos)

X Y X Y X Y X Y

20 39 40,9 33,63 110,7 102,49 245,7 196,99

56,8 74,76 100,5 95,35 220,7 185 189,6 167,2

33,8 48,66 23,9 31,73 145,8 115,8 123,9 109,7

56,9 44,83 67,8 72,46 122,8 110,9 133,9 117,1

88,3 86,81 34,8 39,36 145,7 145 125,7 109,1

56,8 44,76 44,6 56,22 233,7 167 132,8 117,96

35,8 50,06 45,7 36,99 156,8 145,7 239 192,3


45,7 76,99 55,8 64,06 110,6 99,7 255,8 199,3
66,8 71,76 45,8 77,06 111,7 110,7 245,8 187,2

77 98,9 34,8 49,36 210,7 176,8 134,8 120

78,3 79,81 22,9 51,03 145 130,6 122,9 109,2

26,8 33,76 15,8 56,06 245,8 197,06 115,8 100,5

46,8 57,76 10,8 32,56 300,7 235,49 110,8 100,3

65,3 80,71 56,8 84,76 189,8 160,1 256,8 198,6

30,6 46,42 100 100 237,9 181,7 100,6 89,7

428
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

c) Realice el diagrama de dispersión respectivo y encuentre el coeficiente de correlación lineal xy . Opine


d) Estime el costo promedio por vivienda en servicios públicos mediante un estimador de regresión. El Consumo
promedio de energía en la comuna es de 123.8 KW/h.
e) Estime la varianza para dicha estimación,
f) Si se considera la información sobre las 60 viviendas como una muestra piloto ¿Qué tamaño de muestra se requiere
para estimar el costo promedio en servicios públicos si se desea un coeficiente de variación para dicho estimador de
CV=0,01

Ejercicio 6.2
Si el ejercicio 6.1 la comuna está divida en dos estratos I y II de acuerdo con el consumo de energía eléctrica. De tal manera
que N1 =400 y N2 = 600. Las 60 viviendas se dividen en los siguientes estratos:

Información muestral
Estrato Nh nh yh Sˆ yh
2

I 400 29 59,3196552 421,278132


II 600 31 144,34 1710,07815

Información muestral
Estrato Xh xh Sˆ xh2 Ŝ yxh
I 50,2 47,79655172 480,3074877 361,7897488
II 180,1 171,703226 3617,01766 2449,63727

a) Encuentre el estimador del costo promedio de servicios públicos y su varianza usando estimadores de regresión
separada
b) Encuentre el estimador del costo promedio de servicios públicos y su varianza usando estimadores de regresión
combinada.
c) ¿Qué varianza se requiere para la estimación del literal a) si se desea una muestra de 80 viviendas?
d) ¿Con que varianza se realizará la estimación del literal b) con una muestra de 80 viviendas?

429
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

e) ¿Cuál de los dos métodos da la menor varianza compare los resultados de los literales c y d?

Ejercicio 6.3
Un país divido en 50 provincias, realizó en 1990 un censo para conocer entre otras cosas el total de personas en situación de
desempleo, el cual fue de 620800 personas. Con base en esta información se quiere estimar el total de personas desempleadas
en el 2003 y para tal efecto se tomo una muestra de 6 provincias con los siguientes resultados (miles de personas).

Provincia Xi (2003) Yi(1990) Provincia Xi (2003) Yi(1990)


A 2.2 0.9 E 15.6 10.3
B 49.3 45.4 F 9.3 6.4
C 5.2 3.1
D 27.2 7.3

a) Estime el total de personas desempleadas utilizando un estimador de regresión con b =1.5. Estime su varianza.
b) Si la muestra hubiese incluido con probabilidad 1 las siguientes provincias.

Provincia Xi (2003) Yi(1990)


G 151.6 65.1
H 66.4 53.8
I 49.7 16.8
J 176.0 94.1

¿Cuáles hubiesen sido los resultados?

c) Calcule el valor del estimador de regresión y su varianza considerando la muestra formadas por las 10 provincias dadas
(6 +4). Razone los resultados de a), b) y c) comparándolos con el valor verdadero X = 1126000.

Ejercicio 6.4
La siguiente gráfica muestra el comportamiento de la variable Y en función de la variable X. ¿Qué tipo de muestreo se debe
utilizar para estimar la media poblacional de variable Y.

160
140
120
Variable Y

100
80
60
40
20
0
0 5 10 15 20 25
Variable X

430
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Ejercicio 6.5
Se desea determinar al grado de implantación de un nuevo cultivo en una determinada comarca. Para ello, se toma una
muestra aleatoria simple de 15 fincas de entre 1850 existentes, midiendo sobre ellas la superficie total (Y) y la dedicación al
cultivo en estudio (X), ambas variables medidas en hectáreas. Dado que las fincas en la zona no son homogéneas en cuanto a
su extensión, se estratifican en función de su superficie. Se proporciona la siguiente información:

Yˆh Xˆ h SˆY2 SˆX2


Estrato Superficie Tamaño Fincas ˆ XY
muestreadas
1 0-5 Ha 1150 75 4.25 2.85 10.5 3.25 0.59
2 > 5 Ha 700 50 25.84 20.08 15.7 9.87 0.67

a) Estimar la superficie total dedicada al nuevo cultivo mediante un estimador de regresión separado utilizando como
variable auxiliar la superficie total de las fincas y sabiendo además que: Y1 4.15 Hay Y2 26.1 Ha,
respectivamente. Determine una estimación del error de la estimación de la superficie total dedicada al nuevo cultivo en
la región.
b) Justifique si es adecuado considerar o no como información auxiliar la superficie total.
c) Resuelva el punto anterior estimando los coeficientes de variación. Le parece más adecuado utilizar estos indicadores.
Opine y justifique.

Ejercicio 6.6
En una universidad privada se realizaron las pruebas de ingreso a 387 aspirantes consistentes en un examen general a nivel de
bachillerato y un examen específico en cada carrera. Teniendo en cuenta que el número de alumnas es el doble que el de
alumnos, y además las calificaciones medias en el examen de cultura general (bachillerato) fue de 45 puntos en los alumnos y
de 50 puntos en las alumnas, usando la información de la tabla resolver las siguientes preguntas:

a. Estimar la calificación media en el examen de conocimientos específicos utilizando como información auxiliar la
calificación en el examen general (bachillerato), mediante un estimador de regresión separada. Dé una estimación del
error de muestreo.
b. ¿Qué ocurre si no se tiene en cuenta el sexo?
c. ¿Qué ocurre si no se tiene en cuenta la información auxiliar y el sexo si?
d. ¿Qué ocurre si no se tiene en cuenta ni la información auxiliar ni el sexo?

Hombres Mujeres
Examen General Examen específico Examen General Examen Específico
49 65 57 82
43 78 47 79
31 52 28 83
44 82 75 88
55 59 34 46
81 57 52 65
55 74

Ejercicio 6.7
Si se considera la información suministrada en el punto 6.5) como una muestra piloto, ¿Qué tamaño de muestra será
necesario para realizar la estimación con un error relativo del 8% y un nivel de confianza del 95%? Use asignación
proporcional.

431
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Ejercicio 6.8
Si se considera la información suministrada en el punto 6.6) como una muestra piloto, ¿Qué tamaño de muestra será
necesario para realizar la estimación con un error absoluto igual al 8% del estimador piloto y un nivel de confianza del 95%?
Use asignación proporcional.

Ejercicio 6.9
Para los puntos 6.5) y 6.6) recomendaría usted realizar una estimación de regresión combinada ¿Por qué sí?, ¿por qué no? Dé
sus razones.

Ejercicio 6.10
La siguiente tabla muestra para cuatro unidades poblacionales en sus valores de las variables X e Y los siguientes datos:

Unidad estadística U1 U2 U3 U4
X 42 61 50 55
Y 70 81 73 72

a) Escriba todas las posibles muestras de tamaño n=3


b) Complete la siguiente tabla

Muestra Yˆ YˆRE B̂

c) Calcule directamente las varianzas de los estimadores planteados en la tabla anterior

d) Calcule usando todas las muestras el sesgo de YˆRE


e) Calcule el sesgo de YˆRE usando B(YˆRE ) Cov(Bˆ , Xˆ ) , comente.
Ejercicio 6.11

Demuestre que B(YˆRE ) Cov(Bˆ , Xˆ )

Ejercicio 6.12
Una población formada por dos estratos de tamaños iguales presenta la siguiente información para las variables X e Y.

Estrato I Estrato II
X1i Y1i X2i Y2i
5 3 4 4
4 3 7 5
4 2 10 6
2 1 8 6

a) Obtenga el valor de Bh para cada estrato


ˆ
b) Halle las varianzas mínimas de X RES y X̂ REC utilizando muestras de tamaño n 3

432
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

c) Usando la información del literal anterior, verifique la siguiente igualdad:

Wh2
VMIN ( Xˆ RES ) VMIN ( Xˆ REC ) 1
2 2 L
(1 f h ) S yh ( BC Bh ) ; donde B C Bh
h 1
nh L h 1

Ejercicio 6.13
El número de viviendas para una muestra de 6 comunas en los años 2006 y 20006 para determinada ciudad se muestra en la
siguiente tabla.

Número de viviendas (miles) según comuna y año


1 2 3 4 5 6
2006 2008 2006 2008 2006 2008 2006 2008 2006 2008 2006 2008
6.4 9.3 0.9 2.2 10.3 14.6 39.2 44.1 8.2 12.4 3.1 5.4

Usando estimadores de regresión estime el total de viviendas en la ciudad suponiendo b 1.4 . Según el censo realizado en
2006, el total de viviendas en la ciudad fue de 620000 para las 50 comunas en que se divide la ciudad. Estime su varianza.

Ejercicio 6.15
En determinada investigación se desea estimar pata la variable Y, su total poblacional utilizando el método de regresión y el
método de razón. Si se realiza la estimación por el método de regresión se requerirá una muestra de tamaño n RE , en tanto
que si se usa el método de razón se requerirán n R .
Si se desea que n RE nR 300 ,¿cuál debe ser el tamaño de muestra en cada caso para que las varianzas de los
estimadores sean iguales?. Ignore cpf.

Ejercicio 6.16
Para la población representada en la siguiente gráfica determine el tipo de muestreo que debe implementarse para estimar la
media de la variable Y. Justifique

23

22,5

22
Varible Y

21,5

21

20,5

20

19,5
0 10 20 Varible X 30 40 50

433
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Ejercicio 6.17
Para la información suministrad en el ejercicio 5.16 del capítulo anterior ¿qué margen de error absoluto se obtendrá si se
utilizan estimadores de regresión con el mismo nivel de confianza suponiendo b0 y utilizando el mismo tamaño de muestra?
Suma un valor adecuado para b0 de tal forma que sea razonable la realización de este ejercicio.

Ejercicio 6.18
Se realizó un examen de habilidad matemática a 500 estudiantes de la universidad del Valle que tomaron un curso de Calculo
I. se tomó una muestra de 20 de ellos y se anotaron su puntuaciones obtenidas en el curso de cálculo (X). Después se
anotaron las puntuaciones obtenidas por ellos en un examen de habilidad matemática (Y) como se muestra en la siguiente
tabla.

Est 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20
X 38 44 22 65 57 48 28 76 34 52 44 39 70 66 49 55 62 39 44 55
Y 66 77 51 83 90 88 70 98 56 74 52 44 80 77 59 55 76 60 87 74

Se sabe que la puntuación media en el examen de Cálculo I fue de 56 para los 500 estudiantes. Estime puntuación media en el

examen de habilidad matemática mediante estimadores de regresión. Determine el ee(YˆRE ) .

Ejercicio 6.19
En un municipio se desea estimar con base en una muestra de 10 empresas de 45 existentes que declaran sus ingresos a la
DIAN en el año 2009, el ingreso anual aportado por dichas empresas para el municipio. Las mismas empresas de acuerdo con
la DIAN en el año 2008 aportaron para dicho municipio 2250.8 millones de pesos. La siguiente tabla presenta los aportes
realizados por las empresas muestreadas en los años correspondientes.

Industrias/Empresas 2008 2009


Textil 14.9 30.8
Farmacéutica /Química 40.4 50.5
Maderas 22.7 33.1
Materiales Eléctricos 80.8 70.4
Automotores 33.1 30.7
Transporte/Bodegaje 55.9 58.6
Financiera 100.6 140.8
Construcción/ Ad. bienes raíces 122.7 130.7
Salud 99.7 100.3
Educación 34.8 40.2

a) Estime el ingreso total para el municipio en 2009 mediante estimadores de regresión. ¿Cuál es la varianza estimada en
este caso?
b) ¿Qué tamaño de muestra se requiere para obtener el mismo estimador con una igual al 5% menos del valor obtenido en a?

Ejercicio 6.20
El estimador de la media poblacional por el método de regresión y su varianza vienen dados respectivamente por:

434
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

(1 f)
YˆRE y b0 ( X x ) ; V (YˆRE ) ( S y2 b0 S x2 2b0 S xy )
n

y ˆ
entonces YRE y con varianza V (YˆRE ) (1 f)
a) Muestre que cuando b0 S y2 es decir el estimador de regresión
x n
es igual al estimador por expansión.

b) Muestre que cuando b0


y ˆ
, entonces YRE YˆR con varianza V (YˆRE ) V (YˆR ) es decir el estimador de regresión es
x
igual al estimador de razón.

Ejercicio 6.21

La desigualdad de Tchebycheff establece que para cualesquier variable aleatoria Yˆ la probabilidad de que el intervalo:
Yˆ V (Yˆ ) contenga al parámetro Y es como mínimo igual a 1
1
2
. Es decir:

1
P Yˆ V (Yˆ ) Y Yˆ V (Yˆ ) 1 2

Determine el tamaño de muestra para estimar la media poblacional de la variable Y por el método de razón utilizando la
desigualdad de Tchebycheff cuando se desea una probabilidad igual a p0 .

Ejercicio 6.22
Un ingeniero forestal realiza una estimación visual sobre el peso xi de las guayabas en cada árbol en una finca que contiene
N 200 árboles. El ingeniero encuentra un peso total X 12000lb. Las guayabas en una muestra aleatoria de 20 árboles
son cosechadas y pesadas, obteniéndose los siguientes resultados:

Número del árbol 1 2 3 4 5 6 7 8


Peso real: yi 53,2501  60,2248  71,1803 53,3122 45,94 61,6268  48,1485 74,8945
Peso estimado: xi 70  58  69 54 50 60  50  80
Número del árbol 9  10  11 12 13 14  16  16
Peso real: yi 77,4742  65,9014  61,9028 59,3427 51,593 59,2365  58,6519 47,185
Peso estimado: xi 66  64  53 68 54 60  65  55

Encuentre el valor de Yˆ N X ( y x ) y el valor de Vˆ (Yˆ )

Ejercicio 6.23

Encuentre para los datos del ejercicio 6.23 el valor del estimador mediante Yˆ N y b.( X x) y el valor de Vˆ (Yˆ ) .
Comente.

435
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Ejercicio 6.24
La siguiente tabla muestra las poblaciones de aves en las 49 empresas avícolas tomadas al azar de un total de 200 radicadas
en una determinada región.

En un Censo realizado en el año 2000 se encontró que la cantidad total de aves para las 200 productoras de aves fue de
X 20331. Calcule la estimación de regresión para el número total de aves en el año 2005. Encuentre un la estimación para
la varianza.

Tamaño de 49 avícolas en miles para los años 2000 (xi) y 2007 (yi)
xi yi xi yi xi yi xi yi xi yi xi yi xi yi xi yi xi yi
76 80 381 464 61 69 78 100 2 15 50 65 64 79 38 55 230 288
138 143 23 48 387 456 66 87 507 600 44 55 56 130 136 140 86 100
67 67 37 63 93 104 60 58 179 230 77 90 40 65 116 120 32 66
29 50 120 115 172 180 46 64 121 110 64 67 40 59 46 53 72 79
200 230 45 62 28 55 96 88 45 51 280 300 40 46 161 222 75 88
45 52 35 52 50 52 47 77

Ejercicio 6.25
Resuelva el problema anterior cuando se asume b 1.3.

Ejercicio 6.26
La siguiente información corresponde a una muestra de 100 unidades estadísticas para las variables X e Y.

X 10;17.5 17.5;25 25;32.5 32.5;40 Total


Y
50;67 8 4 12
67;84 11 19 9 39
84 ;101 3 20 4 27
101;118 1 21 22
Total 19 26 30 25 100

Sabiendo que el promedio poblacional para la variable X es: 32.5 encontrar el estimador de la media poblacional para la
variable Y mediante estimadores de regresión. Encuentre la estimación de la varianza.

Ejercicio 6.27
Si se considera la información del ejercicio anterior como las muestras de dos estratos par a los cuales: La muestra Nº1
corresponde al estrato I en el cual N 1 750 y X 17100 y la muestra Nº 2 corresponde al estrato II en el cual
N2 1250 y X 30125 . Encuentre el estimador de la media poblacional Y mediante estimadores de regresión. ¿A qué
tipo de asignación corresponde la muestra?

Ejercicio 6.28
Un investigador ha encontrado para el parámetro Y el siguiente intervalo de confianza al 95% en una población de 3000
unidades estadísticas mediante una muestra de tamaño n.

436
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Y 70 ,3946774 ; 71,6097109

Además se tienen los siguientes indicadores muestrales:

Sˆ x2 26,561201; Sˆ y2 14,642163 , Sˆ xy 11,5641804

ˆ
a) ¿Cuál es el valor de Y ?
b) ¿Qué tamaño de muestra utilizo el investigador?

Ejercicio 6.29
En la estimación de la media poblacional para la variable Y por el método de regresión el estimador viene dado por:

Yˆ y b0 ( X x)

El modelo de regresión y a bx tiene como sistema de ecuaciones normales:

n n
i 1
yi na b i 1
xi

n n n
i 1
xi y i a i 1
xi b i 1
xi2

Para una muestra de tamaño 60 se tiene que:

3166,0317 60a 1187,1655b


67633,3085 1187,1655a 27091,042b

Sabiendo que X 22,1, Estime por el método de regresión el parámetro Y .

Ejercicio 6.30
Muestre que en la estimación por el método de regresión:

n n
( xi x )( y i y ) /( n 1) xi y i nx . y
bˆ i 1
n
i 1
n
i 1
( xi x ) 2 /( n 1) i 1
xi2 nx 2

Ejercicio 6.31
Genere una muestra de 100 parejas (x, y) de tal manera que: X N( 30 ; 4 . 5 ) y el valor de Y correspondiente a
cada X sea obtenido mediante la siguiente estructura: y 20 1,3 * x aleatorio .entre (10 ;30 ) . Use Excel.

437
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

a) Realice un gráfico de Y vs X.
b) Encuentre el coeficiente de correlación xy . Opine.
c) Encuentre la ecuación del modelo ajustado a la nube de puntos obtenida en a)
d) Verifique la siguiente igualdad Varianza total (VT)=Variación residual (VR)+ Variación explicada(VE) en donde:

n n n
VT i 1
(yi y ) 2 ; VR i 1
( y i* y i ) 2 y VE i 1
( y i* y)2

Nota: yi :Valor generado por y 20 1,3 * x aleatorio .entre (10 ;30 )

yi* : Valor obtenido para cada valor de x por el modelo (estimado) ajustado en el punto c)

2 VE
e) Verifique la siguiente propiedad del coeficiente de correlación lineal xy
VT

Ejercicio 6.32
La siguiente información corresponde a dos muestras de diferente tamaño no traslapadas tomadas sobre la misma población.

xi xi2 yi yi2 xi yi n
Muestra 1 1187,1655 27091,042 3151,0317 175083,46 67220,0022 60
Muestra 2 2164,7017 49488,8934 7061,35085 500505,878 154165,101 100

Se sabe para la variable X que su total poblacional es X 44600 para las 2000 unidades.
Formando con las dos muestra una sola de 160 unidades, estime la media poblacional para la variable Y utilizando
estimadores de regresión.

438
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Ejercicio 6.33
Se tienen dos modelos de regresión: Modelo 1) 8 x 2y 1 , Modelo 2) 16 x 9y 1.
a) Encuentre el coeficiente de correlación xy .

b) Sabiendo que para una muestra x 2 y usando el modelo 2) cuando para la población X 12,44. encuentre mediante
el modelo 2) Ylr
ˆ

Ejercicio 6.34
En el muestreo estratificado cuando:
S yxh
bh Bh 2
, la varianza del estimador de la media poblacional de la variable Y mediante el modelo de regresión
S xh
separada es:

(1 f h ) 2
V (YˆRES )
*
Wh2 S yh (1 2
yxh ) . La variación residual al aplicar el modelo de regresión lineal y a bx;
nh
se define como:
( yi y i* ) 2
VR .
n 1

Exprese el tamaño de muestra con asignación proporcional en función de laVR de cada estrato.
Ayuda: En el modelo de regresión lineal simple se cumple que: VR S y2 (1 2
xy )

Ejercicio 6.35

439
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Sˆ yx
Para el modelo de regresión de y en función de x se tiene: y a byx x bˆyx
Sˆ 2
x

Sˆ yx
Para el modelo de regresión de x en función de y se tiene: x c bxy y bˆxy
Sˆ 2
y

Las gráficas para una muestra de 60 unidades estadísticas permiten ilustrar la propiedad
2
xy bˆ yx .bˆxy
a) Verifique la propiedad del coeficiente de correlación xy

b) Escriba el estimador de Y por el método de regresión utilizando la propiedad del coeficiente de correlación y la recta de
regresión de X en función de Y

2
(x c)
R// Yˆ
xy
.( X x)
bˆxy bˆxy

Ejercicio 6.36
Usando el resultado del literal e) del ejercicio anterior; Exprese la varianza el estimador de Y en función del cociente
VE VT , cuando las muestras son grandes.

Ejercicio 6.37
Se ha ajustado un modelo de regresión lineal en el estrato I encontrando y 1, 762 x 33 ,97 ; mientras que en el estrato II
el modelo fue. y 2 ,07 x 57 , 46 para los respectivos datos muestrales se tiene la siguiente información:

nh y hi2 y hi y hi x hi Nh
Estrato I 100 760648,566 8690,4281 263568,665 1435
Estrato II 139 3621195,926 22402,4808 1125553 2034

Suponiendo que en cada estrato se conoce el coeficiente de regresión poblacional. Estime la varianza para la estimación de
Y mediante regresión separada. Encuentre para la población Yˆlr .

Ayuda:

Tener en cuenta las siguientes propiedades:


El modelo de regresión siempre pasa por el centroide de los datos que es el punto ( x ; y )
1
En el modelo yh ah bh xh , se cumple que: VRh yhi2 ah yhi bh yhi xhi
nh

440
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

En el modelo de regresión lineal y hi y hi* ; (suma de valores de Y observados = suma de valores de Y estimados)

Ejercicio 6.38
ˆ
En el ejercicio anterior, determine el tamaño de muestra para estimar Ylr utilizando el método de regresión separad y
combinada asumiendo un error y un nivel de confianza adecuados. Uses asignación proporcional.

Ejercicio 6.39
Cierto producto agrícola es empacado en bultos y dispuesto en dos bodegas de acuerdo con el peso del bulto de la siguiente
manera: Bodega A peso del bulto menos de 60 Kg y Bodega B; bulto de 60 Kg o más. Se ha tomado una muestra de bultos
en cada bodega y se ha pesado y contado la cantidad de unidades por bulto encontrando:

Información muestral
Bodega n Sˆx2 Sˆ y2 Ŝ xy x y
A 100 82,8041176 194,4396 124,763246 29,962514  79,98
B 60 100,368228 274,576389 157,003295 80,0184167  182,583333

Se sabe que en la bodega A hay 1250 con un peso total de 40312,5 Kg y en la bodega B 750 con un peso de 62587,5.
a) Estime la cantidad promedio de unidades por bulto y su varianza utilizando regresión separada.
b) Estime la cantidad promedio de unidades por bulto y su varianza utilizando regresión combinada.

Ejercicio 6.40
Para el ejercicio 6.39 realizar la medición de un bulto (pesaje y conteo) en la bodega A tiene un costo de $ 2000 mientras que
la misma medición en la bodega B vale $ 3500. Si se dispone de un presupuesto para el trabajo de campo de $ 800000 y el
pesaje de los bultos en ambas bodegas vale 120000. Determine el tamaño de muestra con asignación Óptima para obtener
mediante regresión separada Ylr .
ˆ

Ejercicio 6.41
Hay varias propiedades del modelo de regresión yˆ i ˆ ˆx ei (Montgomery et al., 2004) muy útiles como son:
0 1 i

n n
i 1
( yi yˆ i ) e
i 1 i
0
n n
i 1
yi i 1
yˆ i
n
i 1
x i ei 0

La recta de regresión ajustada yˆi ˆ ˆx contiene el punto ( x , y )


0 1 i
n
i 1
yˆ i ei 0

Para la siguiente población conformada por 8 unidades. Verifique el cumplimiento de cada una de las anteriores propiedades
del modelo de regresión simple; generando todas las muestras de tamaño 6

441
CAPÍTULO 6. ESTIMADORES DE REGRESIÓN

Unidad xi yi Unidad xi yi
1 7,9 45,1 5 11,6 52
2 11,7 50 6 9 43,2
3 10,3 46,8 7 8,2 40,5
4 9,3 47,7 8 7,1 36,4

a) Encuentre E ( ˆ0 ) , E( ˆ1)
b) Encuentre la distribución de Yˆlr y la distribución de el estimador de varianza Vˆ (Yˆlr ) . Encuentre E(Yˆlr ) y E (Vˆ (Yˆlr )) ,
comente.

Ejercicio 6.42
¿Qué tamaño de muestra se obtendría en el ejercicio 6.39 en cada caso, asumiendo un error estándar de estimación igual a

0.03* Vˆ(Yˆ ) y asumiendo afijación de Neyman?

442
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

MUESTREO SISTEMÁTICO (MSIS)

__________________________________________________________________________________

Introducción.
Procedimiento para seleccionar una muestra aleatoria sistemática (MSIS).
Definición del MSIS.
Muestreo sistemático (MSIS) y muestreo aleatorio simple (MAS).
Ventajas del muestreo sistemático.
Desventajas del muestreo sistemático.
Perturbación del MSIS.
Alternativas que originan estimadores insesgados cuando k no es un entero.
Relación del muestreo MSIS con el muestreo MCOM.
Muestreo sistemático (MSIS) para variables.
Estimadores de la media y el total poblacionales bajo el MSIS.
Propiedades del estimador de la media y del total poblacionales al usar el MSIS para la variable Y .
Cuando usar el MSIS.
Algunos casos especiales de aplicación del MSIS.
La estimación de la varianza del estimador de la media poblacional de la variable analizada en el MSIS.
ˆ
Estimación de V (YSIS ) , cuando no se tiene certeza de la existencia de orden aleatorio entre las unidades poblacionales
en el marco de muestreo.
Tamaño de muestra en el MSIS para variables (forma práctica aproximada).
¿Qué hacer cuando W 0 y WST 0 ?
Muestreo sistemático para atributos.
estimadores de la proporción y el total vía proporción bajo el MSIS.
algunas propiedades del estimador de la proporción y del total vía proporción al usar MSIS para atributos.
Ejercicios.

________________________________________________________________________________

443
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

7.1 INTRODUCCIÓN

En los métodos de muestreo vistos hasta ahora, basados en un marco de muestreo, se seleccionan n unidades con apoyo
siempre para la selección de cada una de ellas en una tabla de números aleatorios.

Ahora se utilizará la tabla de números aleatorios solo una vez eligiendo de una lista o marco de muestreo un elemento L ,
que será el primer elemento de la muestra seleccionado. A continuación se selecciona de dicha lista el elemento L k ,
el cual está k lugares después del elemento L , y así sucesivamente se siguen seleccionando los elementos de la muestra
hasta completar los n establecidos, lo cual ocurrirá al llegar en la lista al elemento que ocupa la posición L ( n 1).k .

Este método de muestreo probabilístico es frecuentemente utilizado por la facilidad que proporciona en lo que respecta a
la selección de la muestra. La aplicación del Muestreo Sistemático (MSIS) requiere que la población tenga una secuencia
ordenada (lista, ruta, etc.) para poder seleccionar la muestra a intervalos constantes tal como se dijo en el párrafo anterior.

7.2 PROCEDIMIENTO PARA SELECCIONAR UNA MUESTRA ALEATORIA SISTEMÁTICA (MSIS).

Para la selección de una muestra sistemática se siguen los pasos siguientes:

1) Seleccionar un marco de muestreo adecuado,


2) Listar las unidades poblacionales de 1 hasta N , siendo N el tamaño de la población,
3) Dividir el tamaño de la población ( N ) entre el tamaño de la muestra ( n ) para de esta forma determinar la longitud
del intervalo muestral k . Se debe tener en cuenta que si dicho cociente no da entero, k se toma como el entero
más próximo a dicho cociente,
4) Escoger un número aleatorio entre 1 y k , utilizando un método aleatorio que generalmente es la tabla de números
aleatorios. Dicho número al cual se denomina L , determinará la primera unidad muestral seleccionada,
5) Los ( n 1 ) elementos restantes para completar la muestra n , seguirán la siguiente secuencia a saltos cada k
unidades, esto es L k ; L 2.k ;........ L ( n 1).k .

7.3 DEFINICIÓN DEL MUESTREO SISTEMÁTICO (MSIS)

Una muestra sistemática MSIS, es una muestra probabilística obtenida siguiendo el procedimiento descrito en el apartado
anterior.

7.4 MUESTREO SISTEMÁTICO MSIS Y MUESTREO ALEATORIO SIMPLE MAS.

Otra de las diferencias entre el MSIS y el MAS, consiste en que en el MSIS hay combinaciones de n unidades
poblacionales que no tienen la misma probabilidad de ser elegidas, vale decir hay combinaciones que tendrán
probabilidad cero de ser elegidas, cosa que no sucede en el MAS. Se aclara esta diferencia más adelante.

Ejemplo 7.1
En las siguientes situaciones de la vida cotidiana se puede aplicar el MSIS para la selección de la muestra:

Seleccionar una muestra de tarjetas o historias clínicas de un archivador.


Seleccionar plantas de cada k-ésima franja en una huerta agrícola.
Seleccionar cada k-ésimo intervalo de tiempo un vehículo de una fila de estos que se encuentran esperando turno o
pasan por un punto determinado.
Seleccionar una muestra de n puntos dentro de un área o campo utilizando para ello una retícula (cuadrícula) con el
propósito de investigar evidencia de contaminantes químicos.
Muestrear ramas de un árbol a diferentes alturas para evaluar la producción de frutos, cuando existe la tendencia de
que el número de frutos disminuye con la altura de la rama. A mayor altura menos frutos. El MSIS aplicado aquí
garantizaría la presencia de ramas de diferentes alturas del árbol.

Hacia el final del capítulo se presentan algunos cuidados que deben tenerse al seleccionar una muestra sistemática.

444
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Ejemplo 7.2
Considere la siguiente población de tamaño N 6, P U 1 , U 2 , U 3 , U 4 , U 5 , U 6 y suponga que se desea una
muestra aleatoria de tamaño n 3 . Escriba las muestras sistemáticas y las muestras aleatorias simples. Compare
Solución//

En total de muestras para cada método es:

Muestras sistemáticas Totalidad de las muestras


MSIS MAS

N 6 N 6
k 2 k 20
n 3 n 3

Muestras de tamaño n 3

El conjunto de las muestras


sistemáticas son un
subconjunto del conjunto
de las muestras aleatorias
simples.

Algunas probabilidades asociadas con algunos sucesos elementales para cada método se muestran en la figura 7.1.

445
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

MSIS MAS

Probabilidad de una muestra MSISi: Probabilidad de una muestra MASi:


1 n 1
Pr ( MSIS i ) , i
k N 2 1 1 n!.( N n)! 1
Pr ( MAS i ) , i
k N N! 20
Probabilidad de que la unidad Ui, n
pertenezca a la muestra:
n n 1 1
Pr (U i MSIS i ) , i Probabilidad de que la unidad Ui,
N n.k k 2 pertenezca a la muestra :
Cada elemento de la población solo puede estar en
una muestra N 1
n 1 n 3 1
Pr (U i MASi ) , i
N N 6 2
n

Cada elemento de la población puede estar en 10


muestras es decir:

N 1
10
n 1

Figura 7.1. Diferencias entre el MSIS y el MAS mediante la probabilidad de algunos sucesos.

7.5 VENTAJAS DEL MUESTREO SISTEMÁTICO

Las ventajas del muestreo sistemático son las siguientes:

La obtención de la muestra es mucho más fácil en comparación con los demás métodos de muestreo probabilístico.
Se invierte menos tiempo en la obtención de la muestra.
La muestra sistemática “ESTRATIFICA” la población en estratos como puede verse en la figura 7.2.

* * *::::::::: * * * *::::::::: * .......................... * * *::::::::: *


Primeros k Segundos k Últimos k
(Estrato 1) (Estrato 2) (Estrato k)
Figura 7.2. Estratificación de la población al usar el MSIS.

En este sentido se puede afirmar que la muestra sistemática recoge el posible efecto de estratificación que presente la
población debido al orden en que figuran las unidades.

Notas
Aquí se supone que N k .n , donde: N significa el Tamaño de la población, y n Tamaño de la muestra.
Intuitivamente parece ser más preciso que el MAS y se espera que el MSIS sea tan preciso como un MAE de un
elemento por estrato.

446
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

La Muestra sistemática se reparte más uniformemente sobre la población y este hecho puede dar lugar algunas veces
a mayor precisión que el MAE.
La muestra sistemática permite la consideración de conglomerados en la población.
Cuando los elementos de la población presentan una disposición aleatoria en el marco de muestreo, el MSIS
equivale al MAS.
El error de muestreo que se presenta con el MSIS suele ser menor al presentado con el MAS e incluso con el uso del
MAE en muchas oportunidades.

7.6 DESVENTAJAS DEL MUESTREO SISTEMÁTICO.

Si hay periodicidad en la población, existe la posibilidad de presentarse incremento en la varianza.


Se presentan problemas teóricos prácticos para la estimación de la varianza.
En el muestreo sistemático cada elemento ocupa la misma posición relativa dentro del estrato, por esta razón la
estratificación establecida por el MSIS no goza de la libertad del MAE en cuanto a la selección de la unidad dentro
del estrato. Véase la figura 7.3, sobre la selección MSIS.

k k k

...............................
* * *::::::::: * * * *::::::::: * * * *::::::::: *
Figura 7.3. Pérdida de libertad en la selección de la unidad, cuando los estratos los establece el MSIS.

Solo hay selección verdaderamente aleatoria para la primera unidad de la muestra, las otras unidades de la muestra
dependen de la primera selección debido a su ubicación en el marco.

7.7 PERTURBACIÓN DEL MSIS

Se presenta cuando N n.k , lo cual quiere decir que el tamaño de la población no es un múltiplo de k , haciendo que
las muestras sistemáticas sean de diferente tamaño. Véase el siguiente ejemplo.

Ejemplo 7.3
Suponga que se tiene una población de tamaño N 23 y de ella se desea extraer muestras sistemáticas de tamaño
n 5 . En este caso se tiene:

N 23
k 4 .6 5
n 5
De acuerdo con lo anterior, las posibles muestras sistemáticas serán:

447
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Nota
Los primeros elementos para cada muestra son U 01 , U 02 , U 03 , U 04 y U 05 los restantes elementos en cada caso se
obtienen sumando k , 2k , 3k , etc.
Como puede verse resultan 3 muestras sistemáticas de tamaño 5 y 2 muestras sistemáticas de tamaño 4. Esta perturbación
probablemente es despreciable si la muestra que se desea obtener es de un tamaño superior a 50. Lo anterior implica que
N debe ser grande, haciendo que el sesgo que se origina cuando k no es un entero, no sea importante.

7.8 ALTERNATIVAS QUE ORIGINAN ESTIMADORES INSESGADOS CUANDO k NO ES UN ENTERO.


Alternativa 1

Procedimiento a seguir

1) Aproximar k a su parte entera más próxima,


* *
2) Calcular un nuevo N , que se llamará N , de la siguiente manera: N n.k ,
*
3) Eliminar en forma aleatoria de la población original los elementos sobrantes al realizar la diferencia N N ,
4) Seleccionar los n elementos de la muestra MSIS de la nueva población en la forma indicada anteriormente.

Alternativa 2

Procedimiento de Lahiri (Cochran, 1980)

1) Considerar la población ordenada en forma circular.


2) Obtener k como el entero más próximo al cociente N ,
n
3) Seleccionar en forma aleatoria un número entre 1 y N , que como vimos antes constituye la primera unidad de la
muestra,
4) Seleccionar los restantes n 1 , elementos en la forma ordinaria.

Hay situaciones en las que el tamaño de la población analizada N , no se conoce como por ejemplo en los siguientes
casos entre otros:

Número de vehículos que pasan por determinado cruce de vías un día determinado.
Número de personas que acuden por urgencias a un hospital un día determinado.
Número de personas que acudirán a un espectáculo.

En estos casos de acuerdo con experiencias pasadas o similares se decide por parte del investigador, teniendo presente
además los recursos, que fracción de unidades se analizarán o medirán ( k ), vale decir 1 de cada 5; 1 de cada 10; 1 de
cada 15; etc. Una vez terminada esta selección, se conocerá el tamaño de la población realizando el siguiente cálculo:

N n.k Número de unidades medidas después de la última unidad seleccionada

7.9 RELACIÓN DEL MUESTREO MSIS CON EL MUESTREO POR CONGLOMERADOS MCON.

Esta comparación se realiza suponiendo que N n.k , para poder dividir en forma exacta la población en k grupos de
tamaño n .
De acuerdo con lo anterior la figura 7.4 muestra la equivalencia de una muestra MSIS con una muestra por
conglomerados:

448
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

MUESTRAS SISTEMÁTICAS

1 2 i k

y1 y2 yi yk
y1 k y2 k yi k y 2k
n- elementos

y1 2k y2 2k yi 2k y 3k
. . ............... . .
. . . .
. . . .

y1 ( n 1).k y2 ( n 1).k yi ( n 1).k y n.k

y1 y2 yi yk

Seleccionar un grupo por


Seleccionar una muestra conglomerados usando
sistemática de n MAS. (Tamaño del
elementos conglomerado = n )

Figura 7.4. Equivalencia entre una muestra sistemática y una muestra por conglomerados.

7.10 MUESTREO SISTEMÁTICO (MSIS) PARA VARIABLES.

Se consideran en este apartado, los estimadores de la media y el total poblacionales para la variable analizada Y . Aquí
se supone como se dijo antes que N n.k .

7.10.1 Estimadores de la media y el total poblacionales bajo el MSIS.

El estimador de la media y del total poblacionales para la variable Y , bajo el MSIS, presentan respectivamente la
siguiente estructura:

PARÁMETRO ESTIMADOR

(7.1)
n
yi yij
YˆSIS
n
Y i 1
y SIS
N j 1
n

Nota
y ij : j-ésimo elemento de la i-ésima muestra; J= 1, 2, 3, ..... , n ; i = 1, 2, 3,........., k

449
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

PARÁMETRO ESTIMADOR
(7.2)

N .YˆSIS
N
Y i 1
yi YˆSIS

7.10.2 Propiedades del estimador de la media y del total poblacionales al usar el MSIS para la variable Y .

A continuación se presentan propiedades del estimador de la media y el total cuando se usa un muestreo sistemático

Propiedad 7.1: Insesgamiento del estimador de la media poblacional

El estimador de la media poblacional en el MSIS es un estimador insesgado.

En virtud de que N n.k , se pueden tomar k muestras sistemáticas de tamaño n para la población N , de tal manera
ˆ
que cada una tendrá la misma probabilidad; esto es: Pr (YSIS ) 1
k
Luego:

k
1 k ˆ
E (YˆSIS ) YˆSIS i .Pr (YˆSIS ) . YSIS i
i 1 k i1
1 k n y ij 1 k n
1 k n
. . y ij y ij Y
k i1 j 1 n k .n i 1 j 1 N i 1 j 1

Nota
En forma análoga:
E (YˆSIS ) N .E (YˆSIS ) N .Y Y.

Propiedad 7.2: Varianza del estimador de la media y el total en el MSIS

La varianza para el estimador de Y en el MSIS viene dada por la siguiente expresión:

N 1 2 k .(n 1) 2 1 k n
V (YˆSIS ) .S y 2
.SWSIS , donde SWSIS . ( yij yi. ) 2 (7.3)
N N k .(n 1) i 1 j 1

2
S WSIS recibe el nombre de cuasivarianza intramuestral y mide la variabilidad dentro de las muestras. Note que es el
promedio de las k cuasivarianzas ya que hay k muestras de tamaño n cada una.

Más en detalle esta propiedad sería:

Del análisis de varianza, se tiene:

k n k n
1
S y2 . ( y ij Y )2 ( N 1).S y2 ( y ij Y )2
N 1 i 1 j 1 i 1 j 1

450
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Sumando y restando yi. y reorganizando:

k n
2
( N 1).S y2 ( y ij y i. ) ( y i. Y)
i 1 j 1

La disposición de las k muestras sistemáticas de tamaño n , antes de seguir con la explicación de la expresión de la
varianza se muestra en la figura 7.5.

ESTRATOS
1 2 3 ......................................... n Medias
1 y11 y12 y13 ......................................... y1n y1.
(Muestras sistemáticas)
CONGLOMERADOS

2 y21 y22 y23 ......................................... y2n y2.


3 y31 y32 y33 ......................................... y3n y3.
. . . . . .
. . . . . .
. . . . . .
k yk1 yk2 yk3 ......................................... ykn yk.
Medias y.1 y.2 y.3 ......................................... y.n Y

yi.
Figura 7.5. Las muestras sistemáticas como estratos y conglomerados.

Desarrollando el cuadrado:

k n
2
( N 1).S y2 ( y ij y i. ) ( y i. Y )
i 1 j 1

k n n n
( y ij y i. ) 2 2. ( y ij y i. ).( y i. Y ) ( yi. Y ) 2
i 1 j 1 j 1 j 1

k n n n
( N 1).S y2 ( y ij y i. ) 2 2.( y i. Y ). ( y ij y i. ) ( yi. Y ) 2
i 1 j 1 j 1 j 1

Pero como se sabe:


n
( y ij yi. ) 0,
j 1
Entonces:

k n k n k
( N 1).S y2 ( y ij Y )2 ( y ij yi. ) 2 n. ( y i. Y ) 2 (1)
i 1 j 1 i 1 j 1 i 1

Ahora por definición, se tiene que:

451
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

1 k
V (YˆSIS ) . ( y i. Y ) 2
k i1
Y por lo tanto:

k
k .V (YˆSIS ) ( y i. Y ) 2 (2)
i 1

Por otro lado de la varianza intramuestral, se tiene que:

k n
2
k .( n 1).S WSIS ( y ij y i. ) 2 (3)
i 1 j 1

Reemplazando las expresiones (2) y (3) en la (1):

( N 1).S y2 2
k .( n 1).SWSIS
( N 1).S 2
y k .( n 1).S 2
WSIS n.k .V (YˆSIS ) V (YˆSIS )
n.k

Y como se supone que N n.k , entonces:

N 1 2 k .(n 1) 2 N 1 2 (n 1) 2
V (YˆSIS ) .S y .SWSIS .S y .SWSIS (7.4)
N N N n

El resultado anterior puede ser obtenido, mediante la utilización de una tabla de análisis de varianza como la siguiente.
Ver tabla 7.1

Fuente de Grados de Cuadrados


Suma de cuadrados
variación libertad medios
k n
Entre Muestras ( y i. Y ) 2 2
k 1 i 1 j 1
S BS
Dentro de k n
Muestras k .( n 1) ( y ij y i. ) 2 2
i 1 j 1
S WSIS
k n
Total N 1 ( y ij Y )2
i 1 j 1
S y2
Tabla 7.1. Análisis de varianza en el MSIS.

Ahora:

1 k n k 1 n k
1 k n
V (YˆSIS ) . ( y i. Y )2 . ( y i. Y )2 . ( y i. Y )2 . ( y i. Y )2
k i1 nk i 1 n.k j 1 i 1 n.k i 1 j 1

Y observando la tabla, la anterior igualdad se puede expresar como:

k n
n.k .V (YˆSIS ) ( y i. Y )2 2
(k 1).S BS (1)
i 1 j 1

452
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Además de la tabla de análisis de varianza se tiene la igualdad:

k n k n k n
( y ij Y )2 ( y ij y i. ) 2 ( yi. Y ) 2
i 1 j 1 i 1 j 1 i 1 j 1

Variación dentro de Variación entre


Variación total las muestras muestras

Notas

N n.k
k n k n
2 1 1
SWSIS . ( y ij y i. ) 2 . ( y ij y i. ) 2 , recibe el nombre de cuasivarianza intramuestral.
N k i 1 j 1 k ( n 1) i 1 j 1

k n
2 1
S BS . ( y i. Y ) 2 : Se llama cuasivarianza intermuestral.
k 1 i 1 j 1

De acuerdo con lo anterior, la igualdad del cuadro anterior, puede expresarse de la siguiente forma:

( N 1).S y2 2
k (n 1).SWSIS 2
(k 1).S BS

Y reemplazado la expresión (1), en esta última igualdad:

( N 1).S y2 2
k ( n 1).S WSIS n.k .V (YˆSIS )

De donde finalmente:

N 1 2 (n 1) 2 (n 1) 2
V (YˆSIS ) .S y .SWSIS 2
.SWSIS (7.5)
N n n

Nota
La expresión para la varianza del estimador del total puede hallarse fácilmente, teniendo en cuanta que:

V (YˆSIS ) N 2 .V (YˆSIS ) .

Ejemplo 7.4
Considerando la población formada por las siguientes 12 unidades:

Unidad U1 U2 U3 U4 U5 U6 U7 U8 U9 U10 U11 U12


Y 2.1 2.8 3.5 5.2 6.0 7.3 8.2 9.2 10.5 10.8 12 14.1

Tomando muestras sistemáticas de tamaño n 4 comprobar las propiedades 7.1 y 7.2 anteriormente explicadas.
Solución//

Para la población se tienen los siguientes parámetros:

453
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Y 7.64166667 ; SY2 14.69719696

Para las muestras sistemáticas se tiene:

N 12
k 3
n 4

Muestra Nº 1 Muestra Nº 2 Muestra Nº 3


U1 U4 U7 U10 U2 U5 U8 U11 U3 U6 U9 U12
2.1 5.2 8.2 10.8 2.8 6.0 9.2 12 3.5 7.3 10.5 14.1
Yˆ1 6,575; Yˆ1 7,5; Yˆ1 8,85;
2 2 2
S 1 14.13583331 S 1 15.82666664 S 1 20.43666665

Del cuadro anterior:

3
2 1
SWSIS S i2 16.7997222
k i 1

Por lo tanto:

N 1 2 k .(n 1) 2
V (YˆSIS ) .S Y .SWSIS
N N
11 (3).(3)
(14.69719696 ) (16.7997222) 0.872638896
12 12

Por otro lado tomando las tres muestras sistemáticas:

3 k
1 1 2
E (YˆSIS ) Yˆi 7.641666667 y V (YˆSIS ) Yˆi E (YˆSIS ) 0.87263889
3 i 1 k i 1

Propiedad 7.3: ¿Cuándo la varianza dada por el MSIS es menor que la varianza dada por el MAS para el
estimador de la media poblacional?.

Al comparar la varianza de la media muestral mediante el MSIS con la varianza de la media muestral mediante el MAS,
se tiene que:

V (YˆSIS ) < V (Yˆ ) sii SWSIS


2
S y2 .

Como se sabe para la varianza del estimador de la media en el MAS:

N n
V (Yˆ ) .S y2
N
Y en el MSIS:

N 1 2 k .(n 1) 2
V (YˆSIS ) .S y .SWSIS .
N N

454
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Reemplazando en la desigualdad:
V (YˆSIS ) < V (Yˆ ) :

2
( N 1) 2 k .( n 1) 2 N n Sy
.S y .SWSIS < .
N N N n
2
k .(n 1) 2 N n Sy N 1 2
.SWSIS < . .S y . ( 1)
N N n N

k .(n 1) 2 S y2 N 1 N n k .(n 1) 2 S y2 N .(n 1) N


.SWSIS . .SWSIS . , k
N N 1 n N N n n

Finalmente

k .(n 1) 2 S y2 2
.SWSIS .k .( n 1) SWSIS S y2 ,
N N
O sea:

k n N
1 1
. ( y ij yi. ) 2 . ( yi Y )2 (7.6)
k .( n 1) i 1 j 1 N 1 i 1

El anterior resultado, significa que el MSIS es más preciso que el MAS, cuando las unidades dentro de la misma muestra
2
sistemática sean heterogéneas. Esto es, la cuasivarianza intramuestral S WSIS , es mayor que la cuasivarianza poblacional
S y2 .

El resultado anterior puede verse también de la siguiente manera:

Suponga que:
2
S WSIS S y2 A, A 0
Y para una muestra como es natural n 1:

N 1 2 ( n 1) 2 N 1 2 n 1
V (YˆSIS ) .S y .SWSIS .S y . S y2 A
N n N n
1 1 2 n 1
1 .S y2 1 .S y .A
N n n

Y después de simplificar adecuadamente:

N n 2 n 1 n 1
V (YˆSIS ) .S y . A V (YˆMAS ) .A V (YˆSIS ) < V (YˆMAS )
N .n n n

455
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Ejemplo 7.5
Con la información del ejemplo 7.4 verifique que la varianza del estimador de la media poblacional mediante el MAS al
considerar una muestra de igual tamaño que el asumido en el MSIS es mayor. Verifique que tal situación se da por el
cumplimiento de la propiedad 7.3.

Solución//

(1 f)
V (YˆMAS ) .S Y2 2.449532827 0.87263889 V (YˆMSIS )
n
La anterior relación se da precisamente por el cumplimiento de la relación:

2
S WSIS 16.7997222 S y2 14.69719696

Propiedad 7.4: Forma alterna-1 para la varianza de YSIS


ˆ

La varianza del estimador de la media poblacional en el MSIS para la variable Y , viene dada por la siguiente expresión:

2
N 1 Sy
V (YˆSIS ) . . 1 (n 1). W (7.7)
N n

Aquí: W es el coeficiente de correlación entre pares de unidades pertenecientes a la misma muestra sistemática y se
define de la siguiente manera:

E ( y ij Y ).( y iu Y) 2 k n

W ( y ij _ Y ).( y iu Y ) (1)
E ( y ij Y )2 (n 1).( N 1).S 2y i 1 j <u

Lo anterior se debe a que el numerador de la expresión de la izquierda es el valor esperado tomado sobre todos los
posibles pares de unidades diferentes que están en las muestras sistemáticas y el denominador es sobre todos los N
posibles valores de la variable Y .

El siguiente es un ejemplo sencillo para explicar la propiedad considerando una población de seis unidades.

P U1 , U 2 , U 3 , U 4 , U 5 , U 6

Entonces para una muestra de tamaño n 3 , el valor de k será 2 y las muestras sistemáticas son:

MSIS1 U1 , U 3 , U 5 y MSIS2 U2, U4, U6

Al realizar todos los posibles pares diferentes de la primera muestra y mezclarlos con los de la segunda, se obtienen 6
resultados a saber: (U 1 , U 3 ) ; (U 1 , U 5 ) ; (U 3 , U 5 ) para la primera muestra y (U 2 , U 4 ) ; (U 2 , U 6 ) ; (U 4 , U 6 ) ,
para la segunda muestra. Se puede apreciar entonces claramente que:

k .n.( n 1)
6 .
2
La justificación de la propiedad 7.4 es:

De la expresión (1) se puede deducir que:

456
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

k n

W .( n 1).( N 1).S y2 2. ( y ij _ Y ).( y iu Y ) (2)


i 1 j <u

Ahora se tiene que para las k muestras sistemáticas:


k
( yi. Y ) 2
V (YˆSIS ) i 1

k
2
Y multiplicando por n se puede deducir que:

k k
n 2 .k .V (YˆSIS )
2
n2. ( yi. Y ) 2 n.( y i. Y )
i 1 i 1
2
k k n
2
(n. y i. ) n.Y y ij n.Y
i 1 i 1 j 1 (3)
2
k k n
2
( y i1 Y ) ( y i 2 Y ) ... ( y in Y) ( y ij Y)
i 1 i 1 j 1

Nota
Pero para el cuadrado de una suma se cumple que:

n 2 n
Ci Ci2 2. Ci .C j .
i 1 i 1 i< j

Aplicando esta propiedad a la expresión (3):

2
k n k n
n .k .V (YˆSIS )
2
( y ij Y) ( y ij Y )2 2. ( y ij Y ).( y iu Y)
i 1 j 1 i 1 j 1 j 1
k n k n
( y ij Y )2 2. ( yij Y ).( y iu Y) (4)
i 1 j 1 i j 1

Reemplazando en (4), la expresión (1):

k n
n 2 .k .V (YˆSIS ) ( y ij Y )2 W .(n 1).( N 1).S y2
i 1 j 1

( N 1).S y2 W .(n 1).( N 1).S y2

Finalmente:

2
( N 1) 2 N 1 Sy
V (YˆSIS ) .S y . 1 (n 1). W . . 1 (n 1). w
n 2 .k N n

457
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Además se observa la relación entre el MAS y el MSIS para poblaciones grandes, basándose en esta última expresión de
ˆ
la varianza de YSIS , ya que:

N 1 N y f n 0
N
Entonces:

S y2
V (YˆSIS ) . 1 (n 1). W V (Yˆ ) MAS . 1 (n 1). W
n

Nota
La expresión para la varianza del estimador del total puede hallarse fácilmente, teniendo en cuanta que:

V (YˆSIS ) N 2 .V (YˆSIS ) .

Ejemplo 7.6
Con la información del ejemplo 7.4 verifique la propiedad 7.4

Solución//

Encuéntrese primeramente el coeficiente intramuestral W y para ello realice el siguiente cuadro:

Muestra ( y ij Y ).( y iu Y)
j <u
Nº 1 -14.3770833
Nº 2 -23.6195833
Nº 3 -21.8945833
Total -59.8912499

Con apoyo de la tabla anterior:

2.( 59.8912499)
W 0.246970407
(3).(11).(14.69719696)

Y para la varianza:

11 (14.69719696)
V (YˆSIS ) . 1 3. 0.246970407 0.87263889
12 4

Algunas observaciones importantes sobre el coeficiente de correlación intramuestral W :

Si W 0 , se produce un incremento en V (YˆSIS ) . Esto significa que, valores positivos de W , denotan


frecuentemente variaciones pequeñas dentro de los elementos de las muestras y grandes variaciones entre las
muestras, haciendo que la eficiencia del MSIS sea pobre.

Cuando los elementos dentro de cada muestra son muy diferentes (heterogéneos), W toma valores negativos
pequeños.

458
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

La precisión máxima se da cuando V (YSIS )


ˆ 0 , lo cual se produce cuando (n 1). 1 , de lo cual se puede
W
establecer la siguiente equivalencia:

1
V (YˆSIS ) 0 W
n 1

Más en detalle para la pregunta ¿Cuál es el menor valor para W ? se tiene:

Por definición:

S Y2 N 1
V (YˆSIS ) . 1 (n 1) W 0 1 (n 1). W 0
n N

Luego:

1
W
n 1

ˆ
La precisión mínima se da cuando la varianza V (YSIS ) sea máxima lo cual se produce cuando , toma su valor
W

máximo ( 1 ), esto significa que existe homogeneidad perfecta entre los elementos de la muestra sistemática.
W

Luego puede afirmarse que la precisión mínima del MSIS se da cuando W 1 .

Más en detalle se resuelve la pregunta:

¿Cuál es el máximo valor de W ?

Por definición:

i : Muestra sistemática i-ésima


E ( y ij Y ).( yiu Y)
W
E ( yij Y)2 j, u : Unidades de la muestra i-ésima

Si j u; i “Homogeneidad absoluta dentro de la muestra i-ésima” entonces:

E ( y ij Y ).( y iu Y) E ( y ij Y) 2 y

W 1
Si W 0 , entonces:
2
N 1 Sy 2
V (YˆSIS ) . V (Yˆ ' ) .
N n n

Esta última igualdad debida a que:

459
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

( N 1).S 2 N. 2
.

Nota

Recuerde que la varianza de la media muestral en el MAS con reposición viene dada por:

N 1 S2
V (Yˆ ' ) .
N n
En la práctica cuando W 0 , se dice que:

V (YˆSIS ) V (YˆMAS )

Más en detalle ¿Cuándo V (YSIS )


ˆ V (YˆMAS ) ?

Se sabe que:

N 1 S Y2 N n S Y2
V (YˆSIS ) 1 (n 1). W y V (YMAS )
ˆ
N n N n
Si N es grande entonces:

N 1 N n n
1y 1 1
N N N
Por lo tanto:

S Y2 S Y2
V (YˆSIS ) 1 (n 1). W
ˆ
y V (YMAS )
n n
En cuyo caso:
S Y2
V (YˆSIS ) 1 (n 1). W V (YˆMAS ). 1 (n 1). W
n
Luego:

V (YˆSIS ) V (YˆMAS ) W 0 (7.8)

En la práctica es muy difícil conocer previamente el valor exacto de W , pero se pueden tener buenas
aproximaciones en los siguientes casos:

a) W 1 , se presenta en poblaciones con alta periodicidad.


b) W 0 , se presenta cuando las unidades poblacionales están ordenadas en forma aleatoria.
1
c) W , se presenta cuando la variable objeto de estudio, está altamente correlacionada con el orden
N 1
de los elementos en la población (ubicación en el marco).

460
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Propiedad 7.5: ¿Cuándo el MSIS es más efectivo que el MAS?

“El MSIS es más efectivo que el MAS, cuando las unidades dentro de la misma muestra son heterogéneas, esto es
W < 0”
ˆ ˆ
En detalle para V (YSIS ) < V (YMAS ) se tiene:

( N 1) S 2 (N n) S 2
. . 1 (n 1). W < .
N n N n

( N n)
( N 1). 1 ( n 1). W < (N n) 1 ( n 1). W <
N 1

N n 1
(n 1). W < 1 W <
N 1 N 1

Propiedad 7.6: Eficiencia relativa del MSIS respecto del MAS

Bajo el supuesto de N grande:


Definición:

S Y2
V (YˆMAS ) n 1
ERMSIS (7.9)
V (Yˆ ) 1 (n 1).
2
MAS SY W
MSIS . 1 (n 1). W
n

A manera de conclusión e interpretación de la eficiencia relativa se tiene:

1
< W <0 ER MSIS 1 “MSIS más eficiente que el MAS”
n 1 MAS
(7.10)

W 0 ER MSIS <1 “MSIS menos eficiente que el MAS”


MAS

La figura 7.6 resume la caracterización del coeficiente de correlación intramuestral.

461
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

ESQUEMA RESUMEN DE CARACTERIZACIÓN DEL


COEFICIENTE W
HETEROGENEIDAD EN LAS UNIDADES DE LA POCA HETEROGENEIDAD
MUESTRA EN LAS UNIDADEMUESTRALES

1 1
< 0 < W 1
n 1 N 1

Máxima heterogeneidad en los elementos


Máxima homogeneidad en los elementos de
de la muestra
la muestra

V (YˆMSIS ) 0 V (YˆMSIS ) Máxima

Alta correlación entre los valores de la


variable y la ubicación de la unidad en el
marco

V (YˆMSIS ) V (YˆMAS )

V (YˆMSIS ) < V (YˆMAS ) V (YˆMSIS ) V (YˆMAS )

Figura 7.6. Caracterización del coeficiente de correlación intramuestral.

Ejemplo 7.7
La gerencia de la terminal de transportes de una gran ciudad está interesada en el total de personas que desembarcan en
la terminal los días sábados del mes de diciembre después de ingresar a sus instalaciones en buses o busetas. Un
investigador realiza un muestreo sistemático un día sábado del mes de diciembre seleccionado aleatoriante bajo las
siguientes suposiciones:

Los buses y las busetas no llegan con su cupo completo a la terminal razón por la cual se debe proceder a contar los
pasajeros en cada bus o buseta que ingrese al terminal.
La capacidad de los buses es de hasta 80 pasajeros y la de las busetas máximo 30 y el ingreso de unos y otras al
terminal es aleatoria (su ingreso).
En el año anterior el total de buses o busetas que realizaron su llegada final al terminal un día sábado de diciembre
fue en promedio de 2500 por día.
Todas las horas del día tienen más o menos el mismo comportamiento en cuanto al fenómeno estudiado (la descarga
de pasajeros de buses y busetas).
El estudio involucra los vehículos del tipo especificado que realicen su ingreso de 12 PM del viernes a 12 PM del
sábado (24 horas).

El investigador procede de la siguiente manera:

Determina con un nivel de confianza y un margen de error una muestra de 100 vehículos de tipo especificado,

462
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

2500
Determina que k 25 ,
100
Determina que el primer vehículo analizado (conteo de número de pasajeros) será en el orden de llegada el que
ocupe el puesto 20. Esto lo determina con una tabla de números aleatorios,
Después de realizar el conteo del número de pasajeros a los 100 vehículos tomando uno cada 25 vehículos
coleccionó los siguientes datos:

12-30-30-23-20-08-10-10-10-13-40-34-25-25-24-13-10-10-12-12-30-30-12-10-10-10-10-20-20-10-34-34-36-25-25-
12-12-12-12-40-20-12-12-12-33-40-40-23-23-23-12-30-30-23-20-08-10-10-10-13-12-12-12-12-40-20-12-12-12-33-
10-50-50-10-25-10-10-10-50-50-50-25-25-13-13-13-15-20-10-08-09-08-09-12-15-60-45-34-10-12.

Como sospecha fuertemente de que W 0 (llegada aleatoria de los vehículos en cuanto a su capacidad) establece
que el número promedio de pasajeros que desembarcan un sábado de diciembre llegando al terminal en bus o buseta
y su varianza son respectivamente:

100
10
1
1 (1 f ) ˆ2 2500
Yˆ yi 20.37 y V (Yˆ ) .S Y 155.8718 1.496
100 i 1 n 100

Y un intervalo de confianza al 95% será:

Y 95%
(17.97; 22.76)

El cociente (Lohr, 2000) entre la varianza de la estimación del plan de muestreo diferente al MAS sobre la varianza de la
misma estimación con el mismo número de unidades usando MAS, llamado el efecto de diseño Deff proporciona una
medida de la precisión ganada a perdida por el uso el diseño más complejo en lugar de una muestra aleatoria simple. El
efecto de diseño (Bautista, 1998), del diseño sistemático está en función del grado de homogeneidad al interior de las
combinaciones entre pares de muestras sistemáticas. Si el grado de homogeneidad es bajo, el diseño será eficiente y el
Deff será menor que uno. Si por el contrario el grado de homogeneidad es alto, el diseño será de varianza mayor y el
Deff será mayor que uno.

V ( Plan, Yˆ )
Deff ( Plan, Yˆ ) (7.11)
V ( MAS , Yˆ )

Propiedad 7.7 : Forma alterna-2 para la varianza de YSIS


ˆ

La varianza del estimador de la media poblacional para la variable Y , puede expresarse mediante la siguiente forma:

2
SWST N n
V (YˆSIS ) . 1 (n 1). WST (7.12)
n N

Donde:
La varianza entre unidades del mismo estrato es:

n k
2 1
SWST . ( y ij y. j ) 2 (7.13)
n.( k 1) j 1 i 1

463
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Y el coeficiente de correlación entre pares de unidades que están en la misma muestra sistemática respecto de las medias
de los estratos es:

k
( y ij y. j ).( y iu y.u ) n.(n 1).(k 1)
i 1 j <u
2
WST n k
(7.14)
2
( y ij y. j ) n.(k 1)
j 1 i 1

2 k ( y ij y. j ).( y iu y.u )
WST . 2
n.(n 1).(k 1) i 1 j <u S WST

Apoyándose en el gráfico realizado en la propiedad 7.2, y considerando:

n estratos de k elementos cada uno.


N k .n .
yij : Valor de la i-ésima unidad del estrato j-ésimo.
y. j : Media para la variable Y , en el estrato j-ésimo.
ˆ
La expresión de V (Y ) dada anteriormente en detalle es:
SIS

Si se considera la población dividida en n estratos cada uno con k componentes y tomando en cada uno de ellos
nh 1 , se tiene:

2 2
k
( y i. Y )2 1 k n y ij n y. j 1 k n
V (YˆSIS ) . 2
( y ij y. j )
i 1 k k i1 j 1 n j 1 n n .k i 1 j 1

Aplicando la nota antes vista sobre el cuadrado de una suma:

1 k n
V (YˆSIS ) . ( yij y. j ) 2 2 ( yij y. j ).( yiu y.u )
n 2 .k i 1 j 1 j <u

k n k
1
V (YˆSIS ) 2
. ( yij y. j ) 2 2 ( y ij y. j ).( y ij y.u )
n .k i 1 j 1 i 1 j <u
2 2
n.( k 1).SWST n.( n 1).( k 1). SWST . WST

2 2
n.(k 1).SWST (k 1).SWST
V (YˆSIS ) . 1 (n 1). WST . 1 (n 1). WST
n 2 .k N

464
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

N 2
2 1 .SWST
(k 1).S n
V (YˆSIS ) WST
. 1 (n 1). WST . 1 (n 1). WST y finalmente:
N N

2
N n SWST
V (YˆSIS ) . . 1 (n 1). WST
N n

Nota
La expresión para la varianza del estimador del total puede hallarse fácilmente, teniendo en cuanta que:

V (YˆSIS ) N 2 .V (YˆSIS )

Propiedad 7.7: ¿Cuándo la varianza del MSIS es menor que la varianza del MAE?

El MSIS es más efectivo que el MAE, cuando WST < 0 , esto es, cuando el coeficiente de correlación lineal entre
desviaciones respecto de medias de los estratos para todos los pares de unidades que están en la misma muestra
sistemática sea negativo.

ˆ ˆ
Realizando la comparación V (YSIS ) < V (YMAE ) se tiene:

Si la población tiene n estratos cada uno con k elementos, entonces en el MAE se tendría:

n S 2j
V (YˆMAE ) 2
W .(1
h f h ).
j 1 nh
En donde:
Nh k , nh 1, f h 1
k
Luego:

2
k2 1 n Sj
V (YˆMAE ) . 1 . . .
N2 k j1 1

Y haciendo:
S 2j 2
SWST

Constante para todo estrato j, por facilidad, se tiene:

n.k 2 1 2
V (YˆMAE ) 2
.1 .SWST (1)
N k

Estableciendo la desigualdad:
V (YˆSIS ) < V (YˆMAE )

Se tiene:

465
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

( N n) 2 n.k 2 1 2
.SWST . 1 (n 1). WST < 2 1 .SWST
N .n N k
N2
n.
n.k 2 n n2 n
< 2
1 2
.SWST 2
.1 2
.SWST
N N N N

Finalmente después de simplificar:

1 (n 1). WST <1 WST <0

Algunas observaciones importantes sobre el coeficiente de correlación WST .

La precisión máxima se obtiene cuando V (YSIS )


ˆ 0 , la cual se produce cuando (n 1). 1
WST
Luego:

1
V (YˆSIS ) 0 WST
(n 1)

Más en detalle para resolver la pregunta ¿Cuál es el menor valor de WST ? se tiene:
( N n) 2
V (YˆSIS ) S WST 1 (n 1). WST 0
N .n

1
1 (n 1). WST 0 WST
(n 1)

ˆ
La precisión mínima se obtiene cuando V (YSIS ) se hace mínima, lo cual se da cuando 1.
WST

Para resolver la pregunta ¿Cuál es el máximo valor de WST ?

E ( yij y. j ).( yiu y.u )


WST 2
.
E ( yij y. j )

En donde i : Muestra sistemática i-ésima; j , u : unidades de la misma muestra i-ésima

Si j u, i “Homogeneidad absoluta dentro de la i-ésima muestra”

Entonces:

E ( yij y. j ).( yiu y.u ) E ( yij y.u ) 2

Y por lo tanto:

466
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

WST 1
En conclusión:

1
< WST <1
(n 1)

N n 2
Si WST 0 , entonces V (YˆSIS ) .SWST V (YˆMAE ) . Esto es el MSIS coincide con el MAE en cuanto
N .n
a precisión.

Para aclarar la pregunta ¿Cuándo V (YSIS )


ˆ V (YˆMAE ) ?

( N n) 2
V (YˆSIS ) SWST 1 ( n 1). WST
N .n
2
N
n.
n.k 2 1 2 n n
V (YˆMAE ) 2
.1 .SWST 2
.1 2
.SWST
N k N N

Igualando las dos varianzas, se tiene:

( N n) 2 1 2 N n
V (YˆSIS ) SWST 1 (n 1). WST .SWST . V (YˆMAE )
N .n n N

Luego:

WST 0

Propiedad 7.8: Eficiencia relativa del MSIS respecto del MAE

Cuando N es grande:

2
SWST
V (YˆMAE ) n 1
ERMSIS / MAE
V (Yˆ )
2 (7.15)
SWST 1 (n 1). WST
MSIS . 1 (n 1). WST
n

A manera de conclusión sobre el comportamiento de la eficiencia relativa se tiene:

1
< WST <0 ERMSIS / MAE 1 MSIS más eficiente que el MAE
(n 1)

WST 0 ERMSIS / MAE < 1 MSIS menos eficiente que el MAE

467
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Una forma de convertir una muestra sistemática en una muestra estratificada, cuando WST 0 es la siguiente:

Si en lugar de tomar una unidad en cada estrato de n estratos que hay como se dijo antes al asemejar el MSIS a un
MAE, se mezclan los estratos de tal manera que aparezcan nuevos estratos de 2k elementos, entonces se tendría n
2
estratos de 2k elementos.

Si en tales circunstancias se utiliza un MAE, se tiene:

nh 2 1 Nh 2.k 2
nh 2, N h 2.k , fh f , Wh
Nh 2.k k N n.k n

1 nh 1 2 1
yh . y hj . y hj ( y hi yh2 )
nh j 1 2 j1 2

nh 2 2
1 1
Sˆ h2 . ( y hj yh ) 2 . ( y hj yh ) 2 ( y hj yh ) 2
nh 1 j 1 2 1 j 1 j 1

2 2 2
y h1 yh2 y h1 yh2 y h1 yh2
Sˆ h2 y h1 yh2
2 2 2
n n 2
2 Sˆ 2 2
2 1 ( y h1 y h 2 ) 2
Vˆ (YˆMAE ) Vˆ (YˆSIS ) Wh2 .(1 f h ). h .(1 f ).
h 1 nh h 1 n 2 2
n
(1 f) 2
1
Vˆ (YˆMAE ) Vˆ (YˆSIS ) 2
. ( y h1 yh2 ) 2 , f
n j 1 k
n n n
2
2 2 1 2 y h1 yh2
YˆMAE YˆSIS Wh . y h . . y h1 yh2
h 1 n h12 h 1 n

Nota
Si n es impar, se repite aleatoriamente un elemento de la muestra para que n sea par.

Ejemplo 7.8
Con la información del ejemplo 7.4 verifique el cumplimiento de la propiedad 7.7 y compare el MSIS respecto del MAE
de una unidad por estrato.

Solución//

Las tres muestras sistemáticas generadas en el ejemplo mencionado se presentan como 4 estratos de tamaño Nh 3 en
la siguiente tabla:

Estrato Nº 1 Estrato Nº 2 Estrato Nº 3 Estrato Nº 4


2.1 5.2 8.2 10.8
2.8 6.0 9.2 12
3.5 7.3 10.5 14.1
S12 0.49 S 22 1.123333335 S 32 1.33 S 42 2.79
y.1 2.8 y .2 6.166666667 y.3 9.3 y.4 12.3

468
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Note que cada fila de las tres primeras filas de la tabla anterior es una muestra sistemática.

Encontrando:

n k n
2 1 1
SWST ( y ij y. j ) 2 S i2 1.433333334 .
(n).(k 1) j 1 i 1 n j 1

Ahora se confecciona la siguiente tabla:

MSIS Nº i ( y ij y. j ).( y iu y.u )


j <u
1 6.66
2 0.09666667
3 8.45333333
Total 15.21

Con base en la tabla anterior se calcula:

2 k ( yij y. j ).( yiu y.u )


WST 2
0.884302325
n.(n 1).(k 1) i 1 j <u S WST

Y finalmente:

2
N n SWST
V (YˆSIS ) . . 1 ( n 1). WST 0.872638888
N n

Como puede verse en este caso WST 0 , lo que de acuerdo a lo explicado implica que el MSIS es más impreciso que
el MAE de un elemento por estrato como puede corroborarse por:

L
(1 fh )
V (YˆMAE ) W j2 . .S 2j
j 1 n
2
3 1
.1
12 3
. 0.49 1,123333335 1.33 2.79
1
0.238888889 < 0.87263889 V (YˆMSIS )

Ejemplo 7.9
Los datos siguientes corresponden al contenido de azúcar de un lote pequeño de 30 naranjas tomadas de una banda
transportadora.

Contenido de azúcar (libras)


1-5 6-10 11-15 16-20 21-25 26-30 Total
0.012 0.014 0.014 0.022 0.022 0.022 0,106
0.015 0.033 0.022 0.015 0.015 0.013 0,113
0.030 0.022 0011 0.022 0.011 0.012 0,108
0.025 0.013 0.011 0.010 0.015 0.017 0,091
0.020 0.033 0.012 0.011 0.012 0.022 0,11
0,102 0,115 0,07 0,08 0,075 0,086 0,528

469
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

a) Encuentre la varianza para el promedio de contenido de azúcar por naranja tomando muestras sistemáticas de una
naranja por cada cinco.

Solución//

Hay 5 muestras sistemáticas de tamaño n = 6

Muestra yi . Si
1 0,01766667 0,00480278
2 0,01883333 0,00760044
3 0,018 0,00787401
4 0,01516667 0,00545588
5 0,01833333 0,0085479

N 1 2 K .(n 1) 2
V (YˆSIS ) .S Y .SWSIS ,
N N
Donde:

k n k n k
2 1 1
SWSIS ( y ij yi. ) 2 2
k .SWSIS ( y ij y i. ) 2 S i2
k .( n 1) i 1 j 1 n 1i 1 j 1 i 1

k k n
2
k .SWsis S i2 0.00024567 ; ( y ij Y )2 0.0012772 ( N 1).S Y2
i 1 i 1 j 1

Por lo tanto:

( N 1).S Y2 2
(n 1).k .SWSIS
V (YˆSIS ) 0.000001628
N
b) Compare la varianza obtenida en a) con la varianza obtenida mediante el MAS

Solución//

N n S Y2 N n 1 ( N 1).S Y2
V (YˆMAS ) . . . 0.000005872
N n N n ( N 1)

c) Compare la varianza obtenida en a) con la varianza obtenida mediante el MAE de 3 naranjas por estrato.

Solución//

Estrato I Estrato II
1-15 16-30
S Yh2 0.000063981 0.0000222095
Yh 0.019133333 0.016066666

Aquí:

Nh 15 ; nh 3 ; Wh 0.5 ; f h 0.1

470
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Por lo tanto:

2
Wh2 .(1 f h ).S h2 (0.5) 2 .(0.9)
V (YˆST ) .(0.00008619 ) 0.000006464
h 1 nh 3

En resumen pude verificarse que en este caso particular:

V (YˆMSIS ) < V (YˆMAS ) < V (YˆST ) .

La figura 7.7, presenta un resumen de caracterización del coeficiente de correlación intramuestral al comparar el MSIS y
el MAE.

ESQUEMA RESUMEN QUE PERMITE CARACTERIZAR


wst

V (YˆMSIS ) < V (YˆMAE ) V (YˆMSIS ) V (YˆMAE )

1
<0< WST <1
(n 1)

Mínima varianza del Máxima varianza del


MSIS MSIS

V (YˆMSIS ) V (YˆMAE )

Figura 7.7. Caracterización del coeficiente de correlación intramuestral al comparar el MSIS con el MAE.

7.11 CUANDO USAR EL MSIS.

A continuación se plantean unas situaciones prácticas que permiten reconocer la factibilidad para usar o no un MSIS.

Cuando la población puede considerarse ordenada y completamente aleatoria, entonces la eficiencia del MSIS es
equivalente a la del MAS. El usar el MSIS proporciona economía en tiempo y dinero.

Si la población presenta variaciones periódicas en la ordenación de sus elementos, el MSIS no debe usarse ya que
puede suceder que el intervalo aleatorio (k) sea múltiplo o submúltiplo de la longitud del período poblacional
considerado, lo cual llevaría a seleccionar siempre elementos similares en cuanto al valor de la variable, ver figura
7.8.

471
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Unidades que están en una cima

U2 U4 U6 U8 U10

U1 U3 U5 U7 U9 U11

Unidades que están en un valle


Figura 7.8. Ubicación periódica de las unidades poblacionales en el marco muestral.

Si las unidades U2, U4, U6, U8 y U10 presentan igualdad en cuanto al valor de la variable analizada y ellas coinciden
con el k del MSIS, presentándose una muestra homogénea que sobrestima la media poblacional y en caso contrario
U1, U3, U5, U7, U9 U11 será una muestra homogénea que subestimara el valor de la media poblacional.

Si la variable objeto de estudio está altamente correlacionada con el ordenamiento de las unidades poblacionales en
el marco(unidades ordenadas por edad, tamaño, tiempo etc.), la eficiencia del MSIS es alta y mayor que la del MAS
y en muchos casos que la del MAE.

Si la variable analizada tiene tendencia lineal, se ha demostrado que el MSIS es más eficiente que el MAS, pero
menos que el MAE de una observación por estrato.

Si no se tiene ningún indicio del orden de las unidades en la población y se pueden identificar previamente dichas
unidades, se aconseja como regla práctica “mezclar el orden de las unidades antes de seleccionar la muestra” lo
cual equivale a seleccionar un MAS.

Ejemplo 7.10
Algunas situaciones que ponen en relevancia particularidades del muestreo sistemático.

a) Una población en donde la ubicación de las unidades poblacionales presenta periodicidad.

Suponga que la población está conformada por las siguientes unidades poblacionales:

U1 U2 U3 U4 U5 U6 U7 U8 U9 U10
2 5 2 5 2 5 2 5 2 5

Parámetros poblacionales:

2
Y 3.5 ; S Y 2.5

Al tomar muestras sistemáticas de tamaño n 5 n, se tiene que: w 1 y por lo tanto la varianza es igual a
V (YˆSIS ) 2.5 ; mientras que V (YˆMAS ) 0.25 . En este caso es mucho mejor el MAS; siendo la precisión del MSIS
mínima.

b) Una población en donde la ubicación de las unidades en el marco poblacional están correlacionadas con el valor de
la característica analizada.(En este caso a medida que se avanza en la enumeración de las unidades el valor de la
característica aumenta, en concreto aquí 0.973 )

U1 U2 U3 U4 U5 U6 U7 U8 U9 U10
4 4.1 4.2 5 5.2 5.8 6 6.2 6.3 6.4

472
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Parámetros poblacionales:

Y 5.32 ; S Y2 0.91067

Para las dos muestras sistemáticas de tamaño 5, W 0.200585651 y por lo tanto la varianza del MSIS será
V (YˆSIS ) 0.036000132; mientras que V (YˆMAS ) 0.0911 .

c) Una población en donde la ubicación de las unidades poblacionales en el marco es aleatoria.


En éste caso se utiliza la misma población de la situación b) pero se ubican las unidades en forma aleatoria de
acuerdo a como vayan apareciendo utilizando una balotera. El resultado fue:

U1 U2 U3 U4 U5 U6 U7 U8 U9 U10
4 5.2 5 6 4.2 5.8 6.2 4.1 6.4 6.3

Parámetros poblacionales:

Y 5.32 ; S Y2 0.911
Obteniendo para muestras de tamaño 5 W 0.210956564 y de esta manera se obtiene V (YˆSIS ) 0.031 y la
varianza en el MAS sigue siendo la misma.

d) Una población heterogénea en la cual la ubicación de las unidades poblacionales en el marco permite seleccionar
muestras sistemáticas bastante heterogéneas.

U1 U2 U3 U4 U5 U6 U7 U8 U9 U10
1 5.2 5 18 8 25 12 2.8 20 15

Parámetros poblacionales:

2
Y 11.2 ; S Y 65.39

W 0.165 ; V (YˆSIS ) 4.45 y V (YˆMAS ) 6.54

e) Una población que permita pequeñas variaciones dentro de los elementos muestrales (sistemática) y grandes
diferencias entre muestras sistemáticas:

U1 U2 U3 U4 U5 U6 U7 U8 U9 U10
1 7.2 1.1 6.89 0.98 7.01 1.01 6,9 0.99 7.1

Parámetros poblacionales:

Y 4.018 ; S Y2 10.022

W 0.999 ; V (YˆSIS ) 10.014 y V (YˆMAS ) 1.002

7.12 ALGUNOS CASOS ESPECIALES DE APLICACIÓN DEL MSIS.

A continuación se presentan a manera de ejemplo algunos casos en los cuales es aconsejable el uso del MSIS con el
objeto de mostrar la importancia de aplicación de este método de muestreo aleatorio.

En general cuando no existe un marco de muestreo y éste se va completando con el tiempo, como puede ser el caso
de los pacientes que llegan por urgencias al Hospital Universitario del Valle.

473
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Si las unidades poblacionales corresponden a un enorme número de registros que se encuentran organizados en
archivadores, la muestra sistemática se selecciona aquí, haciendo uso de una longitud aleatoria que resulta de dividir
la longitud total del archivo (grupo de legajadores) por el tamaño de la muestra (longitud aproximada de la muestra).
Luego, el primer elemento se selecciona aleatoriamente del intervalo (1, k ) en donde:
k (longitud del archivo) /(tamaño de la muestra) . El segundo elemento será aquel que coincida en su
posición con la longitud aleatoria a partir del primer elemento seleccionado, y así sucesivamente hasta determinar
toda la muestra.

Cuando se realizan estudios sobre áreas geográficas, en donde se utilizan mapas como marcos de muestreo, la
utilidad del MSIS es alta, ya que permite una cobertura uniforme sobre la región investigada. Esta cobertura no se
garantiza mediante el uso del MAS.

La aplicación más importante del MSIS, está en los diseños polietápicos en donde en las primeras etapas se usa el
MAS o el MAE siendo estas unidades primarias, grupos de unidades más elementales que comparten algún tipo de
cercanía geográfica o administrativa. Luego, en las etapas posteriores se usa el MSIS dentro de estas grandes
unidades primarias para lograr una cobertura aceptable de los diferentes sectores previamente escogidos (unidades
primarias).

Cuando la población está ordenada con relación a la variable analizada con tendencia a cambiar paulatinamente
dichos valores, el MSIS produce varianzas menores que las varianzas obtenidas mediante el MAS. Lo anterior se
debe a que la muestra con MSIS es más representativa de la población o sea queda más dispersa sobre ésta. Por
ejemplo, una lista de cuentas por cobrar ordenada en forma creciente o decreciente queda mejor representada con
una MSIS que con una MAS. Ver figura 7.9.
 
Primera unidad unidad
Y seleccionada
 

X
k
Figura 7.9. Correlación entre valores de Y y la ubicación a lo largo de X .

Si se quiere muestrear ramas de un árbol a diferentes alturas (Méndez et al 2004) con el fin de evaluar la producción
de frutos, cuando existe la tendencia entre el número de frutos y la altura de la rama. Aquí el MSIS garantizaría la
presencia de ramas de diferentes alturas del árbol. Ver figura 7.10.
 

Ramas de zona alta


A mayor altura de la rama, menor
cantidad de frutos en ella.

Ramas de zona media

Ramas de zona baja

Figura 7.10. Las alturas de las ramas de un árbol favorecen el MSIS a la hora de investigar la cantidad de frutos de éste.

474
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Al seleccionar viviendas (Méndez et al 2004) en donde es posible enumerar las manzanas o cuadras siguiendo un
orden creciente o decreciente en cuanto al estrato socioeconómico. Un MSIS de manzanas o cuadras será adecuado,
ya que de esta manera se tendrán varias manzanas del mismo estrato y dentro de ellas posteriormente se seleccionan
viviendas, teniendo al final una muestra de viviendas de cada uno de los estratos. Ver figura 7.11.

Estrato 1
Estrato 2

Estrato 4
Estrato 3

Figura 7.11. El MSIS favorece el muestreo de viviendas en estudios multietápicos.

El MSIS no proporcionará una muestra necesariamente representativa si la lista de unidades de la población (marco
de muestreo) sigue algún orden periódico o cíclico. Dos ejemplos al respecto:

i) Si los hombres y las mujeres se alternan en una lista y k es un número par o impar, la muestra sistemática
contendrá solo hombres o solo mujeres lo que desde luego no puede considerarse como una muestra
representativa de dicha población.

ii) Si en una región agrícola debido a topografía accidentada que presenta, se ha generado con el tiempo un
patrón periódico en los cultivos y si al realizar un MSIS, éste sigue el mismo ciclo, la muestra sistemática no
será representativa.

No hay expresiones válidas para los estimadores y sus varianzas, cuando se usa el MSIS en poblaciones que no
tienen orden aleatorio. Cuando se usa el MSIS en poblaciones ordenadas aleatoriamente, se pueden usar las
expresiones para el MAS como aproximaciones, aunque muy seguramente las varianzas del MSIS serán menores
que las del MAS.

A continuación se compara el MSIS y el MAS en cuanto a su precisión de acuerdo con la relación que existe entre
el valor de la variable analizada y la ubicación de la unidad poblacional en el marco de muestreo.

i) Si el valor de la variable analizada Y presenta de acuerdo con la ubicación de la unidad poblacional en el


marco, un orden aleatorio, entonces MAS MSIS.

ii) Si el valor de la variable analizada Y presenta de acuerdo con la ubicación de la unidad poblacional en el marco
de muestreo, un orden creciente o decreciente el MSIS será mejor que el MAS.

iii) Si la relación del valor de la variable Y analizada con la ubicación de la unidad en el marco es periódica, el
MSIS será peor que el MAS.

7.13 LA ESTIMACIÓN DE LA VARIANZA DEL ESTIMADOR DE LA MEDIA POBLACIONAL DE


LA VARIABLE ANALIZADA EN EL MSIS.

ˆ
La estimación de la V (YSIS ) es el principal problema que presenta el uso del MSIS por las siguientes razones:

El comportamiento de la media muestral en el MSIS es muy diferente dependiendo de la ordenación de las unidades
en el marco (ordenación de la variable) y del intervalo k escogido.

475
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Cuando exista variación periódica en la población, es imposible construir un estimador de la V (YSIS ) que sea
ˆ
insesgado.

Si existen suficientes razones para considerar que la población presenta un orden aleatorio con respecto a la variable
n
ˆ ( yi y SIS ) 2
analizada, se puede usar como estimador insesgado Vˆ (YSIS ) 1 f . i 1
, que es el estimador
n.( n 1)
de varianza usado en el MAS.

Recuerde que cuando hay ordenamiento aleatorio entre las unidades poblacionales en el marco, entonces W 0 en
cuyo caso:

2 2
N 1 Sy N 1 Sy
V (YˆSIS ) . . 1 (n 1). w
N n N n

Y por lo tanto su estimador será:


N 1 Sˆ y Sˆ y2 Sˆ y2
2

Vˆ (YˆSIS ) .
N n n n.N

Por otro lado, en el MAS:


2
N n Sy
V (YˆMAS ) .
N n
Y su estimador será:

n Sˆ y Sˆ y2 Sˆ y2
2
N
Vˆ (YˆMAS ) .
N n n N

ˆ
De lo anterior se puede deducir que V (YSIS ) V (YˆMAS ) , cuando la población es muy grande, vale decir N ,
justificando así el uso de las expresiones del MAS para hallar las estimaciones en el MSIS, cuando W 0.

ˆ
7.14 ESTIMACIÓN DE V (YSIS ) , CUANDO NO SE TIENE CERTEZA DE LA EXISTENCIA DE ORDEN
ALEATORIO ENTRE LAS UNIDADES POBLACIONALES EN EL MARCO DE MUESTREO.

Cuando no se tiene certeza de que la ubicación de las unidades poblacionales siguen un orden aleatorio en el marco de
muestreo se aplica la siguiente estrategia para la selección de la muestra y la obtención de un estimador de la varianza de
la media muestral.

1) En lugar de seleccionar una muestra sistemática grande de tamaño n , se seleccionan varias muestras sistemáticas
de un tamaño menor, de tal manera que la muestra sistemática de tamaño n , sea equivalente a varias muestras
sistemáticas de tamaño menor realizadas en el mismo tiempo que la muestra grande de tamaño n .

2) Las muestras de tamaño menor deben tener un punto de partida diferente entre 1 y k* .
 
 
 
 

476
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Si N es el tamaño de la población
n : Tamaño de la muestra k* m.k , k N
n
m : Número de muestras sistemáticas
pequeñas

Notas
El tamaño de las muestras sistemáticas pequeñas es n
* n
m
* *
n , k y k son enteros.
Un ejemplo:

Si N 400 n 40 , entonces k N 400 10 y se tendría una muestra sistemática de tamaño 40 de 1 en


n 40
10.
Pero si se toman 10 muestras sistemáticas pequeñas, entonces m 10 , n* n 40 4 y
m 10
k* m.k (10).(10) 100 N 400 40 y se tendrían 10 muestras sistemáticas de tamaño 4 de 1 en
m 10
100(se seleccionan 10 números aleatorios entre 1 y 100 para determinar las primeras unidades de cada una de las
muestras sistemáticas pequeñas).

Nota
N k .n
k* k .m .
n* n
m

El número m de muestras sistemáticas pequeñas que se acostumbra tomar es 10 y para ello n debe ser grande con el
propósito de que el tamaño de las muestras no sea muy pequeño.

El método anteriormente definido recibe el nombre de muestreo sistemático replicado y permite recurrir a las formas
ˆ
clásicas del MAS para obtener estimaciones aceptables de Y y V (Y ) , siendo esta su practicidad.

Si se consideran m muestras sistemáticas de tamaño n* , entonces:


n* m m
yj m * ( y i* YˆSIS ) 2 ( y i* YˆSIS ) 2
1 k m n
, YˆSIS . y i* , Vˆ (Yˆ )
j 1
y i* *
. i 1
1 . i 1

n m i1 k * .m m 1 N m.(m 1)

Nota

k* m k .m m k 1 1 1 1 1 1 n 1
. 1 . 1 . 1 .
k * .m k .m.m k m k m N m N m
n

7.15 TAMAÑO DE MUESTRA EN EL MSIS PARA VARIABLES (FORMA PRÁCTICA APROXIMADA).

Anteriormente se afirmo que cuando la población se supone aleatoriamente ubicada en el marco de muestreo, el MSIS
se puede asimilar al MAS, en consecuencia el tamaño de muestra para utilizar el MSIS se obtiene aplicando las
expresiones ya vistas para el MAS.

477
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Ahora se supone que no se tiene certeza de la ubicación aleatoria de las unidades en el marco de muestreo.

En este caso con apoyo de la expresión antes vista para la varianza del el estimador de Y utilizada el MSIS replicado.

m
( y i* YˆSIS ) 2
k* m k* m ˆ *
Vˆ (Yˆ ) . i 1
.V ( y ) (7.16)
k * .m m 1 k *m

Y despejando m de la expresión anterior, se tiene:

Vˆ ( y * )
Vˆ (Yˆ )
m
1 Vˆ ( y * )
1 .
k* Vˆ (Yˆ )
2

ˆ ˆ
Reemplazando V (Y ) por Vˆ (Y ) , se tiene:
Z
2

Z2
2
2
.Vˆ ( y * )
M
m (7.17)
1 Z2
1 . 2
.Vˆ ( y * )
k* 2
M

Que será la ecuación que permitirá estimar el número de muestras sistemáticas replicadas de tamaño n* necesarias para
estimar Y , con un error de muestreo M y un nivel de confianza (1 ) . Aquí Vˆ ( y * ) es la varianza de las m *
*
muestras sistemáticas piloto de tamaño n , tomadas previamente.
Nota
Para efectos prácticos, el número de muestras sistemáticas piloto suele tomarse alrededor de 5, mientras que el tamaño
n* de cada una de ellas puede estar alrededor de 7.
Ejemplo 7.11
Este es un ejemplo hipotético para explicar el funcionamiento de esta alternativa de cálculo para el tamaño de muestra en
el MSIS replicado.

1) Suponga que se tiene una población cuyo tamaño es N 4249 y se desea estimar la media poblacional para la
variable Y con un nivel de confianza del 95% y un error de muestreo de M 0.4 .

2) Se decide tomar 6 muestras sistemáticas replicadas piloto de tamaño 7 cada una, con lo cual m* 6 y n* 7.

N 4249
3) Se calcula el ancho del intervalo k* 607 , lo cual quiere decir que se tomaran 6 muestras
n* 7
sistemáticas de 1 en 607, cuyos primeros elementos serán seleccionado aleatoriamente entre U1 y U 607 .

Suponiendo que las 6 muestras fueron las siguientes:


478
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Muestras sistemáticas replicadas piloto


MSIS1 MSIS2 MSIS3 MSIS4 MSIS5 MSIS6
U0002 U0010 U0012 U0020 U0100 U0504
U0609 U0617 U0619 U0627 U0707 U1111

seleccionadas
Unidades U1216 U1224 U1226 U1234 U1314 U1718
U1823 U1831 U1833 U1841 U1921 U2325
U2430 U2438 U2440 U2448 U2528 U2932
U3037 U3045 U3047 U3055 U3135 U3539
U3644 U3652 U3654 U3662 U3742 U4146
y i* 3.38 5.25 4.50 3.90 4.25 3.75

*
4) La varianza de las medias y i dará:
m* m*
*
y i ( y i* y)2
25.03 2.15508
y i 1
*
4.172, Vˆ ( y * ) i 1
*
0.4310
m 6 m 1 5
5) El número de muestras replicadas m será:

2
Z 2
2
.Vˆ ( y * ) 1.976
.(0.4310)
M 0 .4
m 2 2
10
1 Z 1 1.96
1 . 2
.Vˆ ( y * ) 1
607 0.4
k* M

Como ya se tomaron m* 6 muestras sistemáticas replicadas de tamaño n *


7 , entonces se requieren
*
m m 10 6 4 muestras adicionales para estimar la media poblacional de la variable Y , con los
requerimientos establecidos. Note que en total se está utilizando una muestra de 70 unidades poblacionales. Si se
tomara una sola muestra sistemática de 70 unidades en la población de 4249 unidades entonces k N 4249 61 .
n 70

7.16 ¿QUÉ HACER CUANDO W 0Y WST 0?

Como se vio en apartes anteriores cuando W 0 , se puede asimilar el MSIS a un MAS y cuando WST 0 , en
forma idéntica se puede asimilar el MSIS a un MAE.

Cuando no se tiene evidencia de que lo anterior este ocurriendo se puede utilizar el MÉTODO DE MUESTRAS
INTERPENETRANTES para realizar el MSIS.

Una muestra interpenetrante es un conjunto formado por 2 ó más muestras (independientes ó no) elegidas con el mismo
método o esquema de muestreo de tal forma que cada una proporcione una estimación válida para el parámetro que se
pretende estimar. Este esquema se debe a Mahalanobis (Azorin, 1986).

Si las muestras son independientes es fácil obtener un estimador insesgado de la varianza del estimador. Un poco en
detalle esta afirmación se puede ver de la siguiente manera:

479
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Suponga que ˆ , ˆ , ˆ ,....... ˆ es un conjunto de estimadores insesgados del parámetro , basados en k muestras
1 2 3 k
independientes, entonces un estimador insesgado de dicho parámetro será:

j
ˆ 1 ˆ
i (1) (7.18)
k i 1

Sacando el valor esperado a ambos lados de la igualdad anterior:

j
1 1 k 1 k k.
E ( ˆ) E ˆ
i . E ˆi .
k i 1 k i1 k i1 k

Sacando varianza a ambos lados de la expresión (1), y aprovechando la independencia de las muestras:

1 j
1 k k .V ( ˆi ) V ( ˆi )
V ˆ) V ˆ
i 2
. V ( ˆi ) (7.19)
k i 1 k i1 k2 k

Un estimador insesgado de la varianza V ( ˆ) viene dado por:

k
1
Vˆ ( ˆ) ˆ2
i k. ˆ 2 (7.20)
k .(k 1) i 1

Para mostrar el insesgamiento del estimador anterior se tiene:

Sacando el valor esperado a ambos lados:

k k
1 1
E Vˆ ( ˆ) E ˆ2
i k. ˆ 2 E ( ˆi2 ) k .E ( ˆ 2 ) (2)
k .(k 1) i 1 k .(k 1) i 1

Pero:

2 2
V ( ˆi ) E ( ˆi2 ) E ( ˆi ) y V( ˆ ) E( ˆ2 ) E ( ˆ)

Y reemplazando en la expresión (2):

k
1
E Vˆ ( ˆ) V ( ˆi ) E ( ˆi ) 2
k . V ( ˆ) E ( ˆ) 2

k .(k 1) i 1

Y por insesgamiento:

k k
1 1
E Vˆ ( ˆ) V ( ˆi ) 2
k .V ( ˆ) k. 2
. V ( ˆi ) k .V ( ˆ)
k .(k 1) i 1 k .(k 1) i 1

Pero por la independencia:

480
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

V ( ˆi ) k .V ( ˆ)
Entonces:

1 k
k 2V ( ˆ) k .V ( ˆ)
E Vˆ ( ˆ) . k .V ( ˆ) k .V ( ˆ) V ( ˆ)
k .(k 1) i 1 k .(k 1)

¿Cómo se aplica el método de muestras interpenetrantes al MSIS?

En lugar de seleccionar una muestra sistemática de tamaño n , con arranque aleatorio 1 j k N , se toman t
n
arranques aleatorios obteniendo así, t muestras sistemáticas de tamaño n .
t
En las condiciones anteriores entonces:

Medias de las submuestras sistemáticas de n


t
y ij n
tamaño n yi , i 1, 2,... (7.21)
t j 1
n t
t

Estimador insesgado de la media


poblacional para la variable Y 1 t
YˆSIs . yi
t i1
(7.22)

ˆ
El estimador de la varianza de V (YSIS ) t
1
Vˆ (YˆSIS ) . ( yi YˆSIS ) 2
t.(t 1) i 1

Nota
Al aumentar el número de arranques t para el mismo n , la precisión obtenida se acerca a la precisión del MAS.

Ejemplo 7.12
La siguiente tabla corresponde al número de trabajadores de 120 fincas pequeñas.

4 6 6 6 7 7 4 4 3 4 4 4 5 6 7 8 3 3 10 8
6 4 5 6 5 5 5 4 5 5 5 5 3 3 2 4 4 5 6 8
7 4 8 6 7 8 6 3 4 5 7 7 7 5 2 2 4 4 6 6
5 6 8 3 6 4 5 3 4 2 10 4 5 6 6 4 2 2 3 4
5 7 7 10 6 6 10 3 4 5 6 5 6 5 6 5 3 5 2 8
6 5 10 9 8 4 6 4 2 2 3 4 5 6 12 4 5 6 6 9

481
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

a) ¿Qué tamaño de muestra será necesario para estimar el promedio de trabajadores por finca mediante una muestra
sistemática. Se requiere un error absoluto de 1 y un nivel de confianza del 95%. En este caso S Y2 4.09 .
ˆ
Suponga que V (YMSIS ) V (YˆMAS ) .

Solución//

n0 15.71 n 14

b) Como se pueden obtener aproximadamente 9 muestras sistemáticas de dicho tamaño, en lugar de seleccionar una
sola de 14 seleccione 2 de 7 con diferentes arranques aleatorios

Solución//
120
Para muestras de tamaño 7 aproximadamente k* 17 , lo que significa que se pueden extraer 17 muestras
7
sistemáticas de tamaño 7 aproximadamente. Suponga que al seleccionar dos números aleatorios entre 1 y 17 se han
obtenido L 2 y L 10 .

De acuerdo con lo anterior y estableciendo como marco muestral un recorrido de izquierda a derecha y de arriba
hacia abajo en la tabla poblacional se tienen las siguientes muestras:

Primera muestra Segunda muestra


6 10 4 7 2 10 9 4 5 6 5 2 6 4

c) Encuentre un estimador de Y combinando las dos muestras sistemáticas de tamaño 7 seleccionadas y estime su
varianza utilizando el método de muestras interpenetrantes y el método de las diferencias sucesivas respectivamente.

Solución//

n*
y ij
1 t ˆ 1 t 1 48 32 80
YˆSIS
j 1
. Yi . *
. 5 .7
t i1 t i1 n 2 7 7 14

t
1
Vˆ (YˆSIS ) (Yˆi YˆMSIS ) 2 1.31
t.(t 1) i 1

d) Suponiendo que para una muestra sistemática de tamaño 14 se ha obtenido como número aleatorio entre 1 y 9 el
número L 2 . Siguiendo la misma ruta establecida para las anteriores muestras determine la muestra; estime el
valor de Y y del estimador de su varianza siguiendo el método de las diferencias sucesivas.

Solución//

La muestra será:

6-4-8-5-5-6-2-6-6-7-5-6-2-6

n
1 74
YˆMSIS y ij 5.28 ,
n j 1 14

482
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

n 1
14
(1 f ). ( yi yi 1 ) 2 1 .100
120
Vˆ (YˆSIS ) i 1
0.243
2n.(n 1) 2(14)(13)

e) Halle el estimador de la varianza en el MAS para la situación anterior.

Solución//
14
1
(1 f ) ˆ2 120
V (YˆMAS ) .S Y .(2.8352) 0.179
n 14

7.17 MUESTREO SISTEMÁTICO (MSIS) PARA ATRIBUTOS

En este caso se realizan las siguientes consideraciones:


Sea U ij : Unidad j ( j 1, 2,...n) de la muestra sistemática i (i 1, 2,...k ) , la cual toma el valor 1 si ella posee la
característica C analizada y 0 en caso contrario. Esto es, se supone que la población presenta dos clases C y C ' de
acuerdo con la característica o atributo en cuestión, entonces:

1 si U ij C
yij aij
0 si U ij C
En este contexto se define:

n
ai aij : Total de unidades de la clase C en la muestra i, luego
j 1
n
y ij n
a ij ai
y SIS p SIS (7.23)
j 1
n j 1
n n

7.17.1 Estimadores de la proporción y el total vía proporción bajo el MSIS

Dichos estimadores presentan la siguiente estructura para una muestra i:

PARÁMETRO ESTIMADOR

A ai
P PˆSIS pi (7.24)
N n

PARÁMETRO ESTIMADOR
(7.25)

A N .P Aˆ SIS N .PˆSIS

483
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

7.17.2 Algunas propiedades del estimador de la proporción y del total vía proporción al usar MSIS para
atributos.

Se presentan a continuación las propiedades del estimador de la proporción y el total de unidades con un atributo
específico cuando se usa el muestreo aleatorio sistemático.

Propiedad 7.8: Insesgamiento del estimador de la proporción en el MSIS.

El estimador de la proporción poblacional P en el MSIS es un estimador insesgado.

Como N n.k , se tienen k muestras sistemáticas de tamaño n en la población N , luego la probabilidad de cada
estimador de P será Pr ( p SIS ) 1 , entonces: si pi es la proporción obtenida con la muestra i:
k

k
1 k n
aij 1 t n
A
E ( PˆSIS ) pi .Pr ( pi ) . . aij P
i 1 k i1 j 1
n n.k i 1 j 1 N

t n
Aquí, A aij es el total de unidades poblacionales que pertenecen a la clase C .
i 1 j 1

Nota
Para el total poblacional vía proporción:

E ( Aˆ ) E ( N .PˆSIS ) N .E ( PˆSIS ) N .P A

Propiedad 7.9: Expresión para la varianza del estimador de la proporción poblacional en el MSIS

La varianza para el estimador de la proporción en el MSIS viene dada por:

1 k
V ( PˆSIS ) P.Q . pi qi (7.26)
k i1

Considerando la que la variable Y , toma valores 1 y 0 dependiendo si la unidad pertenece o no a la clase C , se tiene:
k n k n t n k n
( y ij yi. ) 2 y ij2 2. y i. . y ij y i2.
i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1
(1)
k n k n k n
2 2
y ij 2. y i. . y ij y i.
i 1 j 1 i 1 j 1 i 1 j 1

Pero para la muestra i:

n n n
y ij ai
aij aij2 n. pi y y i. pi
j 1 j 1 j 1
n n

Reemplazando en (1):

484
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

k n k n k n k k k
y ij2 2. yi. . y ij y i2. n. pi 2. pi .(n. pi ) n. pi2
i 1 j 1 i 1 j 1 i 1 j 1 i 1 i 1 i 1

k k k k k
n. pi 2. pi .(n. pi ) n. pi2 n. pi 2 pi2 pi2 n. pi .qi (2)
i 1 i 1 i 1 i 1 i 1

2
Reemplazando (1) y (2) en S WSIS :

k n k n k
2 1 1 1
SWSIS . ( y ij y i. ) 2 . ( y ij y i. ) 2 . n. pi .qi (3)
k .(n 1) i 1 j 1 N k i 1 j 1 N k i 1

Por otro lado:

2 1 N 1 N N
1
. ( yi Y )2 . yi 2.Y . yi N .Y 2 A 2 P.( N .P) N .P 2
N i1 N i 1 i 1 N

De donde:

2 1
N .P N .P 2 P.Q (4).
N

ˆ
Reemplazando (3) y (4) en V (YSIS ) , dada en la propiedad 7.2 para el estimador de la media poblacional en el MSIS se
tiene:

k
(n 1) 2 (n 1) 1
V (YˆSIS ) 2
.SWSIS V ( PˆSIS ) P.Q . n. pi .qi
n n N k i 1

Y simplificando, finalmente:

1 k
V ( PˆSIS ) P.Q . pi .qi
k i1

Nota
Para el estimador del total se tiene:

V ( Aˆ SIS ) N 2 .V ( PˆSIS ) (7.27)

Nota
Otras propiedades para P̂SIS y ÂSIS pueden obtenerse de las respectivas propiedades vistas anteriormente para los
ˆ
estimadores YSIS y YˆSIS , realizando los respectivos reemplazos.

485
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Ejemplo 7.13
Se tiene una pequeña población integrada por N 20 viviendas de una y dos plantas. Las viviendas de dos plantas
aparecen entre paréntesis.

(V1), V2, V3, (V4), (V5), (V6), (V7), V8, V9, V10, (V11),
(V12), (V13), V14, (V15), V16, V17, V18, V19, V20.

En esta población, la proporción poblacional de viviendas de dos plantas.

9
P 0.45 .
20
La distribución probabilística del estimador P̂ al generar todas las posibles muestras sistemáticas de tamaño n 4 es:
Muestra Unidades pi
MSIS1 (V1), (V6), (V11), V16 3/4
MSIS2 V2, (V7), (V12), V17 2/4
MSIS3 V3, V8, (V13), V18 1/4
MSIS4 (V4), V9, V14, V19 1/4
MSIS5 (V5), V10, (V15), V20 2/4

En ella:
2
k
pi E ( p)
E ( p) 0.45 y V ( p) 0.035
i 1 k

De la tabla se puede obtener:

k
17
pi .qi
i 1 16
Y por lo tanto:
1 k
V ( p) P.Q . p i .q i 0.035
k i1

Ejemplo 7.14
La siguiente tabla muestra los integrantes de 14 apartamentos de una torre de apartamentos en donde: P : padre, M :
madre, m : hijo, f : hija.

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13 F14


P P M P P M P P P M P P P P
M M m M m m M M M m M M M M
m f f f m f m m f m m f f m
f m f m f f f m m
f m f m

Compare las varianzas dadas por una muestra sistemática de 1 en 5 personas, con una muestra aleatoria simple del mismo
tamaño de cada muestra sistemática para estimar:

a) El porcentaje de hijas ( f ) / N .
b) El porcentaje de hombres ( P m) / N .

486
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Solución//

Estableciendo como marco muestral (listado) la ruta izquierda a derecha y de arriba hacia abajo se tinen las siguientes
muestras:
N
Como el número de muestras es k 5 entonces el tamaño de cada una será: 11
k
MSISi Integrantes
1 P P m f M M f f f M m
2 M M f P m m m M P f m
3 m f f m f P P m M P P
4 f m P m f M M m m M M
5 f M F m P m f m M f m

De acuerdo con la tabla anterior se tienen las siguientes distribuciones para los estimadores P̂1 : Proporción de niñas en
la población de personas y P̂2 : Porcentaje de varones en la población.

MSISi P̂1 : P̂2


1 4/11 4/11
2 2/11 6/11
3 3/11 7/11
4 2/11 5/11
5 3/11 6/11

14
a) Para el porcentaje de niñas en la población se tiene el parámetro P1 0.2545 y por lo tanto para el MAS
55
N n P1 .Q1
V ( P1 ) MAS . 0.014055708 y para las muestras sistemáticas de acuerdo con la tabla anterior
N 1 n
1 k 2
V ( Pˆ1 ) MSIS . p1i E ( Pˆ1 ) 0.004628 . Aquí como puede verse es más preciso el MSIS en
k i1
comparación con el MAS.
28
b) En forma análoga para la variable aleatoria P̂2 se tiene: P2 0.50909
55

N n P2 .Q2
V ( Pˆ2 ) MAS . 0.0185123 V ( Pˆ2 ) MSIS 0.008595
N 1 n

EJERCICIOS

Ejercicio 7.A
Utilizando al paquete MINITAB genere una población de N 2000 datos que se comporten bajo la distribución
uniforme con parámetros X MIN 20 y X MAX 60 .
2
a) Encuentre los parámetros: X y S X .
b) Realice la gráfica de la distribución.
c) Encuentre una muestra sistemática de tamaño n 200 y encuentre los estimadores de X y S X2 .

487
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Ayuda:

Para la generación de la población

Calc Random Data Uniform….

Tamaño de la población

Columna de almacenamiento

X MIN

X MAX

Para las estadísticas básicas

X
Stat Basic Statistics Display Descriptive
S

Columna que contiene


la población

488
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Mean: Media
Variance: Varianza
First quatile: Primer cuartil
Median: Mediana= Segundo cuartil
Third quartile: Tercer cuartil
Minimum: Mínimo
Maximum: Máximo

Para la generación de la muestra

Copiar en una hoja Excel los datos poblacionales generados en MINITAB y siga la instrucción que se indica.

Datos Análisis de datos

489
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Los datos poblacionales se


encuentran en la columna B
entre las filas 2 y 2001de Excel

Período o salto de los datos a lo


largo del listado poblacional:
K N / n 2000 / 200 10

Los datos muestrales se


almacenan en la misma
hoja Excel en la columna
C a partir de la fila 2

Para las estadísticas de la muestra

Se pueden obtener mediante la hoja Excel o copiar en una hoja de trabajo de MINITAB la muestra generada y procede a
obtener los indicadores muestrales en forma idéntica como se obtuvieron los parámetros poblacionales obteniendo. La
siguiente es una salida de MINITAB para la muestra hallada.

Compare los parámetros poblacionales con sus estimaciones en la muestra. Opine.

Ejercicio 7.B
Genere una muestra sistemática del archivo de datos RAKAN con período 26 conteniendo las siguientes variables:

COD COMU VIVI-NUM VIVI-PRO ING-FAMI

Use para la generación de la muestra la misma hoja Excel en diferentes columnas a las de la base

Ayuda

490
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Tome como base el ejercicio anterior y vaya modificando el rango de salida y entrada para cada variable pedida. Al final
verifique con la base de datos que los valores de las variables solicitadas generados corresponden a la mismo código de
la base (no se han trocado los valores)

Variable Rango de entrada Período Rango de salida


COD $A$2:$A$2601 26 $T$2
COMU $B$2:$B$2601 26 $U$2
VIVI-NUM $D$2:$D$2601 26 $V$2
VIVI-PRO $F$2:$F$2601 26 $W$2
ING-FAMI $M$2:$M$2601 26 $X$2

Notas:
El rango de entrada contiene el número de las filas y la columna correspondiente a cada variable en la base de datos.
El período es calculado como el número entero más próximo resultante del cociente N n
El rango de salida indica la fila y la columna en donde se almacena la muestra.

Ejercicio 7.C
Utilizando la base de datos RAKAN obtenga una muestra sistemática de tamaño n 40 para las viviendas con más de
10 personas. Posteriormente con base en dicha muestra estime el ingreso familiar promedio y su varianza.

Ayuda
Para extraer los grupos de viviendas con más de 7 personas usando MINITAB se tiene:

Data Unstack Columns

Variables que se
Variable que contiene desea tengan los
los valores que dividen grupos formados
en grupos la base de
datos

Columnas y
nombres de
variables de la base
de datos

Con nombres de las


columnas conteniendo En una nueva hoja
los datos de datos o de trabajo

Se forma una nueva base de datos con los registros de las viviendas con 11; 12; 13 y 14 personas. Ahora se realiza el
proceso inverso para formar una sola base.

491
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Data Stack Blocks of Columns

Los subgrupos se colocan uno debajo de otros coincidiendo en sus variables (se tienen cuatro subgrupos)

Variable inicial y
final del primer
bloque de columnas.
Cada bloque tiene las
mismas variables
ocupando columnas
Columnas y nombres de diferentes
variables de cada
subgrupo

Nueva hoja de trabajo

La siguiente es la salida del paquete MINITAB que muestra las estimaciones para la variable ING-FAMI que ocupa la
columna C14.

Ejercicio 7.1
Se dispone de un listado de 22 viviendas. De ellas, las 6 primeras tienen vigilancia privada. El número de personas por
vivienda es: 4, 4, 5, 6, 3, 4, 5, 6, 3, 4, 5, 9, 3, 4, 7, 8, 2, 4, 3, 4, 5, 2. Con muestras de tamaño 10, calcule la varianza de la
proporción estimada de personas que habitan en viviendas vigiladas, utilizando:

a) MAS.
b) MSIS de 10 personas.

Ejercicio 7.2
Se tiene la siguiente población:

Población
Ui U1 U2 U3 U4 U5 U6 U7 U8 U9 U10
Y 10 6 7 8 9 4 4 7 10 6

Si se obtienen dos muestras sistemáticas posibles de 5 unidades.

ˆ
a) Calcular V (YSIS ) .

492
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

ˆ
b) Estimar V (YSIS ) con cada muestra utilizando el estimador del MAS.
ˆ
c) Estimar V (YSIS ) si se consideran las dos primeras unidades de la muestra como procedentes del estrato:
U1 , U 3 , U 3 , U 4 U 5 y las restantes como unidades del segundo estrato.

Ejercicio 7.3
La siguiente tabla corresponde al número de frutos caídos por cada metro de superficie en una franja de 1 metro de ancho
por 200 metros de largo.

Largo
Total
1-20 21-40 41-60 61-80 81-100 101-120 121-140 141-160 161-180 181-200 muestras
1 2 3 4 5 6 7 8 9 10
8 20 10 30 15 12 33 21 12 11 172
7 10 29 25 25 16 22 19 13 8 174
12 10 22 18 9 23 26 14 23 16 173
34 16 21 29 23 13 21 10 18 12 197
56 23 13 25 26 18 22 21 22 29 255
33 16 8 15 14 10 24 29 11 10 170
21 29 20 30 24 10 16 20 10 26 206
13 7 11 19 10 29 13 30 21 19 172
10 17 29 20 23 21 9 11 26 8 174
9 23 20 17 24 13 13 9 23 16
7 8 22 9 9 29 19 9 18 27 157
14 15 9 8 28 8 13 10 16 25 146
22 13 23 12 15 15 20 15 12 23 170
34 7 21 25 8 9 7 15 20 18 164
45 21 18 24 23 16 28 20 19 17 231
32 7 14 8 7 8 16 16 10 7 125
8 7 22 9 29 25 13 30 26 16 185
14 21 10 20 23 27 7 28 28 7 185
26 29 8 9 13 26 25 21 21 16 194
25 26 17 14 18 25 8 7 9 20 169
Total estrato Total
430 325 347 366 366 353 355 355 358 331 3586

Encuentre la varianza del estimador de la media para muestras sistemáticas de una en veinte metros. Compare esta
varianza con la varianza obtenida para:

a) Una muestra aleatoria simple.


b) Una muestra estratificada con una unidad por estrato.

Ejercicio 7.4
De un archivo con 10000 historias clínicas de pacientes egresados de un hospital se ha tomado una muestra de 100 de
ellas. Las historias clínicas son archivadas diariamente una detrás de otra a medida que los pacientes dejan el hospital. El
archivo corresponde a los pacientes que egresaron en el año 2009 por urgencias.

Nº FI FE Nº FI FE Nº FI FE Nº FI FE
1 01/01/2900 06/01/2900 26 21/04/2009 26/04/2009 51 28/06/2009 31/06/2009 76 23/09/2009 02/10/2009
2 01/01/2900 07/01/2900 27 22/04/2009 27/04/2009 52 28/06/2009 04/07/2009 77 23/09/2009 27/09/2009
3 04/01/2900 16/01/2900 28 22/04/2009 01/05/2009 53 28/06/2009 08/07/2009 78 30/09/2009 07/10/2009
4 01/01/2900 10/01/2900 29 26/04/2009 29/04/2009 54 01/07/2009 09/07/2009 79 30/09/2009 02/10/2009
5 11/01/2900 19/01/2900 30 26/04/2009 06/05/2009 55 01/07/2009 12/07/2009 80 05/10/2009 07/10/2009
6 17/01/2900 29/01/2900 31 26/04/2009 30/04/2009 56 01/07/2009 12/07/2009 81 05/10/2009 16/10/2009
7 18/01/2900 26/01/2900 32 28/04/2009 02/05/2009 57 15/07/2009 18/07/2009 82 07/10/2009 14/10/2009
8 24/01/2900 04/02/2900 33 28/04/2009 06/05/2009 58 15/07/2009 24/07/2009 83 15/10/2009 20/10/2009
9 30/01/2900 02/02/2900 34 28/04/2009 03/05/2009 59 22/07/2009 27/07/2009 84 20/10/2009 29/10/2009

493
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)
10 10/02/2009 17/02/2009 35 30/04/2009 02/05/2009 60 30/07/2009 04/08/2009 85 01/11/2009 07/11/2009
11 12/02/2009 18/02/2009 36 30/04/2009 31/04/2009 61 01/08/2009 09/08/2009 86 01/11/2009 09/11/2009
12 16/02/2009 17/02/2009 37 01/05/2009 10/05/2009 62 01/08/2009 05/08/2009 87 10/11/2009 18/11/2009
13 18/02/2009 19/02/2009 38 01/05/2009 11/05/2009 63 01/08/2009 08/08/2009 88 19/11/2009 29/11/2009
14 19/02/2009 20/02/2009 39 01/05/2009 09/05/2009 64 01/08/2009 02/08/2009 89 21/11/2009 27/11/2009
15 20/02/2009 27/02/2009 40 22/05/2009 24/05/2009 65 01/08/2009 03/08/2009 90 28/11/2009 05/12/2009
16 24/02/2009 01/03/2009 41 28/05/2009 01/06/2009 66 01/08/2009 09/08/2009 91 02/12/2009 11/12/2009
17 25/02/2009 31/02/2009 42 30/05/2009 04/06/2009 67 01/08/2009 09/08/2009 92 02/12/2009 03/12/2009
18 29/02/2009 02/03/2009 43 20/06/2009 31/06/2009 68 02/08/2009 08/08/2009 93 04/12/2009 16/12/2009
19 01/03/2009 10/03/2009 44 20/06/2009 28/06/2009 69 03/08/2009 12/08/2009 94 06/12/2009 09/12/2009
20 06/03/2009 16/03/2009 45 23/06/2009 31/06/2009 70 08/08/2009 10/08/2009 95 06/12/2009 12/12/2009
21 09/03/2009 11/03/2009 46 24/06/2009 25/06/2009 71 20/08/2009 28/08/2009 96 08/12/2009 20/12/2009
22 12/03/2009 17/03/2009 47 24/06/2009 29/06/2009 72 20/08/2009 27/08/2009 97 15/12/2009 18/12/2009
23 14/03/2009 21/03/2009 48 26/06/2009 03/07/2009 73 22/08/2009 30/08/2009 98 20/12/2009 31/12/2009
24 18/03/2009 23/03/2009 49 27/06/2009 03/07/2009 74 27/08/2009 03/09/2009 99 24/12/2009 31/12/2009
25 10/04/2009 15/04/2009 50 27/06/2009 28/06/2009 75 20/09/2009 31/09/2009 100 24/12/2009 03/01/2010

FI: Fecha de ingreso


FE: Fecha de egreso

a) ¿Cuál fue el valor de k (intervalo de la muestra)?


b) Estime el tiempo promedio (días) que permanece un paciente que ingresó en el año 2009.
c) Encuentre el intervalo de confianza al 95% para el valor promedio verdadero.

Ejercicio 7.5
La Facultad de Ciencias de una universidad tiene 200 salones distribuidos en dos bloques de la siguiente manera:
Bloque A: Primer piso 60 salones (numerados del 01 al 60); segundo piso 20 salones (numerados del 01 al 20).
Bloque B: Primer piso 70 salones (numerados del 01 al 70); segundo piso 50 salones (numerados del 01 al 50).

a) Indique cómo enumeraría todos los salones para tomar una muestra de 10 de ellos y cómo los seleccionaría.
b) Si usted establece la siguiente ruta:
Bloque A primer piso Bloque A segundo piso Bloque B primer piso Bloque B segundo piso y de esta manera
enumera los salones de clase en orden creciente para luego de una tabla de números aleatorios obtener que el primer
número aleatorio seleccionado fue 019; ¿Cuántos salones quedan seleccionados por bloque y piso. ¿Cuál es el valor
de k?
c) Si de sea realizar un sistemático por bloque y piso de tal manera que tanto los bloques como los pisos queden
representados proporcionalmente en la muestra, indique cómo se realizaría el esquema de selección.
d) Si al usar una tabla de números aleatorios sobre la base de la enumeración plantada en el literal b) permite obtener los
siguientes números: 1066; 1199; 9091; 1150; 1129; 0139; 0129; 0177; 0175; 0111. ¿Cuántos salones salen por cada
piso?. Recuerde que estamos trabajando con las tres últimas cifras del número aleatorio.

Ejercicio 7.6
En el campus de una universidad hay sembrados por toda su zona verde 360 árboles los cuales han sido numerados en
orden creciente y debajo de su número los estudiantes de Bilogía Vegetal han clasificado cada árbol. Los árboles cuyo
nombre científico es Ceiba Pentandra comúnmente conocido como ceiba, tienen los siguientes códigos:

28, 31-33, 36-41, 44, 45, 47, 55, 56, 58, 68, 69, 82, 83, 85, 86, 89-94, 98, 99, 101, 107-110, 114, 154, 156, 178, 223, 224,
296, 298-300, 302-304, 306-323, 325-331, 333, 335, 341, 342.
Compare la precisión de una muestra sistemática de k=8 con una muestra aleatoria simple del mismo tamaño para
estimar la proporción de ceibas.

Ejercicio 7.7
Los tipos de dispersión espacial de una población (Urban, 2000) se clasifican en:

1. Dispersión Espacial al Azar.


2. Dispersión Espacial Regular o Uniforme.
3. Dispersión Espacial Contagiosa o Agrupada.

El siguiente cuadro presenta el cumplimiento de los siguientes supuestos por parte de cada tipo de dispersión

494
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Tipo de Todos los puntos en el espacio tienen la La presencia de un individuo en un cierto


Dispersión misma probabilidad de ser ocupados por punto en el espacio no afecta la ubicación de
un organismo los demás individuos
1 X X
2 X
3 X

Justifique la aplicación de los siguientes métodos de muestreo para cada uno de los tipos de dispersión:

Al azar MAS
Regular o Uniforme MSIS
Contagiosa o Agrupada MAE/POR ÁREAS

Ejercicio 7.8
La siguiente tabla corresponde a la cantidad de habitantes de 24 chozas indígenas ubicadas a lo largo de la rivera de un
río.

4 4 5 4 6 6 8 9 2 3 7 5
4 5 3 3 4 5 6 4 7 8 4 6

a) Realizar un muestreo sistemático de 5 chozas para obtener la estimación del total de indígenas y una estimación de su
varianza.
b) Realiza otro muestreo sistemático cambiando el punto de arranque (primer choza seleccionada).
c) Utilizando las muestras generadas en a) y b), obtenga una estimación combinada del número de indígenas por choza y
su varianza.

Ejercicio 7.9
Una empresa de buses dispone de cuatro rutas para el transporte de personas. En total dispone de 40 buses para el
servicio diario. La siguiente tabla presenta los códigos de los buses de acuerdo con su ruta y los números de aquellos que
tuvieron algún inconveniente en la prestación del servicio un día determinado.
.
Rutas
Ruta 1 Ruta 2 Ruta 3 Ruta 4
Códigos /ruta 01-11 12-20 21-28 29-40
Buses con
1-2 12,18,19 21 30-34
inconvenientes

Se desea estimara la proporción de buses con inconvenientes en la realización de su ruta en un día específico, mediante
un MSIS.
a) Escriba todas las posibles muestras sistemáticas con k=10 y calcule V (Pˆ ) .
b) Escriba todas las posibles muestras sistemáticas con k=5 y calcule V (Pˆ ) .
c) Compare los resultados de a) y b) en cuento a la varianza con un MAS de tamaño 4 y otra de tamaño 8 de la misma
población. Opine.

Ejercicio 7.10
La siguiente figura (marco muestral) suministrada por el Dpto. de Planeación municipal muestra el plano urbanístico del
pueblo A. En él se indican con números consecutivos las manzanas con vocación domiciliaria. Las manzanas agrupadas
corresponden al estrato A y el resto al estrato B.

495
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Se desea obtener una muestra estratificada en la cual la selección de las manzanas se realizaría en forma sistemática. Una
vez seleccionada la manzana se tomaran de cada manzana cuatro viviendas en forma sistemática recorriendo las
viviendas de la manzana en sentido contrario a las manecillas del reloj. Para esta selección el encuestador se ubicará en la
esquina suroriental antes de comenzar el recorrido de cada manzana.
Determine las manzanas de cada estrato que serian seleccionadas para una muestra de tamaño 20 manzanas con
asignación proporcional si la primera manzana seleccionada en cada estrato es la segunda de acuerdo con el orden
creciente de su numeración.
Este diseño aunque económico puede presentar problemas de representatividad. Explique brevemente ¿por qué?

Ejercicio 7.11
La tabla siguiente corresponde al número de habitantes de 24 fincas en una determinada región agrícola.

4 3 5 3 4 2 2 7 4 6 2 5
3 4 4 6 7 2 4 6 2 1 2 3

Se desea obtener una muestra sistemática de tamaño 6.

a) Escribir todas las muestras sistemáticas de tamaño 6.


b) Calcule para cada muestra la media resultante (Estimación del número de personas por finca).
c) Calcule el valor esperado deYˆ y muestre su insesgamiento.
ˆ SY2 N 1
d) Calcule la varianza mediante: V (Y ) 1 ( n 1) ; donde:
n N
2 k
2 i 1 j <u
( yij Y )( yiu Y )
(n 1)( N 1).SY

e) Verifique el resultado anterior hallando la varianza directamente.

496
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

ˆ N 1 2 k (n 1) 2 2 1 k n
f) Calcule V (Y ) SY SWS ; SWS i 1 j 1
( yij Yi ) 2 . Comente.
N N k (n 1)

Ejercicio 7.12
Para la información del ejercicio 7.11, utilizando la muestra sistemática con el número aleatorio L=4, obtenga la
estimación del número promedio de personas por finca y estime error estándar utilizando el método de las diferencias
sucesivas; es decir:

(1 f )
Vˆ (Yˆ )
n 1
j 1
(yj y j 1 )2  
2n(n 1)

Repita el procedimiento con la muestra cuyo número aleatorio es L=2.


Nota:
Si una muestra sistemática de tamaño n se parte en t muestras de tamaño n y , la media estimada y su varianza serán:
1 1
Yˆ Yˆ y su varianza Vˆ (Yˆ ) ( yi Yˆ ) 2
t t
i 1 i
t t (t 1) i 1

Las muestras se obtienen utilizando t comienzos aleatorios. ¿Cuál será el resultado en este caso si se toma t=2 y se utiliza
la muestra sistemática L=2.

Ejercicio 7.13
¿Cuál será la varianza del promedio de personas por finca si se usa un MAS de tamaño n 6 ?. Comente

Ejercicio 7.14
En un barrio de una ciudad se está realizando un censo. Además, de la información usual se pregunta a los ocupantes de
cada décima vivienda cuanto tiempo la han habitado (Y) en meses cumplidos. Los resultados obtenidos son:

300 300
n 300; N 3000; i 1
yi 14727; i 1
yi2 853587

Estime el tiempo promedio (meses cumplidos) que las personas han vivido en su casa actual y determine el error de
estimación.

Ejercicio 7.15
Un granjero desea estimar el peso total del fruto que producirá un campo de calabazas. El campo consta de 40 hileras de
de 200 plantas por hilera. El vendedor de las semillas dice que cada planta puede producir hasta 6 kilos de fruto. Describa
un plan de muestreo sistemático para este problema con el fin de estimar el peso total del fruto con un error de estimación
de 1073,31263. Asuma para la variable una distribución parabólica en la cual la varianza en función del rango sería:
S R 20 .

Ejercicio 7.16
Las tasas de consumo de drogas (por cada 1000 personas) en un grupo de países mediante una muestra sistemática desde
1950 hasta el año 2000 se muestra en la siguiente tabla:

1950 1955 1960 1970 1975 1980 1990 1995 2000 2005
1.4 1.7 2.0 1.9 2.7 2.6 3.7 4.9 4.9 5.3

Estimar la tasa media de consumo de drogas anual para dicho período y establezca un límite de error de estimación. A su
juicio en este caso será mejor o peor un MSIS que un MAS.

Ejercicio 7.17
La oficina de transito municipal de Santiago de Cali, está interesada en determinar la proporción de automóviles que
tienen su seguro en regla. Para ello se instala un control en la vía de más transito y se detiene cada séptimo automóvil.

497
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

a) Usando los datos de la siguiente tabla, estime mediante un intervalo la proporción de vehículos que tienen el seguro
en regla, con un intervalo a nivel del 95%.

Automóvil 1 2 3 4 5 6 7 . . . . . 800 Total


Respuesta 1 1 0 0 1 0 1 1 . . . . 1 428

b) Si la oficina de transito espera que pasen por lo menos 3000 vehículos por el puesto de control, determine el tamaño
de muestra requerido para estimar P con un error de 0.0309143 y un nivel de confianza del 95%.

Ejercicio 7.18
De una población de 350 unidades se han tomado tres muestras sistemáticas independientes de tamaño 35. Los totales
muestrales son: 13, 15 y 18 respectivamente. Estime la media poblacional y la varianza respectiva.

Ejercicio 7.19
La siguiente es la distribución de los integrantes de 7 familias de una cuadra.

Familia
1 2 3 4 5 6 7
H H H H H H H
M M M M M M M
m m h h m m
h h m h h m
m m m h

H: Padre: H Madre; h: hijo; m: hija

Para una muestra sistemática de una persona cada cinco (k=5) enumerando los elementos de la población por columnas
de arriba hacia abajo y luego empezando en la parte superior de la siguiente columna, todo esto a partir de la primera
columna de izquierda a derecha.

a) Realizar la tabla de análisis de varianza para estimar la proporción de padres en la población a partir de la
equivalencia entre el MSIS y el MAE de una unidad por estrato. Calcule el coeficiente WST .
b) Tomando la primera muestra sistemática ¿Cuál es el total de padres en la cuadra analizada y su varianza estimada
suponiendo MAS?

Ejercicio 7.20
La siguiente información corresponde al número de botellas mal selladas por cada una de 10 maquinas selladoras de la
empresa ABC.

Mi 1 2 3 4 5 6 7 8 9 10
Yi 6 7 9 4 8 3 5 0 6 3

a) Escriba todas las posibles muestras sistemáticas de tamaño n=5 máquinas para estimar el número promedio de
botellas mal selladas por máquina. Calcule directamente la varianza de la media muestral,
b) Construya la tabal de análisis de varianza para el punto a) y calcule la varianza de la media muestral con base en
dicha tabla.
c) Construya la tabla de análisis de varianza si se asimila el MSIS a un MAE de una unidad por estrato. Calcule ahora la
varianza de la media muestral, calculando WST .
d) Suponga que se quiere estimar la varianza del estimador del promedio de botellas mal selladas por máquina tomando
2 unidades por estrato para lo que debe repetirse en forma aleatoria un dato en cada muestra sistemática. Para el MSIS
Nº 1 el dato 5 y para el MSIS Nº 2 el dato 4. Escriba al final de cada muestra dichos datos y determine cual muestra
es mejor para la estimación requerida.

498
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Ejercicio 7.21
En una universidad con tres cursos de cálculo I en su Facultad de Ingeniería se desea estimar la calificación promedio
que puede ser obtenida del examen final. Una muestra aleatoria estratificada de 50 estudiantes determinada en forma
proporcional produce la siguiente información con respecto a la nota del examen.

Curso Nº 1 Curso Nº2 Curso Nº 3


4,5 4,7 3,8 4,8 2 4,9
2,8 2 3,8 3,3 4,9 3,9
2 3,2 4 3,2 3,9 3,8
1,5 3,3 3,3 3,1 3 2,8
4,9 1 4 3,2 3,9 2,9
1,4 2,7 2,2 2,8 4,1 3,1
1,8 3,9 1,9 2,8 4,2 3,1
3,8 2,7 4 3
3,9 3,1
4 2

a) ¿Cuál es el tamaño de cada grupo si la muestra en cada uno de ellos fue de 1 en 4?


b) Estime la nota promedio para el curso de Cálculo I y establezca un límite para el error de estimación compare este
resultado si se hubiese realizado en su lugar un MAS.

Ejercicio 7.22
Se realiza una encuesta a los estudiantes del curso de Inferencia Estadística de la Universidad del Valle. Entre las
preguntas que se formularon se encontraban las siguientes:

Pregunta Nº 5
A su juicio el servicio de la cafetería es: 1. Muy malo; 2. Malo; 3. Regular; 4. Bueno; 5. Muy bueno.
Pregunta Nº 10
Práctica algún deporte en el CDU.
Pregunta Nº 20
Indique el número de horas extra clase semanales dedicadas a estudio.

Los resultados de la encuesta fueron:

1 2 3 4 5 6 7 8 9 10
Pregunta Nº 5 R B R MB R R B M B B
Pregunta Nº 10 si no si si no no si no si si
Pregunta Nº 20 12 20 38 23 20 23 12 19 15 20
Pregunta Nº 5 B B B M R B B R B R
Pregunta Nº 10 no no si si si si no si si no
Pregunta Nº 20 20 23 40 25 29 40 35 40
Pregunta Nº 5 M MB B R B B R MB R B
Pregunta Nº 10 si si no no si si no si si si
Pregunta Nº 20 15 18 18 20 40 45 35 25 25 18

Tome una muestra sistemática de tamaño 10 para:


a) Estimar el número de estudiantes que calificaron como regular el servicio de la cafetería. Estime su varianza.
b) Estimar el promedio de horas semanales dedicadas por fuera de la universidad al estudio y su varianza.
c) Si se desea estimar la proporción de estudiantes que practican algún deporte con un error del 5% del la proporción
hallada con la muestra anterior y un nivel de confianza del 95%. ¿Se requerirá más muestra sí o no?

Ejercicio 7.23
Muestre que el Deff ( MSIS , Y )
ˆ 1 (n 1) . Asuma población grande.
W

499
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Ejercicio 7.24
Demuestre que el tamaño de muestra utilizando MSIS para estimar la media poblacional de Y para lograr la misma
eficiencia que el MAS viene dada por:

( Deff ).SY2
n 2
( Deff ).SY2
Z2 2 N
Nota:
Aquí se supone que la eficiencia deseada en términos de la varianza para el MSIS que se desea es
2

V ( MSIS , Yˆ )
Z 2

Ejercicio 7.25
El tamaño de muestra para la estimación de la media poblacional para la variable Y mediante el MSIS en función de su
coeficiente de correlación W y el efecto de diseño Deff ( MSIS , Yˆ ) , viene dado por:

N
( Deff ) (1 W )
N 1
n
( Deff )
W
N 1
Ejercicio 7.26
Se tienen 15 viviendas no todas con servicio de gas. SE desea estimar la proporción de personas que habitan en viviendas
con servicio de gas utilizando muestras sistemáticas de tamaño n 20 persona.
De la población se obtienen tres muestras sistemáticas con los siguientes resultados:

Muestra 20
yj
j 1
1
1 10 yj
0
2 9
1: la persona habita una vivienda con servicio de gas
3 7 0: La persona habita una vivienda sin servicio de gas

a) ¿Cuál es la varianza del estimador de P


b) ¿Cuál será V (Pˆ ) usando MAS del mismo tamaño.
c) ¿Qué tamaño de muestra se requiere en el MAS para obtener la misma varianza que el MSIS?

Ejercicio 7.27

Selección realizada Nombre


Se eligen las 30 primeras porque salen ovejas de todas
las edades.
Se eligen las ovejas pequeñas a saltos de 20.
Se eligen indistintamente no importa la edad a lo largo
de toda la población (la forma de selección no depende
del investigador).
Se seleccionan una primera en forma aleatoria y de allí
en adelante la que corresponda de acuerdo con un salto
constante.

500
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Se desea llevar a cabo un estudio en un rebaño de 600 ovejas para examinar el nivel de parásitos intestinales. Si
quisiéramos examinar las eses de 30 animales para realizar un recuento de zoo quistes, el MAS requiere que cada oveja
este identificada de forma individual para preparar una lista con los números. Si los animales no están identificados, el
proceso es muy lento y poco práctico. El MSIS evita la necesidad de identificación de los animales. Las ovejas se
guardan en un redil y van pasando de una en una por una puerta. Así entonces se selecciona un animal de cada 20 que
pasan ( N n 600 30 20 ) obteniéndose así la muestra de los 30 animales. De un nombre adecuado al tipo de muestreo
utilizado en cada caso.

Ejercicio 7.28
En una población de tamaño 200 unidades se han obtenido cinco muestras sistemáticas resultando:
V (Yˆ ) 0.5311765 ; S 2
SIS 30.8909769
WSIS
a) ¿Cuál es la cuasivarianza poblacional?
b) ¿Cuál es el valor del coeficiente de correlación W ?, opine sobre la eficiencia del muestreo sistemático realizado.

Ejercicio 7.29
En un botadero industrial se desea medir el nivel de contaminación por grasas y aceites. El botadero tiene de largo 40
metros y de ancho 20 metros. Un estadístico ha diseñado un muestreo sistemático de 40 puntos para seleccionar muestras
de suelo desde una profundidad de 10 cm. Sobre un plano del área el estadístico ha diseñado una rejilla de N 800
cuadros conteniendo 741 puntos nudos de la malla (posible punto para obtener la muestra). Se plantea una muestra
sistemática de 1 en 25 nudos siguiendo la ruta señalada. Ver figura

Nodo

Ruta

Los resultados se presentan en la siguiente tabla (porcentaje)

18,5 15,6 1,6 9,5 12,7 19,9 16,8 8,1 16,1 9,2 11,4 2,5 10,1 7,7 8,5
9,4 4,5 13,1 2,8 19,2 13,7 12,2 9,3 8,4 10,4 21,4 8,1 15,9 14,7 10,8

a) Estime el porcentaje de concentración y su varianza.


b) Determine el tamaño de muestra requerido para realizar la misma estimación con un error y nivel de confianza
determinados por Usted. Halle el valor de k.

Ejercicio 7.30
La siguiente tabla muestra la descomposición de la suma de cuadrados en el análisis de varianza en el MSIS

Fuente de variación Grados de libertad Suma de cuadrados Cuadrados medios


n k 2 2
Entre muestras k 1 i j
(yj Y ) S BS
n k
Dentro de las muestras k (n 1) i j
( yij Y j )2 2
SWS
n k
Total…… kn 1 N 1 i j
( yij Y )2 S2

501
CAPÍTULO 7. MUESTREO SISTEMÁTICO (MSIS)

Deduzca la fórmula:

N 1 2 n 1 2
V (YˆSIS ) SY SWS .
N n
Recuerde que:

1 1
V (YˆSIS ) nV (YˆSIS ) V (YˆSIS )
n n k n k
( y j Y )2 ( y j Y )2
i 1
k i 1 j 1
n.k i 1 j 1

Ejercicio 7.31 (Flores, 1999)


k ( k 1)
Considerando el modelo simple de tendencia lineal para el cual Yi i . Demuestre que V (Yˆ ) (1 f ). .
12

502
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

MUESTREO POR CONGLOMERADOS (MCON)

_________________________________________________________________________________

Introducción.
Definición.
Procedimiento para seleccionar una muestra aleatoria por conglomerados (MCON ).
Ejemplos de unidades conglomeradas y sus respectivas unidades elementales.
Diferencias y similitudes entre el MCON y el MAE.
Conglomerados de igual tamaño.
Muestreo por conglomerados de igual tamaño para variables.
Los estimadores para la media poblacional por conglomerado y la media poblacional por unidad elemental
El estimador para el total poblacional por unidad elemental.
Propiedades de los estimadores de la media por unidad elemental y el total en el MCON de tamaño igual.
Comparación del MCON de igual tamaño con el MAS.
Tamaño de muestra en el MCON para variables.
Muestreo por conglomerados para atributos.
Estimadores para la proporción y el total vía proporción para la característica C .
Propiedades del estimador de la proporción y del total vía proporción en MCON de igual tamaño.
Tamaño de muestra para la estimación de la proporción y del total en el MCON para atributos.
Tamaño óptimo para M y n en la estimación de Y .
El efecto de diseño.
Conglomerados de tamaño diferente.
La efectividad del MAE y la efectividad del MCON.
Conglomerados de tamaño diferente (poco variables sus tamaños entre sí).
Estimadores de la media por unidad conglomerada y media por unidad elemental para la variable Y .
Propiedades del estimador de la media por unidad elemental.
Propiedades del estimador del total para variables.
Tamaño de muestra para estimar la media por unidad elemental Y al estudiar la variable Y .
Conglomerados de tamaño diferente ( muy variables sus tamaños entre sí).
Estimador de la media y el total en el MCON de diferente tamaño cuando se estudia la variable Y .
Propiedades relacionadas con el estimador de la media por unidad elemental y del total en el MCON de
tamaño diferente, con tamaños de los conglomerados muy diferentes.
Tamaño de muestra para la estimación de la media por unidad elemental y la estimación del total.
Estimador de la media por unidad elemental cuando la selección del conglomerados se obtiene mediante
probabilidades variables relacionadas con el tamaño del mismo y con reemplazo.
Estimadores para el total y la media por unidad elemental para la variable Y .
Propiedades para el estimador del total y la media por unidad elemental para la variable Y .
Estimador para el total y la proporción para atributos.
Propiedades de los estimadores para el total y la proporción.
Estimador de la proporción y del total para una característica C analizada.
Estimador de la proporción y del total para la característica C analizada.
Propiedades del estimador de la proporción y del total en el MCON de tamaño diferente con tamaños de
los conglomerados altamente variables.

503
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Tamaño de muestra para la estimación de la proporción y del total de unidades que pertenecen a la clase C.
Ejercicios.

_________________________________________________________________________________

504
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

8.1 INTRODUCCIÓN

En los métodos de muestreo vistos hasta ahora, la unidad muestreada es la unidad que luego, directamente será medida en
el proceso de investigación. En este contexto se dice que la unidad muestreada es una unidad elemental.
En lo que sigue se estudia un método de muestreo en el cual las unidades muestreadas son colecciones de unidades más
elementales por ejemplo: cajas de tomate; canastas de cerveza; manzanas de un barrio; buses de una empresa de
transporte urbano; cajas de tornillos; bultos de papas; ramas de un árbol; municipios de un departamento; lotes de
productos; bodegas de una empresa o de un barco; etc. En todos los ejemplos anteriores se supone que el objetivo de
investigación o medición es todo el conjunto de unidades elementales que ellas albergan o una parte de ellas. En este
sentido la unidad muestreada (grupo de unidades elementales) ha servido de medio para llegar de una manera fácil y poco
costosa a la unidad elemental, la cual dependiendo del diseño de muestreo puede ser muestreada o censada dentro de
dichas unidades primarias de muestreo.

La razón por la cual en más de una investigación se hace necesario la utilización de este método, llamado MUESTREO
POR CONGLOMERADOS, es la no existencia de un marco de muestreo para las unidades objeto de investigación y
cuya construcción se hace costosa debido a la alta cantidad de tiempo y recursos que se invertirían en el ó porque
sencillamente es imposible su construcción. Aquí es mucho más fácil y económico diseñar o disponer de marcos de
muestreo para las unidades primarias debido a que estas, la mayoría de las veces ya están conformadas o se pueden
diseñar asumiendo la cercanía de las unidades elementales.

Se debe tener presente que un MCON es menos eficiente que un MAS o un MAE, precisamente porque la varianza del
primero se aumenta debido a la homogeneidad existente entre las unidades elementales que conforman la unidad
primaria.

8.2 DEFINICIÓN

Una muestra por conglomerados, es una muestra aleatoria simple en la cual las unidades muestreadas son colecciones o
grupos de elementos (CONGLOMERADOS), constituidos por unidades que se encuentran por lo regular cercanas
geográficamente, ó que ya están agrupadas debido a razones administrativas o tecnológicas.

Si dentro de cada uno de los conglomerados ya muestreados, se observan ó se miden todas las unidades elementales que
los conforman (censo), se dice que se realiza un MCON de una etapa, mientras que si se toma en forma aleatoria una
parte de dichas unidades elementales en cada conglomerado, se está realizando un muestreo por conglomerados con
submuestreo o muestreo multiétapico.

Al seleccionar una MCON, hay que tener presente lo siguiente:

Los conglomerados deben estar definidos de tal forma que todo elemento de la población objeto de estudio,
pertenezca a uno y solo uno de los conglomerados, esto es, NO DEBE HABER TRASLAPES.

Debe poderse estimar razonablemente el número de elementos que conforman cada conglomerado.

Los conglomerados deben ser razonablemente pequeños para ahorrar costos y deben conformarse de modo que se
minimice el incremento del error de muestreo debido a los agrupamientos.

Se debe procurar un buen equilibrio entre el número de conglomerados y el tamaño de estos, ya que muchos
conglomerados pequeños son ventajosos para controlar la variabilidad, pero pocos conglomerados grandes son
económicamente recomendables.

EL MCON es efectivo para obtener una cantidad especificada de información a bajo costo en presencia de las
siguientes condiciones:

1. No se tiene un buen marco de muestreo de las unidades de la población objeto de estudio ó es muy costosa su
obtención.

505
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

2. El costo de obtener la información se incrementa con la distancia entre unidades poblacionales debido a su
dispersión geográfica.

8.3 PROCEDIMIENTO PARA SELECCIONAR UNA MUESTRA ALEATORIA POR CONGLOMERADOS


(MCON)

1. Especifique claramente los conglomerados,

2. Conforme o identifique un marco de muestreo que contenga los conglomerados en que está dividida la población,

3. Seleccione un MAS de conglomerados del marco de muestreo.

8.4 EJEMPLOS DE UNIDADES CONGLOMERADAS Y SUS RESPECTIVAS UNIDADES ELEMENTALES.

La tabla 8.1 muestra algunas unidades conglomeradas y su respectivo conjunto de unidades elementales objeto de
medición.

UNIDAD ELEMENTAL DENTRO DEL


UNIDAD CONGLOMERADA
CONGLOMERADO
Manzanas de un barrio en una ciudad Casas dentro de las manzanas
Árboles Hojas, ramas, frutos
Salones de Clase Alumnos
Parcelas agrícolas Plantas
Cajas de tomate Tomates
Guacales de cerveza Botellas de cerveza
Panal de huevos Huevos
Bloques de apartamentos Apartamentos
Tabla 8.1: Unidades conglomeradas y sus unidades elementales.

8.5 DIFERENCIAS Y SIMILITUDES ENTRE EL MACON Y EL MAE

La tabla 8.2 relaciona las principales diferencias y similitudes entre el muestreo por conglomerados (MCON) y el
muestreo estratificado (MAE).

MAE MCOM
Cada unidad objeto de estudio pertenece Cada unidad objeto de estudio pertenece
exactamente en un estrato exactamente en un conglomerado
La población N , está dividida en L estratos, cada La población M , está dividida en N
uno con igual o diferente número de unidades conglomerados, cada uno con igual o diferente
elementales N h , h 1,2,..,L número de unidades elementales M i
L N
N Nh M Mi
h 1 i 1
De cada estrato se selecciona aleatoriamente un Se selecciona aleatoriamente un grupo de
grupo de unidades de tamaño nh , h 1, 2,....L , conglomerados y en cada uno de ellos se miden u
observan todas las unidades elementales (MCON
siguiendo una forma específica para la asignación de una etapa).
de dichos tamaños.
ˆ
La varianza V (YMAE ) , depende de la variabilidad
Mientras más conglomerados integren la muestra

de las unidades dentro de los estratos. menor será la varianza V (YˆMCON ) , la cual
depende principalmente de la variabilidad existente
entre las medias de los conglomerados.
Para alcanzar una mayor precisión, las unidades Para alcanzar una mayor precisión, las unidades
objeto de estudio dentro de cada estrato deben ser objeto de estudio dentro de cada conglomerado,
lo más homogéneas posible, pero las medias de los deben ser heterogéneas y las medias de los
estratos deben diferir lo más que se pueda. conglomerados ser muy parecidas entre sí.
Tabla 8.2: Diferencias y similitudes entre el MAE y el MCON.

506
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

8.6 CONGLOMERADOS DE IGUAL TAMAÑO.

En este caso, ver figura 8.1 se considera que la población objeto de estudio está dividida en N conglomerados y dentro
de cada uno de ellos hay M unidades elementales.

El procedimiento que se seguirá para obtener la muestra como se mencionó antes, será basado en el marco de muestreo y
mediante un MAS, se seleccionan n conglomerados y dentro de cada uno de ellos se recolecta toda la información
requerida de las M unidades elementales.

N 40; M 9; n 5

Unidad conglomerada Unidad elemental

La población tiene N 40 unidades conglomeradas


Cada unidad conglomerada tiene el mismo número de unidades elementales M 9
Se ha tomado una muestra aleatoria de n 5 unidades conglomeradas para un total de 45 unidades elementales

Figura 8.1: Conglomerados de igual tamaño.

8.7 MUESTREO POR CONGLOMERADOS DE IGUAL TAMAÑO PARA VARIABLES (NOTACIÓN)

Se tendrá en cuenta para lo relacionado en este aparte la siguiente notación que aparece en la tabla 8.3

N : Número de unidades conglomeradas


: Número de unidades elementales dentro
Mi M ; i 1, 2,.....N
del conglomerado i-ésimo
N
: Número de unidades elementales en la
M* Mi N .M
población
i 1

: Valor de la variable Y , para la unidad


y ij ; i 1, 2,.....N ; j 1, 2,....M elemental i-ésima del conglomerado j-ésimo.
Tabla 8.3: Notación usada para el MCON de igual tamaño.

507
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

M
Yi y ij ; i 1, 2,....N : Total para la variable Y , en el
j 1
conglomerado i- ésimo
M
Yi y ij M : Media para la variable Y en él
j 1
conglomerado i-ésimo.
N M N
Y y ij Yi N .Y : Total poblacional para la variable Y .
i 1 j 1 i 1

Y : Media por conglomerado para la


Y
N variable Y .
N N
Y Y : Media poblacional por unidad elemental
Y Yi Mi
i 1 i 1 N .M M* para la variable Y .
M
1 : Cuasivarianza de la variable Y en el
S i2 ( y ij Yi ) 2
(M 1) j 1
conglomerado i-ésimo.
N M
1 : Cuasivarianza poblacional para la
S y2 ( yij Y ) 2
( N .M 1) i 1 j 1
variable Y .
N M
2 1 : Cuasivarianza entre medias para la
S BCI (Yi Y )2
( N 1) i 1 j 1
variable Y de los conglomerados.
N

N M
S i2
2 1 : Cuasivarianza- intraconglomerados
SWCI ( y ij Yi ) 2 i 1

N ( M 1) i 1 j 1 N
N
2. ( y ij Y ).( y iz Y) : Coeficiente de correlación
i 1 j<Z
CI
intraconglomerado.
( M 1).( N .M 1).S y2
Tabla 8.3: Notación usada para el MCON de igual tamaño (continuación).

La variabilidad entre las unidades elementales de la población analizada quedará ahora expresada mediante la suma de
dos clases de variabilidad: la variabilidad el interior de los grupos (conglomerados) y la variabilidad entre grupos.

SY2 : Variación de las unidades poblaciones respecto a su promedio al


medir en cada una la variable Y

U11 U12 ...... U1M U21 U 22 ...... U 2M ......... U L1 U L 2 ...... U LM

S12 Y1 S22 Y2 SL2 YL

Variaciones internas Variación entre


de los grupos grupos

Figura 8.2. Variabilidades presentes en el MCON.

508
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

La figura 8.2 ilustra esta situación para una población integrada por L conglomerados de tamaño M en donde a cada
unidad elemental se ha medido la variable Y . Esta relación entre los tres tipos de variabilidad en el MCON se presentará
matemáticamente a continuación de la figura.

La obtención de la relación entre los tres tipos de variabilidad es la siguiente:

La variación poblacional de los valores de las unidades para la variable Y respecto de la media poblacional por unidad
elemental que en este caso se representará por Y es:

1 N M
SY2 ( yij Y ) 2
NM 1 i 1 j 1

En esta expresión después sumar y restar Yi desarrollando algebraicamente se tiene:

N M
( NM 1) SY2 i 1 j 1
( yij Yi ) (Yi Y ) 2

N M N M N M
( NM 1) SY2 i 1 j 1
( yij Yi ) 2 2 i 1 j 1
( yij Yi )(Yi Y ) i 1 j 1
(Yi Y ) 2

Pero:

N M N M N
i 1 j 1
( yij Yi )(Yi Y ) i 1
(Yi Y ). j 1
( yij Yi ) i 1
(Yi Y ).0 0

De tal forma que:

N M N M
( NM 1) SY2 i 1 j 1
( yij Yi ) 2 i 1 j 1
(Yi Y ) 2 (1) (8.1)

Reemplazando en (1) las siguientes equivalencias:

2 N M N M
N ( M 1) SWCI i 1 j 1
( yij Yi ) 2 y ( N 1) S BCI
2
i 1 j 1
(Y Yi ) 2

Se tiene:

( NM 1) SY2 2
N ( M 1) SWCI 2
( N 1) S BCI

De donde:

2 2
N ( M 1) SWCI ( N 1) S BCI
SY2 (2)
NM 1
Cuyo estimador insesgado es:

n M M n ˆ 2
N ( M 1) SˆWCI
2
( N 1) Sˆ BCI
2 ( yij Yi ) 2 (Yi Y )
SˆY2 ; SˆWCI
2 i 1 j 1 2 j 1 i 1
; S BCI
NM 1 n( M 1) n 1

509
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Ejemplo 8.1

Conglomerado Unidades
1 2-4-6-8
2 7-8-9-12
3 5-7-9-11
4 9-4-10-7

La tabla anterior muestra los valores de la variable Y para las unidades poblacionales agrupadas en cuatro
conglomerados del mismo tamaño.

2 2
2 2 2 N ( M 1) SWCI
2 ( N 1) S BCI
a) Encuentre S S ; S
Y ; BCI y verifique la siguiente relación S
WCI Y .
NM 1
Genere todas las posibles muestras de 3 conglomerados y encuentre Sˆ BCI y SˆWCI .
2 2
b)

N ( M 1) SˆWCI
2
( N 1) Sˆ BCI
2
Encuentre la distribución de SˆY
2
c) .
NM 1
Encuentre E ( SˆY ) .
2
d)

Solución//

a) Realizando los cálculos respectivo se tiene:


1 4 4 1 4
SY2 2
7,31666667 , SWCI ( yij Yi ) 2 S i2 6.25 y
4(4 1) i 1 j 1
4 i 1

4
2
4. i 1
(Yi Y ) 2
S BCI 11,5833333
4 1
De tal forma que:

2 2
N ( M 1) SWCI ( N 1) S BCI 4(3)(6,25) 3(11,5833333)
SY2 7,31666667
NM 1 (4)(4) 1

b) Generando las muestras se tiene:

N 4
Total de muestras: k 4
n 3

Muestra 1 ˆ Sˆ BCI
2
SˆWCI
2
SˆY2
Y
1 7,33333333 17,3333333 6 8,26666667
2 7,16666667 16,3333333 6,11111111 8,15555556
3 6,83333333 10,3333333 6,77777778 7,48888889
4 8,16666667 2,33333333 6,11111111 5,35555556
Valor
esperado 7,375 11,5833333 6,25 7,31666667

c) La distribución de SˆY2 aparece en la última columna de la tabla anterior.


1 k ˆ2
d) Note que E ( SˆY )
2
( SY ) k 7,31666667 SY2 .
k i 1

510
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Comúnmente se usa como estimador de la cantidad (2) el siguiente:

n( M 1) SˆWCI
2
(n 1) Sˆ BCI
2
SˆY2
nM 1
El cual es ligeramente sesgado (Cochran, 1980).

Ahora se muestra una forma alterna para el coeficiente de correlación intraconglomerado ó intraclásico que es más
práctica, partiendo de la siguiente igualdad:

2
N N M M
2 Y Y 1 Y Y
(Yi Y ) yij ,Y .
i 1 i 1 j 1 j 1
M N .M M N M
2 2
N N M M N M
2
(Yi Y) y ij Y y ij Y
i 1 i 1 j 1 j 1 i 1 j 1

Aplicando la propiedad del cuadrado de una sumatoria:

N N M N M N
(Yi Y ) 2 ( yij Y ) 2 2. ( yij Y ).( yiz Y ) ( yij Y ) 2 2. ( yij Y ).( yiz Y )
i 1 i 1 j 1 j<z i 1 j 1 i 1 j<z

De donde se tiene:

N N N M
2. ( y ij Y ).( yiz Y) (Yi Y )2 ( yij Y ) 2 (1)
i 1 j<z i 1 i 1 j 1

Por otro lado:


N M
( N .M 1).S y2 ( y ij Y ) 2 (2)
i 1 j 1

Luego:

N N N M
2. ( yij Y ).( yiz Y) (Yi Y )2 ( y ij Y )2
i 1 j<Z i 1 i 1 j 1
CI 2 N M
( M 1).( N .M 1).S y
( M 1). ( y ij Y )2
i 1 j 1

A continuación se presentan los estimadores para la media por conglomerado y la media por unidad elemental para la
variable Y analizada al igual que el estimador para el total en conglomerados de igual tamaño.

8.7.1 Los estimadores para la media poblacional por conglomerado y la media poblacional por unidad
elemental vienen dados respectivamente por:

PARÁMETRO ESTIMADOR

N M N n M n
y ij 1 1 (8.2)
Y
i 1 j 1 i 1 i
Y
YˆCI y ij Yi
N N n i 1 j 1 n i 1

511
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

PARÁMETRO ESTIMADOR

(8.3)
YˆCI
N N
Y
1 i
Y
1 i ˆ 1 n
1 n 1 1 n
Y N
i i
YCI Yi . Yi . Yi
Mi NM n.M i 1 n i1 M n i1 M
i 1

8.7.2 El estimador para el total poblacional por unidad elemental viene dado por:

PARÁMETRO ESTIMADOR

(8.4)
n
N M 1
Y i 1 j 1
yij YˆCI N .YˆCI N. Yi
n i 1

n n
1 N 1 n ˆ
YˆCI N .YˆCI N. Yi M .Yi N .M . Yi M * .Y
n i 1 n i 1 n i1

8.7.3 Propiedades de los estimadores de la media por unidad elemental y el total en MCON de tamaño igual.

Las principales propiedades de los estimadores anteriormente definidos son:

Propiedad 8.1: Insesgamiento del estimador de la media por unidad elemental y del total en el MCON de igual
tamaño

ˆ
En el MCON de igual tamaño, el estimador de la media por unidad elemental Y es un estimador insesgado.

ˆ YˆCI 1 Y
E (YCI ) E E (YˆCI ) Y
M M M
Nota:
Para el estimador del total poblacional se tiene:

ˆ ˆ
E (YˆCI ) E M * .YCI M * .E (YCI ) M * .Y Y

Propiedad 8.2: Expresión de la varianza para el estimador de la media por unidad elemental en el MCON de igual
tamaño

La varianza del estimador de la media por unidad elemental en el MCON de igual tamaño viene dada por:

ˆ (1 f ) 2
V (YCI ) .S BCI , (8.5)
n.M
Donde:

512
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

N M N
(Yi Y )2 M. (Yi Y )2
2 i 1 j 1 i 1
S BCI
N 1 N 1
Para más detalle se realiza lo siguiente:

Si se considera un MAS en donde los datos sean los totales de los conglomerados, esto es Yi ; i 1, 2,......N entonces:

N
Yi
i 1 1 N 1 N 1 N
. Yi M . Yi . Yi Y
N N i1 N .M i 1 M* i 1

Y para estimar Y con un MAS de tamaño n , se tiene:

N
(Yi Y )2
ˆ (1 f) i 1 n
V (YCI ) . , f (1)
n N 1 N
Reemplazando en (1):
Yi Y Y
Yi y Y
M N .M M
Se tiene:

2
N
Yi Y
ˆ (1 f) i 1 M M (1 f) 1 N (Yi Y ) 2
V (YCI ) . . . (2)
n N 1 n M2 i 1 N 1

Multiplicando y dividiendo la expresión (1) por M:

N
M. (Yi Y )2
ˆ (1 f ) i 1 (1 f ) N M
(Yi Y ) 2 (1 f ) 2
V (YCI ) . .S BCI
n.M N 1 n.M i 1 j 1 N 1 n.M

Nota
Para el estimador del total, se tendrá:

ˆ ˆ
V (YˆCI ) V ( N .M .YCI )
2
N .M .V (YCI ) (8.6)

Ejemplo 8.1
Considerando la población U conformada por M * 24 unidades elementales agrupadas en N 6 conglomerados de
tamaño M 4 . En cada una de las unidades elementales se ha medido la característica Y .

513
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Unidad Unidad Unidad Unidad Unidad Unidad


conglomerada conglomerada conglomerada conglomerada conglomerada conglomerada
Nº 1 Nº 2 Nº 3 Nº 4 Nº 5 Nº 6
2; 4; 6; 8 2; 3; 4; 5 4; 5; 6; 8 2; 4; 6; 7 4; 5; 6; 7 2; 6; 7; 8
Y1 20 Y2 14 Y3 23 Y4 19 Y5 22 Y6 27

M* M 0 : Total de unidades elementales en la población.

En esta población se tienen los siguientes parámetros:

N N M
1 125 1 125
Y Yi 20.8333 ; Y y ij 5.20833333 ;
N i 1 6 M* i 1 j 1 24
N
569
M. (Yi Y )2 4.
2 i 1 96 569
S BCI 4.741666667
( N 1) 5 120

Calculando todas las muestras aleatorias simples de tamaño 4 conglomerados encuentre la distribución del estimador de
ˆ
la media por unidad elemental Y y verifique las propiedades 8.1 y 8.2.
Solución//
ˆ
La distribución para la variable aleatoria Y es:

Unidades ˆ Unidades ˆ
Muestra
conglomeradas YˆCI YCI Muestra
conglomeradas YˆCI YCI
C1 C2 C3 C4 76 76 C1 C2 C3 C5 79 79
1 2
20 14 23 19 4 16 20 14 23 22 4 16
C1 C2 C3 C6 84 84 C1 C2 C4 C5 75 75
3 4
20 14 23 27 4 16 20 14 19 22 4 16
C1 C2 C4 C6 80 80 C1 C2 C5 C6 83 83
5 4 16 6 16
20 14 19 27 20 14 22 27 4
C1 C3 C4 C5 84 84 C1 C3 C4 C6 89 89
7 8
20 23 19 22 4 16 20 23 19 27 4 16
C1 C3 C5 C6 92 92 C1 C4 C5 C6 88 88
9 20 23 22 27 10 20 19 22 27
4 16 4 16
C2 C3 C4 C5 78 78 C2 C3 C4 C6 83 83
11 14 23 19 22 12 14 23 19 27
4 16 4 16
C2 C3 C5 C6 86 86 C2 C4 C5 C6 82 82
13 14 23 22 27 4 14 14 19 22 27
16 4 16
C3 C4 C5 C6 91 91
15
23 19 22 27 4 16

En la tabla el número que aparece debajo de cada Ci es el total para la característica Y correspondiente al conglomerado
Ci muestreado y los estimadores en este caso serán:

4 n
1 ˆ 1 ˆ 1 1 4
YˆCI Yi y YCI .YCI Yi . Yi
4 i 1 M n.M i 1 16 i 1

514
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

ˆ
Con base en la distribución de YCI , se comprueba su insesgamiento pues:

ˆ 1 15
ˆ 1 1250 125
E YCI YCIi
15 i 1 15 16 24

Para la varianza, se tiene que en forma directa:

15 2
ˆ 1 ˆ
V (YCI ) YCIi Y 0.098784722
15 i 1

Y al utilizar la expresión dada en la propiedad 8.2

4
1
ˆ (1 f ) 2 6 569
V (YCI ) .S BCI . 0.098784722
n.M 4.(4) 120

Propiedad 8.3: Estimador insesgado de la varianza del estimador de la media por unidad elemental en el MCON
de igual tamaño
ˆ
Con base en la propiedad 8.2, el estimador insesgado de la varianza de YCI , viene dados por:

ˆ (1 f) 1 n (Yi YˆCI ) 2
Vˆ (YCI ) . 2. (8.7)
n M i1 n 1

Para más detalle se tiene:

La cuasivarianza del total Yi para los N conglomerados será:

N
1
S *2 (Yi Y )2
N 1i 1

Y su estimador al tomar un MAS de n conglomerados es


n
1
Sˆ*2 (Yi YˆCI ) 2
n 1i 1

El cual es insesgado como ya se vio en él MAS.

Luego:

ˆ (1 f) 1 n
(Yi YˆCI ) 2 (1 f) 1 (1 f) 1 N (Yi Y ) 2
E Vˆ (YCI ) . 2 .E . 2 .S *2 . 2.
n M i 1 n 1 n M n M i1 N 1

Nota
Para el estimador insesgado del total:

515
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

ˆ ˆ
Vˆ (YˆCI ) Vˆ ( N .M .YCI ) N .M .Vˆ (YCI )
2
(8.8)

Ejemplo 8.3
ˆ
Utilizando la información del ejemplo 8.1 se muestra que el estimador de V (YCI ) es un insesgado.

Solución//
ˆ
En este caso, la distribución probabilística de Vˆ (YCI ) es:

Muestra Ŝ *2 ˆ
Vˆ (YCI )
1 14 0.072916666
2 16.25 0.084635416
3 30 0.15625
4 11.5833333 0.06032986
5 28.6666667 0.149305555
6 28.9166667 0.150607639
7 3.33333333 0.017361111
8 12.9166667 0.067274305
9 8.66666667 0.045138888
10 12.6666667 0.065972222
11 16.3333333 0.085069444
12 30.9166667 0.161024305
13 29.6666667 0.154513889
14 29.6666667 0.154513889
15 10.9166667 0.056857639
Total 1.481770828

Donde:
n
(Yi YˆCI ) 2
Sˆ*2 .
i 1 n 1
ˆ
El valor esperado de Vˆ (YCI ) resulta ser:

ˆ 1
E Vˆ (YCI ) (1.481770828) 0.098784721
15

Ejemplo 8.4
La administración de un edificio de oficinas de 10 pisos con 10 oficinas por piso desea estimar el número de sobres de
correspondencia que llegan por oficina en un día determinado. Para ello ese día toma una muestra de 4 pisos y en ellos
contabiliza la correspondencia por oficina obteniendo la siguiente información:

Piso Oficinas Total


10 1 2 1 2 4 2 2 2 1 1 18
5 0 2 2 3 1 1 0 4 5 4 22
3 4 3 3 4 2 2 1 0 3 2 24
9 4 4 4 3 2 2 1 1 2 2 25
89

El número promedio de sobres de correspondencia por oficina en el edificio será:

516
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

n
ˆ 1 89
Y Yi 2.225
n.M i 1 40

Un intervalo de confianza al 95% para el verdadero número de sobres de correspondencia por oficina para el edificio ese
día analizado será:

4
n
1
ˆ (1 f ) (1 f ) 10
Vˆ (YCI ) (Yi YˆCI ) 2 .(n 1).SˆY2i .(4 1).(9.5833) 0.043125
n.M 2 i 1 n.M 2 (4).(10) 2

Utilizando la distribución t-student con n 1 3 gl, se tiene finalmente:

ˆ ˆ
Y YCI t v , n 1 . Vˆ (YCI ) (1.56; 2.88)
95%

Propiedad 8.4: Forma alterna para la variancia del estimador de la media por unidad elemental en el MCON de
tamaño igual.
ˆ
En función del coeficiente de correlación intraconglomerdo, la varianza de YCI , viene dada por:

ˆ (1 f ).( N .M 1).S y2
V (YCI ) . 1 (M 1). CI (8.9)
n.( N 1).M 2

De acuerdo con la expresión de CI :

N
2. ( yij Y ).( y iz Y) ( M 1).( N .M 1).S y2 . CI
i 1 j<z

Por otro lado:


2
M
y ij
ˆ (1 f ) N 2 (1 f ) N j 1 M .Y
V (YCI ) . (Yi Y) .
n.( N 1) i 1 n.( N 1) i 1 M M

Aplicando la propiedad del cuadrado de una suma:

N M
ˆ (1 f )
V (YCI ) ( y ij Y )2 2. ( y ij Y ).( y iz Y)
n.( N 1).M 2 i 1 j 1 j<z

517
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

N M N
ˆ (1 f )
V (YCI ) . ( y ij Y )2 2. ( y ij Y ).( y iz Y)
n.( N 1).M 2 i 1 j 1 i 1 J <z

ˆ (1 f )
V (YCI ) 2
. ( N .M 1).S y2 ( N .M 1).( M 1).S y2 . CI
n.( N 1).M

ˆ (1 f ).( N .M 1).S y2
V (YCI ) . 1 ( M 1). CI
n.( N 1).M 2

Nota
Si se supone:
( N .M 1) N .M y ( N 1) N

Entonces:
ˆ (1 f ).S y2
V (YCI ) . 1 ( M 1). CI
n.M
Nota
Para el estimador del total, se tiene:

ˆ ˆ
V (YˆCI ) Vˆ ( N .M .YCI ) N .M .Vˆ (YCI )
2
(8.10)

Ejemplo 8.5
Con la información del ejemplo 8.1 verificar la propiedad 8.4

Solución//

Del ejercicio 8.1:

N N M
(Yi Y ) 2 94.8333334 ; ( y ij Y ) 2 89.625
i 1 i 1 j 1

Y por lo tanto el coeficiente de correlación intraconglomerado es:

CI 0.019370835

Y para la varianza del estimador de la media por unidad elemental se tiene:

1 89.625
2 .(25).
ˆ (1 f ).( N .M 1).S y 3 25
V (YCI ) . 1 (M 1). CI .(1.058112505)
n.( N 1).M 2 (4).(5).(16)
0.098784722

518
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Propiedad 8.5: Forma alterna para el estimador de la varianza para el estimador de la media por unidad
elemental en el MCON de tamaño igual
ˆ
Un estimador de V (YCI ) con apoyo en la propiedad anterior será:

ˆ (1 f ).Sˆ y2
Vˆ (YCI ) . 1 ( M 1). ˆ CI (8.11)
n.M

Encontrar el estimador del coeficiente de correlación intraconglomerado CI con base en las tablas 8.4a y 8.4b del
análisis de varianza para el MCON

Nota
Para el estimador del total se tiene:

ˆ
V (YˆCI ) ( N .M ) 2 .Vˆ (YCI ) (8.12)

Descomposición de la varianza para la población


Grados de
Fuente de variación Suma de cuadrados Cuadrados medios
libertad
N M
Entre (Yi Y )2 2
S BCI
conglomerados N 1 i 1 j 1
N M
Dentro de ( y ij Yi ) 2 2
conglomerados N .( M 1) SWCI
i 1 j 1
N M 2 2
( y ij Y )2 2 ( N 1).S BCI N .( M 1).SWCI
Total N .M 1 S y
i 1 j 1 N .M 1 N .M 1
Tabla 8.4a: Tabla de análisis de varianza para la población en el MCON de igual tamaño.

Note que:
( N .M 1).S y2 2
( N 1).S BCI 2
N .( M 1).SWCI
Variación Variación Entre Variación Dentro de
Total Conglomerados Conglomerados

Descomposición de la varianza para la muestra


Fuente de Grados de Cuadrados
Esperanza
variación libertad Suma de cuadrados medios
n M
Entre ˆ
conglomerados n 1
(Yi Y )2 Sˆ BCI
2 2
S BCI
i 1 j 1
n M
Dentro de
conglomerados
n.( M 1) ( y ij Yi ) 2 SˆWCI
2 2
SWCI
i 1 j 1
n M
ˆ 2
(n 1).S BCI 2
n.( M 1).S WCI
Total n.M 1 ( y ij Y )2 Sˆ y2 S y2
i 1 j 1 n.M 1 n.M 1
Tabla 8.4b: Tabla de análisis de varianza para la muestra en el MCON de igual tamaño.

De la tabla de análisis de varianza para la muestra observe que:

519
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

(n 1) ˆ 2 n.( M 1) ˆ 2
(n.M 1).Sˆ y2 n.( M 1).SˆWCI
2
(n 1).Sˆ BCI
2
Sˆ y2 .S BCI .SWCI (1)
n.M 1 n.M 1

Donde:

n M n M
1 ˆ 1
Sˆ BCI
2
. (Yi Y ) 2 , y SˆWCI
2
. ( y ij Yi ) 2
n 1 i 1 j 1 n.( M 1) i 1 j 1

Calculando el valor esperado en la expresión (1):

1
E ( Sˆ y2 ) .E (n 1).Sˆ BCI
2
n.( M 1).SˆWCI
2

n.M 1
1 2
. (n 1).S BCI 2
n.( M 1).SWCI S 02 S y2 E ( Sˆ y2 ) S y2
n.M 1

Entonces se tiene:

De la tabla de análisis de varianza para la población y para la muestra respectivamente:

( N 1) 2 N .( M 1) 2 (n 1) ˆ 2 n.( M 1) ˆ 2
S y2 .S BCI .SWCI , y Sˆ y2 .S BCI .SWCI
N .M 1 N .M 1 n.M 1 n.M 1

Y como:

E ( Sˆ BCI
2
) 2
S BCI 2
y E ( SWCI )
2
SWCI ,

2
Entonces un estimador insesgado de la cuasivarianza S y será:

( N 1) ˆ 2 N .( M 1) ˆ 2
Sˆ o2 .S BCI .SWCI
N .M 1 N .M 1
De tal manera que, bajo el supuesto de la nota establecida en la propiedad 8.4:

ˆ Sˆ 02
Vˆ (YCI ) (1 f ). 1 ( M 1). ˆ CI (2)
n.M
Por otro lado de la propiedad 8.2, se tiene:

ˆ (1 f ) ˆ 2
Vˆ (YCI ) .S BCI (3)
n.M

De tal manera que un estimador de CI , igualando las expresiones (2) y (3) será:

520
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

SˆBCI
2
Sˆ02
Sˆ02 . 1 ( M 1). ˆ CI SˆBCI
2
ˆ CI
( M 1) Sˆ02

Donde:

n M
1 ˆ ( N 1) ˆ 2 N .( M 1) ˆ 2
Sˆ BCI
2
. (Yi YCI ) 2 y Sˆ o2 .S BCI .SWCI
n 1 i 1 j 1 N .M 1 N .M 1

8.8 COMPARACIÓN DEL MACON DE IGUAL TAMAÑO CON EL MAS.

Si se considera que n.M es una muestra aleatoria simple, entonces de acuerdo con la nota de la propiedad 8.4

ˆ (1 f ).S y2
V (YCI ) . 1 ( M 1). CI V (YˆMAS ). 1 ( M 1). CI (8.13)
n.M
Y al observar esta expresión se tiene que:

Para valores CI 0 , existe un incremento en la varianza del MCON, esto es:


ˆ
V (YCI ) V (YˆMAS ). V (YˆMAS ).( M 1). CI

Significando que el M CON es menos efectivo que el MAS en cuanto a precisión.


ˆ
Si CI 1 , entonces, la varianza V (YCI ) se hace máxima, constituyéndose en la situación más desfavorable para
el MCON. Esto significa que los conglomerados son homogéneos perfectamente.
1 ˆ
Si CI , entonces la varianza V (YCI ) 0 y esta situación constituye el caso más favorable del
M 1
MCON. Esta situación significa que la heterogeneidad dentro de los conglomerados es máxima. En general observe
que cuando CI < 0 , el MCON será mejor que el MAS.
ˆ
Si CI 0 , entonces V (YCI ) V (YˆMAS ) y tanto MCON como el MAS, presentan igual precisión. Aquí las
unidades elementales han sido distribuidas completamente al azar en los conglomerados.

Ejemplo 8.6
El análisis de las siguientes poblaciones permite clarificar el comportamiento del coeficiente de correlación
intraconglomerado CI . En todos los casos la población tendrá 20 unidades elementales distribuidas en 5
conglomerados; se tomaran todas posibles muestras de 4 conglomerados.

a) Población distribuida en conglomerados homogéneos.

Con Nº1 Con Nº2 Con Nº3 Con Nº4 Con Nº5
2-2-2-2 4-4-4-4 5-5-5-5 6-6-6-6 3-3-3-3
Yi 8 16 20 24 12
2
S i 0 0 0 0 0

S Y2 2.10526316 ; Y 4; Y 16 ; N = 5; M =4; M * NM . 20 .

521
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

En este caso no hay variación al interior de cada conglomerado pero si hay entre ellos. El coeficiente de correlación
intraconglomerado es:

CI 0.99999 1.0
La varianza del estimador de Y utilizando una muestra de 4 conglomerados y una muestra de 16 unidades elementales
mediante el MAS son respectivamente:

4
2 1 .(2.10526316)
ˆ (1 f ).S Y 5
V (YCI ) 1 ( M 1). CI 1 (3).(0.9999) 0.105255
n.M (4).(4)
16
1
(1 f ).S Y2 20
V (YˆMAS ) (2.10526316) 0.026315 .
n. 16
b) Población distribuida en conglomerados altamente heterogéneos

Con Nº1 Con Nº2 Con Nº3 Con Nº4 Con Nº5
10-3-5-1 2-4-13-8 1-8-15-2 5-3-20-2 18-3-5-2
Yi 19 27 26 30 28
2
S i 14.9167 23.5833 41.6667 71 55.3333

S Y2 33.5263158 ; Y 6.5 ; Y 26 ; N = 5; M =4; M * NM . 20 .

En este caso hay variación al interior de cada conglomerado y entre ellos. El coeficiente de correlación
intraconglomerado da:

CI 0.2967033

La varianza del estimador de Y utilizando una muestra de 4 conglomerados y una muestra de 16 unidades elementales
mediante el MAS son respectivamente:

ˆ
V (YCI ) 0.046053 V (YˆMAS ) 0.419079 .

c) Población en donde las unidades elementales se asigna a cada conglomerado en forma aleatoria.

En este caso se procede de la siguiente manera. Se conforma una población de 20 unidades elementales seleccionadas de
una tabla de números aleatorios (escogiendo entre las dos últimas cifras números entre 00 y 99) seleccionando la primera
unidad para todos los conglomerados, luego la segunda y así sucesivamente.

El resultado fue el siguiente para 5 conglomerados de 4 unidades

Con Nº1 Con Nº2 Con Nº3 Con Nº4 Con Nº5
15-32-07-52 49-44-78-17 73-22-55-68 55-91-02-62 59-03-52-45
Yi 106 188 218 210 159
S i2 397.667 624.667 527 1376.333 632.9167

Parámetros poblacionales:

522
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

S Y2 670.471053 ; Y 44.05 ; Y 176.2 ; N = 5; M =4; M * NM . 20

En este caso hay variación al interior de cada conglomerado y entre ellos. El coeficiente de correlación
intraconglomerado dio:

CI 0.117439

La varianza del estimador de Y utilizando una muestra de 4 conglomerados y una muestra de 16 unidades elementales
mediante el MAS son respectivamente:

ˆ
V (YCI ) 5.42816 ; V (YˆMAS ) 8.3809 .

d) Población en donde las unidades elementales dentro del conglomerado se han distribuido en forma creciente en el
marco muestral (orden de aparición).

Tomando la misma información dada en el caso b) se tiene:

Con Nº1 Con Nº2 Con Nº3 Con Nº4 Con Nº5
1-3-5-10 2-4-8-13 1-2-8-15 2-3-5-20 2-3-5-18
Yi 19 27 26 30 28
S i2 14.9167 23.5833 41.6667 71 55.3333

En este caso:
S Y2 33.5263158 ; Y 6.5 ; Y 26 ; N = 5; M =4; M * NM . 20 .

El coeficiente de correlación intraconglomerado es:

CI 0.2967033

Esto es, el orden de colocación de las unidades elementales dentro del conglomerado no altera el coeficiente de
correlación intraconglomerado como era de esperarse.

e) Población en donde las unidades elementales dentro del conglomerado presenten variabilidad aunque la variabilidad
entre ellos sea nula.

Con Nº1 Con Nº2 Con Nº3 Con Nº4 Con Nº5
10-6-4-10 12-8-5-5 10-15-3-2 3-4-9-14 12-4-2-12
Yi 30 30 30 30 30
S i2 9 11 37.667 25.667 27.667

Parámetros poblacionales:
S Y2 17.52631579 ; Y 7.5 ; Y 30 ; N = 5; M =4; M * NM . 20 .

En este caso hay variación al interior de cada conglomerado y entre ellos no. El coeficiente de correlación
intraconglomerado dio:

1
CI 0.33333333
M 1

523
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

La varianza del estimador de Y utilizando una muestra de 4 conglomerados y una muestra de 16 unidades elementales
mediante el MAS son respectivamente:

ˆ
V (YCI ) 0 ; V (YˆMAS ) 0.21908 .

A manera de resumen de este ejemplo se puede escribir en cuento a la comparación del MCON de igual tamaño con el
MAS:

Si CI 0 MAS mejor que MCON


ˆ
V (YCI ) V (YMAS ) 1 ( M 1). CI Si CI 0 MAS igual al MCON
Si CI <0 MAS peor que MCON

8.9 TAMAÑO DE MUESTRA EN EL MCON PARA VARIABLES

El tamaño de muestra necesario para estimar la media por unidad elemental Y , en el MCON para la variable analizada
Y , cuando se desea un error absoluto de muestreo MCI y un nivel de confianza de (1 )% se obtiene de la siguiente
ˆ
manera utilizando la expresión (2) para la varianza de YCI , dada en la propiedad 8.2.

ˆ (1 f) 1 N (Yi Y ) 2 (1 f) 1
V (YCI ) . 2. . 2
.S *2
n M i1 N 1 n M

Despejando n :

S *2
ˆ
N .S *2 V (YCI ).M 2
n (1) (8.14)
ˆ
V (YCI ).N .M 2 S 2
* 1 S 2
*
1 .
N V (Yˆ ).M 2
CI

Donde S *2 debe ser estimado en forma adelantada por:

n
1
Sˆ*2 . (Yi YˆCI ) 2
(n 1) i 1

Y la varianza deseada está definida por:


2

ˆ MCI
V (YCI ) .
Z
2

Nota
Para estimar el total poblacional se realiza el siguiente cambio en la expresión (1):

524
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

2
ˆ V (YˆCI )
V (YCI ) 2
y V (YˆCI ) TCI

N .M Z
2

Con TCI como error de muestreo absoluto para la estimación del total.

Apoyándose en la expresión relacionada en la propiedad 8.4:

ˆ (1 f ).S y2
V (YCI ) . 1 ( M 1). CI
n.M
Y despejando n :

1 ( M 1). CI .S y2
ˆ
M .V (YCI )
n (8.15)
2
1 1 ( M 1). CI .S y
1
N ˆ
M .V (YCI )

2
Donde de acuerdo con la propiedad 8.5 en el apartado 8.7 se debe estimar por adelantado S y , CI , esto es:

Sˆ BCI
2
Sˆ 02
.Sˆ 02 . 1 ( M 1). ˆ CI Sˆ BCI
2
ˆ CI
( M 1) Sˆ 02
Donde:

n M n M
1 ˆ 1
Sˆ BCI
2
. (Yi Y ) 2 , SˆWCI
2
. ( y ij Yi ) 2
n 1 i 1 j 1 n.( M 1) i 1 j 1

( N 1) ˆ 2 N .( M 1) ˆ 2
Sˆ o2 .S BCI .SWCI Sˆ y2
N .M 1 N .M 1
2

ˆ MCI
V (YCI )
Z
2

Nota
En forma análoga se procede para la estimación del total poblacional realizando los respectivos cambios.

Ejemplo 8.7
La siguiente información corresponde a un estudio piloto realizado en una muestra de 3 contingentes de una base militar
para soldados regulares conformado por 2000 soldados agrupados en 50 contingentes. En dicha muestra se ha investigado
en cada soldado el total de meses cumplidos en la prestación de su servicio militar en dicha base.

525
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Total de meses cumplidos por todos


Contingente
los soldados
1 728
2 243
3 910

¿Qué tamaño de muestra podría utilizarse para estimar el promedio de meses prestados en servicio por cada soldado de
dicha base utilizando un error de 3.7 meses y un nivel de confianza del 95%?
Solución//

Sˆ*2 118873 ; 3.564 .


Z
2
Entonces:

n0 20.846 n 15

Se requiere entrevistar a los soldados de 15 contingentes en dicha base militar.

8.10 MCON PARA ATRIBUTOS

En este aparte se considera que las unidades elementales dentro de cada conglomerado pertenecen o no a determinada
clase, dependiendo de sí poseen ó no, determinada característica. De acuerdo con esto, se utiliza para la característica Y ,
la siguiente convención en relación con la j-ésima unidad poblacional del i-ésimo conglomerado:

1, si U j C
y ij i 1, 2,...N ; j 1, 2,....M
0 si U j C

Con base en este supuesto, se realiza la tabla 8.5

M
Ai y ij : Número total de unidades que pertenecen a la
j 1
clase C en conglomerado i-ésimo.

Ai
Pi : Proporción de unidades elementales que
M pertenecen a la clase C en el conglomerado i-ésimo.
i 1, 2,....N
N M N N
A y ij Ai M .Pi : Total poblacional de unidades que pertenecen
i 1 j 1 i 1 i 1
a la clase C
N
1 : Proporción poblacional de unidades elementales
P Pi A
N i1 NM que pertenecen a la clase C.

M .Pi. .Qi : Cuasivarianza para la característica C dentro de


S i2
( M 1) conglomerado i-ésimo.
Tabla 8.5: Notación para el MCON de igual tamaño para atributos.

526
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

N .M .PQ
S2 : Cuasivarianza poblacional para la característica C.
( N .M 1)
N
2 M : Cuasivarianza entre proporciones de los
S BCI ( Pi P) 2
( N 1) i 1 conglomerados para la característica C.
N
2 M : Cuasivarianza- intraconglomerado para la
SWCI Pi .Qi
N ( M 1) i 1 característica C.
N
( Pi P) 2 NPQ : Coeficiente de correlación intraconglomerado
i 1 para la característica C.
IC
N .( M 1).P.Q
Tabla 8.5: Notación para el MCON de igual tamaño para atributos (continuación).

A continuación se detallan un poco algunas de las expresiones que aparecen en el cuadro y otras que servirán para hallar
los estimadores en el MCON para atributos.

M M M M
1 1
S i2 ( y ij Yi ) 2 y ij2 2. y ij .Yi Yi 2
M 1 j 1 M 1 j 1 j 1 j 1
(1)
1
. Ai 2Yi . Ai M .Yi 2
M 1
Pero:

M
y ij Ai
Yi Pi
j 1
M M

Y reemplazando en (1):

1 1 M .Pi .Qi
S i2 . Ai 2 Pi . Ai M .Pi 2 . M .Pi 2.Pi .( M .Pi ) M .Pi 2
M 1 M 1 M 1
N M N M
1 1
S y2 . ( y ij Y )2 . y ij2 2.Y . y ij Y 2

N .M 1 i 1 j 1 N .M 1 i 1 j 1
(2)
N M N M
1
. y ij2 2.Y . y ij N .M .Y 2

N .M 1 i 1 j 1 i 1 j 1

Pero:

N N
1 N M
1 N A
Y Yi Mi . y ij . Ai P
I 1 i 1 N .M i 1 j 1 N .M i 1 N .M

Entonces, reemplazando en (2):

1 1
S y2 . A 2.P.( A) N .M .P 2 . N .M .P 2 P.( N .M .P ) N .MP 2
N .M 1 N .M 1

527
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

N .M .P.Q
S y2
N .M 1
N M
2 1 M N
S BCI . (Yi Y )2 . ( Pi P) 2
N 1 i 1 j 1 N 1 i1

N M N M M M
2 1 1
SWCI . ( y ij Yi ) 2 . y ij2 2. y ij .Yi Yi 2
N .( M 1) i 1 j 1 N .( M 1) i 1 j 1 j 1 j 1

N M N
2 1 1
SWCI . Ai 2. Ai .Pi M .Pi 2 . M .Pi 2.M .Pi 2 M .Pi 2
N .( M 1) i 1 j 1 N .( M 1) i 1

Y para el coeficiente de correlación intraconglomerado, se tiene:

N N
Yi Ai
Y i 1 i 1 A
Yi Ai , Y
N N N N
Luego:

N N 2 2
2 2 A N A N
A N
(Yi Y) A i 2. . Ai N. Ai M. ( Pi P) 2
i 1 i 1 N i1 N i 1 N i 1

También:

N M
( y ij Y )2 M .N .P.Q
i 1 j 1

Por lo tanto, en la expresión del coeficiente de correlación intraconglomerado vista para variables realizando los cambios
respectivos, el coeficiente de correlación intraconglomerado para atributos será:

N
( Pi P) 2 NPQ
i 1
IC (8.16)
N .( M 1).P.Q

En cuanto a los estimadores de las anteriores expresiones, los cuales serán requeridas más adelante se tiene:

2
n M n M n
1 ˆ 1 1 1 n
Sˆ 2
BCI . (Yi Y )2 . ( Pi Pˆ ) 2
M . Pi . Pi
N 1 i 1 j 1 n 1 i 1 j 1 n 1i 1 n i1

n M n M
1 1
SˆWCI
2
. ( y ij Yi ) 2 y ij2 2.Yi . y ij Yi 2
n.( M 1) i 1 j 1 n.( M 1) i 1 j 1
n n n
1 1 M
. Ai 2.Pi . Ai M .Pi 2 M .Pi M .Pi 2 Pi .Qi
n.( M 1) i 1 n( M 1) i 1 n.( M 1) i 1

528
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

( N 1) ˆ 2 N .( M 1) ˆ 2
Sˆ o2 .S BCI .SWCI Sˆ y2
N .M 1 N .M 1
2
( N 1) M n 1 n N .( M 1) M n
Pi . Pi . Pi .Qi
N .M 1 n 1 i 1 n i1 N .M 1 n.( M 1) i 1

Sˆ BCI
2
Sˆ 02
.Sˆ 02 . 1 ( M 1). ˆ CI Sˆ BCI
2
ˆ CI
( M 1) Sˆ 02

Se definen a continuación los estimadores más importantes en el MCON de igual tamaño para atributos

8.10.1 Estimadores para la proporción y él total vía proporción para la característica C

PARÁMETRO ESTIMADOR

n n
(8.17)
1 N
1 1
P Pi A PˆCI Pi Ai
N i 1
NM n i 1 n.M i 1

PARÁMETRO ESTIMADOR
(8.18)

Aˆ CI N .M .PˆCI
N N
A i
A
1 i i 1
M .Pi

8.10.2 Propiedades del estimador de la proporción y del total vía proporción en MCON de igual tamaño.

Las principales propiedades de los estimadores anteriormente definidos son:

Propiedad 8.6: Insesgamiento de los estimadores de la proporción y del total en el MCON de igual tamaño

El estimador de la proporción poblacional ene el MCON es un estimador insesgado

Si se realiza un MAS de n conglomerados de N existentes, entonces la probabilidad de cada muestra será como ya se
vio en apartes anteriores:

N
k 1
n

N 1
Y cada conglomerado podrá aparecer en muestras.
n 1
De tal manera que:

529
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

k k n k n
1 1 1
E ( PˆCI ) PˆCI j .Pr ( PˆCI ) Pi . . Ai
j 1 j 1 n i 1 j
N N j 1 i 1
M .n. j
n n
Pero:

k n k
Ai ( A1 A2 ...... An ) j
j 1 i 1 j j 1

Es la suma de todos los totales ( Ai ) de unidades que pertenecen a la clase C . Para todas las k muestras posibles,
luego:

k n N 1 N N 1
Ai . Ai .A
j 1 i 1 j
n 1 i 1 n 1

Y:
N 1
1 k n n 1 A n A A
E ( PˆCI ) . Ai . . P
N j 1 i 1 N n.M N n.M N .M
M .n. j
n n

Nota

En forma análoga:

E ( Aˆ CI ) N .M .E ( PˆCI ) ( NM ).P A.

Propiedad 8.7: Expresión de la varianza del estimador de la proporción en el MCON de igual tamaño

La Varianza del estimador de la proporción de unidades elementales que pertenecen a la clase C en el MCON, viene
dada por:

(1 f) N
( Pi P ) 2
V ( PˆCI ) . (8.19)
n i 1 N 1

Con base en la expresión (1) de la propiedad 8.2 para MCON de variables y asumiendo que la variable Y toma valores 1
ó 0 dependiendo de sí la unidad elemental pertenece ó no a la clase C , tal y como se anoto antes, entonces:

YCI PCI y Yi Pi

Y reemplazando:

530
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

N N
(Yi Y )2 ( Pi P) 2
ˆ (1 f) (1 f) n
V (YCI ) . i 1
. i 1
V ( PˆCI ), f
n N 1 n N 1 N
Nota

En forma análoga:

V ( Aˆ CI ) ( N .M ) 2 .V ( PˆCI ) (8.20)

Propiedad 8.8: Estimador de la varianza para el estimador de la proporción en el MCON de igual tamaño

Un estimador insesgado de V ( PˆCI ) , con base en la propiedad 8.2 para variables, viene dado por:

n
( Pi PˆCI ) 2
(1 f) n
Vˆ ( PˆCI ) . i 1
, f (8.21)
n n 1 N
Nota
En forma análoga:

Vˆ ( Aˆ CI ) ( N .M ) 2 .Vˆ ( PˆCI ) (8.22)

Propiedad 8.9: Forma alterna para la varianza del estimador de la proporción en el MCON de igual tamaño

Con apoyo e las expresiones anteriores, la varianza de del estimador de la proporción de unidades que pertenecen a la
clase C puede darse por:

ˆ (1 f ) 2 (1 f ) M N
V (YCI ) .S BCI V ( PˆCI ) . . ( Pi P) 2 (8.23)
n.M n.M N 1 i1

Nota
Para la varianza del total:

V ( Aˆ CI ) ( N .M ) 2 .V ( PˆCI ) (8.24)

Propiedad 8.10: Estimador de la varianza del estimador de la proporción en el MCON de igual tamaño

De acuerdo con la propiedad anterior, un estimador de V ( PˆCI ) viene dado por:

2
(1 f ) 1 n M
(1 f ) 1 n 1 n
Vˆ ( PˆCI ) . ( Pi PˆCI ) 2 . M . Pi Pi
n.M n 1i1 j 1 n.M n 1i1 n i 1

531
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

2
n n
(1 f) 1 1
Vˆ ( PˆCI ) . . Pi Pi (8.25)
n. n 1i 1 n i 1

Propiedad 8.11: Expresión alteran para la varianza del estimador de la proporción en el MCON de igual tamaño

Con apoyo en expresiones anteriores, la varianza del estimador de la proporción de unidades que pertenecen a la clase
C puede darse por:

(1 f ).S y2
V ( PˆCI ) . 1 ( M 1). CI
n.M
(8.26)
(1 f ). N .M .P.Q
. 1 ( M 1). CI
n.M N .M 1

Nota
Para la varianza del total:

V ( Aˆ CI ) ( N .M ) 2 .V ( PˆCI ) (8.27)

Propiedad 8.12: Forma alterna para el estimador de la varianza para el estimador de la proporción en el MCON
de igual tamaño

Con apoyo en la propiedad anterior realizando los cambios adecuados, el estimador para V ( PˆCI ) puede escribirse como:

(1 f ).Sˆ 02
Vˆ ( PˆCI ) . 1 (M 1). ˆ CI (8.28)
n.M

Ejemplo 8.8
Considerando la población presentada en la siguiente tabla:

C1 C2 C3 C4 C5
(U11) U12 U21 (U22) (U31) (U32) U41 U42 U51 U52
(U13) U14 (U23) U24 U33 (U34) (U43) U44 U53 (U54)
U15 U16 (U25) U26 U35 (U36) U44 U45 U55 (U56)
2 3 4 1 2

La tabla presenta las unidades conglomeradas y sus respectivas unidades elementales. En ella, la última fila muestra para
cada unidad conglomerada el total de unidades que poseen determinada característica (paréntesis).

Para la población se tiene como parámetros:

Proporción
Cuasivarianza Cuasivarianza entre Cuasivarianza intra
poblacional
N N
NMPQ 2 M M
P S2 S BCI . ( Pi P) 2 2
SWCI Pi .Qi
NM 1 N 1 i1 N .( M 1) i 1
0.4 0.248276 0.2166667 0.2533333

532
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

De acuerdo con la tabla anterior:

CI 0.193981481.

Generando las posibles muestras de 4 unidades conglomeradas se obtiene la siguiente distribución probabilística de P̂CI
(proporción de unidades que en la población tienen la característica analizada).

Muestra P̂CI Vˆ ( PˆCI )


C1 C2 C3 C4 10/24 0.0023148148
C1 C2 C3 C5 11/24 0.0012731481
C1 C2 C4 C5 8/24 0.00092592592
C1 C3 C4 C5 9/24 0.002199074
C2 C3 C4 C5 10/24 0.0023148148
Total 2 0.009027775

Al obtener muestras de 4 conglomerados y al utilizar la propiedad 8.7 se tiene:

(1 f) N
( Pi P ) 2 0.2
V ( PˆCI ) . .(0.036111111) 0.0018055555 .
n i 1 N 1 4

De la tabla anterior:

E ( PˆCI ) 0.4 P y E V ( PˆCI ) 0.001805555

Al usar el coeficiente de correlación intraconglomerado y la propiedad 8.11 se deduce que:

(1 f ) NMPQ
V ( PˆCI ) 1 ( M 1) . CI 0.0018055555
nM NM 1

8.11 TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA PROPORCIÓN Y DEL TOTAL EN EL


MCON PARA ATRIBUTOS

El tamaño de muestra para la estimación de la proporción, estableciendo un error de muestreo y un nivel de confianza
(1 )% se obtiene de la siguiente forma, con apoyo de la siguiente expresión de la varianza:

N
( Pi P) 2
(1 f) (1 f)
V ( PˆCI ) . i 1
.S *2
n N 1 n

Sˆ*2 Z 2 .Sˆ*2 1 n
1 n
2
n0
n0 2
, Sˆ 2
Pi Pi y n (8.29)
V ( PˆCI )
*
2
n 1i n 1
P 1 i 1
1 .n0
N

533
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Nota
Utilizando otras expresiones para la V ( PˆCI ) , se pueden hallar otras fórmulas equivalentes para el cálculo de n.

Nota
Para el estimador del total vía proporción se deben realizar adecuadamente los cambios necesarios y los respectivos
supuestos, tal y como se realizó en el tamaño de muestra para el total al considerar la variable Y.

Ejemplo 8.9
Una fábrica de tornillos tiene en bodega N 2000 lotes de M 20 varillas acero de ½ pulgada las cuales se utilizan
coma materia prima en la fabricación de cierto tipo de tornillo.
Los operarios de planta han encontrado que no todas las varillas traen la misma longitud y en consecuencia se propone al
Departamento de Calidad que estime la proporción de varillas defectuosas (con una longitud menor a la estipulada). ¿Qué
tamaño de muestra (cuantos lotes de 20 varillas) se deben revisar para estimar la proporción de varillas defectuosas con
un error de 6% y un nivel de confianza del 95%?
Solución//

Como la planta tiene 10 operarios torneros se ha entregado a cada uno un lote de varillas y se le ha pedido que reporten el
total de varillas con longitud menor a la estipulada encontrando la siguiente información:

Oper Oper Oper Oper Oper Oper Oper Oper Oper Oper
Nº1 Nº2 Nº3 Nº4 Nº5 Nº6 Nº7 Nº8 Nº9 Nº10
12 6 2 8 10 1 0 7 5 4

Tomando como muestra piloto la información anterior se tiene:

n
1
Sˆ*2 ( Pi PˆCI ) 2 0.037917 ; PˆCI 0.275
n 1i 1

La primera aproximación al tamaño de muestra será:

Z 2 Sˆ*2 (1.96).(0.037917)
2
n0 2
40.46
(0.06)

Aquí la población se considera infinita y por lo tanto, la muestra final será de 41 lotes de 20 varillas.

8.12 TAMAÑO ÓPTIMO PARA M Y n EN LA ESTIMACIÓN DE Y .

Si se desea determinar el tamaño óptimo de M y n , se requiere definir una función del costo total: C ( n, M ) y una
2
función de la cuasivarianza entre conglomerados: S BCI ( M ) , para luego definir una función de Lagrange con el
ˆ
propósito de minimizar V (YCI ) , sujeta a la restricción establecida por la función de costo total.

La literatura plantea dos funciones básicas para la definición del costo total del trabajo de campo C en la investigación.

C ( n, M ) C C1 .( n, M ) C 2 .n .
C (n, M ) C C1 .(n, M ) C 2 . n .

En donde:

534
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

C : Es el costo total del trabajo de campo.


C1 : Costo de medir ó encuestar una unidad elemental.
C2 : Costo ubicar, recorrer y formar una unidad conglomerada.
n : Tamaño deseado de la muestra de conglomerados.
M : Tamaño deseado del conglomerado.

ˆ
De otro lado para que el MCON tenga éxito, se debe minimizar V (YCI ) , la cual de acuerdo con un análisis de varianza,
2
depende de la “variación entre conglomerados” representada por S BCI y de la “variación dentro de conglomerados”
2
representada por SWCI .

2
Al tomar pocos conglomerados mediante un MAS, se desea que ellos sean homogéneos entre sí ( S BCI , pequeña) y
2
heterogéneos dentro de ellos ( SWCI , grande), por lo tanto, el objetivo será determinar M y n sujetos a minimizar la
varianza del estimador de Y buscando minimizar la INTERVARIANZA.

2
La literatura existente, plantea dos alternativas básicas para expresar S BCI en función de M .Ver Cochran 301-302.

2
S BCI S y2 .M a 1 , 1< a < 0 (F Smith. 1938).
2
SWCI A.M g , g 0; A 0 (Jessen.1942).

Nota
2 2 2
Como del análisis de varianza se sabe que: S y S BCI SWCI , entonces para la función de Jessen se tiene que
2
S BCI S y2 A.M g . Tanto A como g no dependen de M .

A manera de ejemplo se analiza la siguiente situación para observar la forma como se calcula M y n.
Suponga que se desea implementar la siguiente combinación:

2
S BCI S y2 .M a 1

C C1 .(n.M ) C 2 .(n)

Asumiendo para el estimador de Y la varianza:

ˆ (1 f ) 2
V (YCI ) .S BCI
n.M
Se tiene la siguiente función de Lagrange:

(1 f)
(n, M , ) .S y2 .M a .(C1.n.M C2 .n C )
n
Restricción
ˆ
V (YCI )

535
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Derivando parcialmente la función respecto de n, M y e igualando a cero, se obtiene el siguiente sistema de


ecuaciones:

S y2 .M a
.C1 M .C 2 0 (1)
n n2
a.S y2 .M a 1
a.S y2 .M a 1

.C1 .n 0 (2)
M n N
C1 .n.M n.C 2 C 0 (3)

Despejando de las ecuaciones (1) y (2) e igualándolas:

1 1
a.S y2 .M a 1 .
S y2 .M a N n
n 2 .(C1 .M C2 ) C1 .n

Despejando n de esta última ecuación:

N .M .C1
n N (5) (8.30)
a.(C1 .M C 2 )

Despejando n , de la ecuación (3):

C
n (6) (8.31)
C1 .M C 2

Igualando las expresiones (5) y (6):

C N .M .C1 N .M .C1 M0
N ,y C C1 N .M N .C 2 , pero N
(C1 .M C 2 ) a.(C1 .M C 2 ) a M

Despejando M :

M 0 .C 2
M (7) (8.32)
1
C M 0 .C1 . 1
a

Nota
2
Tanto la función de costos totales C como la función de S BCI ( M ) deben ser construidas y analizadas de acuerdo con el
problema que se investiga.

536
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Ejemplo 8.9
Suponga que se tiene una población de 400 unidades elementales y se ha determinado previamente que los costos de
medir una unidad elemental y de conformar un conglomerado son respectivamente de $5000 y $300000. Así mismo se
dispone para el trabajo de campo de $4000000.

Asumiendo la función de Smith con a 0.1 . Determinar los valores de M y n que minimizan la varianza del
estimador de la media por unidad elemental.

Solución//

Se tienen como datos del problema:

M0 400; C1 $5000; C 2 $300000; C $4000000; a 0.1

ˆ
Reemplazando en las ecuaciones (7) y (6) respectivamente, se tiene que los valores que minimizan V (YCI ) , bajo las
condiciones establecidas son:

M0 400
M 5.45 5 y n 12.3 12 , donde N 80 .
M 5
8.13 EL EFECTO DE DISEÑO

Es útil distinguir y relacionar las varianzas de dos métodos de muestreo. La razón de la varianza para la estimación la
media por unidad elemental de un diseño particular a la varianza del mismo estimador en un MAS del mismo número de
elementos se denomina efecto de diseño (Kish, 1979). Generalizando esta definición se puede escribir:

V (θˆD )
Deff V (θˆD ) V (θˆMAS ).Deff (8.33)
V (θˆMAS )

Lo que muestra que la varianza del estimador de θ mediante un diseño particular D, puede ser expresada mediante el
producto de la varianza de la estimación del mismo parámetro mediante un MAS multiplicada por el efecto de diseño
Deff. El efecto de diseño depende de valores poblacionales por lo que habitualmente se estima mediante:

Vˆ (θˆD )
Deffˆ (8.44)
Vˆ (θˆMAS )

El efecto de diseño tiene entre otros los siguientes usos:

Auxiliar en la comparación de dos diseños muestrales. Si Deff < 1 , estaría mostrando que el diseño muestral D es
más eficiente que el MAS.

En el caso del MCON de igual tamaño se vio que:

N M

2 2. ( yij Y )( yiz Y )
ˆ (1 f c ) S i 1 j< z
V (YCI ) 1 ( M 1). ;
nM ( M 1)( NM 1) S 2

537
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

La fracción de muestreo en el MCON de tamaño igual es fc nc N c (número de conglomerados muestreados sobre


el total de ellos que posee la población) y si se realiza un MAS en donde precisamente el número de unidades
elementales muestreadas sea n nc M del total poblacional que es N c M . En este caso se tiene:

nc nc M n
fc f
Nc Nc M N

Y por lo tanto:

ˆ (1 f c ) S 2
V (YCI ) 1 ( M 1). V (YˆMAS ). 1 ( M 1)
nM
ˆ
V (YCI )
1 ( M 1). Deff
V (Yˆ ) MAS

De la expresión anterior se deduce que para valores positivos de , existe un aumento en la varianza del muestreo
por conglomerados de tamaño M en lugar de nM unidades elementales obtenidas por el MAS. Si la correlación
intraconglomerados fuese negativa ello supondría mayor precisión en el MCON. En la práctica los elementos al
interior del conglomerados tienen cierto parecido, con lo que la correlación es positiva y menor la precisión (Azorin,
1979).

Si se desea que las varianzas de los dos modelos sean iguales entonces:

Deff 1 ( M 1). (8.35)

ˆ
Si cuando se considera Deff V (YCI ) V (YˆMAS ) se supone que las dos varianzas son iguales, entonces se tiene:

(1 fc )S 2
1 ( M 1)
ˆ nc M n. 1 ( M 1)
Deff V (YCI ) V (YˆMAS ) 1
(1 f ) 2 nc M
S
n
De la expresión anterior se tiene que:

nc M n. 1 ( M 1).

Expresando el número de unidades elementales utilizadas al realizar un MCON de tamaño igual en función del
tamaño de muestra en el MAS cuando las varianzas de los dos métodos son iguales.

El Deff es un auxiliar en el cálculo del tamaño de muestra de la siguiente manera:

ˆ
V (YCI ) ˆ
Deff V (YCI ) V (YˆMAS ).Deff
V (Yˆ ) MAS

538
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

De tal manera que al suponer o desear para la estimación de Y en el MCON de igual tamaño con una varianza
ˆ 2
deseada V (YCI ) V0 Z , el número de unidades elementales si se realizara un MAS en estas condiciones
sería:

ˆ (1 f ) S 2
V (YCI ) V (YˆMAS ).Deff V0 .Deff V0
n
Despejando n se tiene:
Deff .S 2
V0
n (8.36)
1 Deff .S 2
1 .
N V0

Donde n es el número de unidades en el MAS y N el total de unidades elementales en la población. Para saber el
número de conglomerados de tamaño M requeridos será:

nc n M

8.14 MUESTREO UNIETAPICO DE CONGLOMERADOS DE IGUAL TAMAÑO CON PROBABILIDADES


DIFERENTES DE SELECCIÓN Y CON REEMPLAZO

Se establece en este aparte un resumen de los estimadores básicos en este modelo de muestreo y sus propiedades. Si la
selección de los conglomerados se realiza con reemplazo y se considera que:

i : Probabilidad de seleccionar el conglomerados i-ésimo de la población.


N : Número de conglomerados que conforman la población.
n : Tamaño de muestra (número de conglomerados muestreados).
M : Tamaño del conglomerado i-ésimo.
M 0 : Total de unidades elementales que conforman la población.

En donde:

N N

i 1.0 Y Mi M0
i 1 i 1

En lo que respecta a la estimación de parámetros para la variable Y se tiene:

8.14.1 Estimadores para el total y la media por unidad elemental para la variable Y

El estimador para el total viene dado por:

PARÁMETRO ESTIMADOR

N M N 1 n
Yi (8.37)
Y yij Yi YˆCIR
i 1 j 1 i 1
n i 1 i

El estimador para la media por unidad elemental vienen dado por:

539
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

PARÁMETRO ESTIMADOR (8.38)

n
N ˆ 1 Yi
Y Yi M 0 YCIR
i 1
M0 i 1 n. i

8.14.2 Propiedades de los estimadores para el total y la media por unidad elemental para la variable Y

Las propiedades básicas de los estimadores anteriormente definidos son:

Propiedad 8.13: Los estimadores del total y la media por unidad elemental en el MCON de tamaños iguales con
probabilidades diferentes para la selección de los conglomerados con reemplazo son insesgados.

n n
1 Yi ˆ 1 Yi
E (YˆCIR ) E Y ; E (YCIR ) E Y
n i 1 i M0 i 1 n i

Propiedad 8.14: La expresión de la varianza de los estimadores del total y la media por unidad elemental en el
MCON de tamaños iguales con probabilidades diferentes para la selección de los conglomerados con reemplazo
vienen dadas respectivamente por:

2
1 N
Yi ˆ 1
V (YˆCIR ) i Y ; V (YCIR ) V (YˆCIR ) (8.39)
n i 1 i M 02

Propiedad 8.15: Los estimadores de la varianza de los estimadores del total y la media por unidad elemental en el
MCON de tamaños iguales con probabilidades diferentes para la selección de los conglomerados con reemplazo
vienen dadas respectivamente por:

2
n
1 Yi ˆ 1 ˆ ˆ
Vˆ (YˆCIR ) Yˆ ; Vˆ (YCIR ) V (YCIR ) (8.40)
n.(n 1) i 1 i M 02

En lo que respecta a los estimadores de los parámetros asociados para atributos se tiene:

8.14.3 Estimadores para el total y la proporción para atributos

El estimador para el total poblacional viene dado por:

PARÁMETRO ESTIMADOR

N
1 n Ai (8.41)
A Ai AˆCIR
i 1 ni1 i

El estimador para la proporción poblacional viene dado por:

540
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

PARÁMETRO ESTIMADOR (8.42)

n
N 1 Ai
P Ai M 0 PˆCIR
i 1
M0 i 1 n. i

8.14.4 Propiedades de los estimadores para el total y la proporción

Las propiedades básicas son:

Propiedad 8.16: Los estimadores del total y la proporción en el MCON de tamaños iguales con probabilidades
diferentes para la selección de los conglomerados con reemplazo son insesgados.

n n
1 Ai 1 Ai
E ( AˆCIR ) E A; E ( PˆCIR ) E P
n i 1 i M0 i 1 n i

Propiedad 8.17: La expresión de la varianza de los estimadores del total y la proporción en el MCON de tamaños
iguales con probabilidades diferentes para la selección de los conglomerados con reemplazo vienen dadas
respectivamente por:

2 2
N N
1 Ai 1 Ai
V ( AˆCIR ) i M 0 P ; V ( PˆCIR ) i M 0P (8.44)
n i 1 i n.M 02 i 1 i

Propiedad 8.15: Los estimadores de la varianza de los estimadores del total y la media por unidad elemental en el
MCON de tamaños iguales con probabilidades diferentes para la selección de los conglomerados con reemplazo
vienen dadas respectivamente por:

2 2
n n
1 Ai 1 Ai
Vˆ ( AˆCIR ) M 0 Pˆ ; Vˆ ( PˆCIR ) 2
M 0 Pˆ (8.45)
n.(n 1) i 1 i M 0 n.(n 1) i 1 i

8.15 CONGLOMERADOS DE TAMAÑO DIFERENTE.

En este método el tamaño de los conglomerados es diferente siendo ésta una situación muy común cuando se investiga
utilizando MCON. Ver tabla 8.6.

M i ; i 1, 2,.....N : Número de unidades elementales dentro


del conglomerado i-ésimo
N
: Número de unidades elementales en la
M* Mi
población
i 1

yij : i 1, 2,.....N , j 1, 2,....M i : Valor de la variable Y , para la unidad


elemental i-ésima del conglomerado j-ésimo.
M* : Tamaño promedio de elementos por
M conglomerado
N
Tabla 8.6: Notación para el MCON de tamaño diferente para variables (continuación).

541
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Mi
Yi y ij : Total para la variable Y , en el
j 1
conglomerado i- ésimo
i 1, 2,....N
Mi
Yi y ij M i : Media para la variable Y en el
j 1
conglomerado i-ésimo.
N Mi N
Y y ij Yi N .Y : Total poblacional para la variable Y
i 1 j 1 i 1

Y Y : Media por conglomerado para la variable Y


N
N N
Y : Media poblacional por unidad elemental
Y Yi Mi
i 1 i 1 M* para la variable Y
Mi
1 : Cuasivarianza de la variable Y en el
S i2 ( y ij Yi ) 2
( M i 1) j 1
conglomerado i-ésimo.

1 N : Cuasivarianza poblacional para los


S2 (Yi Y )2 totales poblacionales por conglomerado
N 1i 1 en la variable Y

Tabla 8.6: Notación para el MCON de tamaño diferente para variables (continuación).

N1 12 n1 2
Unidades
conglomeradas
3
N2 7 n2 2 n 5 i1 i
n

3
N i1
Ni 22

N3 3 n3 1

Unidad

La población tiene N 22 unidades conglomeradas


Cada unidad conglomerada tiene diferente número de
unidades elementales Mi 9; 18; 36

Figura 8.3. Conglomerados de diferente tamaño.

542
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Para el estudio de este método de tendrá en cuente la notación vista para el método MCON con igual tamaño pero hará
énfasis en que el tamaño del conglomerado i- ésimo no es ahora M si no M i (variable). Ver figura 8.3.

En este caso para la descomposición de la varianza se tiene:

N Mi N Mi 2
2
( y ij Y) ( y ij Yi ) (Yi Y)
i 1 j 1 i 1 j 1
N Mi N Mi N Mi
( y ij Yi ) 2 (Yi Y ) 2 2. ( y ij Yi ).(Yi Y)
i 1 j 1 i 1 j 1 i 1 j 1
N Mi N Mi N Mi
( y ij Yi ) 2 (Yi Y )2 2. (Yi Y ). ( y ij Yi )
i 1 j 1 i 1 j 1 i 1 j 1

0
Luego:

N Mi N Mi N Mi
( y ij Y )2 ( y ij Yi ) 2 (Yi Y ) 2 (1)
i 1 j 1 i 1 j 1 i 1 j 1

N
Haciendo M * M i , el total de unidades elementales de la población:
i 1

N Mi N Mi
1 1 ( M i 1)
. ( yij Yi ) 2 . ( yij Yi ) 2
M* 1 i 1 j 1 M* 1 i 1 ( M i 1) j 1

1 N Mi
( yij Yi ) 2
. ( M i 1).
M* 1 i 1 j 1 Mi 1

N Mi N N
1 1 (M * N ) 2
. ( yij Yi ) 2 . 2
( M i 1).SWC . ( M i 1).SWC
M* 1 i 1 j 1 M* 1 i 1
i
( M * 1).( M * N ) i 1 i

2
( M * N ) N ( M i 1).SWCi (M * N ) 2
. .SWC
( M * 1) i 1 (M * N ( M * 1)

De la expresión anterior se deduce que:

N Mi
( y ij Yi ) 2 (M * 2
N ).SWC (2)
i 1 j 1

Ahora:

Mi Mi
1 N
M* N
M* N
M i .(Yi Y ) 2
. (Yi Y ) 2 . (Yi Y ) 2 .
M* 1 i 1 j 1 M *.( M * 1) i 1 j 1 ( M * 1) i 1 M*

M* N
M i .(Yi Y ) 2 ( N 1).N
. .
( M * 1) i 1 M* ( N 1).N

543
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

De donde:
N

Mi M i .(Yi Y )2
1 N
( N 1).M * N ( N 1).M * 2
. (Yi Y )2 . . i 1
.S BC
M* 1 i 1 j 1 ( M * 1).N ( N 1) M* ( M * 1) N

Y por lo tanto:
Mi
N
( N 1).M * 2
(Yi Y )2 .S BC (3)
i 1 j 1 N

Finalmente:

N Mi N Mi
1
( y ij Y )2 S y2 ( y ij Y )2 ( M * 1).S y2 (4)
M* 1 i 1 j 1 i 1 j 1

Reemplazando (2), (3) y (4) en (1), se tiene:

( N 1).M * 2
( M * 1).S y2 (M * 2
N ).S WC .S BC
N
En el MCON de diferente tamaño, se consideran dos situaciones dependiendo de si hay o no demasiada diferencia entre
los tamaños de los conglomerados:

8.16 LA EFECTIVIDAD DEL MCON Y LA EFECTIVIDAD DEL MAE

Mirando la descomposición de la variabilidad total de la variable analizada en cada método se puede realizar una
diferencia entre los dos métodos para mirar cuando cada uno de ellos es efectivo, las figuras 8.4 y 8.5, así como la tabla
8.7 explican y resumen de tal comparación.

En el MAE, la variabilidad total de la variable analizada Y se puede descomponer de la siguiente manera:

L L
( N 1) SY2 h 1
(N h 1)SYh2 h 1
N h(Yh Y )2
Variación total Intravarianza Intervarianza

VARIANCIÓN TOTAL INTRAVARIANZA INTERVARIANZA

La variación al interior de La variación entre estratos


los estratos debe ser debe ser ALTA: Estratos
BAJA: Estratos heterogéneos entre si
homogéneos en su interior

Características que hacen efectivo el MAE

Figura:8.4. Descomposición de la variación total en el MAE.

544
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

En el MCON para la misma expresión se tiene:

N Mi N Mi N Mi
i 1 j 1
( yij Y ) 2 i 1 j 1
( yij Yi ) 2 i 1 J 1
(Yi Y ) 2
N
( M * 1) SY2 N 2
( M i 1) SWi M * (Yi Y ) 2
i 1 i 1

Variación total Intervarianza


Intravariancia

VARIANCIÓN TOTAL INTRAVARIANZA INTERVARIANZA

La variación al interior de La variación entre


los conglomerados debe ser conglomerados debe ser
ALTA: Conglomerados BAJA: Conglomerados
heterogéneos en su interior homogéneos entre si

Características que hacen efectivo el MCON

Figura:8.5. Descomposición de la variación total en el MCON.

MÉTODO DE MUESTREO
VARIABILIDAD ESTRATIFICADO CONGLOMERADOS
(MAE) (MCON)
ENTRE GRUPOS Heterogeneidad Homogeneidad
DENTRO DE LOS
Homogeneidad Heterogeneidad
GRUPOS
2 N
VARIANZA DE LA SYh2 ˆ N (1 f ) (Yi Y ) 2
V (Yˆ )
L 2
MEDIA POR UNIDAD Wh(1 f h ) V (YCD ) i 1

ELEMENTAL
h 1
nh M* n N 1
Tabla 8.7: Efectividad del MAE y el MCON de diferente tamaño dependiendo de la Intervarianza e Intravarianza.

8.17 CONGLOMERADOS DE TAMAÑO DIFERENTE (POCO VARIABLES SUS TAMAÑOS ENTRE SÍ)

En lo que sigue se estudian los estimadores y sus propiedades cuando el diseño de muestreo se realiza sobre
conglomerados de tamaño diferente realizando censo al interior de cada uno de ellos una vez muestreados.

8.17.1 Estimadores de la media por unidad conglomerada y media por unidad elemental para la variable Y .

Los estimadores de la media por unidad conglomerada y la media por unidad elemental vienen expresados
respectivamente por:

PARÁMETRO ESTIMADOR

(8.46)
Mi n
N N
1
Y y ij Yi N .Y YˆCD Yi
i 1 j 1 i 1 n i 1

545
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

PARÁMETRO ESTIMADOR
(8.47)

N N
Y ˆ N ˆ
Y Yi Mi YCD .YCD
i 1 i 1 M* M*

Nota
Aquí, tal y como aparece en la tabla en 8.6, M * , es el total de unidades elementales.

8.17.2 Propiedades del estimador de la media por unidad elemental

Las principales propiedades para los estimadores definidos anteriormente son:

Propiedad 8.13: Insesgamiento del estimador de la media por unidad elemental en el MCON de tamaño diferente

El estimador de la media por unidad elemental en el MCON de tamaño diferente es un estimador insesgado.

n
Yi n
ˆ N i 1 N
E (YCD ) E .E Yi
M* n n.M * i 1

Al realizar un MAS de n unidades conglomeradas cada conglomerado tiene la misma probabilidad y el valor esperado
de la suma muestral de los totales conglomerados hace que se consideren los totales de todos los conglomerados
N 1
repitiéndose además el total de cada conglomerado, un número de veces igual a , por lo tanto:
n 1

N 1
ˆ N n
N k 1 N n 1 N
E (YCD ) .E Yi . (Y1 Y2 ....Yn ) j . . . Yi
n.M * i 1 n.M * j 1 N n.M * N i 1

n n

ˆ N n N 1 N Y
E (YCD ) . Yi . Yi Y
n.M * N i 1 M* i 1 M*

Propiedad 8.14: Expresión de la varianza del estimador de la media por unidad elemental en el MCON de tamaño
diferente

La varianza del estimador de la media por unidad elemental en el MCON de tamaño diferente, viene dada por:

ˆ N .( N n) N (Yi Y ) 2 N 2 (1 f ) N (Yi Y ) 2 N2
V (YCD ) . . . .V (YˆCD ) (8.48)
n.M *2 i 1 N 1 M *2 n i 1 N 1 2
M*

546
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

SiY1 , Y2 , Y3 ,......Yn , corresponden a los totales de una muestra de n conglomerados, entonces como ya se vio en el
ˆ
MAS, la media muestral Y , tiene por varianza:
CD

(1 f) N
(Yi Y ) 2
V (YˆCD ) .
n i 1 N 1

ˆ N ˆ
Por otro lado, sacando varianza a ambos lados de la expresión YCD .YCD , se tiene:
M*
ˆ N2
V (YCD ) 2
.V (YˆCD )
M*

Propiedad 8.15: Estimador de la varianza para el estimador de la media por unidad elemental en el MCON de
tamaño diferente

Un estimador insesgado de la varianza dada en la propiedad 8.14 para el estimador de la media por unidad elemental al
considerar la variable Y , viene dado por:

ˆ N .( N n) n (Yi YˆCD ) 2
Vˆ (YCD ) . (1) (8.49)
n.M *2 i 1 n 1

Como se sabe en el MAS de unidades conglomeradas un estimador insesgado de:

N
1
S *2 . (Yi Y )2
N 1 i 1
Es precisamente:

n
1
Sˆ*2 . (Yi YˆCD ) 2
n 1 i 1

Luego sacando varianza a ambos lados de la expresión (1), se tiene:

ˆ N .( N n) n
(Yi YˆCD ) 2 N .( N n) N
(Yi Y ) 2 ˆ
E Vˆ (YCD ) .E . V (YCD )
n.M *2 i 1 n 1 n.M *2 i 1 N 1

8.17.3 Propiedades de estimador del total poblacional cuando se analiza la variable Y .

ˆ
M * .YCD ˆ
YˆCD N .YˆCD N. M * .YCD
N

Las propiedades de este estimador, pueden ser deducidas fácilmente de las propiedades del estimador de la media por
unidad elemental relacionadas anteriormente aplicando las propiedades del valor esperado y de la varianza de una
variable aleatoria.

547
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Ejemplo 8.10
En un barrio de una gran ciudad conformado por 8240 viviendas distribuidas en 200 manzanas de aproximadamente igual
número de viviendas por manzana, se desea estimar la cantidad total de agua consumida por las de viviendas del barrio y
para ello se ha tomado una muestra de 30 manzanas y después de leer los medidores de agua en dos ocasiones
consecutivas (períodos) se ha obtenido la siguiente información.

Manzana Total de Consumo total de Manzana Total de Consumo total de


viviendas agua (m3) viviendas agua (m3)
1 42 1176 16 39 1300,4
2 43 1397,5 17 39 1300,2
3 40 1378,8 18 39 1269,1
4 40 1268,7 19 39 1200
5 40 1288 20 40 1148,2
6 39 1221,8 21 41 1148
7 43 1289 22 41 1190
8 41 1148,2 23 42 1300
9 42 1234 24 43 1400
10 41 1290 25 42 1300,7
11 40 1380 26 38 1200
12 40 1533,6 27 40 1176
13 41 1300,7 28 38 1397,5
14 41 1408 29 41 1200,8
15 44 1328,8 30 40 1168,7
Total 617 19643,1 Total 602 18699,6

Estime el total de agua en m3 consumida por el barrio y establezca un intervalo de confianza para el verdadero consumo
por período (mensual)

Solución//

De la tabla anterior:

38944.7 ˆ
YˆCD N .YˆCD 200. 259631.33 m 3 ; SˆY2 9178.53886 ; M * 8240 ; Vˆ (YCD ) 1262.4204 .
30

Para el intervalo de confianza al 95% se tiene:

YˆCD 259631 .33 (1.96).( 200). 1262.4204 (245703 .35; 273559 .31)
95%

El error de muestreo ee(YˆCD ) 7106.11 corresponde al 2.74%

8.18 TAMAÑO DE MUESTRA PARA ESTIMAR LA MEDIA POR UNIDAD ELEMENTAL Y AL ESTUDIAR
LA VARIABLE Y .

Considerando la expresión de la varianza dada en propiedades anteriores se tiene:

ˆ N .( N n) N (Yi Y ) 2 N .( N n) 2 N2 S *2
V (YCD ) . .S * .(1 f ).
n.M * i 1 N 1 n.M * M *2 n

Y despejando n :

548
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

N 2 .S *2
ˆ
M *2 .V (YCD ) n0
n (8.50)
2 2 1
1 N .S *
1 .n0
1 . N
N M 2 .V (Yˆ )
* CD

Aquí:

n*
(Yi YˆCD ) 2 2

N 2 .S *2 ˆ
n0 ; Sˆ*2 i 1
; V (YCD ) M
ˆ n* 1 Z
M *2 .V (YCD ) 2

Nota
n* , será el tamaño de muestra piloto usada para encontrar el estimador adelantado de Sˆ*2 .

En forma análoga para estimar el total, se realiza el siguiente cambio:

2
ˆ 1
V (YCD ) .V (YˆCD ) T
(8.51)
M *2 Z 2 .M *2
2

8.19 CONGLOMERADOS DE TAMAÑO DIFERENTE ( MUY VARIABLES SUS TAMAÑOS ENTRE SÍ)

Este caso se aplica cuando los tamaños de los conglomerados son muy diferentes entre sí, para evitar que los estimadores
propuestos anteriormente sean muy poco confiables. En este caso para la obtención de mejores estimadores, se toma
como base los estimadores de razón vistos en capítulo 5.

8.19.1 Estimador de la media y el total en el MCON de diferente tamaño cuando se estudia la variable Y .

Los estimadores para la media por unidad y el total cuando se utiliza el MCON de tamaño diferente con M i muy
variable vienen dados respectivamente por:

PARÁMETRO ESTIMADOR

n
Yi (8.52)
N N
Y ˆ YˆCD
Y Yi Mi YCD i 1
M* Mˆ
N
i 1 i 1
Mi *
i 1

PARÁMETRO ESTIMADOR

(8.53)
Mi
N N
ˆ
Y y ij Yi N .Y YˆCD M * .YCD
i 1 j 1 i 1

549
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

8.19.2 Propiedades relacionadas con el estimador de la media por unidad elemental y del total en el MCON de
tamaño diferente, con tamaños de los conglomerados muy diferentes.

Las propiedades básicas son:

Propiedad 8.16: Expresión aproximada para la varianza del estimador de la media por unidad elemental en el
MCON de tamaño de diferente (muy diferentes entre sí)

Como se sabe del estudio de los estimadores de razón, este es un estimador sesgado, no obstante, dicho sesgo disminuye
en la medida de que se aumenten el tamaño la muestra, vale decir cuando se considera un número grande de
conglomerados.

Bajo este supuesto, y si considerando un MAS de n conglomerados, de los cuales se tiene:

(Y1 , M 1 ); (Y2 , M 2 );......(Yn , M n ) ,

Entonces aplicando la varianza de una razón:

ˆ (1 f ) N (Yi Y .M i ) 2 (1 f) N
( M i .Yi Y .M i ) 2
V (YCD ) .
n.M *2 i 1 N 1 2
N 1
n. M * i 1
N (8.54)
2 2 2
N .(1 f ) N M .(Yi Y ) i
.
n.M *2 i 1 N 1

Nota
Para la varianza del total:

ˆ
V (YˆCD ) M *2 .V (YCD ) (8.55)

Propiedad 8.17: Estimador de la varianza expresada en la propiedad 8.16

Un estimador de la varianza dada en la propiedad anterior, vine expresada por:

ˆ
ˆ N 2 .(1 f ) n M i2 .(Yi YCD ) 2
Vˆ (YCD ) . (8.56)
n.M *2 i 1 n 1

El cual surge del hecho de que un estimador de:

N
1
S *2 M i2 (Yi Y )2
N 1i 1
Es:

n
1 ˆ
Sˆ*2 M i2 (Yi YCD ) 2 .
n 1i 1

550
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Nota
n
Cuando no se conozca M * , podrá utilizarse m* M i n , y por lo tanto:
i 1

ˆ
ˆ (1 f ) n M i2 .(Yi YCD ) 2
Vˆ (YCD ) . (8.57)
n.m*2 i 1 n 1

Ejemplo 8.11
En una ciudad pequeña se ha recabado información mediante una encuesta realizada a una muestra de 14 barrios
estableciendo para cada uno de ellos el total de hogares que lo componen y la cantidad de dinero total gastado en servicio
de gas por los residentes del barrio. Estime la cantidad de dinero gasto en servicio de gas por hogar para los 60 barrios
que la componen. Estime el coeficiente de variación para dicho promedio.

M i : Total de hogares del barrio analizado


Di : Total de dinero gastado semanalmente en consumo de gas domiciliario por todos los residentes del barrio

Mi $ Di Mi $ Di
55 220000 73 293000
60 239000 64 247000
70 243000 69 283000
58 238000 58 237000
72 278000 63 239000
78 311000 75 287000
69 278000 50 321000

Solución//
14
Di
ˆ i
DCD 14
$4063.46
Mi
i 1
Por hogar semanalmente:

ˆ ˆ
ee( DCD ) Vˆ ( DCD ) 128.44

Para el coeficiente de variación estimado:

ˆ
ˆ ee( DCD )
Cˆ V ( DCD ) 0.0316 3.16%
ˆ
DCD

En este caso como no se conoce el total de hogares de los 60 barrios se utiliza:

n
1
Mˆ * Mi 65.286
n i 1

551
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

8.20 TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA MEDIA POR UNIDAD ELEMENTAL Y LA


ESTIMACIÓN DEL TOTAL.

Partiendo de la expresión de varianza respectiva se tiene:

ˆ N 2 .(1 f ) N M i2 .(Yi Y ) 2 N 2 (1 f ) 2 N 2 .S *2 N 2 .S *2
V (YCD ) . .S *
n.M *2 i 1 N 1 n.M *2 M *2 .n M *2 .N

Y despejando n :

N 2 .S *2
ˆ
V (YCD ).M *2 n0
n , (8.58)
2 2 n0
1 N .S * 1
1 . N
N V (Yˆ ).M 2
CD *

Donde:

2
N
ˆ M
V (YCD ) ; M* Mi ;
Z i 1
2

ˆ
n*
M i .(Yi Y ) 2
Sˆ*2
i 1 n* 1
Con n* muestra piloto.

Nota
Para la estimación del total se realiza la siguiente sustitución:

ˆ V (YˆCD ) 2
T
V (YCD )
M *2 Z 2 .M *2
2

8.21 ESTIMADOR PARA LA MEDIA POR UNIDAD ELEMENTAL CUANDO EL CONGLOMERADO ES


DE TAMAÑO DIFERENTE Y SE ESCOGE CON PROBABILIDAD VARIABLE (Estimador PPT: probabilidad
proporcional al tamaño)

De acuerdo con lo visto en un apartado anterior, un caso muy particular para el MCON de conglomerados de tamaño
diferente seleccionados con reemplazo y probabilidades variables se obtiene cuando se asume que la probabilidad de
selección del conglomerado i-ésimo queda determinada por:

Mi
i (8.59)
M0

Ejemplo 8.12
Asumiendo que la probabilidad de seleccionar un conglomerado viene dado por la expresión anterior determine las
expresiones correspondientes para:

552
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

2
n n
ˆ 1 Yi ˆ 1 1 Yi
YCDR ; Vˆ (YCDR ) 2

M0 i 1 n. i M 0 n.(n 1) i 1 i
Solución//

Para el estimador de la media por unidad elemental:

n n
ˆ 1 Yi 1 Yi M 0 1 n Yi 1 n ˆ (8.60)
YCIR Yi Yppt
M0 i 1 n. i M0 i 1 n Mi n i 1 Mi ni1

Y para la varianza estimada:

2 2
n n
ˆ 1 1 Yi 1 1 Yi M 0
Vˆ (YCIR ) 2
Yˆ 2

M 0 n.(n 1) i 1 i M 0 n.(n 1) i 1 Mi
(8.61)
2

n n 2
1 Yi M 0 1 ˆ
Yi Yppt
n.(n 1) i 1 Mi M0 M0 n.(n 1) i 1

Ejemplo 8.13
Determine el tamaño de muestra bajo el supuesto de normalidad para encontrar la estimación de Yppt

Solución//

Se parte de la expresión de varianza V (Yppt )

2 2 2
ˆ 1 1 1 N
M i Yi M 0 1 N
M i Yi M 0 Y 1 N
Mi
V (YCIR ) V (YˆCIR ) Y Yi Y
M 02 M 02 n i 1 M0 Mi n i 1 M0 MiM0 M0 n i 1 M0

Entonces:

N 2
ˆ 1 Mi ˆ
V (YCIR ) Yi Y V (Yppt )
n i 1 M0

Despenado n se tiene:

2 2 2
ˆ N
Mi 1 N
Mi Z2 2 N
Mi
n. V (YCIR ) Yi Y n Yi Y 2
Yi Y
i 1 M0 V0 i 1 M0 i 1 M0

Es decir:
2
Z2 2 N
Mi
n 2
Yi Y (8.62)
i 1 M0
553
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Un estimador (Ospina,2001) en función de un estudio piloto para el tamaño de muestra es:

n* 2
ˆ*
Yi Yppt
Z2 2 i 1
n 2
(8.63)
n*

*
En donde * significa cantidades obtenidas con la muestra piloto n

8.22 ESTIMADOR DE LA PROPORCIÓN Y DEL TOTAL PARA UNA CARACTERISTICA C


ANALIZADA.

Se analiza en este apartado los principales estimadores para el manejo de atributos

8.22.1 Estimador de la proporción y del total para la característica C analizada.

Teniendo en cuenta la consideración sobre los valores que tomará la variable Y , realizada en el MCON de igual tamaño,
se tiene para la característica C , que los estimadores de la proporción y el total vienen dados por las siguientes
expresiones:

PARÁMETRO ESTIMADOR

N n n (8.64)
Ai Ai M i .Pi
P i 1
N
PˆCD i 1
n
i 1
n
Mi Mi Mi
i 1 i 1 i 1

PARÁMETRO ESTIMADOR (8.65)

N
A i 1
Ai Aˆ CD M * .PˆCD

Donde Ai será el total unidades que pertenecen a la clases C en el conglomerado i-ésimo.

8.22.2 Propiedades del estimador de la proporción y del total en el MCON de tamaño diferente con tamaños de
los conglomerados altamente variables.

Las principales propiedades en este caso son:

Propiedad 8.18: Varianza para el estimador de la proporción en el MCON de tamaño diferente (muy difente sus
tamaños)

Apoyándonos en la propiedad 8.16 y realizando los respectivos cambios se tiene que la varianza de la proporción de
unidades elementales que pertenecen a la clase C , viene dada por:

554
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

N 2 .(1 f ) N ( Ai P.M i ) 2
V ( PˆCD ) . (8.66)
n.M *2 i 1 N 1

Nota
Para el total se tiene:

V ( Aˆ CD ) M *2 .V ( PˆCD ) (8.67)

Propiedad 8.19: Estimación de la varianza expresada en la propiedad 8.18

Análogamente, el estimador de la varianza para la proporción de unidades poblacionales pertenecientes a la clase C


será:

N 2 .(1 f ) n ( Ai PˆCD .M i ) 2
Vˆ ( PˆCD ) . (8.68)
n.M *2 i 1 n 1

Nota
Para el total se tendría:

Vˆ ( Aˆ CD ) M *2 .Vˆ ( PˆCD ) (8.69)

Ejemplo 8.14
La ciudad capital de un determinado departamento tiene 900 centros educativos de estudios primarios distribuidos en el
área urbana. La secretaría de educación desea estimar para un año determinado el porcentaje de deserción escolar para la
ciudad en dicho sector educativo y para ello seleccionó al comienzo del año escolar una muestra de 30 establecimientos
en los cuales al final del año escolar confronto en cada uno el número de matriculados contra el número de los
estudiantes que no terminaron el año escolar encontrando la siguiente información.

M i : Total de matriculados al empezar el año escolar.


Di : Total de estudiantes que no volvieron a la institución.

Mi Di Mi Di Mi Di Mi Di Mi Di
500 10 1000 12 490 0 340 0 600 18
320 14 1200 10 1000 12 505 20 879 15
180 22 400 10 1100 30 500 4 600 2
1200 8 1200 0 1800 14 550 8 600 10
300 14 800 9 1500 20 500 12 720 15
998 20 2000 0 800 10 810 10 1000 22

De acuerdo con el informe de matricula enviado por los distritos educativos en que se divide la ciudad, el total de niños
matriculados en dicho sector es de 820500.

¿Cuántos estudiantes no terminan el nivel educativo primario en la ciudad? Establezca un intervalo de confianza para el
verdadero total de la ciudad.

Solución//

555
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

30
Di
PˆCD i
30
0.01438996 Aˆ CD (820500)(0.01438996) 11806.96
Mi
i 1
Para la varianza del estimador de P , se tiene:

Vˆ ( PˆCD ) 3.6590228 x10 6

Y para la varianza del total:

Vˆ ( Aˆ CD ) M *2Vˆ ( PˆCD ) 2463328,25 ee( Aˆ CD ) 1569.4994

Finalmente para el intervalo de confianza resulta:

A 95%
(8730.74; 14883.18)

ˆ )
En esta estimación, el error de muestreo ( ee( A 1569.4994 ) representa el 13.29% con respecto al total estimado.
CD

8.23 TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA PROPORCIÓN Y DEL TOTAL DE


UNIDADES QUE PERTENECEN A LA CLASE C.

En forma análoga al caso del estudio de la variable Y , se halla la siguiente expresión para la estimación del tamaño de la
muestra en la estimación de la proporción y del total de unidades que pertenecen a la clase C , cuando se desea un nivel
de confianza y un margen de error específicos:

N 2 .S *2
V ( Pˆ ).M 2
CD * n0
n , (8.70)
1 N 2 .S *2 n0
1 . 1
N V ( PˆCD ).M *2 N

Donde:

2
N
V ( PˆCD ) P
; M* Mi ;
Z i 1
2

n*
( Ai M i .PˆCD ) 2
Sˆ*2
i 1 n* 1

Con n* muestra piloto

556
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Nota
Para la estimación del total se realiza la siguiente sustitución:

2
V ( ACD )
V ( PˆCD ) T

M *2 Z 2 .M *2
2

Ejemplo 8.15
Una muestra piloto de 5 manzanas de un total de 200 de un barrio fue analizada respecto de la cantidad de personas
mayores de 70 años por manzana. Los resultados fueron los siguientes:

Total
Mi 90 45 48 28 45 60 48 38 402
Ai 10 8 6 8 9 6 12 8 67

¿Cuántas manzanas del barrio analizado se requieren para investigar la verdadera proporción de adultos mayores de 70
años con un nivel de confianza del 95% y un error del 2%?

Solución//

De la tabla de datos:
n
1
PˆCD 0.1667; m 50.25; Sˆ*2 ( Ai PˆCD .M i ) 2 11.055
n 1i 1

Por lo tanto:

Z 2 Sˆ*2 n0
2
n0 2 2
42.0474; 5% n 35
.m N

Si una vez realizado el estudio se encuentra que para las 35 manzanas Sˆ*
2
13.3 ,?Qué error de muestreo se asumiría al
pretender estimar el total de personas mayores de 70 años en el barrio?

Solución//

N 2 .(1 f ) ˆ 2
Vˆ ( Aˆ CD ) .S * 12540 eeˆ( Aˆ CD ) 112
n
Como comentario final al trabajar con muestras de unidades conglomeradas de una etapa debe tenerse presente en todo
caso que su eficiencia disminuye al aumentar el tamaño del conglomerado. Así por ejemplo, una muestra de 1000
unidades pertenecientes a 10 conglomerados de 100 unidades cada uno, se reparte menos uniformemente que si se tomara
una muestra de 100 conglomerados de 10 unidades cada uno (Gondar, 2003).

EJERCICIOS

Ejercicio 8.A
a) Genere 5 grupos de 20 datos con distribución normal con media 80 y desviaciones estándar 4; 8: 12; 16; 20
b) Encuentre para cada grupo los indicadores estadísticos básicos.

557
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

c) Encuentre el estimador de la media utilizando MCON de tamaños iguales. Establezca un intervalo de confianza para
la verdadera media poblacional con un nivel de confianza del 95%.
d) Si la información obtenida en a) es tomada como una muestra piloto de conglomerados de tamaño M 20 ;
determine el tamaño de muestra adecuado para la estimación de con un error 6.4 y un nivel de confianza del
95%. Opine y establezca los ajustes del caso a los requerimientos para obtener la muestra.

Ejercicio 8.B
Genere mediante un software estadístico 20 grupos de tamaño 20 unidades (valores) para dos variables: cada grupo debe
tener dos variables: una variable numérica Y1 con distribución con distribución normal y otra variable Y2 con
distribución Bernoulli. Las distribuciones de cada grupo deben tener los siguientes parámetros:

Variable Y1 Variable Y2 Variable Y1 Variable Y2


Grupo Nº P Grupo Nº P
1 80.001 2.0 0.451 11 80.012 7.0 0.461
2 80.002 2.5 0.452 12 80.013 7.5 0.462
3 80.003 3.0 0.453 13 80.014 8.0 0.463
4 80.004 3.5 0.454 14 80.015 8.5 0.464
5 80.005 4.0 0.455 15 80.016 9.0 0.465
6 80.006 4.5 0.456 16 80.017 9.5 0.466
7 80.007 5.0 0.457 17 80.018 10.0 0.467
8 80.008 5.5 0.458 18 80.019 10.5 0.468
9 80.009 6.0 0.459 19 80.020 11.0 0.469
10 80.010 6.5 0.460 20 80.021 11.5 0.47

2
a) Encuentre mediante software para cada grupo resultante Y1 ; SY1 ; PY2 1 ; AY2 1 .
b) Con todos los grupos forme una sola base (población) y encuentre para ella los mismos parámetros solicitados en a)
c) Construya con la población para cada variable el gráfico adecuado.
d) Obtenga una muestra de n 5 y con base en sus datos encuentre para el MCON de igual tamaño Ŷ1 ; Vˆ (Yˆ1 ) ;
PˆY2 ; Vˆ ( PˆY2 1 ) ; AˆY2 1 ; Vˆ ( AˆY2 1 ) .
e) ¿Cómo puede comparar los resultados de b) y d).

Ejercicio 8.C
En la bases de datos RAKAN en su variable sector el primer dígito de la izquierda corresponde a la comuna (1 a 5)
mientras que los restantes dígitos indican el sector propiamente dicho, el cual a su vez está integrado por viviendas de los
diferentes estratos en que está dividida la ciudad.

a) Genere una muestra de aleatoria de 5 de dichos sectores utilizando el paquete MINITAB.

SECTORES
11 22 27 34 39 44 56
12 23 28 35 310 51 57
13 24 31 36 41 52 58
14 25 32 37 42 54
21 26 33 38 43 55

b) Extraiga de la base principal los sectores seleccionados mediante Unstack Columns


c) Utilizando los estimadores del MCON de tamaño diferente encuentre para las variables que se indican la estimación
del parámetro relacionado y su varianza.

VIVI-PRO (vivienda propia): Proporción de propietarios.


NUM-PER (Número de personas que habitan la vivienda): Promedio de personas por vivienda.
ING-FAMI(Ingreso familiar en la vivienda): Promedio de ingresos por familia.

558
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

MUJ (Número de mujeres adultas que habitan la vivienda): Proporción de viviendas con 2 o más mujeres adultas.

d) Si utiliza la información obtenida en le muestra para la variable ING-FAMI como una muestra piloto. Determine el
tamaño de muestra para estimar el ingreso promedio por persona con un error y nivel de confianza adecuados e
indicados por usted.

Ejercicio 8.D
Resuelva el ejercicio anterior si la muestra es generada en forma sistemática. ¿Qué ventajas podría tener la muestra
generada de esta manera sobre la obtenida en forma aleatoria?.

Ejercicio 8.1
Una máquina que produce bolsitas de té con un contenido de 16 onzas, las cuales a su vez se empacan en bolsas más
grandes (pacas) conteniendo 24 unidades (bolsitas) produce en un turno 1000 pacas. Con el objeto de estimar el
contenido promedio de té por bolsita, un ingeniero de calidad desea establecer el tamaño de muestra (cuántas pacas) con
un nivel de confianza del 95% y un margen de error de 0.008 gramos. ¿Qué tamaño de muestra usará el ingeniero?
Una nuestra piloto de 5 pacas le permite saber para el contenido de té por paca que: SˆC
2
1.22 .

Ejercicio 8.2
De 300 cajas de 50 unidades de cierto medicamento cuyo contenido por unidad está establecido en 500, se obtiene una
muestra piloto de 5 cajas y en cada una de ellas se determina el porcentaje de unidades defectuosas en su sellado
encontrando: 0.14, 0.20, 0.18, 0.12 y 0.16.
¿Qué tamaño de muestra debe considerarse para estimar la proporción de unidades con sellado defectuoso en las 300
cajas con un nivel de confianza del 95% y un error máximo de 1%?

Ejercicio 8.3
En una investigación sobre crecimiento de la caña, un ingeniero ha diseñado 50 bloques de 100 parcelitas cada uno. En
cada parcelita ha sembrado cuatro variedades de caña. Después de cierto tiempo el ingeniero desea saber el total de
parcelitas en las cuales las plántulas han alcanzado cierta altura y para ello decide tomar una muestra de bloques. Un
estudio preliminar permite saber que: Sˆ P 0.006 . ¿Qué tamaño de muestra se requiere (número de bloques) para
2

encontrar dicha estimación con un nivel de confianza del 95% y un error de 210 parcelitas?

Ejercicio 8.4
Una región agrícola está dividida en 90 subregiones de diferente número de fincas. Un estudio anterior sobre 10 de tales
subregiones mostró los siguientes indicadores sobre el número de visitas realizadas por los técnicos agrícolas durante un
mes a los cultivos de dichas fincas.

ˆ
Y 4.8; SˆCD
2
21990.96

La región está compuesta por 4500 fincas y se desea estimar el número promedio de visitas por finca para toda la región,
asumiendo un error de 1.2 visitas y un nivel de confianza del 95%. ¿Qué tamaño de muestra será necesario para llevar a
cabo tal estimación? (¿Cuántas subregiones se deben muestrear?)

Ejercicio 8.5
El Dpto. de Mercadeo de una empresa azucarera a realizado un publicidad agresiva sobre un nuevo tipo de azúcar que se
piensa lanzar al mercado. La campaña se realizó en una ciudad conformada por 3480 hogares distribuidos en 60 barrios,
una muestra piloto de 5 barrios arrojo la siguiente información al medir el número de hogares que gustarían consumir el
nuevo tipo de azúcar:

157 ˆ 2 1
Pˆ Pˆ .M i ) 2
5
; SCD ( Ai 37,166
283 n 1 i 1

¿Qué tamaño (cuantos barrios) se deben muestrear para estimar el total de hogares que gustan del nuevo producto con un
nivel de confianza del 95% y un margen de error de 200 hogares?

559
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Ejercicio 8.6
Se tomó una muestra de n= 6 comunas de una región ganadera compuesta por N=40 y en cada una se midió el número de
acres (extensión) para una muestra de fincas en cada una de ellas, obteniendo la siguiente información. De acuerdo con
un censo el total de fincas de la región fue de M0 = 6400

Comuna 1 Comuna 2 Comuna 3 Comuna 4 Comuna 5 Comuna 6


17,43 20, 12 14,70 17,66 13,66 20,77
24,30 12,53 23,04 13,77 17,89 16,77
12,59 22,84 9,54 20,59 20,76 23,09
23,75 12,8 15,03 12,66 12,77 19,66
12,42 13,55 15.99 23,08 21,85
24,30 18,65
12,66
M1 = 130 M2 = 190 M3 = 150 M4 = 160 M5 = 190 M6 =1 30

a) Estime el promedio de acres por finca.

b) Estime la varianza correspondiente.

Ejercicio 8.7
Considere una población de N = 100 conglomerados del mismo tamaño M 4 unidades elementales, en la que la
proporción de personas con un cierto atributo es P = 0.5. En una muestra de n =5 conglomerados se obtuvieron los
siguientes resultados:

Conglomerado i Unidades elementales con el


atributo investigado (Ai)
1 2
2 3
3 1
4 2
5 1

Se pide: Estimar la eficiencia relativa del muestreo por conglomerados respecto a la del muestreo aleatorio simple.

Ejercicio 8.8
Una población está formada por N = 300 conglomerados de M 50 elementos. Se obtiene una muestra de n =5
conglomerados, sin reposición y probabilidades iguales. La proporción de unidades elementales que pertenecen a una
cierta clase en cada uno de los conglomerados muestreados es:

Pi 0.14; 0.20; 0.18; 0.12; 0.16


Se pide:

2 2
a) Calcule los estimadores insesgados de las varianzas “entre” S b y “dentro” SW de conglomerados, definidas
mediante:
N N
1 1
S b2 M .( Pi P ) 2 y SW2 M .Pi .(1 Pi )
N 1i 1 N .( M 1) i 1

Vˆ ( Aˆ )
b) Estimar el total de clase y sus errores de muestreo absoluto y relativo: Vˆ ( Aˆ ) y .

c) Estime el coeficiente de homogeneidad .

560
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Ejercicio 8.9
En una población dividida en conglomerados de igual tamaño M 25 , se obtiene una muestra de n =10
2 2
conglomerados. De experiencias anteriores parece razonable asumir la relación S b 8.S . Si se obtiene una varianza
para el estimador de la media por unidad elemental, igual a 0.001, se pide:

a) El valor del coeficiente de homogeneidad .


2 2
b) Los valores de S b y S .
c) El valor del factor por el que habría que multiplicar el tamaño de una muestra aleatoria simple para obtener la misma
precisión que un muestreo de conglomerados.

Ejercicio 8.10
Se tiene una población de 9 unidades conglomeradas divida en dos estratos como se muestra en las tablas siguientes:

ESTRATO I
Parámetros
Conglomerado Datos Total
Y Y SY2
1, 2, 3, 4, 5
2, 3, 3, 3, 4
1
4, 4, 5, 5, 7
8, 8, 2, 4, 2
1, 2, 3, 4, 5
2, 3, 3, 3, 4
2
4, 4, 5, 5, 7
7, 6, 5, 2, 1
1, 2, 3, 4, 5
2, 3, 3, 3, 4
3
8, 8, 2, 4, 2
7, 6, 5, 2, 1
1, 2, 3, 4, 5
4, 4, 5, 5, 7
4
8, 8, 2, 4, 2
7, 6, 5, 2, 1
2, 3, 3, 3, 4
4, 4, 5, 5, 7
5
8, 8, 2, 4, 2
7, 6, 5, 2, 1

Estrato II
Parámetros
Conglomerado Datos Total
Y Y SY2
2, 3, 4, 5
1 2, 3, 1, 4
3, 3, 2, 4
2, 3, 4, 5
2 2, 3, 1, 4
5, 4, 2, 1
2, 3, 4, 5
3 3, 3, 2, 4
5, 4, 2, 1
2, 3, 1, 4
4 3, 3, 2, 4
5, 4, 2, 1

561
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Complete las tablas anteriores y encuentre para todo el estrato los mismos parámetros estipulados para cada
conglomerado.

a) Genere todas las muestras de tamaño 4 para el estrato I y de tamaño 3 para el estrato II (muestra de conglomerados).
b) Complete la siguiente tabla:

Estrato I Estrato II Estimadores para


la población
Muestra ˆ
ˆ ˆ ˆ VˆII (YII ) ˆ ˆ
YI VˆI (YI ) YII Y Vˆ (Y )
1
2
Etc.
Nota
5 4
El Total de muestras combinadas será: 20 y los estimadores poblacionales tienen la siguiente estructura:
4 3
ˆ ˆ ˆ ˆ
WhYh y Vˆ (Y ) Wh2Vˆ (Yh )
2 2
Y h 1 h 1
ˆ ˆ
c) Encuentre E (Y ) y E (Vˆ (Y )) .

Ejercicio 8.11
Un barrio de la ciudad de Cali está integrado por N 1500 viviendas. La secretaría e Salud Pública desea saber la
proporción de habitantes del barrio que están vacunados contra cierta enfermedad. Para ello se toma una muestra de 20
viviendas censando a todos sus residentes sobre su estado de vacunación o no.

Mi: Número de residentes de la vivienda,


Ai : Número de personas vacunadas en la vivienda.

20 20 20 20 20
i 1
Mi 144; i 1
M i2 1160; i 1
Ai 68; i 1
Ai2 300; i 1
M i Ai 478

a) Estimar la proporción de personas vacunadas en el barrio.


b) Estime el ee(Pˆ ) .

Ejercicio 8.12
Un miembro del sindicato de profesores desea saber el promedio de estudiantes por grupo para confrontar las cifras dadas
por la Secretaría de Educación Municipal. El estudio se lleva a cabo en las escuelas de Educación Primaria de dicho
municipio integrado por 200 escuelas. El sindicalista tiene dinero para visitar 10 escuelas y realizar el conteo de sus
estudiantes confrontando con los listados de clase. La siguiente información es la obtenida por parte del sindicalista:

Escuela Nº de Nº de Escuela Nº de Nº de Escuela Nº de Nº de


cursos estudiantes cursos estudiantes cursos estudiantes
1 5 200 4 4 200 7 10 410
2 8 360 5 9 410 8 11 530
3 10 400 6 7 280 9 8 430
10 7 267

Estime el promedio de estudiantes por grupo y su varianza.

562
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Ejercicio 8.13
La grafica corresponde al marco muestral de una zona comercial de la ciudad ABC. En cada una de las manzanas
numeradas hay un número deferente de establecimientos de comercio. Se desea estimar la proporción de administradores
que están a favor del cambio de la compañía de vigilancia.

02 04 06 08
01
10
03 05 07 09

11 12 14 15 16

17 18 19 20

23 24
21 22

a) Mediante una muestra de 5 manzanas se encontró la siguiente información.

Manzana 14 24 01 10 15
Nº de Establecimientos 20 10 18 12 8
Nº de administradores a favor 10 9 11 9 8

b) Estime para la zona comercial estudiada, la proporción de administradores a favor del cambio de la compañía de
vigilancia y su varianza.
c) Determine el total de establecimientos de comercio que en la zona están a favor del cambio de compañía de vigilancia
y su varianza.
d) ¿Qué tamaño de muestra se requiere para estimar la proporción de administrativos que están a favor del cambio de
compañía de vigilancia con un error y un nivel de confianza del 95%? Establezca un error razonable.

Ejercicio 8.14
En el ejercicio 8.12 ¿Qué tamaño de muestra se requiere para estimar el mismo parámetro con un error del 8% de la
media encontrada y un nivel de confianza del 95%?

Ejercicio 8.15
La siguiente tabla muestra una población de arboles de café compuesta por 280. Los árboles están distribuidos en 14 filas
de 20 árboles cada una. La tabla indica para cada árbol si este tiene roya (si) o no tiene roya (blanco)

  Número del árbol 
Fila  1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20 
1  si  si  si  si  si  si  si 
2  si  si  si  si  si 
3  si  si  si  si  si  si  si 
4  si  si  si  si  si 
5  si  si  si  si  si  si  si  si 
6  si  si  si  si  si  si  si  si 
7  si  si  si  si  si  si 
8  si  si  si  si  si  si  si  si 

563
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

9  si  si  si  si  si  si  si 


10 
11  si  si  si  si  si  si 
12  si  si  si  si  si  si  si  si  si  si 
13  si  si  si  si  si  si  si 
14  si  si  si  si  si  si  si 

a) Obtener una muestra aleatoria simple de filas de tamaño n 4 (conglomerados) y estime la proporción total de árboles
de café que tienen roya en la población de los 280. Estime el coeficiente de variación CV (Pˆ ) .
b) Seleccione ahora una muestra de n 80 árboles y encuentre los estimadores del punto a) usando un MAS.
c) Resuelva el punto b) usando MSIS.
d) Compare los coeficientes de variación en cada uno de los métodos. Opine.

Ejercicio 8.16
El siguiente cuadro muestra el análisis de varianza para la variable Y en el MCON de una etapa.

Descomposición de la varianza para la población


Fuente de variación Grados de Suma de cuadrados Cuadrados medios
libertad
Entre N M
conglomerados N 1 (Yi Y )2 2
S BCI
i 1 j 1
Dentro de N M
conglomerados N .( M 1) ( y ij Yi ) 2 2
SWCI
i 1 j 1
N M 2 2
( N 1).S BCI N .( M 1).SWCI
Total N .M 1 ( y ij Y )2 S y2
i 1 j 1 N .M 1 N .M 1

Obtenga un cuadro análogo para el estudio de una variable cualitativa.


0
Recuerde que yij , dependiendo de si la unidad investigada tiene o no la variable (característica) investigada.
1

Ejercicio 8.17
Para MCON de tamaño igual.

a) Para la variable Y, con base en las expresiones para el estimador de la media por unidad elemental y su respectivo
estimador de la varianza escriba explícitamente el respectivo estimador y el estimador de su varianza para el
estimador del total.
b) Cuando se analiza un atributo, con base en las expresiones para el estimador de la proporción y su respectivo
estimador de la varianza escriba explícitamente el respectivo estimador y el estimador de su varianza para el
estimador del total de unidades que poseen el atributo analizado.

Ejercicio 8.18
Resuelva el problema 8.17, para MCON de tamaño diferente.

Ejercicio 8.19
En el MCON de igual tamaño se tienen los siguientes estimadores:

N
ˆ 1 n ˆ (1 f) 1 (Yi Y ) 2
Y Y ; V (Y )
1 i
i 1
n.M i
n M2 N 1

564
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Suponiendo que los conglomerados se encuentran agrupados en L estratos y sobre la base de que el MAE el estimador de
la media por unidad elemental y su varianza en este caso son respectivamente:

ˆ L ˆ ˆ L ˆ
Y h 1
WhYh ; V (Y ) h 1
Wh2V (Yh ) (*)

Escriba explícitamente las expresiones anteriores (*) y sus correspondientes estimadores.

Ejercicio 8.20
Deduzca la formula general del tamaño de muestra n para la estimación de la media por unidad elemental Y en el MAE
de unidades conglomeradas dependiendo del tipo de asignación.

Ejercicio 8.21
Deduzca la formula general para la estimación la proporción poblacional P en el MAE de unidades conglomeradas,
dependiendo del tipo de asignación.

Ejercicio 8.22
La siguiente tabla de doble entrada corresponde a un muestreo por conglomerados de tamaño M 40 unidades
elementales realizado en una población divida en 3 estratos cuyos pesos son: WI 0.30 , WII 0.50 y WIII 0.20 . La
tabla muestra los totales obtenidos para las unidades conglomeradas muestreadas por estrato.

Estrato h
I II III
Congl-i
1 300 1000 670
2 450 430 680
3 700 870 540
4 650 670
5 389
Estime para la variable Y la media por unidad elemental Y y su varianza.

Ejercicio 8.23
En caso del muestreo estratificado la tabla de análisis de varianza puede constar de las siguientes componentes (Azorín et
al., 1986):

Grados de Cuadrados
Fuente de variación Suma de cuadrados
Libertad medios
Entre Estratos L 1 L Nh Mh
(Yh Y ) 2 S12
h 1 i 1 j 1

Entre conglomerados ( N h 1).L L Nh Mh


S 22
(Yhi Yh ) 2
Dentro de estratos h 1 i 1 j 1

Entre elementos ( M 1) N h .L L Nh Mh
S32
dentro h 1 i 1 j 1
( yhij Yhj ) 2
De conglomerados
L Nh Mh
Total h 1 i 1 j 1
( yhij Y ) 2 S2

Donde:

L : Número de estratos.
N h : Número de conglomerados dentro del estrato h .
M h : Tamaño del conglomerado h .

565
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Establezca para el caso de la estimación de P la tabla de análisis de varianza equivalente.

Ejercicio 8.24
Una población se encuentra divida en un numero grande de conglomerados de tamaño M 30 , se ha obtenido una
muestra de tamaño n 15 conglomerados. Estudios anteriores permiten establecer la siguiente relación: Sb2 (7.5) SY2 .
ˆ
Si se obtiene una varianza para el estimador de la media por unidad elemental igual Vˆ (Y ) 0.02 .

a) Estime el coeficiente de homogeneidad .


2 2
b) Estime los valores de S y S .
b
c) ¿Cuál es el factor por el que hay que multiplicar el tamaño de una muestra aleatoria simple para obtener la misma
precisión que el MCON?

Ejercicio 8.25
Se desea realizar una encuesta por conglomerados para la estimación de la proporción poblacional P cuya varianza se
p.q (1( M 1)
supone igual a V ( Pˆ ) . Para una función de costo definida por: C 50 n 100n.M encuentre
nM
los valores de M y n óptimos cuando los costos del trabajo de campo se consideran C 200000 .
Situación Nº M
1 0.8 200
2 0.6 300

Ejercicio 8.26
Demuestre que el coeficiente de correlación intraconglomerados en el MCON de igual tamaño puede expresarse como:

2
S BCI SY2
CI
SY2 ( M 1)

Ejercicio 8.27
Para la población determinada por 4 conglomerados de tamaño 4 mostrada mediante la siguiente tabla:

Conglomerado
Nº 1 Nº2 Nº3 Nº4
Unidades elementales 2.3-3.4-5.0-1.8 4.0-4.3-2.9,5.2 4.8-3.6-4.3-2.7 3.3-4.3-5.1-3.8

Mostrar la siguiente relación:

1 N M 1 N 1 N M
( yij Y )2 (Yi Y ) 2 ( yij Yi ) 2
NM i 1 j 1
N i 1
NM i 1 j 1

2 2
B
1 N 2
1
NM i 1

2
W

Ejercicio 8.28
Con los datos del ejercicio anterior encuentre. Opine.

N M N M
i 1 j z
( yij Y )( yiz Y ) i 1 j z
( yij Y )( yiz Y )
2
NM ( M 1) ( M 1)( NM 1) S 2

566
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

Ejercicio 8.29
2 1 N
Partiendo de la varianza entre conglomerados B (Yi Y ) 2 demuestre que el coeficiente de correlación
N i 1

intraconglomerados puede expresarse como:

2 2
B W ( M 1)
2

Ejercicio 8.30
Generando muestras de tamaño 3 (conglomerados) en la población definida en el ejercicio 8.27 encuentre la distribución
de los siguientes estimadores:

1 1 1
Yi ) 2 ; SˆW2
n n M n M
Ŝ12W i
2
( yij ( yij Yi ) 2
n i 1
nM i 1 j 1
nM 1 i 1 j 1

1 ˆ 1
SˆB2 (Yi Yˆ ) 2
n n
(Yi Y ) 2 2
n 1 i 1
M (n 1) i 1

¿Verifique si se cumple que E ( Sˆ1W )


2 2
W ; E ( SˆB2 ) S B2 ? Opine.

2 N 2
Nota: recuerde que: S B B
N 1
Ejercicio 8.31
Utilizando las distribuciones halladas en el ejercicio 8.30 encuentre la distribución de:

M ( N 1) SˆB2 NM .Sˆ12W M ( N 1) SˆB2 N ( M 1).SˆW2


Sˆ 2 y Sˆ
2

NM 1 NM 1
¿Son insesgados estos estimadores?

Ejercicio 8.32
En el ejercicio 8.30 encuentre la distribución de:

N 1 ˆ2
SB M .SˆW2 ( M 1) 2
ˆ N
N 1 ˆ2
SB M .SˆW2 ( M 1) 2
N
¿Es insesgado?

Ejercicio 8.33 (Sánchez et al., 2002)


En una población compuesta por 10 conglomerados de 100 elementos, se toma una muestra monoetápica de n
conglomerados. Por experiencias anteriores se sabe que el modelo de F. Smith:

log Sb2 log S 2 t. log M ; t 0

Se ajusta bien en la proximidad de M 100 y se conoce el valor de Sb2 1,173 . Se pide:

567
CAPÍTULO 8. MUESTREO POR CONGLOMERADOS (MCON)

2 2 2
a) Calcular el valor de t y SW en el supuesto que Sb S 13,8.

b) Formar la tabla poblacional de análisis de varianza.


ˆ 2
c) Expresar V (Y ) en función de S , n y M , utilizando el modelo.

Ejercicio 8.34 (Sánchez et al., 2002)


2
Considere una población de 10000 elementos, con una varianza conjeturada S 85 , que sigue el modelo de Jessen, el
cual supone la existencia de una relación matemática entre la varianza dentro de los conglomerados y el tamaño de éstos
2
que se expresa mediante la fórmula SW AM t ; t 0 , donde A y t son constantes que no dependen de M. Se pide:

a) Obtener los valores de t y A sabiendo que con conglomerados de tamaño M 5 se ha estimado un valor de
2
SW 64 .
b) Determinar el tamaño óptimo del conglomerado (en el sentido de minimizar la varianza del estimador) bajo el
siguiente supuesto: Se dispone de un presupuesto de 5000 unidades monetarias para estimar la media de la población
mediante un muestreo de conglomerados en una etapa, pudiendo construirse conglomerados de los siguientes
tamaños: M 1 (número de unidades elementales), M 2 , M 3 , M 4 , M 5 y M 10 . La función de
costo es del tipo C 400 n 10n.M , donde n es el número de conglomerados en la muestra y M el tamaño de
los mismos. (Prescindir del factor de corrección de poblaciones finitas).

568
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

MUESTREO EN VARIAS ETAPAS

_________________________________________________________________________________

Introducción.
Definición.
Procedimiento para seleccionar una muestra bietápica.
Teorema de Madow.
Ventajas y desventajas del muestreo bietápico (MBI).
Muestreo bietápico en unidades conglomeradas de igual tamaño.
Muestreo bietápico para variables en conglomerados de igual tamaño.
Estimador para la media por unidad elemental y estimador para el total.
Propiedades relacionadas con el estimador de la media por unidad elemental y el estimador del total en el
MBI.
Tamaño de muestra en el MBI de unidades conglomeradas de igual tamaño para variables.
Muestreo bietápico para atributos en conglomerados de igual tamaño.
Estimador para la proporción y el total en el MBI de unidades conglomeradas de igual tamaño.
Propiedades del estimador de la proporción y el total en el MBI de unidades conglomeradas de igual
tamaño.
Muestreo estratificado de unidades conglomeradas de igual tamaño.
El estimador de la media por unidad elemental en el MAE de unidades conglomeradas de igual tamaño.
Propiedades del estimador de la media por unidad elemental en el MAE de unidades conglomeradas de
igual tamaño.
Tamaño de muestra en el MAE para unidades conglomeradas de igual tamaño.
Muestreo bietápico para variables en conglomerados de diferente tamaño.
Estimador de la media por unidad elemental y estimador para el total.
Propiedades relacionadas con el estimador de la media por unidad elemental y el estimador del total.
Muestreo bietápico para variables usando el estimador de razón al tamaño del conglomerado.
Estimador de la media por unidad elemental y estimador para el total.
Propiedades del estimador del total y del estimador de la media por unidad elemental al usar estimadores de
razón al tamaño del conglomerado.
Muestreo bietápico para atributos en conglomerados de diferente tamaño.
Estimador de la proporción y estimador para el total.
Propiedades del estimador de la proporción y el estimador del total para atributos.
Calculo del m y n óptimos en el MBI para conglomerados de diferente tamaño, utilizando razón al tamaño.
Muestreo bietápico con selección del conglomerado con probabilidades diferentes mediante reemplazo.
Estimador del total y la media por unidad elemental.
Propiedades de los estimadores del total y la media por unidad elemental.

569
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Muestreo trietápico.
Estimador para el total y la media en unidades conglomeradas de igual tamaño.
Propiedades del estimador del total en el muestreo trietápico de unidades conglomeradas de igual tamaño.
Tamaño de muestra en el muestreo trietápico de unidades conglomeradas de igual tamaño.
Muestreo trietápico con unidades conglomeradas de diferente tamaño.
Estimado del total.
Propiedades del estimador del total en el muestreo trietápico de unidades conglomeradas de diferente
tamaño.
Muestreo trietápico para atributos en unidades conglomeradas de diferente tamaño.
Estimador del total para atributos.
Propiedades del estimador del total en el muestreo trietápico para atributos con unidades conglomeradas de
diferente tamaño.
Un comentario final.
Ejercicios.

__________________________________________________________________________________

570
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

9.1 INTRODUCCIÓN

En muchas oportunidades las unidades elementales se encuentran formando grupos de igual o diferente número de ellas
(Gn ) , dichos grupos a su vez se encuentran formando conjuntos ( Gn 1 ) de igual o diferente tamaño y así sucesivamente
hasta llegar a formar grupos ( G1 ) de tal manera que entre las diferentes tipos de conjuntos se da la relación matemática:
Gn Gn 1 ..... G1 . Una situación como la anterior presupone la existencia o construcción de múltiples marcos de
muestreo (uno por cada tipo de unidad). El muestreo probabilístico de múltiples etapas consiste en seleccionar en forma
aleatoria una muestra de unidades de primer orden y dentro de cada una de ellas seleccionar una muestra aleatoria de
unidades de segundo orden y así sucesivamente hasta seleccionar en la última etapa una muestra de unidades elementales. La
figura 9.1 ilustra esta selección.

• Marco muestral de unidades de primer orden


Etapa Nº 1 • Muestra de unidades de primer orden (UPM1)
• Estadísticas muestrales a este nivel

• Marco muestral de unidades de segundo orden dentro de cada unidad de


primer orden muestreada en la etapa Nº1
Etapa Nº 2 • Muestra de unidades de segundo orden (UPM2)
• Estadísticas muestrales a este nivel

• Marco muestral de unidades de tercer orden (unidades objeto de estudio)


dentro de cada unidad de segundo orden muestreada en la etapa Nº2
Etapa Nº 3 • Muestra de unidades de tercer orden (UPM3)
• Estadísticas muestrales a este nivel

El estimador sobre el parámetro poblacional depende de todas la


etapas aleatorias por la que se pase antes de llegar a la unidad
elemental

Figura 9.1. Esquema para la selección de unidades elementales en un muestreo trietapico.

A continuación se referencian los estimadores y sus propiedades para en muestreo en dos etapas o muestreo bietapico el cual
se abreviará por MBI.

Al planear la realización de un muestreo por conglomerados, en muchas oportunidades se ve que las unidades elementales
que conforman los conglomerados son muy homogéneas entre sí, razón por la cual una muestra de ellas puede dar muy
buenas estimaciones al interior del conglomerado. También es posible que sea demasiado costoso o muy difícil medir todas
las unidades elementales al interior del conglomerado seleccionado tal como se propuso en el MCON de una etapa.

Los problemas anteriores constituyen las principales razones por las cuales se hace necesario utilizar en la investigación un
muestreo bietápico.

9.2 DEFINICIÓN.

Una Muestra Bietápica (MBI) es una muestra probabilística en donde la selección de las unidades elementales de muestreo,
vale decir aquellas que verdaderamente serán medidas en la investigación son obtenidas en dos etapas. Primero se selecciona
una muestra probabilística de conglomerados o unidades de primera etapa (UPM) y de cada una de estas se selecciona por
métodos probabilísticos una muestra de unidades elementales o unidades de segunda etapa (USM).

571
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

9.3 PROCEDIMIENTO PARA SELECCIONAR UNA MUESTRA BIETAPICA ALEATORIA (MBI)

1. Especifique claramente los conglomerados,


2. Conforme o identifique un marco de muestreo que contenga los conglomerados que conforman la población,
3. Seleccione un MAS de conglomerados con base en el marco de muestreo,
4. Conforme o identifique para cada conglomerado seleccionado en el paso anterior, el marco de muestreo que contenga las
unidades elementales,
5. Seleccione un MAS de unidades elementales con base en los marcos de muestreo del punto anterior.

9.4 TEOREMA DE MADOW

En el MBI, se presentan dos conjuntos de unidades de muestreo, cuya selección generará dos tipos de variación a saber:

i) La variación debida al muestreo de unidades secundarias (submuestreo de unidades elementales).


ii) La debida al muestreo de unidades primarias (muestreo conglomerados).

Si para las variaciones ocasionadas por el submuestreo se utiliza el subíndice 2 y para las variaciones generadas por la
muestra de unidades primarias el subíndice 1, se tienen para la esperanza y varianza de un estimador las siguientes
igualdades:

Para la esperanza del estimador del parámetro poblacional .

E ( ˆ) E1 E 2 ( ˆ) E1 E 2 ( ˆ n)

Para la varianza del estimador del parámetro poblacional , cuando E ( ˆ) .

2
V ( ˆ) E ˆ E1 E 2 ( ˆ )2

El teorema de Madow, dice que la varianza de un estimador poblacional es igual a la esperanza de la varianza condicional
más la varianza de la esperanza condicional (Azorín et al., 1986) esto es:

V ( ˆ) E1 V2 ( ˆ) V1 E 2 ( ˆ)

Un poco rápidamente su demostración será:

La esperanza condicionada al conjunto fijo de n unidades primarias será:

E2 ( ˆ )2 E2 ˆ 2 2. ˆ. 2
E2 ˆ 2 2 . .E 2 ˆ 2
(1)

Pero:
2 2
V 2 ( ˆ) E2 ˆ 2 E2 ˆ , E2 ˆ 2 V 2 ( ˆ) E 2 ( ˆ) (2)

Reemplazando (2) en (1), se tiene:

2
E2 ( ˆ )2 V 2 ( ˆ) E 2 ( ˆ) 2 . .E 2 ˆ 2

572
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Y tomando esperanza sobre todas las muestras de tamaño n de unidades primarias:


2
E1 E 2 ( ˆ )2 E1 V 2 ( ˆ) E 2 ( ˆ) E1 2. .E 2 ˆ E1 2

2
E1 E 2 ( ˆ )2 E1 V2 ( ˆ) E1 E 2 ( ˆ) 2. .E1 E 2 ( ˆ) 2

2
E1 E 2 ( ˆ )2 E1 V2 ( ˆ) E1 E 2 ( ˆ) 2

2 2
E1 V2 ( ˆ) E1 E 2 ( ˆ) E1 E 2 ( ˆ)
V1 E 2 ( ˆ )

Pero:

2
E1 E 2 ( ˆ ) V ( ˆ)

Y finalmente:
V ( ˆ) E1 V2 ( ˆ) V1 E 2 ( ˆ)

Nota
El teorema de Madow (Sánchez, 1980) para tres etapas establece que:

V ( ˆ) E1 E2 V3 ( ˆ) E1 V2 E3 ( ˆ) V1 E2 E3 ( ˆ)

El cual se puede verificar de la siguiente manera:

La esperanza condicionada a un conjunto fijo de m unidades de segunda etapa será:

E3 ( ˆ )2 E3 2
2. .E3 ˆ 2
(1)
Pero:

2
V3 ( ˆ) E3 ˆ 2 E 3 ( ˆ) 2
E3 ˆ 2 V3 ( ˆ ) E 3 ( ˆ) (2)

Reemplazando (2) en (1):

2
E3 ( ˆ )2 V3 ( ˆ) E 3 ( ˆ) 2. .E3 ˆ 2

E3 ˆ 2

Tomando valor esperado sobre todos los conjuntos de m unidades segunda etapa:

573
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

2 2
E 2 E3 ˆ E 2 V3 ( ˆ) E2 E 3 ( ˆ) 2 . .E 2 E 3 ( ˆ ) 2
(3)

Por otro lado, se tiene la igualdad:

2 2 2 2
V2 E 3 ( ˆ) E2 E 3 ( ˆ) E 2 E 3 ( ˆ) E 2 E 3 ( ˆ) V 2 E 3 ( ˆ) E 2 E 3 ( ˆ)

Reemplazando en (3), resulta:

2 2
E 2 E3 ˆ E 2 V3 ( ˆ ) V2 E 3 ( ˆ) E 2 E 3 ( ˆ) 2 . .E 2 E 3 ( ˆ ) 2

Y sacando valor esperado sobre todos los conjuntos posibles de n unidades de primera etapa:

2
E1 E 2 E3 ˆ
2
E1 E 2 V3 ( ˆ) E1 V2 E 3 ( ˆ) E1 E 2 E 3 ( ˆ) 2. .E1 E 2 E 3 ( ˆ ) E1 2

Pero:

2
E1 E2 E3 ( )

Luego:

2
E1 E 2 E 3 ˆ
2 2
E1 E 2 V3 ( ˆ) E1 V2 E 3 ( ˆ) E1 E 2 E 3 ( ˆ) E1 E 2 E 3 ( ˆ)
V1 E2 E3 ( ˆ )

Y como:

2
E1 E2 E3 ˆ V ( ˆ)

Finalmente:

V ( ˆ) E1 E2 V3 ( ˆ) E1 V2 E3 ( ˆ) V1 E2 E3 ( ˆ)

9.5 VENTAJAS Y DESVENTAJAS DEL MBI

A continuación se presentan las ventajas y desventajas del método de muestreo por conglomerados en dos etapas o bietapico
(MBI).

574
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Ventajas del Muestreo Bietápico.

No es necesario utilizar todas las unidades elementales que conforman los conglomerados, ganado de esta forma tiempo
y reduciendo los costos de toma de información.

No se hace necesario un marco de unidades elementales para toda la población. El marco de unidades elementales
correspondiente a los conglomerados muestreados es más barato y fácil de conseguir así como de manejar.

Cuando existe cierto grado de homogeneidad al interior de los conglomerados, no es eficiente tomar todas las unidades
elementales que lo conforman.

Desventajas del Muestreo Bietápico

Las desventajas fundamentales para la obtención de estimadores son las siguientes:

Se obtiene muy poca precisión.


Los marcos de muestreo dentro de cada conglomerado pueden algunas veces originar complicaciones al aumentarse el
número de etapas de submuestreo.
Aparecen fuentes de variación que complican las estimaciones de la varianza, en el caso concreto el MBI hay dos fuentes
de variación.

La figura 9.2 representa las dos fuentes de variación que influyen en la precisión obtenida de las estimaciones en el MBI

Fuente de variación debida a la


unidad primaria (conglomerado)
Fuentes de variación en el MBI

Fuente de variación debida al


submuestreo dentro de la unidad
primaria seleccionada

Figura 9.2. Las fuentes de variación del MBI que influyen en la precisión del estimador.

9.6 MUESTREO BIETÁPICO EN UNIDADES CONGLOMERADAS DE IGUAL TAMAÑO.

A continuación se estudian los principales estimadores y sus propiedades en el muestreo bietápico tanto para variables como
para atributos, cuando el tamaño de las unidades conglomeradas es constante.

9.6.1 El estimador de la media por unidad elemental y estimador del total usando MBI, para la variable Y.

Se selecciona una muestra de n unidades conglomeradas de N que hay en la población y dentro de cada una de ellas se
toman m unidades elementales (cada conglomerado tiene M unidades elementales), el estimador para la media por unidad
elemental y para el total al considerar la variable Y, vienen dados respectivamente por las siguientes expresiones:

PARÁMETRO ESTIMADOR
(9.1)
Y NM .Y
n m
yij ˆ
I 1 J 1 YˆMB N .M .YMB

575
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Para la media por unidad elemental se tienen el siguiente estimador:

PARÁMETRO ESTIMADOR

(9.2)
1 N M
ˆ 1 n m
1 n m yij 1 n ˆ
Y yij YMB yij . Yi
N .M i 1 j 1
n.m n m n i1
i 1 j 1 i 1 j 1

9.6.2 Propiedades relacionadas con el estimador de la media por unidad elemental y del estimador del total usando
MBI, para la variable Y .

Las siguientes son las propiedades básicas de los estimadores anteriormente definidos.

Propiedad 9.1: Insesgamiento del estimador de la media por unidad en MBI de unidades conglomeradas de igual
tamaño

El estimador de la media por unidad elemental en el MBI de igual tamaño, es un estimador insesgado.

ˆ ˆ 1 n ˆ 1 n
1 n
E (YMB ) E1 E2 (YMB ) E1 E2 . Yi .E1 E2 Yˆi .E1 Yi (1)
n i1 n i 1 n i 1

Dependiendo de si la unidad U i pertenece o no a la muestra MSi , se define en el MAS la variable auxiliar ai , de la


siguiente forma:

E (ai ) n
1 si U i MS i N
ai
0 si U i MSi V (ai ) n .n 1
N N 1
Usando la anterior variable, se puede escribir la expresión (1) de la siguiente forma:

ˆ 1 n
1 N
1 N 1 N n N
Yi
E (YMB ) .E1 Yi E1 . Yi (ai ) . Yi .E (ai ) . Yi . Y
n i 1 n i 1 n i1 n i1 N i 1 N

Nota
En forma análoga:

ˆ ˆ
E YˆMB E ( NM .YMB ) ( N .M ) E (YMB ) N .M .Y Y.

Propiedad 9.2: Varianza del estimador de la media por unidad elemental en el MBI de unidades conglomeradas de
igual tamaño

ˆ
En el MBI de tamaños iguales, la varianza del estimador YMB viene dada por la expresión:

576
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

ˆ (1 f2 ) 2 (1 f 1 ) 2
V (YMB ) .S WCI .S BCI (9.3)
n.m n.M
Utilizando el teorema de Madow, se tiene para los componentes de la varianza:

ˆ 1 n ˆ 1 n ˆ 1 n
E1 .V2 (YMB ) E1V2 . Yi E1 V2 . Yi E1 . V2 (Yˆi )
n i1 n i1 n2 i 1

Pero:

2
(1 f 2 ) M ( yij Yi ) m
V2 (Yˆi ) . , f2
m j 1 M 1 M

Luego:

2
ˆ 1 n
1 n
(1 f 2 ) M ( y ij Yi )
E1 .V2 (YMB ) E1 . 2 V2 (Yˆi ) .E1 .
n i 1 n2 i 1 m j 1 M 1

Utilizando la variable auxiliar ai :

2
ˆ 1 n
(1 f 2 ) M ( y ij Yi ) 1 (1 f 2 ) N M ( y ij Yi ) 2
E1 .V2 (YMB ) .E1 . . .E1 .ai
n2 i 1 m j 1 M 1 n2 m i 1 j 1 M 1

De donde:

ˆ 1 (1 f 2 ) N M ( y ij Yi ) 2 (1 f 2 ) N M ( y ij Yi ) 2
E1 .V2 (YMB ) . E1 .a i .E ( a i )
n2 m i 1 j 1 M 1 n 2 .m i 1 j 1 M 1

ˆ (1 f 2 ) N M ( y ij Yi ) 2 n (1 f2 ) N M ( y ij Yi ) 2
E1 .V2 (YMB ) .
n 2 .m i 1 j 1 M 1 N n.m i 1 j 1 N. M 1

ˆ (1 f2 ) N M ( y ij Yi ) 2 (1 f2 ) 2
E1 .V2 (YMB ) .SWCI (2)
n.m i 1 j 1 N. M 1 n.m

Ahora para el otro componente de la varianza:

ˆ 1 n ˆ 1 n 1 n ˆ
V1 E 2 YMB V1 E 2 . Yi V1 . E 2 (Yˆi ) V1 . Yi V1 YCI
n i1 n i1 n i1

577
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Donde:

ˆ 1 n 1 n Yi 1 n
YCI . Yi . Yi
n.M i 1 n i1M n i 1

Es el estimador de la media por unidad en conglomerados de igual tamaño, luego:

ˆ ˆ (1 f1 ) N
(Yi Y ) 2 (1 f1 ) N
M .(Yi Y ) 2
V1 E 2 YMB V1 YCI .
n i 1 N 1 n.M i 1 N 1
(3)
(1 f ) N M
(Yi Y ) 2 (1 f 1 ) 2 n
.S BCI , f1
n.M i 1 j 1 N 1 n.M N

Y finalmente:

ˆ ˆ ˆ (1 f2 ) 2 (1 f 1 ) 2
V (YMB ) E1 V2 (YMB ) V1 E 2 (YMB ) .S WCI .S BCI
n.m n.M

Haciendo:

2
N M ( yij Yi ) 2 N
(Yi Y ) 2
SWCI S 22 Y S BCI
2
M. M .S12
i 1 j 1 N .(M 1) i 1 N 1

Se tiene que:

ˆ (1 f2 ) 2 (1 f 1 ) 2 (1 f1 ) (1 f2 ) 2
V (YMB ) .S WCI .S BCI .S12 .S 2
n.m n.M n n.m
Ejemplo 9.1
La siguiente tabla muestra una población dividida en cuatro N 4 conglomerados de igual tamaño M 4.

UNIDADES CONGLOMERADAS
A B C D
a 3,8 2,6 5,7 4,6
b 4 6 5,3 5,5
c 5,2 4,7 4,8 6
d 4,3 5,2 3,7 3,9

De la tabla anterior se obtiene la siguiente varianza para el estimador de la media por unidad elemental en un MBI en el cual
se toma una muestra de n 3 conglomerados y dentro de cada conglomerados muestreado una muestra de m 3 unidades
elementales:

ˆ
a) Encuentre Y y V (YBI ) ,

578
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

b) ¿Cuántas muestras resultan?,


c) Genere todas las posibles muestras y represente mediante un histograma de frecuencias la distribución probabilística de
ˆ
YMBI . Use MINITAB,
ˆ ˆ
d) Encuentre E (YMBI ) y muestre el insesgamiento de YMBI ,
ˆ
e) Encuentre mediante un gráfico (dotplot) usando MINITB la distribución de el estimador de Vˆ (YMBI ) ,
ˆ ˆ
f) Encuentre E (Vˆ (YMBI )) y muestre el insesgamiento de Vˆ (YMBI ) .

Solución//

a) Estimadores:

N M
yij
i 1 j 1 75,3
Y 4,70625
N .M (4)(4)
ˆ (1 f 2 ) 2 (1 f1 ) 2 (1 3 4) (1 3 4)
V (YMB ) .SWCI .S BCI (1,02854167) (0,355625) 0,03597946
n.m n.M (3)(3) (3)(4)

b) Se tiene:
N 4
Para la selección de los conglomerados: 4.
n 3
M 4
Para la selección de unidades elementales dentro de cada conglomerado: 4.
m 3
Por el principio de la multiplicación se tiene en total: 4.(4)3 44 256 muestras.

c) La siguiente figura muestra el comportamiento del estimador de la media por unidad elemental y las estadísticas básicas
para la población de las 256 estimaciones.

579
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

256
ˆ
(YMBI ) i
ˆ i
d) E (YMBI ) 4,70625 Y
256
ˆ
e) Distribución de Vˆ (YMBI ) .

Dotplot of V(MUE)

0,008 0,016 0,024 0,032 0,040 0,048 0,056 0,064


VARIABLE: MEDIA POR UNIDAD ELEMENTAL=V(MUE)

f) Insesgamiento:

256
ˆ
(v(YMBI 9) i
ˆ i
E (v(YMBI )) 0,03597946 V (Y )
256

Propiedad 9.3: Estimador insesgado para la varianza del estimador de la media por unidad elemental en el MBI de
unidades conglomeradas de igual tamaño

Un estimador insesgado de la varianza dada en la propiedad anterior para el estimador de Y , viene dado por:

ˆ f 1 .(1 f 2 ) ˆ 2 (1 f 1 ) ˆ 2
Vˆ (YMB ) .S WCI .S BCI (9.4)
n.m n..m
Donde:

ˆ
n m ( y ij Yˆi ) 2 n m
(Yˆi Y ) 2 n m
SˆWCI
2
; Sˆ BCI
2
; f1 ; f2
i 1 j 1 n.(m 1) i 1 j 1 n 1 N M

Explicación del insesgamiento.

Un estimador insesgado de

580
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

2
N M ( y ij Y )2
S y ,
i 1 j 1 NM 1

Es:
ˆ
n m ( y ij Y )2
Sˆ 2
y ,
i 1 j 1 nm 1
De donde se tiene:

n m n m 2
ˆ ˆ
(n.m 1).Sˆ y2 ( y ij Y )2 y ij Yˆi Yˆi Y
i 1 j 1 i 1 j 1

n m n m 2 n m
2 ˆ ˆ
yij Yˆi Yˆi Y y ij Yˆi . Yˆi Y
i 1 j 1 i 1 j 1 i 1 j 1
0

La descomposición de la variación muestral será:

(n.m 1).Sˆ y2 n.(m 1).SˆWCI


2
(n 1).Sˆ BCI
2
, con (n.m 1) n.(m 1) (n 1)

Utilizando el teorema de Madow:

n m ( y ij Yˆi ) 2 1 n m
E SˆWCI
2
E1 .E 2 E1 E2 ( y ij Yˆi ) 2
i 1 j 1 n(m 1) n.(m 1) i 1 j 1

( m 1).Sˆi2

n n
1 1
E1 E 2 (m 1).Sˆ i2 E1 (m 1).E 2 ( Sˆ i2 )
n.(m 1) i 1 n.(m 1) j 1
S i2

1 n M ( y ij Yi ) 2 1 N M ( y ij Yi ) 2
E SˆWCI
2
E1 (m 1). E1 .(ai )
n.(m 1) i 1 j 1 M 1 n i 1 j 1 M 1

1 N M ( y ij Yi ) 2 1 N M ( y ij Yi ) 2
n N M ( yij Yi ) 2 2
.E1 (ai ) . SWCI
n i 1 j 1 M 1 n i 1 j 1 M 1 N i 1 j 1 N .( M 1)

Ahora:

581
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

ˆ
n m
(Yˆi Y ) 2 m n
ˆ
E ( SˆBCI
2
) E E1 E2 . (Yˆi Y ) 2
i 1 j 1 n 1 n 1 i1
ˆ
n m
(Yˆi Y ) 2 m n
ˆ
E ( Sˆ BCI
2
) E E1 E 2 . (Yˆi Y )2
i 1 j 1 n 1 n 1 i 1
(1)
n n
m ˆ m ˆ
.E1 E 2 Yˆi 2 n.Y 2 .E1 E 2 Yˆi 2 n.E 2 Y 2
n 1 i 1 n 1 i 1

n
m ˆ
E ( Sˆ BCI E 2 Yˆi
2 2
) E1 nE 2 Y 2
n 1 i 1

Pero:

2 2
V2 (Yˆi ) E2 (Yˆi 2 ) E2 (Yˆi ) E2 (Yˆi ) V2 (Yˆi ) E 2 (Yˆi )

2 2
ˆ ˆ ˆ ˆ ˆ ˆ
V2 (Y ) E 2 (Y 2 ) E 2 (Y ) E 2 (Y ) V2 (Y ) E 2 (Y )

Reemplazando estas dos últimas igualdades en la expresión (1):

n n 2
m ˆ m 2 ˆ ˆ
E ( SˆBCI E2 Yˆi V2 (Yˆi ) E2 (Yˆi )
2 2
) E1 nE2 Y 2 .E1 n. V2 (Y ) E2 (Y )
n 1 i 1 n 1 i 1

Pero:

n m n
yij Yˆi
ˆ i 1 j 1 i 1
Y
n.m n

Luego:

n 2
m 2 ˆ ˆ
E ( SˆBCI
2
) .E1 V2 (Yˆi ) E2 (Yˆi ) n. V2 (Y ) E2 (Y )
n 1 i 1

582
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

2
n n

n n
Yˆi Yˆi
m 2
E ( SˆBCI
2
) E1 V2 (Yˆi ) E2 (Yˆi ) n.V2 i 1
n E2 i 1
n 1 i 1 i 1 n n
Yi

n 2

n n n
E2 (Yˆi )
m n
E ( Sˆ BCI
2
) E1 V2 (Yˆi ) Yi 2 V2 (Yˆi ) n. i 1
n 1 i 1 i 1 n2 i 1 n

n 2

n n n
E 2 (Yˆi )
m n
E ( Sˆ BCI
2
) E1 V2 (Yˆi ) Yi 2 V2 (Yˆi ) n. i 1

n 1 i 1 i 1 n2 i 1 n

m 1 n n
ˆ
E1 1 . V2 (Yˆi ) Yi 2 n.Y 2
n 1 n i1 i 1

2
m 1 n n
ˆ
E ( Sˆ BCI
2
) .E1 1 . V2 (Yˆi ) Yi Y
n 1 n i1 i 1
(2)
n n
m 1 m ˆ
.1 .E1 V2 (Yˆi ) .E1 (Yi Y )2
n 1 n i 1 n 1 i 1

Ahora:

n N N N
n
E1 V2 (Yˆi ) E1 V2 (Yˆi ).(ai ) V2 (Yˆi ).E1 (ai ) V2 (Yˆi ).
i 1 i 1 i 1 i 1 N

Aplicando la varianza del estimador de la media al interior de la i-ésima unidad conglomerada con muestras de tamaño m,
resulta:

2
n
n N n N m M ( y ij Yi ) 1
E1 V2 (Yˆi ) . V2 (Yˆi ) . 1 . .
i 1 N i1 N i1 M j1 M 1 m
(3)
n N M ( y ij Yi ) 2 n 2
(1 f 2 ). . (1 f 2 ). .SWCI
m i 1 j 1 N .( M 1) m

583
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Por otro lado, aplicado el valor esperado de la cuasivarianza muestral de medias de unidades conglomeradas:

n
ˆ N
(Yi Y ) 2
E1 (Yi Y )2 E1 (n 1).SˆY2 (n 1).S Y2 (n 1).
i 1 i 1 N 1

Pero en el MCON de tamaño igual se tiene:

2 (Yi Y ) 2
N N
(Yi Y ) 2 2
S BCI
S BCI M.
i 1 N 1 i 1 N 1 M

Luego:

n
ˆ N
(Yi Y ) 2 2
S BCI
E1 (Yi Y )2 (n 1). (n 1). (4)
i 1 i 1 N 1 M

Reemplazando las expresiones (3) y (4) en la (2):

n n
m 1 m ˆ
E ( SˆBCI
2
) .1 .E1 V2 (Yˆi ) .E1 (Yi Y ) 2
n 1 n i 1 n 1 i 1

m 1 n 2 m 1 2
E ( SˆBCI
2
) .1 .(1 f 2 ). .SWCI .(n 1). .S BCI
n 1 n m n 1 M
2 m 2
(1 f 2 ).SWCI .S BCI
M
En conclusión, se tiene:

E ( SˆWCI
2
) 2
SWCI

m 2
E ( Sˆ BCI
2
) (1 2
f 2 ).SWCI .S BCI
M
De tal manera que:

ˆ f1 .(1 f 2 ) ˆ 2 (1 f1 ) ˆ 2 f1 .(1 f 2 ) (1 f1 )
E. Vˆ (YMB ) E .SWCI .S BCI .E SˆWCI
2
.E Sˆ BCI
2

n.m n..m n.m n.m

584
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

ˆ f1.(1 f 2 ) 2 (1 f1 ) m 2
E. Vˆ (YMB ) .SWCI 2
(1 f 2 ).SWCI .S BCI
n.m n.m M
ˆ f1.(1 f 2 ) 2 (1 f1 ).(1 f 2 ) 2 (1 f1 ) m 2
E. Vˆ (YMB ) .SWCI .SWCI . .S BCI
n.m n.m n.m M
f1.(1 f 2 ) 2 (1 f 2 ) 2 f1.(1 f 2 ) 2 (1 f1 ) m 2
.SWCI SWCI .SWCI . .S BCI
n.m n.m n.m n.m M
(1 f 2 ) 2 (1 f1 ) 2 ˆ
SWCI .S BCI V (YMB )
n.m n.M

Nota
ˆ
El estimador de Vˆ (YMB ) , puede expresarse como:

ˆ
ˆ f 1 .(1 f 2 ) ˆ 2 (1 f1 ) ˆ 2 n m ( y ij Yˆi ) 2 n
(Yˆi Y ) 2
Vˆ (YMB ) .S 2 .S1 ; Sˆ 22 , Sˆ12
n.m n. i 1 j 1 n.(m 1) i 1 n 1

En forma análoga para el total se tiene que un estimador insesgado es:

ˆ
Vˆ (YˆMB ) ( NM ) 2 Vˆ (YMB ) (9.5)

Ejemplo 9.2
En una bodega de la fabrica ABC de prefabricados de hormigón se tienen 8 bloques de 10 cilindros de hormigón cada uno.
Tomando una muestra de 4 bloques y dentro de cada bloque una muestra de 5 cilindros estimar la resistencia a la compresión
por cilindro (kgf/cm2). La siguiente tabla muestra las mediciones correspondientes.

BLO-1 BLO-2 BLO-3 BLO-4


229,7 232,7 261 254
254,5 252,9 297 255,8
236,9 260,3 266,8 258,2
212,8 285,3 260,4 235,8
253,8 270,9 265,8 276,3

Estime la resistencia a la compresión por cilindro para la población de cilindros presentes en la bodega y su varianza
estimada.

Solución//

De la tabla se obtiene la siguiente información:

585
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

BLO-1 BLO-2 BLO-3 BLO-4


Yˆi   237,54 260,42 270,2 256,02 SˆY2ˆ 187,313433
Sˆi2   306,493 388,452 232,46 207,252

n n
ˆ 1 1 1
YMBI yij Yˆi (1024 ,18) 256,045 Kgf / cm 2
n.m i 1 n i 1 4

Para la estimación de la varianza se tiene:

n m ( yij Yˆi ) 2 1 n
1
SˆWCI
2
Sˆi2 (1134,657) 283,66425
i 1 j 1 n(m 1) n i 1 4

ˆ
n m
(Yˆi Y ) 2
Sˆ BCI
2
m.SˆY2ˆ 5(187,313433) 936,567165
i 1 j 1 n 1

Y por lo tanto:

4
.(1 5 10)
ˆ f1 (1 f 2 ) ˆ 2 (1 f1 ) ˆ 2 8 (1 4 8)
Vˆ (YMBI ) SWCI S BCI ( 283,66425) (936,567165)
n.m n.m ( 4)(5) ( 4)(5)

ˆ f1 (1 f 2 ) ˆ 2 (1 f1 ) ˆ 2
Vˆ (YMBI ) SWCI S BCI 3,54580313 23,4141791 26,9599823
n.m n.m

9.7 TAMAÑO DE MUESTRA EN EL MUESTREO BIETAPICO DE CONGLOMERADOS DE IGUAL


TAMAÑO PARA VARIABLES

En la estimación del número de conglomerados n y el número de unidades elementales m , necesarios para la estimación de
ˆ
la media por unidad elemental Y de tal manera que se minimice la varianza V (YBI ) para satisfacer unos costos de trabajo
de campo iguales a C se tendrá en cuenta lo siguiente:

Para la varianza:

ˆ (1 f 1 ) 2 (1 f2 ) 2 (1 f1 ) (1 f2 ) 2
V (YBI ) .S BCI S WCI .S12 .S 2 (1)
n.M n.m n n.m
Donde:

586
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

1 2
S12 .S BCI Y S 22 2
S WCI
M

La ecuación (1) puede expresarse como:

ˆ n S12 m 1 2 S 22 1 2 1 2
V (YBI ) 1 . 1 .S 22 . S1 S2 .S 2
N n M n M n.m N

Para la función de costos:

C C1 .n C 2 n.m (2) (9.6)

En donde:

C : Costo total del trabajo de campo.


C1 : Costo de tomar una unidad conglomerada (unidad primaria de muestreo).
C2 : Costo de medir o encuestar una unidad elemental (unidad secundaria de muestreo).

Con las ecuaciones (1) y (2) se construye la siguiente función de Lagrange:

ˆ
(n, m, ) V (Y ) . C1n C 2 nm C

Y derivando parcialmente la función con respecto a n e igualando a cero, se tiene:

1 S 22 1 S 22
2
. S12 . C1. C2 . .m 0
n n M n2 m

De la cual se obtiene:

2 S 22 S 22
S 1
M m
(3)
n 2 .(C1 C 2 .m)

Análogamente:

1 S 22 S 22
. .C2 .n 0 (4)
m m2 n n 2 .m 2 .C2

Igualando (3) y (4), se tiene:

587
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

2 S 22 S 22
S 1
M m S 22 S 22
2
S12 .m 2 .C 2 C1 .S 22 (5)
n .(C1 C 2 .m) n 2 .m 2 .C 2 M

Finalmente de la ecuación (5), despejando m resulta:

S2 C1
m .
S 2 C 2 (6) (9.7)
S12 2

En la práctica para hallar el m óptimo, S12 y S 22 deben obtenerse en forma adelantada mediante una muestra piloto, esto
es:

n* m* n* m* n*
1 ( yi y ) 2 ( yi y ) 2 1 1
Sˆ1
2
, yi y ij y y yi
m* i 1 j 1 n* 1 i 1 n* 1 m* j 1 n* i 1

n* m*
1
Sˆ 22 ( y ij yi ) 2
n .( m * 1)
*
i 1 j 1

m * : Es el número de unidades elementales piloto que se tomaran en cada unidad conglomerada.


n * : Número de unidades conglomeradas piloto tomadas.
El m óptimo hallado debe redondearse al entero más próximo teniendo presente las siguientes notas:
Notas:

Cuando m M,o S12 < S 22 M , se hace m M y se realiza un muestreo de una etapa.


Si m es pequeño y E es el entero para el cual: E < m < ( E 1) entonces: si m
2
E.( E 1) se redondea m
hacia arriba, en caso contrario se redondea hacia abajo.

ˆ
El valor de m hallado, minimiza V (Y ) o C , dependiendo de cual se halla pre-asignado, de esta forma:

Si se ha pre asignado C , entonces se despeja n de la ecuación de costos y:

C
n (7) (9.8)
(C1 C 2 .m )

ˆ
Si se ha pre asignado V (Y ) V0 mediante un error y un nivel de confianza, entonces se despeja n de la expresión (1), esto
es:

588
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

ˆ (1 f1 ) (1 f2 ) 2
V (YBI ) .S12 .S 2 V0
n n.m
Obteniendo:
(1 f2 ) 2
S12 .S 2
n m (8) (9.9)
S12
V0
N

Donde S12 y S 22 son obtenidas en forma adelantada mediante una muestra piloto, como ya se dijo antes.

Nota

Para el caso de la estimación de P se realizan los siguientes reemplazos en las expresiones (6) y (8).
N
( Pi P ) 2 1 N
S12 Y S 22 Pi .Qi
i 1 N 1 N .( M 1) i 1

La expresión (9.7) sugiere que se tome como estimador de m:

Sˆ 2
mˆ . C1 (9.10)
C2
Sˆ 2
Sˆ12 2
*
m

El estimador dado por (9.10) está sujeto al error de muestreo que depende del cociente Sˆ1 Sˆ 2 (Cochran, 1980). Debe
2 2

tenerse en cuenta en todo caso que al aumentar el tamaño de muestra de la primera etapa ( n ), se reduce la variabilidad de las
dos etapas del muestreo, mientras que al aumentar solo el tamaño de muestra de la segunda etapa ( m ) solo se reduce la
variabilidad debida a la segunda etapa. En general es más costoso incluir nuevas unidades primarias (conglomeradas) que
aumentar la fracción de muestreo dentro de ellas (Azorín et al., 1986).

Ejemplo 9.5
De una población de 100 unidades conglomeradas cada una de 50 unidades elementales se toma una muestra piloto de 10
unidades conglomeradas y dentro de cada una de ellas se tomó una muestra aleatoria de 10 unidades elementales obteniendo
los siguientes indicadores para la variable Y . Suponga costos iguales.

Cong-1 Cong-2 Cong-3 Cong-4 Cong-5


Yˆi 17,94053 23,01459 19,57583 19,53085 18,08196

Sˆ 2
Y
22,5541595 19,9981698 24,591064 16,7048114 13,0420181
Cong-6 Cong-7 Cong-8 Cong-9 Cong-10
Yˆi 22,07187 19,64156 20,86534 14,16126 21,56146

Sˆ 2
Y
19,2569763 24,6808738 38,4959561 37,8250395 27,9021703

589
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

a) Encuentre el estimador del número de unidades elementales que deben tomarse por conglomerado,

b) De acuerdo con el resultado obtenido en a) y estableciendo un nivel de confianza del 95% y un error de 10% de la media
por unidad elemental encontrada en el estudio piloto para la estimación de Y , determine el número de conglomerados
( n ) que deben tomarse.

Solución//

a) De la información de la tabla se obtiene:

ˆ ˆ
1 n* m*
(Yˆi Y ) 2 n*
(Yˆi Y ) 2
Sˆ12 6,42704712
m* i 1 j 1 n* 1 i 1 n* 1
Y
n* m*
1
Sˆ22 ( yij Yˆi ) 2 24,5051239
n ( m* 1)
*
i 1 j 1

Por lo tanto para costos iguales:


 
Sˆ2
mˆ 12,2886595; 12 < mˆ < 13
Sˆ22
Sˆ12
m*

De acuerdo con la nota redondeando hacia abajo entonces: mˆ 12


b) Para hallar el valor de n se tiene:

N M m̂ Ŝ12 Ŝ 22 Z
100 50 12 6,42704712 24,5051239  1,96 1,9644525 

2
V0 Z 1,00454853 Y por lo tanto:

(1 f2 ) ˆ 2 (1 12 50)
Sˆ12 S2 6,42704712 .( 24,5051239)
n mˆ 12 7,46 8
Sˆ12 (1,00454853)
6,42704712
V0
N 100

Ejemplo 9.6
En el ejercicio anterior asumiendo los costos C1 $10000 y C2 $4000 y C $900000 . Determine para la
estimación de Y los tamaño respectivos de m y n .

590
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Solución//

Sˆ2 C1 10000
mˆ . (12,2886595) 19,43 19
C2
Sˆ2 4000
Sˆ12 2
*
m

Para el tamaño de n se tiene:

C 900000
n 11
(C1 C 2 .m ) 10000 ( 4000 )(19 )

Ejemplo 9.7
Para la condiciones del ejemplo 9.5 la siguiente tabla muestra el comportamiento del tamaño de muestra n para diferentes
escenarios del error de muestreo al estimar Y y diferentes valores de m , manteniendo constantes las demás variables que
influyen en el.

m 12 m 20 m 25 m 30 m 40 m 50
ˆ 7,46528487 7,15958766 6,9685269 6,77746615 6,39534464 6,01322313
0,1Y *  
ˆ 11,2828715 10,8208473 10,5320821 10,243317 9,66578675 9,08825649
0,08Y *  
ˆ 18,7341853 17,967036 17,4875677 17,0080994 16,0491627 15,0902261
0,06Y *  
ˆ 35,4626705 34,0105037 33,1028994 32,1952951 30,3800865 28,5648779
0,04Y *  
ˆ 76,38922 73,2611449 71,306098 69,3510511 65,4409573 61,5308635
0,02Y *  

Para un mismo valor de m el tamaño de muestra n aumenta a medida que el error de muestreo se hace más pequeño.
Para un mismo error de muestreo el tamaño de muestra n disminuye a medida que aumenta m .

9.8 MUESTREO BIETAPICO PARA ATRIBUTOS EN CONGLOMERADOS DE IGUAL TAMAÑO.

Como ya se ha visto si la variable analizada Y , toma los valores 1 y 0, dependiendo de si la unidad poblacional pertenece o
no a la clase C estudiada, se tienen los siguientes estimadores para la proporción y el total de unidades que pertenecen a la
clase C .

9.8.1 Estimadores para la proporción y el total de unidades que pertenecen a la clase C cuando se usa un MBI en
unidades conglomeradas de igual tamaño

Si se considera que la variable Y , toma los valores 1 y 0 dependiendo de si la unidad poblacional o muestral pertenece o no
respectivamente a la clase C , entonces se tiene para la proporción poblacional que:

591
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

N M y ij N
Ai A 1 N M y ij Ai
YMB Pi PMB P , Y Yi Pi
i 1 j 1 N .M i 1 N .M N .M N i 1 j 1 M M

Aquí Ai , será el total de unidades que pertenecen a la clase C en el conglomerado i-ésimo.

Siguiendo cuidadosamente el reemplazo que se ha establecido se tiene para los estimadores de la proporción y del total
respectivamente los siguientes estimadores:

PARÁMETRO ESTIMAPOR

n n
(9.11)
1 N
1 N 1 1
P Ai Pi PˆMB ai Pˆi
N .M N n.m i 1 n i 1
i 1 i 1

PARÁMETRO ESTIMAPOR
(9.12)

Aˆ MB N .M .PˆMB
N
A N .M .P i 1
Ai

9.8.2 Propiedades del estimador de la proporción y del total en el MBI de igual tamaño.

Las principales propiedades de los estimadores anteriormente definidos son:

Propiedad 9.4: Insesgamiento del estimador de la proporción de unidades elementales en el MBI de conglomerados de
igual tamaño

n n n n
1 1 ˆ 1 1 1
E ( PˆMB ) E ai E Pi E1 E2 ai E1 E2 ( Pˆi ) E1 Pi
nm i 1 n nm i 1 n i 1 n i 1

N
Pero en MAS de unidades conglomeradas el total de muestras de tamaño n es k
n

1 n k
1 n
1 1 k n
1 1 N 1
E1 Pi Pi Ai A
n i 1 j 1 n i 1 j
N Mn j 1 i 1 j
N Mn n 1
n n

592
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

n
1 A ( N 1)! 1 A 1 A
E1 Pi . .n P
n i 1 Mn (n 1)!.(M n)! N! Mn N NM
n!( N n)!

Propiedad 9.5: Varianza para el estimador de la proporción en el MBI de conglomerados de igual tamaño

La varianza del estimador de la proporción poblacional viene dado por:

(1 f1 ) N
(1 f 2 ).M N 1 N
V ( Pˆ ) ( Pi P )2 Pi .Qi , P Pi (9.13)
n.( N 1) i 1 n.m.N .( M 1) i 1 N i 1

Realizando los debidos reemplazos en la expresión de varianza dada en la propiedad 9.2 en el MBI para variables, se tiene:

2
N M
(Yi Y ) 2 M N
S BCI ( Pi P )2
i 1 j 1 N 1 N 1i1
2
N M ( yij Yi ) 2 M N
S WCI Pi .Qi
i 1 j 1 N .(M 1) N .(M 1) i 1

Luego:
N
M. ( Pi P )2
(1 f2 ) M N
(1 f1 )
V ( Pˆ ) Pi .Qi i 1

n.m N .( M 1) i 1 n.M N 1

(1 f 1 ) N
(1 f 2 ).M N
V ( Pˆ ) ( Pi P )2 Pi .Qi
n..( N 1) i 1 n.m.N .( M 1) i 1

Propiedad 9.6: Estimador insesgado para la varianza del estimador de la proporción en el MBI de conglomerados de
igual tamaño

Análogamente el estimador insesgado de la varianza dada en la propiedad anterior será:

f1 .(1 f 2 ) n ˆ ˆ (1 f1 ) n
Vˆ ( Pˆ ) . Pi .Qi ( Pˆi Pˆ ) 2 (9.14)
n 2 .( m 1) i 1 n.( n 1) i 1

La expresión anterior fue hallada reemplazando en el estimador de la varianza para el estimador de la media en el MBI para
variables, las siguientes expresiones:

593
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

n m
(Yi Y ) 2 m n
Sˆ BCI
2
( Pˆi Pˆ ) 2
i 1 j 1 n 1 n 1i 1

n m ( y ij Yi ) 2 1 n m
1 n m
SˆWCI
2
( y ij Yˆi ) 2 y ij2 m.Yˆi 2
i 1 j 1 n.(m 1) n.(m 1) i 1 j 1 n.(m 1) i 1 j 1

n n n
1 1 m
SˆWCI
2
ai m.Pˆi 2 m.Pˆi mPˆi 2 Pˆi .Qˆ i
n.( m 1) i 1 n.( m 1) i 1 n.( m 1) i 1

Ejemplo 9.3
La siguiente tabla muestra la distribución de 16 unidades elementales respecto a la presencia (1) o ausencia (0) de
determinado atributo. Las unidades se encuentran distribuidas en ( N 4 ) conglomerados de igual tamaño ( M 4 ).

UNIDADES CONGLOMERADAS
A B C D
a 1 0 1 0
b 1 1 1 0
c 0 0 1 0
d 0 1 0 1
Total 2 2 3 1

a) Encuentre para la población la proporción de unidades poblacionales que poseen el atributo analizado.
b) Si se toma una muestra aleatoria sin reemplazo de n 3 unidades conglomeradas y dentro de cada una de estas una
muestra aleatoria sin reemplazo de m 3 unidades elementales, encuentre el valor de V ( PˆMBI ) .
c) Generando todas las posibles muestras de tamaño n 3 unidades conglomeradas y dentro de cada una de ellas una
muestra de m 3 unidades elementales, represente mediante un diagrama de cajas la distribución de P̂MBI . Encuentre el
valor esperado del estimador P̂MBI y muestre su insesgamiento.
d) Represente mediante un diagrama de puntos la distribución de Vˆ ( PˆMBI ) . Encuentre E (Vˆ ( PˆMBI )) y muestre el
insesgamiento de Vˆ ( PˆMBI ) .

Solución//

a) De la tabla se tiene:

N
1 (2 2 3 1)
P Ai 0,5
NM i 1 (4)(4)

b) De la tabla:

594
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

A B C D
Pi 0,5 0,5 0,75 0,25 P 0,5
Qi 0,5 0,5 0,25 0,75
N
Pi Qi 0,25 0,25 0,1875 0,1875
i 1

N
( Pi P) 2 N
i 1
0,04166667 ; P1Qi 0,875
N 1 i 1

(1 f1 ) N ( Pi P) 2 (1 f 2 ).M N
(1 3 4) (1 3 4)(4).
V ( PˆMBI ) Pi Qi (0,04166667) (0,875)
n i1 N 1 n.m.N .( M 1) i 1 3 (3)(3)(4)(3)
0,01157407

c) Resultan 256 muestras.

Diagrama de cajas

0,2 0,3 0,4 0,5 0,6 0,7 0,8


Proporción poblacional estimada

3
N M 1 k
k . 256; E ( PˆMBI ) ( PˆMBI ) i 0,5
n m k i 1

d) La distribución de Vˆ ( PˆMBI ) mediante el diagrama de puntos es:

595
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Dotplot

0,0075 0,0100 0,0125 0,0150 0,0175 0,0200 0,0225


Estimación de la varianza de la proporción estimada

Each symbol represents up to 4 observations.

k
1
k 256; E (Vˆ ( PˆMBI )) (V ( PˆMBI )) i 0,01157407
k i 1

Ejemplo 9.4
Un inspector de calidad ha realizado una inspección de 250 cajas de bombillos de 24 unidades cada una mediante una
muestra de 8 bombillos en 10 cajas seleccionadas aleatoriamente contabilizando en cada caja muestreada para los bombillos
seleccionados el número de ellos que presentan algún defecto en el casquillo (parte roscada) encontrando:

Cajas muestreadas
Caja- Caja- Caja- Caja- Caja- Caja- Caja- Caja- Caja- Caja- Total
01 02 03 04 05 06 07 08 09 010
xi 1 2 1 0 2 1 0 0 1 3 11

xi : Número de bombillos de la muestra con defectos en la parte roscada para la caja i analizada
a) Estime la proporción de bombillos con defecto en la rosca.
b) Estime la varianza para la estimación de bombillos defectuosos en la rosca.

Solución//

a) Para el estimador de la proporción:


n
1 11
Pˆ ai 0,1375
n.m i 1 (10)(8)

b) Para el estimador de la varianza obtenemos de la tabla de datos los siguientes indicadores:

Caja1 Caja 2 caja3 Caja 4 Caja 5 Caja 6 Caja7 Caja 8 Caja 9 Caja 10
P̂i 0,125 0,25 0,125 0 0,25 0,125 0 0 0,125 0,375

Q̂i 0,875 0,75 0,875 1 0,75 0,875 1 1 0,875 0,625

Pˆ Qˆ
i i
0,109375 0,1875 0,109375 0 0,1875 0,109375 0 0 0,109375 0,234375

De esta tabla se tiene:

596
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

n
( Pˆi Pˆ ) 2 n
i 1
0,015451 Y Pˆi Qˆ i 1,046875 .
n 1 i 1

Finalmente:

f1 .(1 f 2 ) n ˆ ˆ (1 f1 ) n ˆ ˆ 2
Vˆ ( Pˆ ) . Pi .Qi ( Pi P )
n 2 .( m 1) i 1 n.( n 1) i 1
(3 / 4)(1 3 / 4).(1,046875) (1 3 / 4)(0,015451)
(0,010905) (0,001288) 0,012193
(32 )(3 1) (3)(3 1)

Ejemplo 9.8
Al descargar un cargamento de 500 cajas de cerámica, un ingeniero de calidad toma la decisión de estimar la proporción de
ellas maltratados (despuntadas o con alguna fisura) en todo el cargamento. El ingeniero decide tomar en cada caja de 36
unidades una muestra de 6 de ellas. Estudios anteriores permiten asumir:

n* n*
1 m*
Sˆ12 *
( Pˆi Pˆ ) 2
0,0833 ; Sˆ22 Pˆi .Qˆ i 0,0083
n 1i 1 n* (m* 1) i 1

a) Determine el número de cajas para obtener V ( Pˆ ) 0,0021085


b) Si el ingeniero decide realizar un muestreo sistemático para la toma de la muestra definida en a) ¿cada cuántas cajas debe
seleccionar la que debe inspeccionar?

Solución//

El número de cajas para satisfacer la varianza planteada es:  


 
a)

(1 f 2 ) ˆ 2 (1 6 36)
Sˆ12 S2 0,0833 .(0,0083)
n mˆ 6 37
Sˆ12 (0,0021085)
0,0833
V0
N 500

b) El cálculo del salto será:

N 500
k 14
n 37

El ingeniero debe seleccionar una caja cada 14 de ellas en el momento del descargue.

597
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

9.9 MUESTREO ESTRATIFICADO DE UNIDADES CONGLOMERADAS DE IGUAL TAMAÑO

Se supone que las unidades conglomeradas que componen la población se estratifican de acuerdo con el número de unidades
elementales que ellas poseen. En este contexto se tiene:

N h : Número de unidades conglomeradas que contiene el estrato h-ésimo.


M h : Número de unidades elementales contenidas por cada una de las unidades conglomeradas del estrato h-ésimo.
nh : Número de unidades conglomeradas muestreadas en el estrato h-ésimo.
mh : Número de unidades elementales muestreadas dentro de cada unidad conglomerada muestreada en el estrato h-ésimo.
L : Número de estratos que componen la población.
Yh : Media por unidad elemental poblacional en el estrato h-ésimo.
Wh : Peso del estrato h-ésimo en cuanto al total de unidades elementales al considerar sus unidades conglomeradas.

Nota:
L
Wh NhM h NhM h (9.15)
h 1

9.9.1 El estimador para la media por unidad elemental cuando se analiza la variable Y , viene dado por la siguiente
expresión.

PARÁMETRO ESTIMADOR
(9.16)
L L L
ˆ L
ˆ L L
ˆ
Y N h M hYh NhM h WhYh YES N h M hYh Nh M h WhYh
h 1 h 1 h 1 h 1 h 1 h 1

9.9.2 Propiedades del estimador de la media por unidad elemental en el MAE de unidades conglomeradas de igual
tamaño

Las propiedades básicas son:

Propiedad 9.7: Insesgamiento del estimador de la media por unidad elemental y el total en el MAE de unidades
conglomeradas de igual tamaño

Es fácil de demostrar que:

ˆ
E (YMAE ) Y ; E (YˆMAE ) Y

598
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Propiedad 9.8: Expresión para la varianza del estimador de la media por unidad elemental en el MAE de unidades
conglomeradas de igual tamaño

La expresión de la varianza para el estimador de Y viene dada por:

ˆ L
(1 f 2 h ) 2 (1 f1h ) 2
V (YES ) Wh .SWCI h .S BCI h (9.17)
h 1 nh .mh nh .M h

Donde:

2
Nh M h
( yhij Yhi ) 2 2
Nh
(Yhi Yh ) 2
f1h nh N h ; f 2h mh M h ; S WCI h S 2h Y S 2
BCI h M h. M h .S12h
i 1 j 1 N h .( M h 1) i 1 Nh 1

Nota

Para el estimador del total se tiene:

2
L
ˆ
V (YˆES ) N h M h V (YES ) (9.18)
h 1

Propiedad 9.9: Estimación insesgada de la varianza para el estimador de la media por unidad elemental en el MAE de
unidades conglomeradas de igual tamaño

Por analogía con la expresión de la propiedad anterior se tiene:

ˆ L
(1 f 2 h ) ˆ 2 (1 f1h ) ˆ 2
Vˆ (YES ) Wh .SWCI h .S BCI h (9.19)
h 1 nh .mh nh .mh
En donde:

ˆ
nh mh
( yhij Yˆhi ) 2 nh mh
(Yˆhi Yh ) 2 nh mh
SˆWCI
2
; Sˆ BCI
2
; f1h ; f 2h
h
i 1 j 1 nh .(mh 1) h
i 1 j 1 nh 1 Nh Mh

Nota

Para el estimador del total:

2
L
ˆ
Vˆ (YˆES ) N h M h Vˆ (YES ) (9.20)
h 1

599
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

9.10 TAMAÑO DE MUESTRA EN EL MAE PARA UNIDADES CONGLOMERADAS DE IGUAL TAMAÑO

Sea la función de costos:

L L
C C1h (nh ) C2 h (nh mh ) (9.21)
h 1 h 1
En donde:

C : Costo total del trabajo de campo.


C1h : Costo de tomar una unidad conglomerada (unidad primaria de muestreo) en el estrato h .
C2 h : Costo de medir o encuestar una unidad elemental (unidad secundaria de muestreo) en el estrato h .

Tomando como base las expresiones del apartado 9.9 se tiene:

ˆ L
1 S 22h 1 1 2
V (YES ) Wh2 S12h S 22h S1h (9.22)
h 1 nh Mh nh m h Nh

Siguiendo los procedimientos realizados en el apartado 9.9 se obtiene:

ˆ L L
(nh , mh , ) V (Yh ) C1h nh C 2 h n h mh C (9.23)
h 1 h 1
De donde:

S2h C1h
mh (9.24)
S 22h C2 h
S12h
Mh

Nota

nh* mh* nh* mh*


1 1 2 1
, Sˆ2 h S BCIh , Sˆ12h
2 2 2
S 2
2h S 2
WCIh ( y hij yhi ) , S 1h ( yhi yh ) 2 ,
nh (mh* 1)
*
i 1 j 1 M mh (nh* 1)
*
i 1 j 1

mh* nh*
1 1
yhi yhij , y h yhi .
mh* j 1 nh* i 1

Una vez hallado el valor de mh se procede a determinar el tamaño de muestra para cada estrato fijando un valor para la
ˆ
varianza V (Y ) V0 .

600
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

L
ˆ (1 f1h ) (1 f 2 h ) 2
V0 V (YES ) Wh2 S12h S2h
h 1 nh nh mh
ˆ L
Wh2 2 (1 f 2h ) L
S12h
V0 V (YES ) S1h S 22h Wh2
h 1 nh mh h 1 Nh

Asumiendo que la ponderación muestral es:

nh
( wh ) nh n.(wh )
n

ˆ 1 L Wh2 (1 f 2h ) 2 L
S12h
V0 V (YES ) S12h S 2h Wh2
n h 1 ( wh ) mh h 1 Nh

Despejando n se tiene, la expresión general del tamaño de muestra para la ponderación muestral (tipo de asignación) por
estrato igual a (wh ) .
L
Wh2 (1 f 2 h ).S 22h
S12h
h 1 ( wh ) mh
n (9.25)
L
Wh2 S12h
V0
h 1 Nh
Si: (wh ) Wh entonces la asignación se denomina proporcional, es decir que:

L
(1 f 2 h ).S 22h
Wh S12h
h 1 mh NhM h
n L 2 2
; nh n.Wh n. L
(9.26)
W S
V0 h 1h
NhM h
h 1 Nh h 1

Derivando la función de Lagrange definida anteriormente y realizando procedimientos similares a los vistos en el capítulo 4
(MAE) se tiene que la asignación de mínima varianza o de Neyman en el MAE de unidades conglomeradas de igual tamaño
realizando un MBI es:

(1 f 2 h ).S 22h
Wh S12h
mh
nh n. (9.27)
L
2 (1 f 2 h ).S 22h
Wh S 1h
h 1 mh

Para encontrar el tamaño de muestra n para este tipo de asignación, basta con reemplazar esta expresión en la expresión
general del tamaño de muestra (9.27).

601
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Ejemplo 9.9
La siguiente información sobre la variable Y . corresponde a una muestra bietápica en cuatro estratos en que se divide la
población investigada.

Estrato I: N1 6 ; M 1 10 ; n1 3 ; m1 6 Estrato II: N2 8 ; M 2 15 ; n2 3 ; m2 9


Yˆhi Sˆ hi2 Yˆ Sˆ 2
Conglomerados Conglomerados
muestreados muestreados hi hi
Cong-1 5,54333333 45,1128667 Cong-4 6,85555556 14,7127778
Cong-4 7,91166667 32,7512167 Cong-5 5,63888889 19,8886111
Cong-6 7,08 56,7774 Cong-7 6,57777778 19,3969444

Estrato III: N 3 10 ; M 3 12 ; n3 5 ; m3 4 Estrato IV: N4 8; M4 20 ; n4 3 ; m4 8


Yˆ Sˆ 2 Yˆ Sˆ 2
Conglomerados Conglomerados
muestreados hi hi muestreados hi hi
Cong-1 6,05 27,8966667 Cong-2 5,5625 14,4969643
Cong-2 7,7 24,9666667 Cong-4 7,09125 21,3488982
Cong-3 7,1875 25,750625 Cong-6 6,5375 17,1541071
Cong-7 5,225 24,2691667
Cong-8 3,025 15,9491667

a) Estime la media por unidad elemental y su varianza.


b) Considerando la información de la tabla como una muestra piloto determine para cada estrato mh .
c) Encuentre el tamaño de muestra n utilizando asignación de mínima varianza. Asuma un error igual al 45% del valor
estimado hallado en a) y un nivel de confianza del 95%. Reflexione sobre la forma de influencia de este error en el n .

Solución//

a) Se encuentran para cada estrato los siguientes indicadores con base en la información de la tabla.

Estrato-I Estrato-II Estrato-III Estrato-IV


ˆ 6,845 6,35740741 5,8375 6,39708333
Yh  
Wh   0,13043478 0,26086957 0,26086957 0,34782609

Sˆ 2  
WCI h 44,8804945 17,9994444 23,7664584 17,6666565

Sˆ BCI
2
h
  8,66201671 3,65842594 13,621875 4,79245417

De tal manera que:

4
ˆ ˆ
YES WhYh 6,29917874
h 1

Donde:

602
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

ˆ
nh mh
( yhij Yˆhi ) 2 1 nh mh nh
( yhi Yh ) 2 nh
SˆWCI
2
Sˆhi2 ; Sˆ BCI
2
mh . Sˆ y2h
h
i 1 j 1 nh (mh 1) nh i 1
h
j 1 i 1 (nh 1) i 1

ˆ L
(1 f 2 h ) ˆ 2 (1 f1h ) ˆ 2
Vˆ (YES ) Wh .SWCI h .S BCI h
h 1 nh .mh nh .mh
0,02106163 0,02391 0,07708779 0,19059264 0,19059264

b) Determinación de mh al considerar la información dada como una muestra piloto, al considerar costos iguales se tiene:

nh* mh* nh* mh*


1 1
Sˆ22h ( y hij yhi ) 2
Sˆ12h ( yhi yh ) 2
nh (mh* 1)
*
i 1 j 1 mh (nh* 1)
*
i 1 j 1

Estrato-I Estrato-II Estrato-III Estrato-IV


Sˆ 2
2h
44,8804945 17,9994444 23,7664584 17,6666565

Sˆ 2 1h 1,44366945 0,40649177 3,40546875 0,59905677

Para la fórmula:

Sˆ2 h
mˆ h
Sˆ22h
Sˆ12h
mh*

Se observa que S12h < S 22h mh* para todos los estratos, lo que implica realizar censo en cada conglomerado es decir que el
muestreo en cada estrato se reduce a un MCON. Se estaría hablando de un muestreo estratificado realizando censo (una
etapa) en las unidades conglomeradas.

c) La expresión para el tamaño de muestra usando asignación de Neyman.

Como se debe realizar censo en cada conglomerado se trata entonces de un MAE con unidades conglomeradas de igual
tamaño al interior de cada conglomerado. Cada conglomerado tendrá N h M h unidades elementales y los conglomerados
se han estratificado de acuerdo con su tamaño.

Para el estrato h se tiene:

Nh

Nh M h Mh (Yhi Yh ) 2
ˆ (1 f h ) 2 2 (Yhi Y ) 2 i 1 1 Nh
1
V (Yh ) S BCI h ; S BCI ; Yh Yhi ; Yh Yh
nh M h h
i 1 j 1 Nh 1 Nh 1 Nh i 1 Mh

603
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

nh
ˆ
nh M h ˆ Mh (Yhi Yh ) 2
ˆ (1 f h ) ˆ 2 (Yhi Y ) 2 ˆ 1 nh
ˆ 1 ˆ
Vˆ (Y h) S BCI h ; Sˆ BCI
2 i 1
; Yh Yhi ; Yh Yh
nh M h h
i 1 j 1 nh 1 nh 1 nh i 1 Mh

Para la población con L estratos se tiene:


L L
ˆ ˆ (1 f h ) 2 NhM h nh M h nh
V (YES ) Wh2V (Yh ) Wh2 S BCI h ; Wh L
; fh
h 1 h 1 nh M h NhM h Nh
NhM h
h 1

L L
ˆ ˆ (1 f h ) ˆ 2
Vˆ (YES ) Wh2Vˆ (Yh ) Wh2 S BCI h
h 1 h 1 nh M h

La fórmula para la asignación de Neyman se obtiene por analogía con lo visto en el MAE de unidades elementales.

2
ˆ L
(1 f h ) 2
2
L
(1 f h ) S BCI h
2
V (YES ) W h S BCI h W h
h 1 nh M h h 1 nh Mh

Planteando la función de Lagrange se obtiene la asignación de Neyman.

2 2
Wh S BCI Mh nh Wh S BCI Mh
nh n L
h
; ( wh ) L
h

2 n 2
Wh S BCI h Mh Wh S BCI h
Mh
h 1 h 1

La asignación proporcional se obtiene haciendo:

NhM h
( wh ) Wh L
NhM h
h 1

El tamaño de muestra dependiendo del tipo de asignación será:

ˆ L
(1 f h ) 2 L Wh2 S BCI
2 L Wh2 S BCI
2

V (YES ) Wh2 S BCI h h h

h 1 nh M h h 1 nh M h h 1 NhM h

Haciendo:

nh (wh ).n

604
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Para una asignación muestral (wh ) se tiene:

L
Wh2 S BCI
2
h
( wh ).M h
h 1
n L
(9.28)
ˆ 2 2
V (YES ) W Sh BCI h NhM h
h 1

Con la información:

Estrato-I Estrato-II Estrato-III Estrato-IV


Nh 6 8 10 8
Mh 10 15 12 20
ˆ 6,845 6,35740741 5,8375 6,39708333
Yh
Wh 0,13043478 0,26086957 0,26086957 0,34782609

Sˆ 2BCIh 8,66201671 3,65842594 13,621875 4,79245417

Se tiene bajo Neyman las siguientes asignaciones:

Estrato-I Estrato-II Estrato-III Estrato-IV


(wh ) 0,17381127 0,18445904 0,39794795 0,24378174

Y para el tamaño de muestra se tiene:


ˆ ˆ
Asumiendo como error 0.45Y en donde el valor de Y es el valor obtenido en a) y un nivel de confianza del 95% se
obtiene:

L
Wh2 S BCI
2
( wh ).M h
h 1
h
0,4878092
n 13,257187  
ˆ L
2 2 0,0209161 0,0158797
V (YES ) W S h BCI h NhM h
h 1

Con la siguiente distribución en los estratos:

Estrato-I Estrato-II Estrato-III Estrato-IV Total


nh 2,30424856 2,44540803 5,27567036 3,23186006
Aproximación 3 3 6 4 16

605
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

9.11 MUESTREO BIETAPICO PARA VARIABLES. CONGLOMERADOS DE DIFERENTE TAMAÑO.

En este apartado, se tratan los estimadores y sus propiedades para un muestreo bietápico para variables. La única diferencia
con el método anterior consiste en que las unidades conglomeradas tienen diferente tamaño y el número de las unidades
elementales que se seleccionan en la segunda etapa serán diferentes para cada conglomerado.

En este contexto:

M i : Tamaño del conglomerado i-ésimo.


mi : Número de unidades elementales seleccionadas del conglomerado i-ésimo.

9.11.1 El Estimador para la media por unidad elemental y para el total

PARÁMETRO ESTIMADOR
(9.29)

Y 1 N
ˆ 1 1 n
N n
N n mi
yij
Y Yi YMBD N. M i .Yˆi M i .Yˆi M i.
M0 M0 i 1 M0 n i 1 n.M 0 i 1 n.M 0 i 1 j 1 mi

Para el total se tiene:

PARÁMETRO ESTIMADOR
(9.30)
N Mi
ˆ N n
Y yij YˆMBD M 0 .YMB . M i .Yˆi
i 1 j 1 n i1

Nota:

Aquí debe tenerse presente que:


mi

N n
y ij
1
M i ; Yˆ Yˆi ; Yˆi M i .Yˆi ; Yˆi
j 1
M0
i 1 n i 1 mi

9.11.2 Propiedades relacionadas con los estimadores para la media por unidad elemental y para el estimador del
total

Las propiedades básicas para los estimadores definidos anteriormente son:

606
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Propiedad 9.10: Insesgamiento del estimador de la media por unidad elemental en el MBI para conglomerados de
tamaño diferente

El Estimador de la media por unidad elemental el MBI con conglomerados de diferente tamaño es un estimador insesgado.

Usando el Teorema de Madow:

ˆ 1 1 n 1 N n
E YMBD E1 .E 2 N . . M i .Yˆi . E1 M i .E2 Yˆi
M0 n i1 M0 n i 1

n n
ˆ 1 N N
E YMBD . E1 M i .Y .E1 Yi
M0 n i 1 n.M 0 i 1

Utilizando la variable ai definida antes para la cual E1 ( ai ) n se tiene:


N
N

N N
Yi
ˆ N N N N n i 1
E YMBD .E1 Yi .a i Yi .E1 a i . Yi . Y
n.M 0 i 1 n.M 0 i 1 n.M 0 i 1 N M0

Nota
Para el estimador del total se tendrá entonces que:
N
Yi N N Mi
ˆ ˆ
E YˆMBD E M 0 .YMBD M 0 .E YMBD M 0 .Y M0 i 1
Yi y ij Y
M0 i 1 i 1 j 1

Propiedad 9.11: Expresión de la varianza para el estimador de la media por unidad elemental en el MBI para
conglomerados de diferente tamaño.

La varianza para el estimador de la media por unidad elemental en el MBI de diferente tamaño viene dada por:

N
(Yi Y )2
ˆ N2 N N Mi
( y ij Yi ) 2
V (YMBD ) (1 f 1 ). i 1
. M i2 .(1 f 2i ).
M 02 n.( N 1) M 02 .n i 1 j 1 mi .( M i 1)

N
(Yi Y ) 2
ˆ N2 N N M i2 .(1 f 2i ).S 22i (9.31)
V (YMBD ) (1 f1 ). i 1
.
M 02 n.( N 1) M 02 .n i 1 mi

Donde:

607
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

2
Mi
( yij Yi ) 2 mi n
S 2i ; f 2i ; f1
j 1 ( M i 1) Mi N

Aplicando el Teorema de Madow se tiene.

ˆ N n N2 n
E1V2 YMBD E1V2 . M i .Yˆi E1 . V2 M i .Yˆi
n.M 0 i 1 n 2 .M 02 i 1

ˆ N2 n
N2 n
E1V2 YMBD E1 2 2
. V2 M i .Yˆi E1 M i2 .V2 (Yˆi )
n .M 0 i 1 n 2 .M 02 i 1

2
N2 n
2 (1 f 2i ) M i ( y ij Yi )
E1 . Mi .
n 2 .M 02 i 1 mi j 1 Mi 1

Apoyándose en la variable auxiliar ai , se tiene:

2
ˆ N2 n
2 (1 f 2i ) M i ( y ij Yi )
E1V2 YMBD E1 . Mi .
n 2 .M 02 i 1 mi j 1 Mi 1

N2 N
2 (1 f 2i ) Mi
( y ij Yi ) 2
E1 M i .ai
n 2 .M 02 i 1 mi j 1 Mi 1

N2 N
(1 f 2i ) Mi
( y ij Yi ) 2 n
2 2
. M i2 .
n .M 0 i 1 mi j 1 Mi 1 N

Finalmente:

ˆ N N (1 f 2i ) Mi
( y ij Yi ) 2
E1V2 YMBD 2
. M i2 (1)
n.M 0 i 1 mi j 1 Mi 1

Ahora para la otra componente del teorema de Madow:

ˆ N n N n N n
V1 E 2 YMBD V1 E2 . M i Yˆi V1 . M i E 2 Yˆi V1 . M i .Yi
n.M 0 i 1 n.M 0 i 1 n.M 0 i 1

ˆ N n N2 1 n N2
V1 E 2 YMBD V1 . M i .Yi V1 . Yi .V1 Yˆ
n.M 0 i 1 M 02 n i1 2
M0

608
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Finalmente:

ˆ N2 N2 N
(Yi Y ) 2
V1 E 2 YMBD 2
.V1 Yˆ . (1 f1 ). (2)
M0 M 02 i 1 n.( N 1)

De los resultados (1) y (2), se tiene:

ˆ ˆ ˆ
V (YMBD ) V1 E 2 YMBD E1V2 YMBD

N2 N
(Yi Y ) 2 N N M i2 .(1 f 2i ) Mi
( y ij Yi ) 2
.(1 f1 ). . .
M 02 i 1 n.( N 1) n.M 02 i 1 mi j 1 ( M i 1)

ˆ N2 N
(Yi Y ) 2 N N M i2 .(1 f 2i ) 2
V (YMBD ) .(1 f1 ). . .S 2i
n.M 02 i 1 ( N 1) n.M 02 i 1 mi

Nota
La varianza para el estimador del total vendrá dada por:

ˆ ˆ (9.32)
V (YˆMBD ) V ( M 0 .YMBD ) M 02 .V (YMBD )

Propiedad 9.12: Estimador insesgado para la varianza del estimador de la media por unidad elemental en el MBI
para conglomerados de tamaño diferente.

Un estimador insesgado para la varianza al considerar el estimador de la media por unidad elemental en el MBI de
conglomerados de diferente tamaño viene dado por:

n
(Yˆi Yˆ ) 2
ˆ N 2
N n mi
( yij Yˆi ) 2 (9.33)
Vˆ (YMBD ) .(1 f1 ). i 1
. . M i2 .(1 f 2i ).
M 02 n.(n 1) 2
n.M 0 i 1 j 1 mi .(mi 1)

n
(Yˆi Yˆ ) 2
ˆ N2 N n
M i2 .(1 f 2i ) ˆ 2
Vˆ (YMBD ) .(1 f 1 ). i 1
. . .S 2i
n.M 02 ( n 1) n.M 02 i 1 mi

Aquí:

609
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

mi
y ij 1 n
1 mi
Yˆi M i .Yˆi Mi. ; Yˆ Yˆi ; Sˆ 2i
2
( y ij Yˆi ) 2
j 1 mi n i 1 mi j 1

Para verificar esta condición del estimador de varianza se procede de la siguiente manera:

Calcular mediante el teorema de Madow, el valor esperado de la siguiente expresión aleatoria.

2 2
1 n
M0 ˆ 1 n
1 n
M i .Yˆi .YMBD Yˆi Yˆ Yˆi 2 2Yˆ .Yˆi Yˆ 2
n 1i 1 N n 1i 1 n 1i 1
n n
1 1
Yˆi 2 2Yˆ .Yˆi Yˆ 2 Yˆi 2 n.Yˆ 2
n 1i 1 n 1 i 1

1 n
n n
Yˆi 2 n.Yˆ
E( ) E1 E 2 . Yˆi 2 .Yˆ 2 E1 E 2 E1 E 2 (1)
(n 1) i 1 (n 1) i 1 (n 1) (n 1)

Para el primer sumando de la expresión anterior, se tiene:

n
Yˆi 2
n
Yˆi 2 1 n
E1 E 2 E1 E 2 i 1
E1 . E 2 Yˆi 2
i 1 (n 1) (n 1) (n 1) i 1

Aplicando la definición de varianza para una variable aleatoria:

n
Yˆi 2 1 n
1 n 2
E1 E2 E1 . E2 Yˆi 2 E1 V2 (Yˆi ) E 2 (Yˆi )
i 1 (n 1) (n 1) i 1 (n 1) i 1

n n n
1 2 1 1 2
E1 V2 (Yˆi ) E 2 (Yˆi ) E1 V2 (Yˆi ) E 2 (Yˆi
(n 1) i 1 (n 1) i 1 (n 1) i 1

1 n
1 n
2 1 n
M i2 (1 f 2i ) Mi
( yij Yi ) 2 1 n
E1 V2 (Yˆi ) E2 (Yˆi ) E1 E1 Yi 2
(n 1) i 1 (n 1) i 1 (n 1) i 1 mi j 1 Mi 1 (n 1) i 1

Aplicando la variable auxiliar ai al primer miembro de la expresión anterior, resulta:

1 N
M i2 (1 f 2i ) 2 1 n
E1 .S 2i .ai E1 Yi 2
(n 1) i 1 mi (n 1) i 1

610
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

1 N
M i2 .(1 f 2i ) 2 n 1 n
. .S2i . E1 . Yi 2
(n 1) i 1 mi N (n 1) i 1

Finalmente:

n
Yˆi 2 n 1 N
M i2 .(1 f 2i ) 2 1 n
E1 E2 .S 2i E1 . Yi 2 (2)
i 1 (n 1) (n 1) N i 1 mi (n 1) i 1

Por otro lado

n n n 2
E1 E 2 .Yˆ 2 E1 E 2 (Yˆ 2 ) E1 V2 (Yˆ ) E 2 (Yˆ )
(n 1) (n 1) (n 1)
2
n n
Yˆi Yˆi
n 2 n n
E1 V2 (Yˆ ) E 2 (Yˆ ) E1 V2 i 1
E2 i 1

(n 1) (n 1) n (n 1) n

n n 2
n 2 n n
E1 V2 (Yˆ ) E 2 (Yˆ ) E1 V2 Yˆi E 2 (Yˆi )
(n 1) (n 1).n 2 i 1 (n 1).n 2 i 1

Como se sabe V 2 es la varianza sobre unidades de segundo orden, luego:

n n 2
n 2 n n
E1 V2 (Yˆ ) E2 (Yˆ ) E1 V2 (Yˆi ) E2 (Yˆi )
(n 1) (n 1).n 2 i 1 (n 1).n 2 i 1

2
1 n
M i2 .(1 f 2i ) 2 1 n
E1 .S 2i E1 Yi
n.( n 1) i 1 mi n.( n 1) i 1

n 2 1 N
M i2 .(1 f 2i ) 2 n
E1 V2 (Yˆ ) E2 (Yˆ ) E1 S 2i .(ai ) E1 Yˆ 2
(n 1) n.(n 1) i 1 mi (n 1)
1 N
M i2 .(1 f 2i ) 2 n n
S2i E1 .Yˆ 2
n.(n 1) i 1 mi N (n 1)

Finalmente para esta parte:

611
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

n 1 1 N
M i2 .(1 f 2i ) 2 n
E1 E2 .Yˆ 2 .S 2i E Yˆ 2 (2)
(n 1) (n 1) N i 1 mi (n 1)

Reemplazando las expresiones (2) y (3) en la ecuación (1), se tiene:

n
Yˆi 2 n.Yˆ
E( ) E1 E 2 E1 E 2
i 1 (n 1) (n 1)

n 1 N
M i2 .(1 f 2i ) 2 1 n
E( ) .S 2i E1 . Yi 2
(n 1) N i 1 mi (n 1) i 1

2
1 1 N
M .(1 f 2i ) 2 n
i
.S 2i E1 .Yˆ 2
(n 1) N i 1 mi (n 1)
n 1 1 N
M i2 .(1 f 2i ) 2 1 n
E( ) . .S 2i E1 Yi 2 n.Yˆ 2
n 1 n 1 N i 1 mi (n 1) i 1

Antes de sacar valor esperado a la expresión planteada en la propiedad (3) véase lo siguiente:

n
(Yˆi Yˆ ) 2
ˆ N2 N n mi
( y ij Yˆi ) 2
Vˆ (YMBD ) .(1 f1 ). i 1
. . M i2 .(1 f 2i ).
M 02 n.(n 1) 2
n.M 0 i 1 j 1 mi .(mi 1)

n
(Yˆi Yˆ ) 2
ˆ N2 N n
M i2 .(1 f 2i ) ˆ 2
Vˆ (YMBD ) .(1 f 1 ). i 1
S 2i
n.M 02 ( n 1) n.M 02 i 1 mi
2 2
N N n
M .(1 f 2i ) ˆ 2
i
(1 f 1 ). .S 2 i
n.M 02 n.M 02 i 1 mi

Luego:

ˆ N2 N n M i2 .(1 f 2i )
E Vˆ (YMBD ) E .(1 f1 ). E1 . .E2 Sˆ 22i
n.M 02 2
n.M 0 i 1 mi

ˆ N2 N n
M i2 .(1 f 2i ) 2
E Vˆ (YMBD ) .(1 f1 ).E ( ) E1 . .S 2i
n.M 02 n.M 02 i 1 mi

612
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

ˆ N2 1 N
M i2 .(1 f 2i ) 2 1 N
E Vˆ (YMBD ) (1 f1 ). .S 2i (Yi Y)2
n.M 02 N i 1 mi N 1i 1

2
N N M .(1 f 2i ) 2 i
E1 . .S 2i (ai )
n.M 02 i 1 mi

ˆ N2 1 N
M i2 .(1 f 2i ) 2 1 N
N N
M i2 .(1 f 2i ) 2 n
E Vˆ (YMBD ) (1 f1 ). .S 2i (Yi Y)2 .S 2i
n.M 02 N i 1 mi N 1i 1 n.M 02 i 1 mi N

Reorganizando:

ˆ N 1 N
M i2 .(1 f 2i ) 2 N2 N
(Yi Y ) 2
E Vˆ (YMBD ) .(1 f1 ) . .S 2i .(1 f1 ).
n.M 02 M 02 i 1 mi n.M 02 i 1 N 1

Simplificando, finalmente:

ˆ N N M i2 .(1 f 2i ) 2 N2 N
(Yi Y ) 2 ˆ
E Vˆ (YMBD ) . .S 2i .(1 f1 ). V (YMBD )
n.M 02 i 1 mi n.M 02 i 1 N 1

Que muestra el insesgamiento de la expresión planteada en la propiedad 9.12.

Nota

Para el estimador del total en el MBI de conglomerados desiguales se tendría:

ˆ ˆ ˆ
E (Vˆ (YˆMBD )) E M 02 .Vˆ (YMBD ) M 02 .E (Vˆ (YMBD ) M 02 .V (YMBD ) V (YˆMBD )

Ejemplo 9.10
Para la población que se muestra en la siguiente tabla:

CONG-A CONG-B CONG-C CONG-D CONG-E


3,8 8,6 3,3 6,5 8,0 5,5
4,7 9,3 3,8 7,4 7,0 4,7
5,5 7,4 8,2 7,6 3,8
6,8 5,8 4,7 6,8 4,9
7,4 5,7 4,6 7,4 6,3
8,5 7,5 5,5 8,2

a) Si se realiza un muestreo bietápico para estimar Y , ¿cuál es total de muestras conteniendo n 3 y dentro de cada
conglomerado seleccionar aleatoriamente mi 4?

613
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

b) Para la muestra aleatoria que se representa en la siguiente tabla, encuentre el estimador de Y y Vˆ (Y ) .

Conglomerados muestreados
CONG-A CONG-D CONG-E
3,8 8,0 5,5
4,7
7,6 3,8
6,8 4,9
7,4
8,5 8,2

9,3

Solución:

a) Calculando el total de muestras por conglomerado y aplicando el principio de la multiplicación de eventos, el total de
muestras es 69750.

Conglomerado muestras/conglomerado Total


1 2 3 k1 k2 k3 k1.k2 .k3
A B C 70 15 15 15750 A D E 70 5 15 5250
A B D 70 15 5 5250 B C D 15 15 5 1125
A B E 70 15 15 15750 B C E 15 15 15 3375
A C D 70 15 5 5250 B D E 15 5 15 1125
A C E 70 15 15 15750 C D E 15 5 15 1125
69750

En la tabla anterior:

Mi
ki .
4

b) De la tabla dada se tienen los siguientes indicadores:

Valores de las
Conglomerado unidades Yˆi SˆY2i M i mi
muestreadas
A 3,8 4,7 8,5 9,3 6,575 7,449166667 8 4 N 5
D 8 7,6 6,8 7,4 7,45 0,25 5 4 M0 31
E 5,5 3,8 4,9 8,2 5,6 3,5 6 4
 

614
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

 
n
(Yˆi Yˆ ) 2
ˆ N n n
Y M iYˆi 6,63709677 ; SˆY2ˆ i 1
101,6575 ; M i2 (1 f 2i ) SˆY2i / mi 70,4058333
n.M 0 i 1 n 1 i 1

De donde para el estimador de la varianza se tiene:

n
(Yˆi Yˆ ) 2
ˆ N 2
N n mi
( yij Yˆi ) 2
Vˆ (YMBD ) .(1 i 1
f1 ). . . M i2 .(1 f 2i ).
M 02 n.(n 1) 2
n.M 0 i 1 j 1 mi .(mi 1)

(5) 2 5
2
(1 3 / 4).(101,6575) / 3 (70,4058333) 0,22038133 0,12210516 0,34248649
(31) (3)(31) 2

9.12 MUESTREO BIETAPICO PARA VARIABLES. ESTIMACIÓN DE LA RAZÓN AL TAMAÑO DEL


CONGLOMERADO.

Cuando el tamaño de los conglomerados es diferente, se puede considerar un estimador en el cual tanto en numerador como
el denominador varían de muestra en muestra. Este estimador es un estimador sesgado pero dicho sesgo disminuye en la
medida en que el tamaño de muestra n aumente.

Este estimador se hace aconsejable cuando grandes variaciones de M i provocan grandes variaciones de Yi , lo cual a su vez
se traduce en incremento de la variabilidad para los estimadores de Y y del total Y.

El estimador para la media por unidad elemental y para el total al considerar la variable Y , mediante un MBI utilizando
estimadores de razón al tamaño del conglomerado son respectivamente:

9.12.1 Estimador de la media por unidad elemental y estimador para el total

Este estimador se define por:

PARÁMETRO ESTIMADOR

n (9.34)
N
Yi Yˆi
ˆ i 1
Y i 1 YMBR n
N
Mi Mi
i 1
i 1

615
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

PARÁMETRO ESTIMADOR

n (9.35)
Yˆi
ˆ
Y M 0 .Y YˆMBR M 0 .YMBR M 0. i 1
n
Mi
n 1

Aquí debe tenerse presente que:

n
y ij N
Yˆi M i .Yˆi Mi. i 1
Y M0 Mi
mi i 1

9.12.2 Propiedades de los estimadores total y media por unidad elemental al utilizar estimadores de razón al
tamaño del conglomerado.

Las propiedades básicas son:

Propiedad 9.13: Expresión para la varianza del estimador de la media por unidad elemental en el MBI (razón al
tamaño del conglomerado)

La varianza del estimador del total YˆMBR , viene dado por:

2 M i2 .(Yi Y ) 2
N N N M i2 .(1 f 2 i ).S 22i (9.36)
V (YˆMBR ) ) .(1 f1 ). i 1
.
n N 1 n i1 mi

Se parte de la siguiente diferencia:

YˆMBR Y

n n n
M i .Yˆi M 0. M i .Yˆi M i .( M 0 .Y )
YˆMBR Y M 0. i 1
n
M 0 .Y i 1
n
i 1

Mi Mi
i 1 i 1

N
Multiplicando y dividiendo por :
n

616
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

n n
N .M 0 . M i .Yˆi N. M i .( M 0 .Y ) N .M 0 n
N .M 0 n
i 1 i 1 . M i .Yˆi . M i .Y
n n n i 1 n i 1

N .Mˆ
n
N. Mi
i 1

Pero suponiendo que N .M


ˆ M0 :

n n n
N N N
. M i .Yˆi . M i .Y M i .(Yˆi Y)
n i 1 n i 1 n i 1

Finalmente se tiene entonces que:

n
N
YˆMBR Y M i .(Yˆi Y ) (1)
n i 1

Si se reemplaza y ij por y ij Y , entonces Yi , será igual a:

Mi Mi
Yi yij ( yij Y ) Yi M i .Y
j 1 j 1

Análogamente:

1 N 1 N 1 1
Y . Yi . Yi M i .Y Y . M 0 .Y Y .Y 0
N i1 N i1 N N

Yi Y Yi M iY 0 M i .(Yi Y)

2
1
yij .Yi 2
2
Mi
( yij Yi ) 2 Mi
Mi Mi
1 1
S 2i ( yij Y ) .(Yi M i .Y )
j 1 Mi 1 j 1 Mi 1 j 1 Mi 1 Mi

617
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

2
1
yij .Yi 2
2
Mi
( yij Yi ) 2 Mi
Mi Mi
1 1
S 2i ( yij Y ) .(Yi M i .Y )
j 1 Mi 1 j 1 Mi 1 j 1 Mi 1 Mi
Mi
1 2
. ( yij Y ) (Yi Y ) S 22i
j 1 Mi 1

N n
Pero para el estimador YˆMBD . M i .Yˆi , su varianza viene dada por:
n i1

N2 N
(Yi Y ) 2 N N
M i2 .(1 f 2i ) 2
V (YˆMBD ) (1 f1 ). .S 2i (2)
n i 1 N 1 n i 1 mi

Por otro lado, si se calcula la varianza para la expresión (1), antes vista:

N n
V (YˆMBR Y ) V (YˆMBR ) V . M i .(Yˆi Y)
n i1

Luego con apoyo en la varianza del estimador YˆMBD expresada en (2), se puede hallar la expresión para la varianza de YˆMBR
ˆ
aproximada al reemplazar en (2) M i .Yi , por M i .(Yi
ˆ Y ) , obteniendo:

N2 N
M i2 .(Yi Y ) 2 N N
M i2 .(1 f 2i ) 2
V (YˆMBR ) (1 f1 ). .S2i
n i 1 N 1 n i 1 mi

Nota

La varianza aproximada en el caso del estimador de la media por unidad elemental será:

ˆ 1
V (YMBR ) .V (YˆMBR ) (9.37)
M 02

Propiedad 9.14: Estimador para la varianza del estimador del total en el MBI (razón al tamaño del conglomerado)

Con base en la propiedad anterior, se puede escribir como estimador para V (YˆMBR ) la siguiente expresión:

618
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

ˆ
N2 n
M i2 .(Yˆi YMBR ) 2 N n
M i2 .(1 f 2i ) ˆ 2
Vˆ (YˆMBR ) (1 f1 ). .S2i (9.38)
n i 1 n 1 n i 1 mi

Nota
El estimador para la varianza del estimador de la media por unidad elemental será:

ˆ 1 ˆ ˆ
Vˆ (YMBR ) .V (YMBR ) (9.39)
M 02

Nota
Cuando al calcular este estimador de la varianza para la media por unidad elemental, no se conozca el valor de M 0 , éste se
puede reemplazar por:

n
1
Mˆ 0 N. Mi
n i 1

Ejemplo 9.11
En un estudio realizado en la ciudad de Cali, se requería estimar la cantidad de residuo sólido por persona en determinada
zona de la ciudad. Para ello se dispuso del plano urbanístico de la zona y con ayuda de la oficina de Planeación Municipal se
dispuso del listado de lados de manzana. El procedimiento para la selección de una muestra de viviendas de la zona fue el
siguiente:

Selección aleatoria en Ubicación de los lados Visita a los lados seleccionados y


forma sistemática de los de manzana en el plano levantamiento de los planos
lados de manzana urbanístico de la zona conteniendo las viviendas aptas

Transporte, nuevo pesaje Realización de la Selección de las viviendas por lado


y caracterización de RS encuesta, pesaje y sistemáticamente con base en los
recolección de RS planos levantados

De acuerdo con la realización del trabajo de campo para una semana se obtuvo para las viviendas seleccionadas la siguiente
información:

Lados Lado 1 Lado 2 Lado 3 Lado 4 Lado 5 Lado 6 Lado 7 Lado 8


Viviendas
/muestreadas RS NP RS NP RS NP RS NP RS NP RS NP RS NP RS NP
1 22,5 5 20,6 4 46 7 48,3 7 29,3 5 38,3 6 23,7 6 30,2 6
2 23,9 6 25,7 4 37,2 7 17,2 5 18,5 3 37,4 6 22,1 4 17,3 4
3 28,4 5 18,7 3 33,6 6 14,5 8 33,4 6 31,5 6 28,7 6 12,7 4
4 20,8 3 34,6 5 22,9 6 21,1 6 14,8 4 17,5 4 20,4 7 15,6 3

619
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

5 21,6 4 15,8 4 33,8 5 13,4 5 10 4 11,9 5 48,6 7 42,9 9


6 22 4 16,7 4 17,3 3 21 4 14,8 4 12,1 5 54,5 11 31,2 5
7 21,9 4 14,5 5 27,9 6 16,7 3 23,5 5 43,4 8 26,1 5 27,9 7
8 23,7 5 21,4 4 23 4 16,7 6 22,6 6 11,7 7 26,9 6 15,1 4
9 25,4 5 30,2 6 17,6 9 48,1 10 21,5 5 17,5 6 51,3 9 11,1 4
10 22,8 5 12,8 3 18,6 4 15,3 5 15,2 5 19,9 4 27,9 4 33,4 6
11 25 4 18,1 4 14,2 6 27,7 6 18,9 5 29,6 7 28,5 5
12 20,5 4 26 4 17,1 5 23,3 5 19,1 4 41,7 6 39,8 7
13 15,6 5 15,9 4 50,2 10 17,9 3
14 16,3 5 55,4 8 16,9 5
15 38,1 6 53,9 9 12,4 4
16 38,2 6 45 8 19,5 4
17 42,7 7 35,5 8
18 36,7 8
Mi 30 25 45 33 29 30 40 43

RS : Cantidad total de RS semanal en la vivienda analizada (Kg).


NP : Número de personas residentes en la vivienda analizada.
M i : Total de viviendas aptas para el estudio (dedicadas a vivienda) en el lado analizado.
La zona está integrada por 50 lados de manzana con un promedio de 40 viviendas por lado

a) Estime la cantidad de RS por persona por día en la zona analizada.


b) Estime la varianza para el estimador planteado en a).

Solución//

Se calcula primero la RS por persona por día en cada vivienda muestreada en la zona, la cual denominará por la variable Y
de tal manera que:
RSij
yij : RS por persona por día en la vivienda j-ésima del lado i-ésimo; yij
(NP).7
Donde:

RSij : Kg semanales producidos por las personas de la vivienda j del lado i.


NP : Número de personas generadoras de los RS de la vivienda j del lado i.
7 : Número de días de la semana a que corresponden los RS .
Se obtienen entonces los siguientes valores e indicadores estadísticos muestrales.

Vivienda Lado-1 Lado-2 Lado-3 Lado-4 Lado-5 Lado-6 Lado-7 Lado-8


1 0,642857143 0,735714286 0,93877551 0,985714286 0,837142857 0,911904762 0,564285714 0,719047619
2 0,569047619 0,917857143 0,759183673 0,491428571 0,880952381 0,89047619 0,789285714 0,617857143
3 0,811428571 0,89047619 0,8 0,258928571 0,795238095 0,75 0,683333333 0,453571429
4 0,99047619 0,988571429 0,545238095 0,502380952 0,528571429 0,625 0,416326531 0,742857143
5 0,771428571 0,564285714 0,965714286 0,382857143 0,357142857 0,34 0,991836735 0,680952381
6 0,785714286 0,596428571 0,823809524 0,75 0,528571429 0,345714286 0,707792208 0,891428571
7 0,782142857 0,414285714 0,664285714 0,795238095 0,671428571 0,775 0,745714286 0,569387755
8 0,677142857 0,764285714 0,821428571 0,397619048 0,538095238 0,23877551 0,64047619 0,539285714
9 0,725714286 0,719047619 0,279365079 0,687142857 0,614285714 0,416666667 0,814285714 0,396428571
10 0,651428571 0,60952381 0,664285714 0,437142857 0,434285714 0,710714286 0,996428571 0,795238095
11 0,892857143 0,646428571 0,338095238 0,65952381 0,54 0,604081633 0,814285714

620
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

12 0,732142857 0,928571429 0,488571429 0,665714286 0,682142857 0,992857143 0,812244898


13 0,445714286 0,567857143 0,717142857 0,852380952
14 0,465714286 0,989285714 0,482857143
15 0,907142857 0,855555556 0,442857143
16 0,90952381 0,803571429 0,696428571
17 0,871428571 0,633928571
18 0,655357143
Mi 30 25 45 33 29 30 40 43

mi 12 10 18 13 12 12 16 17

Yˆi   0,75269841  0,72004762  0,72733151  0,54484432  0,6259127  0,60219955  0,76951621  0,65535514 

Yˆ  
i
22,5809524  18,0011905  32,7299178  17,9798626  18,1514683  18,0659864  30,7806483  28,1802711 

SˆY2i   0,01316795  0,03197025  0,03847288  0,04264679  0,02535236  0,05039214  0,02903216  0,02396527 

Donde:

mi
yij 1 mi

Yˆi i 1 Y SˆY2i ( yij Yˆi ) 2


mi mi j 1

a) De los datos se obtienen los siguientes indicadores n 8

n mi n
Mi yij mi Yˆi
ˆ i 1 j 1 i 1 186,470297
Y n n
0,67807381
275
Mi Mi
i 1 i 1

En la zona sus habitantes producen en promedio diariamente 0,67 Kg por día.

b) Para el cálculo del total de viviendas incluidas en la zona se tiene:

M0 NM (50)(40) 2000

ˆ
ˆ 1 N ( N n) n
(Yˆi M iY ) 2 N n SˆY2i
Vˆ (Y ) M i (M i mi ).
M 02 n i 1 n 1 n i 1 mi

ˆ
1 N ( N n) n
M i2 (Yˆi Y ) 2 N n SˆY2i
M i (M i mi )
M 02 n i 1 n 1 n i 1 mi

1 50(50 8) 50
2
(7,45124245) (13,1807101 0,00050958
2000 8 8

621
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

9.13 MUESTREO BIETAPICO PARA ATRIBUTOS. CONGLOMERADOS DE DIFERENTE TAMAÑO.

Si se considera que la variable analizada Y , solo puede tomar valores 1 ó 0 dependiendo de si la unidad estadística analizada
posee o no determinada característica respectivamente, entonces en este contexto, los estimadores para la proporción y el
total poblacionales vienen dados respectivamente por:

9.13.1 Estimador de la proporción y del total para atributos.

PARÁMETRO ESTIMADOR

N
(9.40)
Ai n n
N N
P i 1 PˆMBD M i .Pˆi . Aˆ i
N n.M 0 i 1 n.M 0 i 1
Mi
i 1

PARÁMETRO ESTIMADOR
(9.41)
N n n
N N
A N .P Ai Aˆ MBD M 0 .Pˆ M i .Pˆi Aˆ i
i 1 n i 1 n i 1

Aquí:
N ai
M0 M i , Pˆi
i 1 mi

Las expresiones anteriores se obtienen realizando los siguientes reemplazos:

Mi
y ij
i 1 Ai
Yi Pi
Mi Mi
Análogamente:

mi
y ij
ai
Yˆi Pˆi .
j 1

mi mi

Aquí Ai y ai , son respectivamente los totales de unidades que pertenecen a la clase C en todo el conglomerado y la
muestra del conglomerado i-ésimo.

Así mismo:

622
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

ˆ N n mi
yij N n
N n
Y Mi. M i Pˆi Aˆ i Pˆ
n.M 0 i 1 j 1 mi n.M 0 i 1 n.M 0 i 1

9.13.2 Propiedades del estimador de la proporción y del total para atributos.

Las propiedades básicas son:

Propiedad 9.15: Expresión de la varianza para el estimador de la proporción en el MBI de conglomerados de


diferente tamaño

La varianza para el estimador de P en el Muestreo Bietápico en conglomerados de tamaño diferente viene dada por:

N2 N
( Ai P )2 N N
M i2 .(1 f 2i ) M i .Pi .Qi
V ( PˆMBD ) .(1 f1 ). (9.42)
n.M 02 i 1 N 1 n.M 02 i 1 mi Mi 1

Para llegar a la expresión anterior, se realizan los siguientes reemplazos en el resultado de la propiedad 9.11 analizada en el
apartado correspondiente al Muestreo Bietápico para variables en conglomerados de diferente tamaño.

En este contexto se realiza el siguiente supuesto para la variable Y:

1; U ij C
yij
0; U ij C U ij : Unidad elemental j dentro del conglomerado i

De acuerdo con lo anterior:

Mi N N

Mi
y ij Yi Ai
j 1 Ai i 1 i 1 A
Yi y ij Ai ; Yi Pi ; Y P
j 1 Mi Mi N N N

N
(Yi Y ) 2 N
( Ai P ) 2
i 1 N 1 i 1 N 1

N 2

N
Ai
2 i 1
A i N N 2
N
i 1 N 2 1 N
Yi 2
N .Y 2
Ai . Ai
N
(Yi Y ) 2 i 1 i 1 N i1
i 1 N 1 N 1 N 1 N 1

623
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Mi

Mi Mi
yij .M i Mi
2 1 2 1 2 j 1
S 2i ( yij Yi ) y ij 2.Yi . Yi 2
Mi 1 j 1 Mi 1 j 1 Mi j 1

Mi
1 1
S 22i y ij2 2.Yi 2 .M i M i .Yi 2 Ai M i .Pi 2
Mi 1 j 1 Mi 1
1 M i .Pi .(1 Pi ) M i .Pi .Qi
M i .Pi M i .Pi 2
Mi 1 Mi 1 Mi 1

Reemplazando en V (YMBD ) :

N2 N
( Ai P ) 2 N N
M i2 .(1 f 2i ) M i .Pi .Qi
V ( PˆMBD ) .(1 f 1 ).
n.M 02 i 1 N 1 n.M 02 i 1 mi Mi 1

Nota
Para la varianza del estimador del total de unidades que pertenecen a la clase C :

(9.43)
V ( Aˆ MBD ) V ( M 0 .PˆMBD ) M 02 .V ( PˆMBD )

Propiedad 9.16: Estimador para la varianza del estimador de la proporción en el MBI de conglomerados de diferente
tamaño

Un estimador de la varianza dada en la propiedad anterior, viene dada por:

n n 2
1
Aˆi2 Aˆi
N2 i 1 n i 1 N n
M i2 .(1 f 2i ).Pˆi .Qˆ i (9.44)
Vˆ ( PˆMBD ) .(1 f1 ).
n.M 02 n 1 n.M 02 i 1 mi 1

Teniendo en cuenta que:

mi mi
1 ai
Yˆi y ij Pˆi ; Yˆi M i .Yˆi M i .Pˆi Aˆ i ; yij2 ai
mi i 1 mi i 1

624
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

n n
Yˆi Aˆ i
Yˆ i 1 i 1
.
n n
2 2 2
n n n n n n n
1 1 1
(Yˆi Yˆ ) 2 M i .Pˆi M i .Pˆi Aˆ i Aˆ i Aˆ i2 Aˆ i
i 1 i 1 n i 1 i 1 n i 1 i 1 n i 1

mi
( y ij Yˆi ) 2 1 mi
1 1
Sˆ 22i y ij2 mi .Yˆi 2 ai mi .Pˆi 2 (mi .Pˆi mi .Pˆi 2 )
j 1 mi 1 mi 1 j 1 mi 1 mi 1
1 mi .Pˆi .Qˆ i
Sˆ 22i mi .Pˆi (1 .Pˆi ) .
mi 1 mi 1

ˆ
Reemplazando en la expresión de Vˆ (YMBD ) , dada en la propiedad 9.11:

n n 2
1
Aˆ i2 Aˆ i
N2 i 1 n i 1 N n
M i2 .(1 f 2i ).Pˆi .Qˆ i
Vˆ ( PˆMBD ) .(1 f1 ).
n.M 02 n 1 n.M 02 i 1 mi 1

Nota
Para el estimador de la varianza del estimador del total se tiene:

Vˆ ( Aˆ MBD ) Vˆ ( M 0 .PˆMBD ) M 02 .Vˆ ( PˆMBD ) (9.45)

Ejemplo 9.12
La secretaría de Salud Pública de un municipio desea conocer la proporción de viviendas de la comuna 03 en las cuales hay
mascotas y el número de ellas por vivienda. Para ello de acuerdo con el plano urbanístico de la zona demarcan las manzanas
y seleccionan una muestra de ellas. Posteriormente de acuerdo con el número de viviendas que posea la manzana
seleccionada obtienen una muestra sistemática de viviendas procediendo a realizar una encuesta a cada uno de los jefes de
hogar. De acuerdo con un censo anterior se pudo conocer con anterioridad la cantidad de viviendas por manzana en la
comuna 03.

El total de manzanas de la comuna es N 30 y el censo reporta 1140 viviendas. El resultado del trabajo de campo con
respecto a la variable Y : tenencia de mascotas en la vivienda, se sintetiza mediante la siguiente tabla:

Manz-01 Manz-02 Manz-03 Manz-04 Manz-05 Manz-06


Mi 33 45 38 24 51 35
mi 6 8 7 5 9 6
pi 0,333 0,25 0,143 0 0,222 0,5

625
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

La figura muestra las manzanas seleccionadas sobre el plano de la comuna.

Parque

Escuela

a) Estime el total de viviendas en las cuales sus habitantes tienen alguna mascota.
b) Estime el error estándar de estimación

Solución//

Para la estimación del total se tiene:  


 
n
ˆ N
a) A M i Pˆi 282,475
n i 1
En la comuna hay aproximadamente 283 viviendas en las cuales sus habitantes tienen alguna mascota.

b) Para el error estándar de estimación se tiene:

n n 2
1
Aˆ i2 Aˆ i
N2 i 1 n i 1 N n
M i2 .(1 f 2i ).Pˆi .Qˆ i
Vˆ ( PˆMBD ) .(1 f1 ).
n.M 02 n 1 n.M 02 i 1 mi 1

n 2
1 n ˆ
Aˆ i2 Ai
i 1 n i1 n
M i2 (1 f 2i ) Pˆi Qˆ i
35,8678314 Y 205,23395
n 1 i 1 mi 1
 
Y por lo tanto:  
 
n n 2
1
Aˆi2 Aˆi
N2 i 1 n i 1 N n
M i2 .(1 f 2i ).Pˆi .Qˆ i
Vˆ ( Aˆ MBD ) .(1 f1 ).
n n 1 n i 1 mi 1

626
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

30(1 6 / 50) 30
Vˆ ( Aˆ MBD ) (35,8678314) (205,23395) 1169,64107
6 6

Y para el error:

Vˆ ( Aˆ MBD ) 34,2000157

Ejemplo 9.13
Mediante MINITAB conforme 10 conglomerados y en cada uno de ellos genere las variables Y1 N( 20, ) y
Y2 Bernuoulli ( Pr ( E )) de acuerdo con la siguiente tabla:

Cong-01 Cong-02 Cong-03 Cong-04 Cong-05 Cong-06 Cong-07 Cong-08 Cong-09 Cong-10
Mi 20 35 50 45 33 28 55 60 34 25

Y1 5,7 3,5 4 3,9 4 2,9 4 6 5 4,1


Probabilidad de Éxito:
Y2 Pr (E )
0,3 0,25 0,8 0,65 0,3 0,68 0,3 0,7 0,35 0,28

a) Encuentre los siguientes parámetros poblacionales Y1 y P (proporción de unos en la población de valores de Y2 )


b) Para una muestra de cuatro conglomerados y dentro de cada uno de ellos una muestra de unidades cuyo tamaño sea
ˆ
mi (0,30)M i . Determine de acuerdo con estos tamaños de muestra V (Y1 ) y V (Pˆ )
c) Genere la muestra estipulada en el literal b) y con base en ella determine:

ˆ ˆ
Y1 y Vˆ (Y1 )
P̂ y Vˆ ( Pˆ )
ˆ
d) Determine el error absoluto ˆ Y Y y Pˆ
Pˆ P
Y

e) ¿Cuánto representan los errores hallados en d) en términos porcentuales?

Solución//

Como los conglomerados son de tamaños bastante diferentes entre sí, se usan estimadores de razón al tamaño.

N
N 10; n 4; M 0 Mi 385
i 1

627
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Con la información generada para cada una de las variables se obtiene la siguiente información estadística

Variable: Y1

Cong-01 Cong-02 Cong-03 Cong-04 Cong-05 Cong-06 Cong-07 Cong-08 Cong-09 Cong-10

Mi 20 35 50 45 33 28 55 60 34 25

mi 6 11 15 14 10 8 17 18 10 8

Yi 20,05307  19,9062629  20,000446  19,7908156  19,5868727  20,589225  19,5861345  19,1861133  19,6419735  18,907064 

2
S 2
38,9013218  9,16647815  16,4871507  18,3601962  12,7430431  4,98601547  13,1724601  36,0726762  37,9060097  30,3980551 

1 N N
M i2 (1 f 2i ) 1 Mi
S12Y1 M i2 (Yi Y ) 2 782,605631 S 22Y1 ( yij Yi ) 2 18962,2015
N 1i 1 i 1 mi Mi 1 j 1

Variable: Y2
Cong-01 Cong-02 Cong-03 Cong-04 Cong-05 Cong-06 Cong-07 Cong-08 Cong-09 Cong-10

Mi 20  35  50  45  33  28  55  60  34  25 

mi 6 11 15 14 10 8 17 18 10 8

Pi 0,3  0,2  0,78  0,64444444  0,36363636  0,67857143  0,29090909  0,65  0,35294118  0,4 

AI 6 7 39 29 12 19 16 39 12 10

1 N N
M i2 .(1 f 2i ) M i Pi .Qi
S12Y2 ( Ai P )2 458,112104 S 22Y2 10,3157895
N 1 i 1 i 1 mi Mi 1

a) Y 19,688734; P 0,49090909

N 2 (1 f1 ) 2 N 102 (1 4 10) 10
b) V (Y ) S1Y1 S 22Y (782,605631) (18962,2015) 0,39901898
M 02 .n M 02 .n 1 (385) 2 4 (385) 2 4

N2 N 10 2.(1 4 10) 10
V ( Pˆ ) (1 f1 ).S12Y2 S 22Y2 .( 458,112104) (10,3157895)
n.M 02 2
n.M 0 4(385) 2 4(385) 2
0,04653379

c) Muestra de conglomerados y muestra de unidades de segundo orden:

Cong-03 Cong-04 Cong-07 Cong-10


Valores de Valores de Valores de Valores de Valores de Valores de Valores de Valores de
Y1 Y2 Y1 Y2 Y1 Y2 Y1 Y2
1 19,8162 1 17,8565 1 21,7329 0 18,0461 1
2 21,5361 1 21,5062 0 19,2886 0 8,0118 1

628
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

3 7,4261 0 23,0575 0 19,3522 1 19,2399 1


4 21,8819 1 23,9358 1 12,4435 0 14,1044 0
5 21,4359 1 22,2979 0 16,2667 1 11,7061 0
6 26,2389 0 22,3154 0 24,1619 0 15,8064 0
7 25,4619 1 20,8862 1 22,2754 1 14,1943 0
8 24,3162 0 25,6479 1 17,1028 0 18,9962 0
9 12,4513 1 25,7888 0 24,0736 0
10 21,7731 1 21,8517 1 20,0634 0
11 20,6199 1 13,7363 1 16,6574 1
12 18,7063 1 27,6481 1 22,6271 1
13 19,0899 1 13,8992 0 21,1383 0
14 20,4548 0 18,5698 1 16,9139 0
15 18,4551 1 17,6355 1
16 23,4556 0
17 17,6407 0

De acuerdo con la tabla anterior se obtienen los siguientes indicadores muestrales para cada variable.

Variable Y1
Conglomerados muestreados
Cong-03 Cong-04 Cong-07 Cong-10
Mi 50 45 55 25
mi 15 14 17 8

Yˆ i
19,9775733 21,35695 19,5782059 15,01315

Sˆ22i 22,7917499 17,1677555 10,7141239 15,0014225

Ŷi 998,878667 961,06275 1076,80132 375,32875

1 n
ˆ n
M i2 (1 f 2i ) ˆ 2
Sˆ12Yˆ M i2 (Yˆi Y ) 2 6721,85039 Sˆ22Y1 S 2i 6483,83926
1
n 1i 1 i 1 mi
ˆ
Y 19,4975514
 
N 2 (1 f1 ) ˆ 2 N ˆ2 102 (1 4 10) 10
Vˆ (Y ) S1Y1 S 2Y (6721,85039) (6483,83926) 0,78959254  
M 02 .n M 02 .n 1 (385) 2 4 (385) 2 4

Variable Y2
Conglomerados muestreados
Cong-03 Cong-04 Cong-07 Cong-10

P̂i 0,73333333 0,57142857 0,35294118 0,375

Q̂i 0,26666667 0,42857143 0,64705882 0,625

Âi 36,6666667 25,7142857 19,4117647 9,375

Â12 1344,44444 661,22449 376,816609 87,890625

629
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

n 2
1 n 1
Ai2 Ai 2470,37617 (91,1677171) 2
n i1 4
Sˆ12Y2 i 1
130,829336
n 1 (4 1)
n
M i .(1 f 2i ) Pˆi .Qˆ i
2
S 22Y2 7,04025419
i 1 mi mi 1

n
N M i Pˆi
10.(91,1677171)
Pˆ i 1
0,59199816
n.M 0 4(385)

N2 N ˆ2 10 2.(1 4 10) 10
Vˆ ( Pˆ ) (1 f1 ).Sˆ12Y2 S 2Y2 .(130,829336) (7,04025419)
n.M 02 n.M 02 4(385) 2 4(385) 2
0,01335834

d) Errores absolutos cometidos con las estimaciones:

ˆ
Para la estimación de Y : ˆ Y Y 19,688734 19,4975514 0,1911826 con sobrestimación y para la
Y

estimación de P: Pˆ
Pˆ P 0,59199816 0,49090909 0,10108907 con sobrestimación.

e) Calculando el error relativo:

0,1911826 0,10108907
r 100 100 0,98054672 % Y r 100 100 20,592218%
Y 19,4975514 P 0,49090909

9.14 CALCULO DEL m Y n ÓPTIMOS EN MBI DE CONGLOMERADOS DE DIFERENTE TAMAÑO


UTILIZANDO LA RAZÓN AL TAMAÑO DEL CONGLOMERADO.

mi m
Supóngase que f 2i f2 para todo conglomerado y que se asume la siguiente función de costos:
Mi M
n n
C Cu .n C2 . mi C1. Mi (9.46)
i 1 i 1

En donde:

Cu : Costo fijo por unidad primaria o conglomerada.


C 2 : Costo de medir o encuestar una unidad elemental.
C 1 : Costo de listar (marco de muestreo) las unidades elementales de los conglomerados seleccionados.

630
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Bajo el contexto anterior:

E (C ) C u .n C 2 .m .n C1 n.M (C u C1 .M ).n C 2 .n.m C1 .n C 2 .n.m

De esta manera ahora C1 , incluye también el costo promedio de listar las unidades elementales en la unidad conglomerada
que ha sido seleccionada.
ˆ
Como se sabe el objetivo es determinar m f 2 .M y n , de tal manera que se minimice V (YMBR ) o C , dependiendo de
cual haya sido pre-asignada.

Para la obtención del m óptimo se considera la siguiente expresión de la varianza:

ˆ YˆMBR
V (YMBR ) V
M0

1 1 N2 N
M i2 (Yi Y ) 2 1 N N M i2 .(1 f 2i ) 2
.V (YˆMBR ) .(1 f1 ). . . .S 2i
M 02 M 02 n i 1 N 1 M 02 n i 1 mi

Pero:

mi m m N .m
f 2i f2 ,
Mi M M0 M0
N
Entonces:

M i .( N .m )
mi
M0

Y reemplazando en la expresión de varianza anterior:

ˆ Yˆ
V (YMBR ) V MBR
M0

1 1 N2 N
M i2 (Yi Y ) 2 1 N N M i2 .(1 f 2i ) 2
.V (YˆMBR ) .(1 f1 ). . . .S 2i
M02
M 02 n i 1 N 1 M 02 n i 1 M i. ( N .m )
M0
1 1 N2 N
M i2 (Yi Y ) 2 (1 f 2 ) N M i
.V (YˆMBR ) .(1 f 1 ). . .S 22i
M 02 M 02 n i 1 N 1 n.m i 1 M 0

631
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Reemplazando en el primer término de la expresión anterior M 0 N .M :

ˆ (1 f1 ) N
M i2 (Yi Y ) 2 (1 f 2 ) N M i
V (YMBR ) . .S 22i
n i 1 M 2 .( N 1) n.m i 1 M 0

Haciendo:

2
N
M i2 .(Yi Y ) 2 N
Mi Mi
( yij Yi ) 2
S b 2
2
; S2 .S 22i ; S 22i
i 1 M ( N 1) i 1 M0 j 1 Mi 1

Se tiene:

ˆ (1 f1 ) (1 f 2 ) 2 1 n 1 m
V (YMBR ) S b2 .S 2 1 .S b2 1 .S 22
n n.m n N n.m M
1 2 S 22 S 22 S b2
Sb
n M n.m N

Por analogía con lo visto en el apartado 9.7, para el MBI de igual tamaño, después de plantear la función de Lagrange se
tienen que el m óptimo viene dada por:

S2 C1
mop . (9.47)
2 S 22 C2
S b
M
2
Tanto S b como S 22 , deben ser estimados por anticipado mediante el uso de muestras piloto o mediante conocimientos de
otras investigaciones similares.

* *
Si n y mi , son muestras piloto, entonces:

ˆ
M i2 .(Yˆi YMBR ) 2 ˆ mi* *
n*
1 1 n
Sˆ b2 , Yi M i .Yˆi Mi. * yij ˆ
; M . Mi
i 1 M 2 (n * 1) mi j 1 n* i 1

n* mi*
( y ij Yˆi ) 2
*
Mi ˆ2 1 mi
Sˆ 22 .S 2i ; M 0 N .M ; Mˆ 0 N .Mˆ ; Sˆ 22i ˆ
; Yi . y ij
i 1 M0 j 1 mi* 1 mi* j 1

Si se ha pre-asignado C , el m minimiza la varianza, y para el cálculo de n se tiene:

632
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

C
n (9.48)
C1 mop .C2

ˆ
Si se ha pre-asignado la varianza V (YMBR ) V0 , entonces él m , minimiza los costos C del trabajo de campo y para el
cálculo de n se tendría:

(1 f 2 ) 2
S b2 .S 2 (9.49)
mop
n
S b2
V0
N
Ejemplo 9.14
En el ejercicio 9.13, considere la muestra de conglomerados generada como una muestra piloto.

a) Encuentre mediante la expresión 9.36 un estimador para él mop . No asuma función de costos. 
ˆ
b) Asuma para la estimación de Y en la variable Y1 , una varianza deseada de V (YMBR ) V0 0,63332696 .
ˆ
correspondiente a un error del 8% de Y estimado en la muestra piloto, determine el valor de n .

c) ¿Es suficiente la muestra asumida en el ejercicio 9.12 para la estimación solicitada? ¿Qué ajustes habría que hacerle?

Solución//

a) De la información del ejercicio 9.13 se obtiene:

Conglomerados muestreados
Cong-03 Cong-04 Cong-07 Cong-10
n* 4
Mi 50 45 55 25
mi 15 14 17 8 m 13,5

Yˆi 19,9775733 21,35695 19,5782059 15,01315 Y


ˆ
19,4975514
Sˆ 2
2i
22,7917499 17,1677555 10,7141239 15,0014225

Ŷi 998,878667 961,06275 1076,80132 375,32875

De la población M 38,5 , M 0 385 .


 

ˆ
n*
M i2 .(Yˆi YMBR ) 2 n*
Mi ˆ2
Sˆb2 4,53489649 Sˆ22 .S 2i 7,47129576
i 1 M 2 (n* 1) i 1 M0

633
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Sˆ 2 7,47129576
mˆ op 3,74433 4
ˆ2 4,53489649 7,47129576 13,5
Sˆb2 S 2
Nota m*
Este estimador está sujeto a los errores de muestreo que depende de la relación Sˆb Sˆ 2 .
2 2

b) De los datos f 2 mˆ op M 0,1038961 .

(1 f 2 ) ˆ 2
Sˆb2 .S 2
mˆ op
n 5,2886 6
Sˆb2
V0
N
c) Se requiere el siguiente ajuste: Incrementar en 2 , las unidades conglomeradas y dentro de cada uno el tamaño de muestra
para las unidades de segundo orden se calcularan siguiendo la relación: f 2i mi M i f 2 0,1038961; es decir:
mi 0,1038961.(M i ) .

De acuerdo con la relación anterior el tamaño de muestra mi requerido en cada conglomerado sería:

Cong-01 Cong-02 Cong-03 Cong-04 Cong-05 Cong-06 Cong-07 Cong-08 Cong-09 Cong-10

Mi 20  35  50  45  33  28  55  60  34  25 

mi* 6 11 15 14 10 8 17 18 10 8

mi 2,07792208 3,63636364 5,19480519 4,67532468 3,42857143 2,90909091 5,71428571 6,23376623 3,53246753 2,5974026

*
En la tabla anterior mi es el número de unidades elementales en cada conglomerado en la muestra piloto. Note que en
cada uno de los ya muestreados se han tomado más unidades de las requeridas según la relación establecida (de acuerdo
con el mop ). Para mantener el balance entre los nuevos conglomerados que se adicionen, lo correcto será mantener para
*
estos la relación establecida en el piloto ya que mi mi .

9.15 MUESTREO BIETACO CON SELECCIÓN DEL CONGLOMERADO CON PROBABILIDAD DIFERENTE
MEDIANTE REEMPLAZO

En este apartado se considera que cada conglomerado es seleccionado mediante reemplazo con probabilidad variable i . En
donde desde luego:

634
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

i 1
i 1

Considerando que los conglomerados son de tamaño diferente.

9.15.1 Estimador del total y estimador de la media por unidad elemental en el muestreo bietápico de unidades
diferentes cuando su selección se realiza con probabilidades variables y reemplazo

En este caso para la variable Y se tiene respectivamente para el total y la media por unidad:

PARÁMETRO ESTIMADOR

(9.50)
N Mi
1 n
M iYˆi 1 n
Mi mi
YMBIR yij YˆMBIR yij mi
i 1 j 1 n i 1 i n i 1 i j 1

PARÁMETRO ESTIMADOR

N Mi N (9.51)
yij Yi 1 n
M iYˆi
ˆ
Y i 1 j 1 i 1 YMBIR
N
M0 n.M 0 i 1 i
Mi
i 1

9.15.2 Propiedades del estimador del total y estimador de la media por unidad elemental en el muestreo bietápico
con reemplazo y selección con probabilidades diferentes son insesgados

Se tienen las siguientes propiedades:

Propiedade 9.17: Insesgamiento del estimador del total y la media por unidad

ˆ
E (YˆMBIR ) Y ; E (YMBIR ) Y

Propiedad 9.18: Expresión de la varianza para el estimador del total y estimador insesgado (Cochran, 1980) de la
media por unidad elemental en el muestreo bietápico con reemplazo y selección con probabilidades diferentes

2
1 N
Yi 1 N
M i2 (1 f 2i )
V (YˆMBIR ) i Y S 22i (9.52)
n i 1 i n i 1 mi i

ˆ 1
V (YMBIR ) V (YˆMBIR ) (9.53)
M 02

635
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Propiedad 9.19: Estimador insesgado para la varianza para el estimador del total y estimador de la media por unidad
elemental en el muestreo bietápico con reemplazo y selección con probabilidades diferentes

2
1 n
Yˆi
Vˆ (YˆMBIR ) i Yˆ (9.54)
n.(n 1) i 1 i

ˆ 1 ˆ ˆ
Vˆ (YMBIR ) V (YMBIR ) (9.55)
M 02

Ejemplo 9.15
Si se asume que i M i M 0 para encontrar el estimador PPT (obtenido con probabilidades proporcionales al tamaño del
conglomerado) de la media por unidad elemental y el estimador de su varianza.

Solución//

Para el estimador se tendrá:

ˆ 1 n
M iYˆi 1 n
M iYˆi M 0 1 n
1 n mi
ˆ (9.56)
YMBIR Yˆi yij mi Yppt
n.M 0 i 1 i nM 0 i 1 Mi n i 1 n i 1 j 1

Para el estimador de la varianza:

2
M i Yˆi M 0
n n 2
ˆ 1 ˆ ˆ 1 1 1 ˆ ˆ
Vˆ (YMBIR ) V (YMBIR ) Yˆ Yˆi Yppt ) Vˆ (Yppt ) (9.57)
M 02 2
M 0 n.(n 1) i 1 M0 Mi n.(n 1) i 1

Si se define que la variable yij toma solo valores 1 y 0 dependiendo de si la unidad objeto de estudio tiene o no tiene
determinado atributo se obtienen los estimadores PPT para el estimador de la proporción poblacional y su varianza.

Ejemplo 9.16
En el ejemplo anterior se determina que el valor de la variable Y , depende de si la unidad j-ésima de la unidad conglomerada
i-ésima pertenece o no a la clase C se tiene:

1 uij C
yij
0 uij C
Encontrar: P̂ppt y Vˆ ( Pˆppt )

Solución//

Para el estimador de la proporción:

n mi
1 1 n ai 1 n
Pˆppt yij mi Pˆi (9.58)
n i 1 j 1 n i 1 mi n i 1

636
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

En donde ai es el total de unidades del conglomerado i-ésimo que en la muestra pertenecen a la case C .

Para el estimador del total de unidades que pertenecen a la clase C se tendrá:

Aˆ ppt M 0 Pˆppt (9.59)

Para la varianza:

n 2 n
1 ˆ 1
Yˆi Yppt )
2
Vˆ ( Pˆppt ) Pˆi Pˆppt (9.60)
n.(n 1) i 1 n.(n 1) i 1

Para el total de unidades que en la población pertenecen a la clase C se tendrá como estimador de varianza:

Vˆ ( Aˆ ppt ) M 02 .Vˆ ( Pˆppt ) (9.61)

En estudios de áreas agropecuarias se puede disponer de una malla de puntos sobre un mapa previamente divido en zonas, o
sobre una fotografía aérea. Las zonas elementales del mapa (segmentos) o parcelas sobre la fotografía se seleccionan si
contienen un punto de la malla, con probabilidad proporcional a su superficie (Clairin et al., 2001). Este punto podría ser un
rango de selección.

9.16 MUESTREO TRIETAPICO

A manera de ilustración se presentan los estimadores básicos del muestreo trietapico empezando primero por el muestreo
trietápico de unidades iguales. Este modelo de muestreo es un caso particular del muestreo trietápico general. A continuación
se obtienen las expresiones básicas y se explica su uso.

Se debe tener presente en este caso lo siguiente:

N : Número de unidades de primer orden (UPMs) en la población.


n
n : Número de unidades primarias muestreadas. f1 .
N
M : Número de unidades de segundo orden (USMs) dentro de cada unidad primaria.
m
m : Número de unidades de segundo orden muestreadas dentro de cada unidad primaria; f 2 .
M
K : Número de unidades de tercer orden (UTMs) dentro de cada unidad secundaria.
k
k : Número de unidades elementales muestreadas (UTMs) en cada unidad de segundo orden; f 3 .
K
yijl : Valor de la variable Y para la unidad elemental l de la unidad secundaria j dentro de la unidad primaria i .

637
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

9.16.1 Estimador del total y estimador de la media por unidad elemental en el muestreo trietápico de unidades
conglomeradas de igual tamaño

El estimador del total en el muestreo trietápico de unidades de igual tamaño es:

PARÁMETRO ESTIMADOR

N M K ˆ ˆ (9.62)
Y yijl NMKY Yˆ NMK Y M 0Y
i 1 j 1 l 1

Para el estimador de la media por unidad elemental:

PARÁMETRO ESTIMADOR

ˆ (9.63)
1 1 ˆ
Y Y Y Y
NMK NMK

9.16.2 Propiedades del estimador del total en el muestreo trietápico de unidades iguales

Se plantean las propiedades del estimador del total y la media por unidad elemental en el muestreo trietapico con unidades de
igual tamaño.

Propiedad 9.20: Insesgamiento del estimador del total en el muestreo trietápico con unidades iguales.

E (Yˆ ) Y

Propiedad 9.21: Expresión de la varianza del estimador del total en el muestreo trietápico con unidades de igual
tamaño

En la descomposición de la variación se tiene:

N M K 2

( NMK 1) y ijl Y
i 1 j 1 l 1
Variación Total

N 2 N M N M K
2 2
MK ( N 1) Yi Y NK ( M 1) Yij Yi NM ( K 1) y ijl Yij
i 1 i 1 j 1 i 1 j 1 l 1
Variación entre UPMs Variación entre USMs Variación entre UTMs

N M K N M N
1 1 1
Y y ijl Yij Yi
NMK i 1 j 1 j 1 NM i 1 j 1 N i 1

638
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

K M K M K M
1 1 1 1
Yij y ijl ; Yi y ijl y ijl K Yij
K l 1 MK j 1 j 1 M j 1 l 1 M j 1

Para la expresión de la varianza se tiene:

S12i N N
S 22i N N
M M S 32j
V (Yˆ ) N 2 (1 f1 ) M 2 (1 f2 ) K 2 (1 f3 ) (9.64)
n n i 1 m n i 1 m j 1 k
Donde:

N M K N N M K
1 1 1
S12i (Yi Y ) 2 ; Yi yijl ; Y Yi yijl
N 1i 1 j 1 l N i 1 N i 1 j 1 l 1

ˆ N 2 (1 f1 ) S12 N N
S 22i
2 N N M
2
S32j
V (Y ) M (1 f 2 ) M K (1 f 3 ) (1)
( NMK ) 2 n ( NMK ) 2 i 1 n.m ( NMK ) 2 i 1 j 1 n.m.k

Además:

M K N M K N
Yi 1 Y 1 1 1
yijl Yi ; yijl Yi Y
MK MK j 1 l 1 MK N i 1 MK j 1 l 1 N i 1
Entonces:

S12 1 N
1 M
(Yi Y ) 2 ; S 22i (Yij Yi ) 2
( MK ) 2 N 1i 1 M 1 j 1

¿A qué será igual la siguiente expresión?

1 2
S 2i ?
K2
K K M M K M K
1 1 1 1 1
Yij yijl ; yijl Yij ; Yi Yij yijl ; Yi yijl Yi
l 1 K l 1 M j 1 M j 1 l 1 K KM j 1 l 1

Por lo tanto:

M K
1 2 1 1
S 2i (Yij Yi ) 2 ; S32 j ( yijl Yij ) 2
K2 M 1 j 1 K 1l 1

639
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Reemplazando en la expresión (1) se tiene:

ˆ (1 f1 ) S12 N
(1 f 2 ) S 22i N M (1 f 3 ) S 32j
V (Y )
n M 2K 2 i 1 Nnm K 2 i 1 j 1 NM (nmk )

N N M N M K
(Yi Y ) 2 (Yij Yi ) 2 ( yijl Yij ) 2
ˆ (1 f1 ) i 1 (1 f 2 ) i 1 j 1 (1 f 3 ) i 1 j 1 l 1
V (Y )
n ( N 1) nm N ( M 1) nmk NM ( K 1)

ˆ (1 f1 ) (1 f2 ) 2 (1 f 3 ) 2
V (Y ) S b2 S bw S ww
n nm nmk

Realizando los siguientes cambios:

S b2 S12 ; S bw
2
S 22 ; S ww
2
S 32

Propiedad 9.22: Estimador insesgado de la varianza del estimador del total en el muestreo trietápico con unidades de
igual tamaño

ˆ (1 f1 ) ˆ 2 f1 .(1 f 2 ) ˆ 2 f1 f 2 (1 f 3 ) ˆ 2
Vˆ (Y ) S1 S2 S3 (9.65)
n n.m n.m.k
Donde:

n n m n m k
1 1 1
Sˆ12 ( yi y ) 2 ; Sˆ22 ( yij yi ) 2 ; Sˆ32 ( yijl yij ) 2
n 1i 1 n(m 1) i 1 j 1 nm(k 1) i 1 j 1 l 1

n m k n m k
N M K NMK
Yˆ y ijl y ijl
n i 1 n j 1 k l 1 nmk i 1 j 1 l 1

ˆ Yˆ 1 n m k n m
Y y y ijl ; nmk k ij ; k ij k , ij
NMK nmk i 1 j 1 l 1 i 1 j 1

m k k
1 1
yi y ijl ; y ij y ijl
mk j 1 l 1 k l 1

640
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

9.17 TAMAÑO DE MUESTRA EN EL MUESTREO TRIETAPICO CON UNIDADES DE IGUAL TAMAÑO

Se tienen en cuenta los siguientes costos:

Costo total ( C ); Costo fijo ( C0 ); Costo por UPM ( C1 ); Costo por USM ( C2 ); Costo por UTM ( C3 )

C C0 C1n C2 nm C3nmk (9.66)

Estableciendo la función de Lagrange:

V ( y) C c1 n c 2 nm c3 nmk
Se tiene:

S 22 S 32 K c1 Sˆ 22 Sˆ32 k * c1
móp ; mˆ óp (9.67)
S12 S 22 M c2 Sˆ12 Sˆ 22 m* c2

S3 c1 Sˆ 32 c1
k óp ; kˆóp (9.68)
S 22 S 32 K c3 Sˆ 2
2 Sˆ 32 k * c3

Donde:

1 f1 2 1 f2 2 1 f3 2
V ( y) S1 S2 S3 ; C C0 C1n C2 nm C3nmk
n nm nmk

Nota Nº1
Se encuentra primero por adelantado m̂óp y k̂óp tomando muestras piloto m* y k*

Nota Nº2
2
Para hallar el tamaño de muestra n , determine V Z o la expresión de costos.

Nota Nº3

Si:
mˆ óp M móp M ; kˆóp K k óp K

Nota Nº4

Si:

641
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

( Sˆ22 Sˆ32 k* )
Sˆ22 < S 32 k k óp K; <0 móp M
( Sˆ12 Sˆ22 m* )

Ejemplo 9.17
En la urbanización Simón Bolívar se desea conocer el ingreso promedio mensual por familia (salarios mínimos) y para ello se
toma una muestra de 4 sectores conformado por cuatro manzanas cada uno y dentro de ellos se selecciona en forma aleatoria
una muestra de 3 manzanas y finalmente dentro de cada manzana seleccionada se toma en forma aleatoria una muestra de 12
viviendas en forma sistemática. La muestra total está integrada por 144 viviendas repartidas en 12 manzanas y 3 sectores. La
Urbanización tiene 10 sectores censales de 4 manzanas cada uno y cada manzana conteniendo 60 viviendas.

La muestra arrojó la siguiente información:

Sector Manzanas Sector Manzanas


100 101 103 104 300 302 303 304

V-01 7,3 12,3 7,5 V-01 6,9 7 7,3

V-02 11,3 8,9 11 V-02 8,6 3,6 1,8

V-03 7,4 10 14,6 V-03 9,4 2,5 8,1

V-04 4,2 6,4 7,6 V-04 7,1 9,5 7,7

V-05 6,8 1,9 9,2 V-05 6,3 7,3 7,2

V-06 9,5 9,6 9,4 V-06 7,1 10,3 1,1

V-07 6 4,5 11,2 V-07 7,3 10,2 8,6

V-08 7,4 8,3 7,9 V-08 5,2 3,2 8,7

V-09 7,5 11,8 7,4 V-09 4,3 8,5 3,4

V-10 6 10 9 V-10 3,8 5,5 5,1

V-11 8,1 4,6 6,8 V-11 5,2 4,2 8,9

V-12 6,6 10,1 8,3 V-12 4,9 5,3 9,9


Sector Manzanas Sector Manzanas
500 501 502 504 900 901 902 903

V-01 2,8 1,9 7 V-01 4,3 1,4 7,3

V-02 3,7 5,6 2,6 V-02 3,8 3,7 5,6

V-03 4,8 5,1 1,7 V-03 4,3 4,9 0,6

V-04 4,9 9,1 5,6 V-04 2,1 3,1 2,1

V-05 4,3 3 8,3 V-05 2,8 1,3 4,2

V-06 5,5 10,7 5 V-06 4,9 3 2,3

V-07 2,9 1 6,9 V-07 3,7 1,4 2,1

V-08 6,3 10,8 5,5 V-08 2 4 2,1

V-09 5 9 4,8 V-09 1,9 3,2 3,5

V-10 2,8 5,1 4,1 V-10 7,4 1,7 7,4

V-11 1,7 4,8 2,5 V-11 4,7 2,7 3,7

V-12 3,3 5,8 5,3 V-12 1,5 2,6 7,9

642
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

a) Encontrar el ingreso semanal por familia.


b) Estima la varianza.
c) Si se considera la información obtenida para los 4 sectores como una muestra piloto, y se mantienen los tamaños para
m y k ¿qué tamaño de muestra se requiere para estimar el ingreso promedio por familia con un error de 0,5 y un nivel de
confianza del 95%?
d) Si se considera la información obtenida para los 4 sectores como una muestra piloto, ¿qué tamaño de muestra se requiere
para estimar el ingreso promedio con un error de 0,5 y una varianza del 95% usando MAS?

Solución//

a) Para el ingreso semanal por familia se tienen:

Unidades de muestreo Población Muestra


Sectores censales UPMs N=10 n=4
Manzanas USMs M=4 m=3
Viviendas UTMs K=60 k=12

Total de manzanas en la población N.M (10).(4) 40


Total de viviendas en la población N.M.K (10).(4).(60) 2400
Total de manzanas en la muestra n.m (4).(3) 12
Total de viviendas en la muestra n.m.k (4).(3).(12) 144

n m k 4 3 12
1 1 831,8
y y ijl y ijl 5.7764
nmk i 1 j 1 l 1 (4)(3)(12) i 1 j 1 l 1 144

b) Para el estimador de la varianza:

k m k
1 1
Sector yij yijl yi yijl
k l 1 mk j 1 l

100 7,34166667 8,2 9,15833333 8,23333333


300 6,34166667 6,425 6,48333333 6,41666667
500 4 5,99166667 4,94166667 4,97777778
900 3,61666667 2,75 4,06666667 3,47777778

n
( yi y )2 m k m k m
(12,3679244) 1 1 1
Sˆ12 i 1
4.12264147 ; yi y ijl y ijl k y ij
n 1 (4 1) m.k j 1 l 1 m j 1 l 1 m j 1

n m
( yij yi ) 2 n m
1
Sˆ22 i 1 j 1
( yij yi (m 1) 0.44783179
n(m 1) n i 1 j 1

643
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Sectores
100 300 500 900
101 103 104 302 303 304 501 502 504 901 902 903
yij 7,3417 8,2 9,1583 6,3417 6,425 6,4833 4 5,9917 4,9417 3,6167 2,75 4,0667

Sˆij2 0,245 2,42 0,32 2 1,445 3,38 0,125 7,605 1,445 3,92 0,72 0,18

n m k n m
1 1 23,805
Sˆ 32 (yijl y ij ) 2 k 1 Sˆ ij2 1,98375
nm i 1 j 1 l 1 nm i 1 j 1 (4)(3)

Reemplazando:

ˆ (1 f1 ) ˆ 2 f1.(1 f 2 ) ˆ 2 f1 f 2 (1 f 3 ) ˆ 2
Vˆ (Y ) S1 S2 S3 0.61839622 0.00373193 0.00330625 0.6254344
n n.m n.m.k
c) Para el tamaño de muestra con las exigencias establecidas se tiene:

ˆ (1 f1 ) (1 f2 ) 2 (1 f 3 ) 2
V (Y ) Sb2 Sbw S ww ; Sb2 S12 ; Sbw
2
S22 ; S ww
2
S33
n nm nmk

ˆ 1 2 1 1 1 2 S *2
V (Y ) S1 (1 f 2 ) S 22 (1 f 3 ) S 32 S1 n
n m mk N 1 2
V ( y) S1
S*2 N

4,20442222
n 2
8,81 9
0,5 1
(4,123)
1,96 10

Se requiere realizar un censo en la Urbanización Simón Bolívar (tomar prácticamente todos los sectores)

d) El tamaño de muestra usando MAS será:

(2,90167509) 2
n 2
122.76
0,5 1
(2,90167509) 2
1,96 2400
Se requieren 123 viviendas de las 2400 para alcanzar los requerimientos establecidos utilizando un MAS

644
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

9.18 MUESTREO TRIETAPICO CON UNIDADES DE DIFERENTE TAMAÑO PARA VARIABLES

N : Número de unidades de primer orden (UPMs) en la población.


n
n : Número de unidades primarias muestreadas; f1 .
N
M i : Número de unidades de segundo orden (USMs) dentro de cada unidad primaria i.
mi
mi : Número de unidades de segundo orden muestreadas dentro de la unidad primaria i. f 2i .
Mi
K ij : Número de unidades de tercer orden (UTMs) dentro de cada unidad secundaria.
kij
kij : Número de unidades elementales muestreadas (UTMs) en unidad secundaria j de la unidad primaria i. f3 j .
Kij
yijl : Valor de la variable Y para la unidad elemental l de la unidad secundaria j dentro de la unidad primaria i .

9.18.1 Estimador del total en el muestreo trietápico de unidades de diferente tamaño. Estimador de la media por
unidad elemental

El estimador del total en el muestreo trietápico de unidades de igual tamaño es:

PARÁMETRO ESTIMADOR

kij (9.69)
N M i K ij
N n
Mi mi
K ij N n
Mi mi
Y yijl Yˆ y ijl K ij . y ij
i 1 j 1 l 1 n i 1 mi j 1 k ij l 1 n i 1 mi j 1

Nota:

mi
N n
Mi N n
N n
Yˆ Yˆij M i Yˆi Yˆi N .Yˆ
n i 1 mi j 1 n i 1 n i 1

Para el estimador de la media por unidad elemental se tiene:

PARAMETRO ESTIMADOR

N M i K ij
yijl ˆ Yˆ Yˆ (9.70)
Y Y Mi
Y i 1 j 1 l 1
M0 N

M0 N Mi K ij
K ij i 1 j 1
i 1 j 1

645
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

9.18.2 Propiedades del estimador del total en el muestreo trietápico de unidades de diferente tamaño

Se presentan las propiedades básicas de los estimadores anteriormente definidos:

Propiedad 9.23: Insesgamiento del estimador del total en el muestreo trietapico de unidades de diferente tamaño

kij
N n
Mi mi
K ij N n
Mi mi
E Yˆ E1E2 E3 yijl E1E2 K ij .E (Yˆij )
n i 1 mi j 1 kij l 1 n i 1 mi j 1

n mi n mi n mi
N Mi N Mi N Mi
E Yˆ E1E2 K ijYij E1E2 Yij E1E2 Yij
n i 1 mi j 1 n i 1 mi j 1 n i 1 mi j 1

n n
N N
E1E2 M iYˆi E1 Yˆi E1 N .Yˆ E1 (Yˆ ) Y
n i 1 n i 1

Propiedad 9.24: Expresión de la varianza del estimador del total en el muestreo trietapico de unidades de diferente
tamaño

S12 N N
S22i N N
Mi Mi
S32j
V (Yˆ ) N (12
f) M (1
i
2
f 2i ). K (1 2
ij f3 j ) (9.71)
n n i 1 mi n i 1 mi j 1 kij
Usando el teorema de Madow se tiene:

V (Yˆ ) V1 E2 E3 Yˆ E1 V2 E3 Yˆ E1 E2 V3 Yˆ (1)

Ahora:

n mi n mi
N Mi N Mi
V1 E2 E3 Yˆ V1 E2 E3 K ij yij V1 E2 K ij E3 ( yij )
n i 1 mi j 1 n i 1 mi j 1

n mi n mi n mi
N Mi N Mi N
V1 E2 K ijYij V1 E2 Yˆij V1 E2 Mi Yij mi
n i 1 mi j 1 n i 1 mi j 1 n i 1 j 1

n n n n
N N N
V1 E2 M iYˆi V1 M i E2 Yˆi V1 M iYi V1 N Yi n V1 NYˆi N 2V (Yˆ )
n i 1 n i 1 n i 1 i 1

646
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

N
(Yi Y ) 2
(1 f) S12
N 2V (Yˆ ) N 2. i 1
N 2 (1 f)
n N 1 n
Luego se tiene que:

S12
V1 E2 E3 Yˆ N 2 (1 f) (2)
n

n mi n mi
N Mi N Mi
E1 V2 E3 Yˆ E1 V2 E3 K ij yij E1 V2 K ij yij
n i 1 mi j 1 n i 1 mi j 1

n mi n mi n mi
N Mi N Mi N Mi
E1 V2 K ij E3 yij E1 V2 K ijYij E1 V2 Yij
n i 1 mi j 1 n i 1 mi j 1 n i 1 mi j 1

mi
N n
Yij N n
N2 n
E1 V2 Mi E1 V2 M iYˆi E1 2 M i2V2 Yˆi
n i 1 j 1
mi n i 1 n i 1

Mi
mi 2
2
1 Yij Yi
N n
Mi j 1 N2 n
S 22i N2 N
S 22i n
E1 M i2 E1 M i2 (1 f 2i ). M i2 (1 f 2i ). .
n2 i 1 mi Mi 1 n2 i 1 mi n2 i 1 mi N

N N
S 22i
M i2 (1 f 2i ).
n i 1 mi

N N
S22i
E1 V2 E3 Yˆ M i2 (1 f 2i ). (3)
n i 1 mi
Ahora:

mi mi
N n
Mi N2 n
M i2
E1 E2 V3 Yˆ E1 E2 V3 K ij yij E1 E2 K ij2V3 ( yij )
n i 1 mi j 1 n2 i 1 mi2 j 1

647
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

kij K ij
1 ( yijl Yij ) 2
N2 n
M i2 mi
2
K ij l 1 N2 n
M i2 mi
2
S32j
E1 E2 K ij E1 E2 K (1ij f3 j ).
n2 i 1 mi2 j 1 kij K ij 1 n2 i 1 mi2 j 1 kij

N2 n
M i2 mi
S32j N2 n
M i2 Mi
S32j mi
E1 E2 K ij2 (1 f 3 j ). E1 K ij2 (1 f3 j )
n2 i 1 mi2 j 1 kij n2 i 1 mi2 j 1 k 2
ij Mi

Simplificando:

N2 n
Mi Mi
2
S32j N2 N
Mi Mi
2
S32j n
E1 2 K (1 ij f3 j ) K (1 ij f3 j ).
n i 1 mi j 1 kij n2 i 1 mi j 1 kij N

N2 N
Mi Mi
2
S 32j n N N
Mi Mi
2
S 32j
K (1 ij f 3 j ). K (1 ij f3 j )
n2 i 1 mi j 1 k ij N n i 1 mi j 1 k ij

Entonces:
N N
Mi Mi
S32j
E1 E2 V3 Yˆ K ij2 (1 f 3 j ). ( 4)
n i 1 mi j 1 kij

Finalmente reemplazando en la expresión (1) los resultados (sumandos) (2), (3) y (4) se tiene:

S12 N N
S22i N N
Mi Mi
S32j
V (Yˆ ) N 2 (1 f) M i2 (1 f 2i ). K ij2 (1 f3 j )
n n i 1 mi n i 1 mi j 1 kij

Para la varianza del estimador de la media por unidad elemental se realiza:

ˆ V (Yˆ )
V (Y ) 2
(9.72)
N Mi
K ij
i 1 j 1

Propiedad 9.25: Estimador insesgado de la varianza del estimador del total en el muestreo trietapico de unidades de
diferente tamaño

Sˆ12 N n
Sˆ22i N n
Mi mi
Sˆ32j
Vˆ (Yˆ ) N 2 (1 f) M i2 (1 f 2i ). K ij2 (1 f3 j ) (9.73)
n n i 1 mi n i 1 mi j 1 kij

648
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Otros estimadores involucrados:

n mi

(Yˆi Yˆ ) 2 mi k ij n
(Yˆ ij Yˆi ) 2
Mi
Sˆ12 i 1
; Yˆi K ij yijl kij ; Yˆ Yˆi n; Sˆ22i j 1

n 1 mi j 1 l 1 i 1 mi 1

kij
( yijl Yˆij ) 2
kij mi
Yˆij
Yˆij K ij yijl kij ; Yˆi Yˆij mi ; Sˆ32j l 1
; Yˆij
l 1 j 1 kij 1 K ij

Para el estimador de la varianza de la media por unidad elemental se tiene:

ˆ Vˆ (Yˆ )
Vˆ (Y ) 2
(9.74)
N Mi
K ij
i 1 j 1

Propiedad 9.26: Estimador insesgado de la varianza autoponderante del estimador del total en el muestreo trietapico
de unidades de diferente tamaño

Si se calculan los tamaños de muestra haciendo que permanezcan constantes las fracciones de muestreo f 2i y f 3 j se hace que
el estimador del total sea autoponderante es decir:

kij k mi m
f 3j f3 ij; kij f 3.K ij ; f 2i f2 i; mi f 2 .M i
K ij K Mi M

De esta forma la varianza para el estimador del total quedará:

Mi
S12 N .M N
N .M .K N
V (Yˆ ) N 2 (1 f) (1 f2 ) M i S 22i (1 f3 ) K ij S32j (9.75)
n n.m i 1 n.m .k i 1 j 1

Un estimador de la varianza del total basado en la expresión anterior es:

Sˆ 2 N .M n
N .M .K n mi
Vˆ (Yˆ ) N (1 2
f) 1 (1 f2 ) M i Sˆ22i (1 f3 ) K ij Sˆ32j (9.76)
n n.m i 1 n.m .k i 1 j 1

649
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Sobre la base de la expresión de varianza para estimadores autoponderantes se puede obtener un tamaño de muestra de la
siguiente manera:

a) Establecer las fracciones de muestreo para unidades de segundo y tercer orden es decir f 2 y f 3 . Tomar una muestra
* *
piloto de n unidades primarias y dentro de ellas una muestra de unidades secundarias m i y dentro de cada una de ellas
*
una muestra piloto de k de tal manera que:
ij

mi kij
f 2i f2 mi f 2 .M i ; f3 j f3 kij f 3 .K ij
Mi K ij
b) Con base en la muestra piloto obtenida encontrar: Ŝ1 ;
2
Sˆ22i y Sˆ32j .
c) Despejar de la expresión de varianza V (Yˆ ) el tamaño de muestra n , es decir:

Mi
S12 N .M N
N .M .K N
V (Yˆ ) 2
N (1 f) (1 f2 ) MiS 2
2i (1 f3 ) K ij S32j
n n.m i 1 n.m .k i 1 j 1

Mi
N 2 S12 N 2 S12 1 NM N
NM K N
V (Yˆ ) (1 f2 ) M i S 22i (1 f3 ) K ij S32j
n N n m i 1 mk i 1 j 1

1 2 2
N S1 A N .S12
n
Finalmente:

N 2 S12 A
n
V (Yˆ ) N .S12

Y , es decir: V (Yˆ ) V0
2
d) Establecer el error y el nivel de confianza para la estimación de T Z bajo el supuesto de
normalidad.

Ejemplo 9.18
La ciudadela de PALMA RUBIA está conformada por 112500 viviendas distribuidas en 100 barrios de aproximadamente 15
manzanas cada uno. A su vez cada manzana tiene en promedio de 75 viviendas.
Se realiza un estudio piloto con miras a estimar el número promedio de personas por vivienda, buscando cuantificar el nivel
de hacinamiento en la ciudadela. Dicho estudio piloto consistió en tomar una muestra de 5 barrios y dentro de cada barrio
tomar una muestra de manzanas para finalmente tomar en cada manzana una muestra de viviendas utilizando en cada etapa
para la selección de las unidades un MAS.

El estudio piloto arrojó los siguientes indicadores muestrales por barrio:

650
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

i=1 Barrio Nº 1 Mi=10 mi=4 i=2 Barrio Nº 2 Mi=15 mi=5


Manzana Kij kij yij Sˆ32j Yˆij Manzana K ij kij yij Sˆ32j Yˆij
1 80 10 4,1 4,322 328 1 65 15 4,6 3,4 299
2 70 12 3,417 2,447 239,2 2 70 10 3,6 8,267 252
3 65 10 4,6 2,044 299 3 75 15 4,267 5,067 320
4 74 8 4,88 9,55 361,1 4 80 9 4,444 5,028 355,5
5 72 11 5,273 6,818 379,7

i=3 Barrio Nº 3 Mi=12 mi=6 i=4 Barrio Nº 4 Mi=18 mi=4


Manzana Kij kij yij Sˆ32j Yˆij Manzana K ij kij yij Sˆ32j Yˆij
1 80 15 3,867 3,695 309,4 1 80 21 4,143 2,829 331,4
2 75 19 3,842 2,807 288,2 2 72 18 3,444 1,673 248
3 70 17 3,529 2,765 247 3 75 17 4,412 2,632 330,9
4 80 15 3,2 2,6 256 4 80 22 4,136 3,647 330,9
5 55 18 3,778 3,948 207,8
6 60 21 3,857 2,429 231,4

i=5 Barrio Nº 5 Mi=20 mi=8


Manzana K ij kij yij Sˆ32j Ŷij
1 60 10 6,5 4,944 390
2 60 7 6 11,33 360
3 75 9 6,111 1,611 458,3
4 68 9 6,444 3,528 438,2
5 72 8 5,75 0,786 414
6 80 10 6,1 6,1 488
7 71 12 6,667 3,333 473,4
8 60 10 8,1 4,767 486

Se tienen los siguientes indicadores muestrales por barrio:

Barrio Nº 1 Barrio Nº 2 Barrio Nº 3

Yˆi 1 306,8275 Yˆi 2 321,2402 Yˆi 3 256,625


Sˆ 2 2677,35049 Sˆ 2 2469,45472
2i 1 2i 2 Sˆ 2
2i 3 1377,48195
mi
Mi Mi mi
Yˆi Yˆij 3068,275 Yˆi Yˆij 4818.603 Mi mi
Yˆi Yˆij 3079.5
1 2
mi j 1 mi j 1 3
m

651
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Barrio Nº 4 Barrio Nº 5

Yˆi 4 310,297 Yˆi 5 438,48425


Sˆ 22i 4 1726,6914 Sˆ 2 2i 5 2204,19771
mi
Mi Mi mi
Yˆi 4 Yˆij 5585.346 Yˆi 5 Yˆij 8769.685
mi j 1 mi j 1

Se obtiene el siguiente cuadro resumen.

Barrio Nº Yˆi

1 3068,275
n
1
2 4818,603 Yˆ Yˆi 5064,2818
n i 1
n
3 3079,5 1
Sˆ12 (Yˆi Yˆ) 2 5496320,2
n 1i 1
4 5585,346

5 8769,685

a) Para el total de personas en Palma Rubia se tiene:

n
N 100
Yˆ Yˆi (25321,409) 506428,18
n i 1 5

b) Para la estimación de la varianza del estimador del total se tiene:

Sˆ 2 N n
Sˆ 2 N n
Mi mi
Sˆ32j
Vˆ (Yˆ ) N (1 2
f) 1 M (1 i
2
f 2i ). 2i 2
K (1
ij f3 j )
n n i 1 mi n i 1 mi j 1 kij
S2 S3

N n
Mi mi
2
Sˆ 32j 100
K (1
ij f3 j ) (117500,409) 2350008,18
n i 1 mi j 1 k ij 5
S3

N n
2 Sˆ 22i 100
M (1 i f 2i ). (305681,172) 6113623.44
n i 1 mi 5
S2

Sˆ 2 5 5496320,2
N 2(1 f) 1 (100)2 1 10443008380
n 100 5

652
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Finalmente:

Vˆ (Yˆ) 10443008380 6113623.44 2350008,18 10451472012

Debe recordarse que el muestreo por conglomerados es eficiente cuando al interior de ellos hay alta variabilidad y entre ellos
poca variabilidad.

9.19 MUESTREO TRIETAPICO CON UNIDADES DE DIFERENTE TAMAÑO PARA ATRIBUTOS

En este caso:

A : Total de unidades elementales que poseen la característica analizada en la población.


Ai : Total de unidades elementales que poseen la característica analizada en la unidad primaria i-ésima de la población.
Aij : Total de unidades que poseen la característica en la j-ésima unidad secundaria dentro de la i-ésima unidad primaria,

Mi N
A
Ai Aij ; A Ai ; A
j 1 i 1 N
aij : Total de unidades muestrales que poseen la característica analizada en la j-ésima unidad secundaria muestreada dentro
de la i-ésima unidad primaria muestreada.

9.19.1 Estimador del total de unidades elementales en el muestreo trietapico para atributos en unidades de diferente
tamaño

El estimador para el total de unidades elementales en la población con la característica analizada es:

PARÁMETRO ESTIMADOR

(9.77)
n mi
N N Mi
N Mi
A Ai Aij Aˆ Kij Pˆij
i 1 i 1 j 1
n i 1 mi j 1

9.19.2 Propiedades del estimador del total de unidades elementales en el muestreo trietapico para atributos en
unidades de diferente tamaño

Las principales propiedades son:

Propiedad 9.27: Insesgamiento del estimador del total de unidades elementales en el muestreo trietapico para
atributos de unidades de diferente tamaño.

E ( Aˆ ) A

653
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Propiedad 9.28: Varianza del estimador del total de unidades elementales en el muestreo trietapico para atributos de
unidades de diferente tamaño.

S12 N N
S 22i N N
Mi Mi
S32j
V ( Aˆ ) N (1 2
f) M (1 i
2
f 2i ). K (1 2
ij f3 j ) (9.78)
n n i 1 mi n i 1 mi j 1 kij
Donde:

N Mi
1 1
S12 ( Ai A ) 2 ; S 22i ( Aij Ai ) 2
N 1i 1 Mi j 1

Para:
K ij
2 1 0
S 3j yijl2 K ijYij2 ; yijl
K ij l 1 1
De tal manera que:

K ij
1 1 K ij Pij Qij Aij
S32j yijl2 K ijYij2 Aij K ij Pij2 ; Pij
K ij l 1 K ij 1 K ij 1 K ij

Propiedad 9.29: Estimador insesgado de la varianza del estimador del total de unidades elementales en el muestreo
trietapico para atributos de unidades de diferente tamaño.

Sˆ 2 N N
Sˆ 2 N N
Mi Mi
Sˆ32j (9.79)
Vˆ ( Aˆ ) 2
N (1 f) 1 M (1 i
2
f 2i ). 2i K (12
ij f3 j )
n n i 1 mi n i 1 mi j 1 kij
Donde:

mi mi mi
Mi Mi Mi aij 1 n
1 n
Aˆi M i Aˆi Aˆij K ij Pˆij K ij ; Aˆ Aˆi ; Sˆ12 ( Aˆi Aˆ ) 2
mi j 1 mi j 1 mi j 1 kij n i 1 n 1i 1

mi
1 aij 1 mi
Sˆ22i ( Aˆij Aˆi ) 2 ; Aˆij K ij ; Aˆi Aˆij
mi 1 j 1 kij mi j 1

kij Pˆij Qˆ ij aij


Sˆ32j ; Pˆij
kij 1 kij

Nota:
Para el estimador de la proporción de unidades elementales con la característica estudiada se tiene:

654
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

PARÁMETRO ESTIMADOR

N Mi (9.80)
Aij
A Aˆ Aˆ
P i 1 j 1
N Mi
Pˆ N Mi
K0 K0
Kij Kij
i 1 j 1 i 1 j 1

Donde:

N N Mi N Mi n mi
N Mi
A Ai Aij ; K 0 K ij ; Aˆ K ij Pˆij
i 1 i 1 j 1 i 1 j 1 n i 1 mi j 1

Nota:
Para la varianza del estimador de la proporción se tiene:

Aˆ V ( Aˆ ) ˆ ( Pˆ ) Vˆ A
ˆ Vˆ ( Aˆ )
V ( Pˆ ) V ; V (9.81)
K0 K 02 K0 K 02

Ejemplo 9.19
Se desea realizar una investigación en una región ganadera integrada por 20 distritos cada uno dividido en promedio en 10
subregiones las cuales a su vez están integradas por fincas ganaderas. Se sabe que en total hay 3000 fincas ganaderas en la
región. La siguiente información corresponde a una muestra de 5 distritos seleccionados en forma aleatoria y en cada una de
las fincas muestreadas se investigó “si la finca posee registro sanitario debidamente diligenciado ante el Ministerio de
Agricultura y Ganadería”.

Distrito I: M1=12 Distrito II: M1=10

Subregión Subregión
Muestreada
K ij kij aij Sˆ32j muestreada Kij kij aij Sˆ32j

01 10 5 4 0,2 01 11 5 4 02

02 8 4 3 0,25 02 10 4 4 0

03 12 6 4 0,26666667 03 10 4 3 0,25

04 10 4 3 0,25 04 9 3 3 0

05 12 5 3 0,3

655
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Distrito III: M1=15 Distrito IV: M1=14

Subregión Subregión
Muestreada
Kij kij aij Sˆ32j muestreada
Kij kij aij Sˆ32j

01 12 6 5 0,16666667 01 12 6 6 0

02 15 7 7 0 02 12 5 5 0

03 11 4 4 0 03 10 4 3 0,25

04 10 5 5 0 04 8 4 3 0,25

05 9 4 3 0,25

06 12 4 3 0,25

Distrito V: M1=10

Subregión Subregión
Muestreada
Kij kij aij Sˆ32j Muestreada
Kij kij aij Sˆ32j

01 11 6 5 0,16666667 04 11 5 4 0,2

02 15 7 7 0 05 14 4 3 0,25

03 16 8 7 0,125 06 12 6 4 0,26666667

a) Estime el total de fincas que en la región ganadera poseen el registro sanitario debidamente diligenciado ante el respectivo
ministerio.
b) Estime su varianza.
c) Estime el porcentaje de fincas que poseen el registro.
d) Estime su varianza.
e) Si la información se considera como una muestra piloto en un MAS, ¿qué porcentaje de fincas no posee el registro?
Estime su varianza.

Solución //

a) Para la estimación del total:

Mi mi Âi Sˆ22i
12 5 88,08 0,678
10 4 88,25 1,05583333
15 6 154,375 7,41041667
14 4 131,25 9,5625
10 6 109,1111111 8,48074074
Total 571,0661111

Se obtienen los siguientes indicadores muestrales:

656
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

N n
Mi mi
aij N n
20
Aˆ K ij Aˆi (571.06611) 2284.3
n i 1 mi j 1 kij n i 1 5

n 2
1
Sˆ12 Aˆ i Aˆ 821.5715
n 1i 1

b) Para la estimación de la varianza:

n
2 Sˆ 2 n
Mi mi
2 Sˆ32j
M (1
i f 2i ). 2i 585.188047; K (1 ij f3 j ) 131.703546
i 1 mi i 1 mi j 1 kij

Sˆ12 N n
Sˆ22i N n
Mi mi
Sˆ32j
Vˆ ( Aˆ ) N 2 (1 f) M i2 (1 f 2i ). K ij2 (1 f3 j ) 249339.016
n n i 1 mi n i 1 mi j 1 kij

c) Para el porcentaje de firmas que poseen el registro solicitado:

Aˆ 2284,3
Pˆ Mi
0,7614
N
3000
K ij
i 1 j 1

d) Para el estimador de la varianza:

Vˆ ( Aˆ ) 249339.016
Vˆ ( Pˆ ) 2
0.0277
N Mi (3000)2
K ij
i 1 j 1

e) Si la información corresponde a un MAS entonces se estima P y:

n mi
aij
105 Pˆ Qˆ 125 (0.84)(0.16)
Pˆ i 1 j 1
n mi
0.84 Qˆ 0.16 ; Vˆ (Qˆ ) (1 f) 1 0,001039
125 n 1 3000 125 1
kij
i 1 j 1

9.20 UN COMENTARIO FINAL

En el muestreo en varias etapas para una misma muestra final total de unidades elementales hay varias posibilidades de
distribución de este número de unidades en función de las diferentes etapas que se han definido hasta llegar a la unidad

657
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

elemental así por ejemplo si se define una muestra de unidades elementales de tamaño n 200 ; entonces si la población de
unidades elementales es de N 8000 , la fracción de muestreo será:

f n N 200 8000 1 40

Si se desea mantener esta fracción de muestreo para un muestreo bietápico se pueden realizar varias asignaciones así por
ejemplo si las 8000 unidades elementales se encuentran formando 40 grupos de 200 unidades elementales se pueden tener las
siguientes asignaciones:

a) Tomando 5 conglomerados y dentro de cada uno 40 unidades:

5 40 1 1
f f1. f 2 . . 1 / 40
40 200 8 5
b) Tomando 4 grupos y dentro de cada uno de ellos tomar 50 unidades elementales:

4 50 1 1
f f1. f 2 . . 1 / 40
40 200 10 4

Al aumentar el número de UPMs exige la reducción del número de USMs y viceversa. Cada tipo de asignación genera una
varianza del estimador diferente, ¿qué debe buscarse entonces? La respuesta a esta pregunta tiene dos actuaciones no
necesariamente excluyentes:

Probabilidad de
UPM i Tamaño Tamaño acumulado Intervalo de selección
selección
1 M1 M1 1, M 1 M1 M 0
2 M2 M1 M2 M 1 1, M 1 M2 M2 M0
3 M3 M1 M2 M3 M1 M 2 1, M 1 M2 M3 M3 M0
. . . . .
. . . . .
i 1 i
i Mi M1 M2 M 3 ... M i M j 1, Mj Mi M0
j 1 j 1

. . . . .
. . . . .
N 1 N
N MN M1 M2 M 3 ... M N M j 1, Mj M N M0
j 1 j 1

Total M0 - - 1.0
Tabla 9.1: Tabla de ayuda para la selección de unidades conglomeradas con probabilidad proporcional a su tamaño.

658
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

1) Basar la distribución de la muestra en una función de costos y 2) Tener presente que en el submuestreo interesa que las
UPMs sean altamente heterogéneas (lo que implica más o menos tamaño grande en ellas para lograrlo) si se da esta situación
pueden seleccionarse pocas unidades primarias en la primera etapa. Si por el contrario se tiene la convicción de que existe
homogeneidad al interior de las UPMs se debe aumentar el tamaño de estas y lógicamente al haber homogeneidad en su
interior; el número de unidades elementales muestreadas en cada una de ellas será pequeño y 3) mezclar el muestreo en varias
etapas con otros métodos de muestreo como por ejemplo realizar un muestreo bietápico estratificando las unidades primarias,
etc. En todo caso debe buscarse una asignación que genere la menor varianza para la estimación del parámetro investigado.

En el muestreo trietápico si se usan unidades conglomeradas seleccionadas con probabilidades proporcionales a su tamaño
(PPT) se puede realizar la tabla 9.1 de ayuda y seguir el siguiente procedimiento:

1) Seleccionar las unidades conglomeradas (UPMs) con reemplazo y probabilidades proporcionales a su tamaño (unidades
terciarias) M 0i apoyándose en una tabla similar a la anterior,
2) Seleccionar dentro de cada unidad primaria las unidades secundarias terciarias (elementales) en forma independiente
siguiendo algún criterio de proporcionalidad, costos o de variabilidad interna,
3) Aplicar a cada unidad primaria muestreada el siguiente estimador:

mi mi
1 1
Yˆi Mi K ij yij Mi Yˆij M iYˆi (9.82)
mi j 1 mi j 1

4) Para la población se tendrá:


Mi
K ij
n
Yˆi M 0i
Yˆppt ; i
j 1
N Mi
(9.83)
i 1 i M0
K ij
i 1 j 1

5) Aplicar para el estimador de la varianza el estimador insesgado:

2
1 n
Yˆi
Vˆ (Yˆppt ) Yˆppt (9.84)
n.(n 1) i 1 i

Nota
El procedimiento puede adaptase para el estimador de la media por unidad elemental o para la estimación de la proporción
poblacional.

Finalmente debe decirse que el muestreo polietápico mezclado con MAE con selección aleatoria se suele aplicar para la
obtención de las llamadas muestras maestras, las cuales tienen dos ejes conductores: la determinación de una muestra inicial
de trabajo y su actualización o mantenimiento; la muestra seleccionada debe ser grande y representativa, para que se puedan
ir extrayendo las muestras puntuales para los diferentes estudios poblacionales; después de extraída la muestra se deben
asignar agentes censales que irán actualizando la zona estudiada poniendo al día el marco muestral (Rodriguez, 1993).

659
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

EJERCICIOS

Ejercicio 9.A
Generación de una población hipotética para la realización de un muestreo trietapico de de unidades iguales usando
MINITAB.
Suponga que se tiene una región agrícola conformada por 5 regiones (UPMs) cada una con formad a su vez por 10 distritos
(USMs) y cada uno de estos conformado por 20 fincas (UTMs), siendo estas últimas desde luego las unidades objeto de
estudio en una investigación sobre la cantidad de acres cultivadas de café. N 5 ; M 10 ; K 20 .

a) Mediante MINITAB genere una población de 1000 datos con la distribución: N ( 82.3; 22.3) . Cada valor
generado corresponderá a una finca de la región para la variable Y: acres cultivados de café. Redondee los datos
obtenidos a una sola cifra decimal.
2
b) Encuentre los siguientes parámetros estadísticos: Y ; SY
c) En una hoja Excel realizar una base de datos con los 1000 valores generados en el punto a) ubicando estos datos en la
columna D y estableciendo de arriba para abajo códigos con la siguiente estructura:

A B C D
CÓDIGO DE LA CÓDIGO DEL CÓDIGO DE LA ACRES DE
REGIÓN DISTRITO FINCA CAFÉ
1-5 1-10 1-20 Y

A manera de ejemplo la base debe lucir de la siguiente manera:

A B C D A B C D
1 1 1 77,7 1 2 1 48
1 1 2 83,9 1 2 2 95,1
1 1 3 83,4 1 2 3 70,6
1 1 . 106,6 1 2 . 80,6
1 1 . 92,5 1 2 . 67,7
1 1 20 59,4 1 1 20 49,7

La finca Nº 20 del distrito 1 de la región 1, tiene 59,4 acres cultivadas de café (ver fila sombreada).

d) Verifique la siguiente estructura del parámetro media por unidad elemental en el muestreo trietapico:

N M K N M N
1 1 1
Y yijl Yij Yi
NMK i 1 j 1 l 1 NM i 1 j 1 N i 1

e) Encuentre los siguientes indicadores estadísticos: S12 ; S2i2 y S32j y asumiendo los siguientes valores n 3, m 3y
ˆ
k 5 encuentre el valor de V (Y ) . ¿Cuántas muestras son posibles con los tamaños de muestra antes asignados?

Ejercicio 9.B
Utilizando la base de datos construida en el ejercicio anterior.
a) Genere una muestra con los siguientes valores: n 3 ; m 3 y k 5 usando MINITAB.
b) Encuentre el estimador de la media por unidad elemental para la variable Y (cantidad de acres cultivas de café por finca).
ˆ
c) Encuentre el estimador de V (Y ) .

660
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

ˆ
d) Asumiendo censo en la tercera etapa, ¿Cómo queda el valor del estimador de V (Y ) ? Use la información del ejercicio 1B
correspondiente.
ˆ
e) Asumiendo censo en la segunda y tercera etapa como queda el valor del estimador de V (Y ) .
f) ¿Qué tamaño de muestra n resulta en ele literal d) para estimar el promedio de acres cultivados de café por finca en la
ˆ
población? Asuma un < 0.10(Y ) y un nivel de confianza del 95%?

Ejercicio 9.C
Utilizando la base de datos RAKAN:
a) Genere mediante MINITAB una muestra de 3 comunas y dentro de cada comuna 3 sectores y dentro de cada sector tomar
el 10% de las viviendas.
b) Encuentre los siguientes estimadores y sus estimadores para la varianza.

VIVI-PRO Vivienda propia


NUM-PER Número de personas que habitan la vivienda
ING-FAMI Ingreso familiar
AR-DE-PRE Área construida del predio

Ejercicio 9.D
Usando MINITAB genere una población con las siguientes características:

10 conglomerados de 10 datos para las variables: Y1 N( 50; 6.0) ; Y2 Bernulli ( Pr ( E ) 0,5)


8 conglomerados de 5 datos para las variables: Y1 N( 60; 8.0) ; Y2 Bernulli ( Pr ( E ) 0,6)
12 conglomerados de 8 datos para las variables: Y1 N( 70; 3.8) ; Y2 Bernulli ( Pr ( E ) 0,8)

Se tienen en total 236 datos para cada una de las variables.

a) Conforme una base de datos en Excel de la siguiente manera:

Estrato Conglomerado Unidades Yh1 Yh 2


1 1-10 1-10 41,4962 0
2 1-8 1-5 47,9905 1
3 1-12 1-8 59,8474 0

Se tendrá entonces la siguiente distribución de las unidades por estrato:

Estrato h Nh Mh M oh NhM h
1 10 10 100
2 8 5 40
3 12 8 96
M0 236

b) Una vez conformada la base de datos genere usando MINITAB una muestra bietápica estratificada con los siguientes
tamaños:

661
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Estrato h nh mh moh nh mh f1h f2h


1 4 4 16 0.4 0.4
2 3 3 9 0.375 0,60
3 3 3 9 0.25 0.375
m0 34

En este caso la muestra estará integrada por 34 unidades elementales es decir una muestra del 14.4% de la población de
unidades elementales. Es decir: f 0 m0 M 0 0.144 .
ˆ ˆ
c) Encuentre los siguientes estimadores: Y1 , Vˆ (Y1 ) ; PˆY2 , Vˆ ( PˆY2 ) .

Nota: Tenga presente que el parámetro asociado con la variable Y2 es la proporción de unos.
d) Utilizando la muestra definida en b) como una muestra piloto determine el valor de mh usando la expresión (9.25).
e) Determine el tamaño de muestra (unidades conglomeradas) asumiendo asignación proporcional y usando la expresión
ˆ ˆ
(9.27) para estimar Y1 . Asuma un valor adecuado para V (Y1 ) V0 .
f) Resuelva los literales e) y f). Adecué las expresiones a este caso ya que se trata de atributos.
g) Comparando los resultados e) y f) ¿Qué tamaño de muestra (número de conglomerados) debe tomarse para estimar
conjuntamente Y1 y PY2 ?

Ejercicio 9.E
Utilizando la base de datos RAKAN para las variables:

ING-FAMI Ingreso mensual familiar


NUM-PERT Número de personas que trabajan
GAST-ALI Gasto mensual familiar en alimentos
NUM-PER Número de personas que habitan la vivienda

Defina las siguientes variables:

Y1 (GAST PER ) ( MUN PER ) ; Y2 ( ING FAMI ) ( MUN PERT )

a) Genere una muestra sistemática de sectores de 1 en 6 utilizando Excel (Análisis de datos).


b) Dentro del sector muestreado genere mediante MINITAB una muestra de 10 viviendas.
c) Conforme una sub base de datos con los registros muestreados de la base de datos principal.
d) Utilizando un muestreo bietápico para variables considerando estimaciones de razón al tamaño estime:
ˆ ˆ ˆ ˆ
Y1 ; Vˆ (Y1 ) Y Y2 ; Vˆ (Y2 )

Ejercicio 9.1
En un Dpto. ABC de Colombia, los 10000 establecimientos de comercio registrados en la Cámara de Comercio seccional
ABC se encuentran concentrados en 15 zonas diferentes de la capital del Dpto. ABC y 15 en las poblaciones cercanas a la
capital. Se desea estimar el promedio de empleados por establecimiento de comercio, de tal manera que se define un
muestreo bietápico en donde la unidad primaria de muestreo (UPM) es cada una de las zonas que reúnen a los
establecimientos de comercio y las poblaciones aledañas. En estas condiciones la población tiene N 30 unidades primarias
(conglomerados). Como unidades secundarias se definen los establecimientos de comercio dentro de cada unidad
conglomerada. Para cada unidad primaria se dispone del correspondiente listado de establecimientos de comercio que le

662
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

corresponden. Se toma una muestra de 5 unidades primarias y dentro de cada unidad primaria muestreada se obtuvo
sistemáticamente una muestra aproximada del 6% de establecimientos de comercio, después de realizado en trabajo de campo
se obtiene:

UPM 1 2 3 4 5
Mi 200 300 540 120 280
mi 12 18 33 8 14


i
602,416667 97,8888889 196,71875 136,75 516,357143

f 2i 0,06 0,06 0,06111111 0,06666667 0,05


M i2 (1 f 2i ) 37600 84600 273780 13440 74480

Sˆ 2
2i
906,44697 515,51634 1409,30544 1034,78571 6240,55495

n
ˆ N
a) Estime la cantidad de empleados por establecimiento de comercio: Y M iYˆi
nM 0 i 1
b) Estime la varianza para el estimador encontrado en a).

Ejercicio 9.2
n n
ˆ ˆ
Con la información de la tabla encontrar YMBR Yˆi M i y el estimador de la varianza Vˆ (YMBR )
i 1 i 1
Ejercicio 9.3
Un barrio de la ciudad ABC está integrado por 10 manzanas. De acuerdo con el último censo se tiene la siguiente
información sobre el número de hogares por manzana.

Manzana 1 2 3 4 5 6 7 8 9 10
Nº de hogares 80 120 200 95 110 45 300 110 95 200

Una muestra de 4 manzanas en forma aleatoria permitió seleccionar las manzanas 3, 6 y 10 y al preguntar a los jefes de hogar
la pregunta Nº de hijos en el hogar se confeccionó la siguiente tabla. Se asume para la muestra de unidades secundarias una
fracción constante f 2i f 2 0.10 .

UPM Mi mi Yˆi Sˆ22i


3 200 20 2,35 2,23947368
5 110 11 3,27272727 4,01818182
10 200 20 2,75 3,35526316

Estimar mediante estimadores de razón al tamaño el número de hijos por hogar y su varianza.

Ejercicio 9.4
En una población integrada por 200 UPMs de 50 unidades elementales, se obtuvo una muestra de n 7 UPMs. Dentro de
cada UPM muestreada se obtuvo una muestra de unidades elementales con una fracción de muestreo f 2 0.1 ,
proporcionando los siguientes datos para la variable Y investigada:

663
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Y1 j Y2 j Y3 j Y4 j Y5 j Y6 j Y7 j
4 3 2 5 6 2 1
3 4 3 4 4 4 1
2 5 3 5 3 3 5
4 4 4 5 2 3 6
3 4 5 4 4 5 4

Calcule el estimador de la media por unidad elemental y su varianza estimada.

Ejercicio 9.5
En un centro experimental de la caña de azúcar se tienen 20 parcelas cada una cultivada con 50 plántulas de la variedad
ABC123. De esta población se ha tomado una muestra piloto de 4 parcelas y en cada una de ellas se ha obtenido una muestra
de 6 plantas obteniéndose los siguientes resultados al medir el diámetro del tallo de las plántulas a 80 cm del suelo:

(Yˆi , Sˆi2 ) (4.34, 0.378); (3.4, 1.3); (3.78, 0.842); (3.4, 1.8) ; i 1, 2, 3, 4
Si se desea estimar el diámetro promedio por caña en las 50 parcelas del centro experimental, ¿Qué tamaño de muestra será
necesario para satisfacer un error de 0.25 cm a un nivel de confianza del 95% para minimizar los costos del trabajo de
campo?

Ejercicio 9.6
La siguiente tabla muestra los resultados de la encuesta realizada para las ocho manzanas en el barrio ABC de la ciudad

M1 M2 M3 M4 M5 M6 M7 M8

5 4 2 5 6 11 12 4 3 3

7 3 5 6 4 4 11 7 6

9 7 4 2 5 3 6 7

11 2 11 9 3 4 8 3

2 11 12 8 2 5 5 3

8 2 2 4 2 2 4 7

4 9 8 6 8 6 7 6

4 4 4 10 6 4 6 4

3 3 5 6 3

2 3 7

XYZ que posee 90 manzanas, en dicho barrio se desea estimar el promedio de personas por vivienda considerando cada
manzana como un conglomerado de viviendas de diferente tamaño. El investigador realiza un muestreo en dos etapas y para
ello según su presupuesto puede muestrear 8 manzanas y dentro de cada una un 5% de sus viviendas. De acuerdo con los
planos catastrales la manzana contiene 17000 viviendas.

Se tienen los siguientes valores de Mi

664
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Mi 180 240 160 160 200 220 160 180

a) Calcular el promedio de personas por vivienda en el barrio XYX.


b) Estime la varianza para el estimador planteado en a).
c) Establecer un intervalo de confianza con el 95% de seguridad para el verdadero promedio de personas por vivienda el
barrio XYZ. Interprete el resultado.

Ejercicio 9.7
El comercio de cierta ciudad está organizado mediante 36 zonas comerciales de aproximadamente 20 establecimientos de
comercio cada una. Se desea estimar el pago promedio mensual en servicios públicos por establecimiento. Se ha tomado una

muestra de 6 zonas y en cada una de ellas se han seleccionado 4 establecimientos de comercio con los siguientes resultados
para la variable Y: Lago mensual de servicios públicos en el establecimiento (miles de pesos cerrados).

Zona Yij
1 293.24-222.345-340.1-869.214
2 1200.22-334.45-820.567-230.33
3 780.55-450.122-434.0-1200.234
4 1400.00-670.367-230.045-440.077
5 187.04-300.102-123.9.05-320.005
6 1200.001-400.034-230.44-129.099

a) Estimar el gasto promedio mensual en servicios públicos por establecimiento para los comerciantes de la ciudad.
b) Estime el ingreso mensual para la empresa de servicios públicos en la ciudad en lo que respecta al comercio de la ciudad
c) Estime la varianza en el caso de a), interprete.
d) Considerando la información suministrada como una muestra piloto y realizando los supuestos necesarios, plantee una
situación que permita calcular m y n óptimos cuando se fija un costo C y una varianza V0 .

Ejercicio 9.8
Una empresa fabricante de prendas de vestir posee 90 plantas localizadas en el país ABC y desea estimar el número promedio
de horas que las máquinas de coser estuvieron sin funcionar por reparación en los meses pasados.

Planta Mi mi Yˆi Sˆ22i Planta Mi mi Yˆi Sˆ22i


Muestreada Muestreada
1 80 10 5.4 11.38 6 58 12 3.83 14.88
2 65 13 4 10.67 7 42 8 5 5.14
3 45 9 5.67 16.75 8 66 13 3.85 4.31
4 48 10 4.8 13.29 9 40 8 4.88 6.13
5 52 10 4.3 11.12 10 56 11 5 11.8

Debido a que las plantas están muy dispersas, el investigador decide utilizar un muestreo por conglomerados, considerando
cada planta como un conglomerado de máquinas (UPMs). El Investigador usa un muestreo en dos etapas y dispone de dinero
y tiempo para muestrear 10 plantas y dentro de cada una aproximadamente el 20% de sus máquinas. La tabla anterior muestra
la información obtenida.

a) Estime para la variable Y, la media y la cuasivarianza muestrales usando MAS.


b) Estime la varianza del tiempo medio por máquina use MAS.
ˆ ˆ
c) Encuentre Y y Vˆ (Y ) . Compare estos resultados con los obtenidos en a) y b) correspondientes.

665
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

d) Estime el efecto de diseño Deff , interprete.

Ejercicio 9.9
Para la información del ejercicio 9.8:

a) ¿Qué tamaño de muestra se requiere (número de máquinas) usando MAS para estimar el número promedio de horas sin
funcionamiento por reparación por máquina, usando un error relativo del 8% sobre la media piloto del MAS? Use un
nivel de confianza del 9%5. Opine sobre el resultado.
b) ¿Se puede estimar el coeficiente de correlación intraconglomerado ? En caso afirmativo obtener la estimación e
interpretarla.

Ejercicio 9.10
Para la información del ejercicio 9.8:

a) ¿Qué tamaño se obtiene (número de máquinas) se obtendría con un muestreo bietápico si se asume m 11 ? ¿Cuál es el
número de plantas que deben muestrearse?
b) Si se dispone de $800000 y se estima que la verificación de un registro para una máquina tiene un costo de $4000 y el
envío de la información correspondiente de cada planta tiene un costo de $10000, ¿cuántas plantas deben muestrearse
usando 11 máquinas por planta?

Ejercicio 9.11
Para la información del ejercicio 9.8:

a) Si se decide utilizar la muestra piloto como muestra final pero se decide ajustar el número de máquinas por planta de tal
manera que f 2i f2 m M de acuerdo con la muestra piloto. ¿cómo queda la asignación por planta?
b) Si después de ajustar la muestra de máquinas por planta se obtiene usando MAS; CVˆ ( y ) 0.0647 , ¿qué puede
encontrarse para CVˆ ( y ) usando MCON –Bietápico?

Ejercicio 9.12
El dueño de un vivero quiere estimar la altura de los arbolitos en un extenso terreno que está divido en 60 lotes que varían
levemente de tamaño.

Planta Mi mi Yˆi Sˆ22i Planta Mi mi Yˆi Sˆ22i


Muestreada Muestreada
1 52 5 11.6 1.3 6 51 5 13.4 1.3
2 56 6 8.83 1.37 7 50 5 6.8 0.7
3 60 6 5.5 1.1 8 61 6 9.17 0.57
4 46 5 7.0 0.50 9 60 6 8.83 1.37
5 49 5 11.6 1.3 10 45 6 12 0.4

El dueño cree que las alturas son bastante homogéneas en cada lote pero pueden varias considerablemente de un lote a otro,
por lo tanto decide muestrear un 10% de los árboles dentro de cada uno de los 10 lotes usando una muestra por
conglomerados en dos etapas. Los datos se muestran en la tabla anterior.
Estime la altura promedio de los arbolitos en el terreno y establezca los límites de error de estimación.

Ejercicio 9.13
En el ejerció 9.12, si se asume que la información suministrada corresponde a una muestra piloto para realizar la estimación
pedida:

666
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

a) ¿Cuántos arbolitos en promedio se deben tomar dentro de cada lote si se supone que: CuKC2 , donde Cu : es el costo
de tomar una unidad conglomerada (lote) y realizar la lista de las subunidades (arbolitos) y C2 : es el costo por subunidad
(medir el arbolito)? . Realice el cálculo de m para K 14000 .
b) ¿Cuántos lotes se deben tomar si se asume que el costo total de trabajo de campo es: C Cu n C2 n.m . Asuma un
costo total de C $2800000 y C2 $500 .

Ejercicio 9.14
Para los datos del ejercicio 9,12:

a) ¿Qué tamaño de parcelas se debe usar si se desea un error relativo del 10% al estimar la media por unidad elemental.
Asuma un nivel de confianza del 95% y use el mop hallado en el literal a) del ejercicio 9.13.
b) Resolver el literal a) del ejercicio 9.13, al suponer costos iguales.

c) Calcular el costo total en el que se incurre si se usa la información de los literales a) y b) con C2 $15000

Ejercicio 9.15
La siguiente tabla muestra una población de M0 127 unidades elementales, las cuales se encuentran distribuidas en
N 10 UPM s de diferente tamaño. Para cada una de las unidades elementales se ha medido el valor de variable Y :

UPM s Mi Yˆi Sˆ22i UPM s Mi Yˆi Sˆ22i


1 10 6,339 5,65488 6 20 6,280 5,67392
2 12 5,916 4,16976 7 15 6,310 4,63110
3 14 5,766 3,69024 8 10 6,208 3,19337
4 9 7,022 4,99970 9 14 6,226 4,95508
5 11 6,856 4,68722 10 12 6,428 5,41958

Asumiendo lo siguientes valores:

C : Costo total del trabajo de campo $5000000,


C1 : Costo de tomar una unidad primaria y realizar el listado de sus unidades $800000,
C2 : Costo de medir una unidad elemental dentro de una primaria seleccionada $10000.
ˆ
Hallar la V (Y ) que se obtendría para satisfacer las condiciones de costo establecidas.

Ejercicio 9.16
De acuerdo con el resultado del ejercicio 9.15, determine el valor de n y m estableciendo un error y un nivel de confianza
determinados.

Ejercicio 9.17
Una población de M0 400 unidades elementales se encuentra dividida en N 10 conglomerados de 40 unidades
elementales en promedio como tamaño. Se pretende realizar un muestreo bietápico sobre dicha población para estimar la
media por unidad elemental en dicha población. Se tiene la siguiente información sobre el comportamiento de la variable en
los conglomerados:

667
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Conglomerado Rango de la variable Conglomerado Rango de la variable


1 10.3-33 6 12.20-8.67
2 10.45-4.55 7 8.77-4.67
3 8.78-4.45 8 8.7-4.55
4 12.76-3.45 9 7.78-5.56
5 5.78-3.45 10 12.67-4.67

a) Suponiendo que la variable analizada se distribuye según el triángulo rectángulo a la derecha, estimar el mop para la
segunda etapa de muestreo, Asuma M i poco variable y C1 C2 .
ˆ
b) Estimar el tamaño de unidades conglomeradas para la primera etapa, si se desea una varianza V (Y ) 0.227 .
c) Estime el costo total del trabajo de campo si se sabe que el costo C1 C2 $20000 .
d) Si se realiza un MAS de n.mop unidades ¿qué valor se obtendrá para la V (Yˆ ) .

Ejercicio 9.18
En el ejercicio 9.19:

a) ¿cuál será el número de unidades conglomeradas que se deben tomar si se mantiene el mop hallado en a) y deseando un
ˆ
CV (Y ) 0.382
b) ¿Cuál será el tamaño de muestra en la primera etapa, si se asume el mop estimado en a) del ejercicio 9.19 y estableciendo
los siguientes costos:
C : Costo total del trabajo de campo $1800000,
C1 : Costo de tomar una unidad primaria y realizar el listado de sus unidades $400000,
C2 : Costo de medir una unidad elemental dentro de una primaria seleccionada $10000.
c) Si se asume n 5 unidades de la primera etapa y de acuerdo con la función de costos establecida en el literal b), ¿cuál
será ahora el tamaño mi para cada uno de los conglomerados muestreadas, si C $1800000 , C1 $310000 y
C2 $8000 .

Ejercicio 9.19
Para una población hipotética de 300 unidades elementales reunidas en 10 conglomerados de diferente tamaño, se desea saber
ˆ
cuál de las siguientes combinaciones de n y m produce una varianza de Y más pequeña.
Se sabe para la población que: S12 1200.3 y S22 555,56 .

n 2 4 5 6 5
m 6 8 4 3 3
ˆ
Vˆ (Y )

Si se supone que C1 $70000 y C2 $8000 , ¿cuál de las combinaciones ( n, m) permite obtener el costo total
mínimo?

668
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Ejercicio 9.20
De acuerdo con el censo de la ciudad ABC se sabe que en ella residen 35000 hogares. Un investigador decide formar
conglomerados de 100 hogares consecutivos y obtiene el una primera etapa una muestra de 35 hogares. En la segunda etapa
investiga 10 hogares en cada conglomerado. A cada hogar se preguntó si posee o no computador. Realizada la encuesta se
obtuvieron los siguientes resultados:

35 35 35
Pˆi 16; ( Pˆi Pˆ ) 5.29; PˆiQˆ i 3.3
i 1 i 1 i 1

Estimar la proporción de hogares que poseen computador y el error estándar de estimación en la estimación.

Ejercicio 9.21
Un grupo de 30000 registros referentes a cada uno de los centros de salud que posee un país se encuentran almacenados en
100 carpetas de un computador, conteniendo el mismo número de registros cada una. Se desea realizar un muestreo bietápico.
En primer lugar se seleccionan 20 carpetas y dentro de cada carpeta se seleccionan sistemáticamente 5 registros. Para la
ˆ
variable Y, almacenada en cada registro, se obtiene: Sˆ12 376 y Sˆ12 806 . Estimar el error estándar de estimación de Y .

Ejercicio 9.22
En el país ABC para 150 unidades hospitalarias se desea estimar el salario promedio (salarios mínimos) mensual por
paramédico (a). Se plantea un muestreo bietápico de la siguiente manera: En la primera etapa se obtiene una muestra de 4
hospitales y en la segunda etapa se obtiene en promedio el 10% de los paramédicos. Los resultados se expresan en miles de

Mi mi Yˆi Sˆi2
80 8 4,08 1,62
47 5 4,13 1,02
62 6 5,15 0,66
39 4 5,65 2,43

Estimar el salario promedio por paramédico (a) en el país y el estimador de su varianza. Use estimadores de razón al tamaño
del hospital.

Ejercicio 9.23
Para la función de costos C C1n C2 n.m , suponiendo para la variable Y los siguientes valores:
2 ˆ
2800 ; C1 90 ; C2 10 ; 0.2 y C 3000 , ¿en cuánto aumenta o disminuye la varianza V (Y ) utilizando
2
tamaños óptimos de muestra, sabiendo que los verdaderos valores de de y son respectivamente: 0.1 y 2000.

Ejercicio 9.24
En la ciudad ABC hay M 0 viviendas las cuales se encuentran agrupadas en sectores censales (UPMs) siendo el número de
estos N . Para estimar la proporción de viviendas se toma una muestra de la siguiente forma:

a) n sectores con probabilidad igual y número fijo mi m de viviendas.


b) Lo mismo de a) pero con mi variable.
Forme en cada caso el estimador insesgado para el parámetro P y la expresión para estimar su varianza.

669
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

Ejercicio 9.25
En temporada de pesca llegan a un puerto 400 barcos de pesca de cierto tamaño. Cada uno de estos barcos dedicados a la
pesca del Atún consta de un número de bodegas de entre 5 y 8, en donde se almacena el pescado. Para establecer políticas
sobre la pesca en la próxima temporada de pesca se realiza un muestreo por conglomerados en dos etapas. En la primera
etapa se seleccionan aleatoriamente 20 barcos (sistemáticamente de acuerdo con la llegada al puerto) y en la segunda etapa se
seleccionan de dicho barco algunas bodegas aleatoriamente, anotando para cada bodega:

Yij : Nº de Atunes
Pi : Porcentaje de especies marinas protegidas

Los resultados del muestreo se relacionan en la siguiente tabla:

Barco Mi mi Yˆi Sˆ22i P̂i Barco Mi mi Yˆi Sˆ22i P̂i


1 5 2 100 0 0.05 2 5 2 95 0 0.01
3 5 1 106 0 0.05 4 7 1 100 0 0.04
5 6 2 105 2.83 0.04 6 5 1 105 0 0.02
7 8 3 93 2.65 0.01 8 5 2 100 1.41 0.03
9 5 1 100 0 0.02 10 7 2 103 2.83 0.05

a) Estime el número total de atunes obtenidos en la temporada y su varianza.


b) El porcentaje de especies marinas protegidas capturadas en la temporada y su varianza.

Considerando los 400 barcos se tienen 1800 bodegas.

Ejercicio 9.26 (Yamane, 1967)


Se tienen L 580 escuelas. Una muestra de l 5 de ellas es seleccionada y dentro de cada una muestra de m 2 salones
de clase y dentro de cada uno de ellos una muestra de n 4 estudiantes con los siguientes resultados sobre la variable X :
Nº de libros llevados a clase.

Escuela Estudiante Clase j 1 Clase j 2 Escuela Estudiante Clase j 1 Clase j 2


1 k 1 x111 5 x121 4 4 k 1 x411 2 x421 1
2 x112 4 x122 6 2 x412 4 x422 5
3 x113 7 x123 1 3 x413 1 x423 6
4 x114 7 x124 5 4 x414 3 x424 9

2 k 1 x211 4 x221 2 5 k 1 x511 7 x521 9


2 x212 4 x222 3 2 x512 3 x522 3
3 x213 5 x223 6 3 x513 4 x523 2
4 x214 3 x224 6 4 x514 7 x524 3

3 k 1 x311 4 x321 1
2 x312 2 x322 3

670
CAPÍTULO 9. MUESTREO EN VARIAS ETAPAS

3 x213 5 x323 8
4 x314 3 x324 3

a) Estime el total de libros en la población de alumnos de las 580 escuelas.


b) Estime la varianza en a).

671
CAPÍTULO 10. MUESTREO DOBLE
 
 

 
 
MUESTREO DOBLE

Introducción.
Dos situaciones de aplicación para el muestreo doble.
Un primer análisis sobre la base de costos.
Muestreo en dos fases para estratificación en variables.
Estimación de la media para la variable Y.
Propiedades del estimador de la media por unidad para la variable Y.
Muestreo en dos fases para estratificación en atributos.
El estimador de la proporción poblacional en el muestreo en dos fases para estratificación.
Propiedades del estimador de la proporción poblacional en el muestreo en dos fases para estratificación.
Tamaño de muestra y asignaciones en el muestreo en dos etapas para estratificación.
Muestreo en dos fases para la aplicación de estimadores de razón.
Estimador de la media para la variable Y en el muestreo de dos fases para estimadores de razón.
Propiedades del estimador de la media para la variable Y en el muestreo de dos fases para estimadores de
razón.
Tamaño de muestra para la estimación de la media poblacional en el muestreo de dos fases para razón.
Muestreo en dos fases para la aplicación de estimadores de regresión.
Estimador de la media para la variable Y en el muestreo de dos fases para estimadores de regresión.
Propiedades del estimador de la media para la variable Y en el muestreo de dos fases para estimadores de
regresión con b0 preasignado.
Tamaño de muestra para la estimación de la media poblacional en el muestreo de dos fases para regresión
Muestreo en dos fases para la aplicación de estimadores PPT.
Estimador del total para la variable Y en el muestreo de dos fases para la obtención de estimadores PPT.
Propiedades del estimador del total para la variable Y en el muestreo de dos fases para la obtención de
estimadores PPT.
Ejercicios.

________________________________________________________________________

673 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 
10.1 INTRODUCCIÓN

La importancia y aplicabilidad de cualquier método de muestreo radica en que para una situación particular éste permita
obtener estimaciones sobre los parámetros investigados con una muy buena precisión que en nuestro caso es equivalente a
obtener con dicha muestra no solo el estimador del parámetro si no una varianza estimada para el mismo lo más pequeña
posible. Es lógico que entre más información sobre las variables involucradas en un estudio por muestreo mejor será el
diseño planteado para la obtención de las estimaciones. Cuando la información adicional requerida para mejorar la estimación
de un parámetro en una variable Y no es muy costosa en su obtención puede dedicarse parte del presupuesto del trabajo de
campo para su consecución, lo cual implica que la muestra diseñada tendrá dos partes: una para la consecución de
información auxiliar para mejorar el estimador y otra para la obtención de las estimaciones objeto de estudio en la
investigación. Esté método de muestreo recibe el nombre de muestreo doble (García et al., 2007) o muestreo en dos fases y
solo se justifica si hay ganancia en la precisión de los estimadores.

10.2 DOS SITUACIONES DE APLICACIÓN PARA EL MUESTREO DOBLE

El muestreo en dos fases requiere que la población analizada sea muy grande. Las situaciones básicas que se contemplan a la
hora de aplicar un diseño doble son:

Situación I

En este caso las dos muestras se escogen con los siguientes propósitos:
Se selecciona una primera muestra (grande) que constituirá el marco muestral para otra muestra (menor) siendo ésta última
desde luego una sub muestra de la primera. La Figura 10.1, ilustra la situación.

n : SEGUNDA MUESTRA
1
n : PRIMERA MUESTRA

N : POBLACIÓN Objetivo:

Objetivo: Obtener: θˆ , Vˆ (θˆ)


Obtener información para mejorar
la precisión de la estimación de los
Objetivo de la investigación: parámetros
Estimar el parámetro: θ

Figura 10.1. Muestreo doble. La segunda muestra es un subconjunto de la primera.

Situación II

En esta situación, las dos muestras son independientes entre sí, es decir ambas son obtenidas independientemente de la
población madre (población objeto de estudio).

La estratificación; el método de razón y el método de regresión por dar algunos ejemplos son métodos cuyo objetivo es
producir estimaciones más precisas mediante el uso de información adicional, información auxiliar que no siempre está
disponible. Se propone entonces tomar una muestra aleatoria, relativamente grande, en la que a bajo costo pueda observarse

674 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 
una o varias características generales para obtener la información auxiliar requerida. En una segunda fase se selecciona una
submuestra de la primera u otra muestra más pequeña de la población investigada y con ella se obtienen las estimaciones de
las características investigadas.

10.3 UN PRIMER ANÁLISIS SOBRE LA BASE DE COSTOS

Se considera la siguiente notación de base para la aplicación de un muestreo doble para la realización de estimadores
mediante un MAE:

n1 : Tamaño de muestra en la primera fase,


n : Tamaño de muestra en la segunda fase ( n < n1 ),
C : Presupuesto del trabajo de campo para la investigación,
c1 : Costo de tomar la información en una unidad de la muestra n1 ,
c : Costo de tomar la información en una unidad de la muestra n ,
n0 : El tamaño de muestra usando un MAS de una sola fase.

De acuerdo con lo anterior se plantea:

Para un muestreo de una sola fase:

C c.n0 (1)

Si se realiza un muestreo en dos fases:

C c1.n1 c.n (2)

Igualando las expresiones (1) y (2) se tiene:

c1
C c.n0 c1.n1 c.n n0 n1. n
Una fase
c
Dos fases

Observaciones:

1) La observación realizada con un muestreo en dos fases se hace efectiva con una muestra n < n0 .
1
2) El muestreo en dos fases es más favorable en la medida que el cociente ( c c ) sea cada vez más pequeño ya que esto
implica que se puede tomar una muestra n1 bastante grande.

Primera fase
Se toma una muestra de tamaño n1 y en se ella se estratifican las unidades de acuerdo con una o varias características,
obteniendo: n11; n12 ; n31 ;.....; n1L y por lo tanto:

675 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Wˆ11; Wˆ21; Wˆ31;.....;Wˆ L1 .

Es decir:
L
n1h
n1 n1h Wˆh , h (10.1)
h 1 n1

Segunda fase:
Se toma una sub muestra aleatoria en cada estrato de tamaño nh < n1h y con ella obtenemos:

nh nh
( yhi Yˆh ) 2
Yˆh yhi nh ; S h2 ; h
i 1 i 1 nh 1

Nota
Ŵh : Es un estimador insesgado de Wh es decir:

E (Wˆh ) Wh
En la población se tiene:

N1 N2 N
; ;.................; L
N N N

Y al tomar una muestra de tamaño n1 entonces:

n11 ˆ n12 n1L


Wˆ1 ; W2 ;.......; Wˆ L
n1 n1 n1

Si en cada estrato se toman todas las posibles muestras de tamaño n1h estando fijo n1 y como la proporción muestral es un
estimador insesgado en cada estrato (las Ŵh son proporciones) entonces:

n1h Nh
E E Wˆh Wh ; h
n1 N

10.4 MUESTREO EN DOS FASES PARA ESTRATIFICACIÓN EN VARIABLES

Mediante este método se selecciona una primera muestra de tamaño n1 utilizando un muestreo aleatorio simple (MAS) con
igual probabilidad y se clasifican sus elementos en h estratos (conceptualizados con anterioridad). Posteriormente se toman
mediante MAS con igual probabilidad pocos elementos nh de cada estrato de tal manera que n nh sea el tamaño de la

676 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 
submuestra obtenida en la segunda fase. (Särndal et al 1992 dan un tratamiento más general, con probabilidades diferentes en
cualquiera de las etapas).

La figura 10.2, ilustra la metodología que se seguirá para el uso del muestreo doble con el propósito de realizar un muestreo
estratificado para mejorar la precisión de la variable Y analizada.

n : SEGUNDA MUESTRA

n1 : PRIMERA MUESTRA
Objetivo:
N : POBLACIÓN Objetivo:
Obtener los estimadores
Obtener información para propiamente dichos Ŷh
construir los estratos. L
Objetivo de la investigación: n1h n nh < n1
Wˆ h ; h : Variable
Estimar el parámetro: Y n1 h 1

Figura 10.2. Muestreo bifásico para la obtención de estimadores mediante MAE.

Antes de estudiar en detalle el muestreo bifásico para estratificación es bueno comparar el muestreo estratificado (MAE); el
muestreo post-estratificado y el muestreo bifásico para estratificación a la luz de sus características básicas que definen a
cada uno de ellos.

ESTRATIFICADO POST –ESTRATIFICADO BIFÁSICO PARA


Los estratos están previamente Los estratos están previamente ESTRATIFICACIÓN
definidos definidos. Los estratos están previamente
Se conoce Wh ; h con exactitud. Se conoce Wh ; h con exactitud definidos.

Se sabe previamente a que estrato No se sabe previamente a que No se conoce Wh ; h con exactitud.
pertenece cada unidad de análisis estrato pertenece cada unidad de Se toma una primera muestra para
Se toma un MAS en cada estrato para análisis. estimar Wh ; h y clasificar las
medir las variables Se toma una muestra grande de
unidades. Cada unidad es medida y unidades de análisis.
clasificada en un estrato Se toma una segunda muestra dentro de
la primera (en cada estrato) para medir
las variables

10.4.1 Estimador de la media por unidad para la variable Y

En el muestreo en dos fases para estratificación el estimador de la media para la variable Y analizada viene dado por:

PARÁMETRO ESTIMADOR
(10.2)
L L
Y Wh .Yh YˆD MAE Wˆh .Yˆh
h 1 h 1

677 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

10.4.2 Propiedades del estimador de la media para la variable Y

Se analizan y explican las propiedades más importantes del estimador definido para la media poblacional en el muestreo en
dos fases.

Propiedad 10.1: Insesgamiento del estimador de la media para la variable Y en el muestreo en dos fases.

Sea:

EW 1 (YˆD MAE ) : La Esperanza matemática condicionada al conjunto de muestras de la 1ª fase


V (Yˆ
W1 D MAE ) : La Varianza condicionada igualmente.
Se supone que n1 es fijo para el cálculo de Ŵh en cada estrato.

L L
E (YˆD MAE ) E EW 1 Wˆ hYˆh E Wˆ h EW 1 Yˆh
h 1 h 1

L L L
E Wˆ hYh E (Wˆ h ).Yh WhYh Y
h 1 h 1 h 1

Propiedad 10.2: Expresión de la varianza del estimador de la media poblacional en el muestreo en dos fases.

Si la primera muestra es aleatoria y de tamaño n1 y la segunda muestra es una sub-muestra aleatoria de la primera con tamaño
nh vh .n1h donde 0 < vh 1 siendo vh fijos, entonces la expresión de la varianza para el estimador de la media población
en el muestreo doble para estratificación viene dada por:

1 1 L
Wh .S h2 1
V (YˆD MAE ) S2 1 (10.3)
n1 N h 1 n1 vh
Para ver el resultado en detalle se tiene:

Aplicando el teorema de Madow:

V (YˆD MAE ) Vn1 En (YˆD MAE ) En1Vn (YˆD MAE )

Mediante la primera muestra n1 se conocen los estratos y obtienen los pesos Wh1 para cada uno. No se miden parámetros ya
que la muestra es grande; estos serán objeto de estimación con la segunda muestra. Los estimadores obtenidos mediante la
segunda muestra tratan de medir los “parámetros de la primera muestra” que a su vez son estimadores para la población N .

La figura 10.3 aclara el proceso realizado en el muestreo bifásico para facilitar la aplicación de Teorema de Madow.

678 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

PRIMERA FASE
n1   n1 n1h ; Y 1
h 1

n11   n12   n31   n1L  

W11 W21 W31 WL1


Y11;S12 Y21; S22 Y31;S32 YL1; SL2
L

SEGUNDA FASE
n1   n2   n3   nL   n nh
h 1

Yˆ11; Sˆ12 Yˆ21; Sˆ22 Yˆ31 ; Sˆ32 YˆL1; SˆL2

Figura 10.3. Papel que desempeñan las muestras en cada etapa.

De acuerdo con la figura 10.3 y el Teorema de Madow en su primer sumando se tiene:

L L L
Vn1 En (YˆD MAE ) Vn1 En Wh1 .Yˆh1 Vn1 Wh1 .E (Yˆh1 ) Vn1 Yh1 Vn1 Y 1
h 1 h 1 h 1

1
Como Y es un estimador de Y , entonces:

2
N n1 S
Vn1 E n (YˆD MAE ) Vn1 Y 1
N n1

Para el segundo sumando se tendrá:

L L
n1h nh Sˆh2
En1Vn (YˆD MAE ) En1Vn W Yˆ
1 1
h h En1 1 2
(W )
h
h 1 h 1 n1h nh

Pero la muestra nh < n1h y como nh debe ser una proporción de n1h entonces nh vh n1h en donde 0 < vh 1 , siendo por
otro lado:

n1h n1Wh1 .

De acuerdo con estos supuestos entonces:

679 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

L
Sˆ h2 L
2 Sˆh2 L
1 Sˆ 2
En1 (Wh1 ) 2 1 vh En1 Wh1 (1 vh ). En1 Wh1 1 h1
h 1 vh n1h h 1 vh (Wh1 ).n1 h 1 vh n

L
1 Sˆ 2 L
1 S2
En1 Wh1 1 h1 Wh1 1 h1
h 1 vh n h 1 vh n

Para vh fijos.
Finalmente, teniendo presente que E (Wh1 ) Wh .

N n1 S 2 L
1 S h2
V (YˆD MAE ) Wh 1
N n1 h 1 vh n1

Propiedad 10.3: Expresión alterna para la varianza del estimador de la media en el muestreo doble para
estratificación.

Realizando los siguientes reemplazos en la expresión de la varianza dada en la propiedad 10.2

L L
N n1
( N 1) S 2 ( N h 1) S h2 N h (Yh Y ) 2 Y g 1
h 1 h 1 N 1
Se tiene:

L
Wh S h2 1 g1 L
g1 L
V (YˆD MAE ) 1 (Wh N 1 ) S h2 Wh (Yh Y ) 2 (10.4)
h 1 n1 v h n1 h 1
1
n h1

Propiedad 10.3: Un estimador insesgado para la varianza del estimador de la media poblacional en el muestreo en dos
fases para estratificación.

De acuerdo con Cochran, un estimador insesgado para la expresión de la varianza del estimador de la media mediante el
muestreo en dos fases para estratificación viene dado por:

n1 ( N 1) L
1 g1 L
Wˆ h 1 ˆ2 g1 L ˆ ˆ ˆ
Vˆ (YˆD MAE ) Wˆ h Sˆh2 1 Sh Wh (Yh YD MAE )2 (10.5)
(n1 1).N h 1 vh n1 h 1 N 1
n vh n1 h 1

10.5 MUESTREO EN DOS FASES PARA ATRIBUTOS

La extensión del muestreo en dos fases para estratificación en lo que respecta a la estimación de la proporción poblacional es
inmediata haciendo que la variable Y tome valores 1 y 0 exclusivamente dado que la unidad pertenece o no a una clase ( C ).

680 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

10.5.1 El estimador de la proporción poblacional en el muestreo en dos fases para estratificación.

El estimador para la población poblacional P en el muestreo en dos fases para estratificación viene dado por:

PARÁMETRO ESTIMADOR

L
(10.6)
L L
a
P Wh Ph PˆD MAE Wˆ h Pˆh Wˆ h h
h 1 h 1 h 1 nh

Nota
Para la obtención del estimador del total se tiene:

PARÁMETRO ESTIMADOR
(10.7)
A NP Pˆ NPˆD MAE

10.5.2 Propiedades del estimador de la proporción poblacional en el muestreo en dos fases para estratificación.

Las propiedades básicas del estimador de la proporción en el muestreo en dos fases para estratificación son:

Propiedad 10.4: Insesgamiento del estimador de la proporción poblacional en muestreo doble para estratificación

E ( PˆD MAE ) P

Propiedad 10.5: Expresión de varianza para la estimación de la proporción poblacional en el muestreo doble para
estratificación.

La expresión de la varianza para la estimación de la proporción poblacional viene dada por:

NPQ 1 1 L
Wh .N h Ph Qh 1 (10.8)
V ( PˆD MAE ) 1
N 1 n1 N h
1
1 n .( N h 1) vh

Para su obtención basta realizar en la expresión 10.3 los siguientes cambios:

NPQ N h Ph Qh
S2 ; S h2 ; (Yh Y ) 2 ( Ph P) 2
N 1 Nh 1

681 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Propiedad 10.5: Estimación insesgada para la varianza para la estimación de la proporción poblacional en el
muestreo doble para estratificación.

Un estimador insesgado para la varianza del estimador de la proporción poblacional en el muestreo en dos fases para
estratificación viene dado por:

Vˆ ( PˆD MAE )
n1 ( N 1) L
n Pˆ Qˆ 1 g1 L
Wˆ h 1 nh Pˆh Qˆ h g1 L ˆ ˆ (10.9)
Wˆ h h h h 1 Wh ( Ph PˆD MAE )2
(n1 1).N h 1 nh 1 vh n1 h 1 N 1
n vh nh n1 h 1

Ejemplo 10.1
En una determinada región integrada por 2000 predios agrícolas se tomó una muestra aleatoria de 400 fincas y en cada una se
determinó su tamaño en hectáreas (acres). Posteriormente de acuerdo a dicho tamaño fueron estratificadas encontrándose la
siguiente información: 1 acre= 4046,9 m2.

Estratos
Estrato 15; 30 15; 30   30; 50 Total 
1
n 230 100 70 400
h

Posteriormente dentro de cada estrato fueron seleccionadas 1 de cada 5 fincas y nuevamente fueron visitadas para medir entre
otras variables la cantidad de acres en cultivo de papa encontrándose los siguientes indicadores por estrato:

a) Estime el promedio de acres cultivadas de papa por finca.


b) Estime la varianza de dicha estimación.

Solución//
Con base en la muestra relacionada y asumiendo la información obtenida mediante ésta, se tiene a manera de resumen:

n11 230 Wˆ1 0,575


N 200; n 1
400 n1
2 100 Wˆ 2 0,25
n1
3 70 Wˆ3 0,175

n1 46 Yˆ1 7,694; Sˆ12 12,866


n 1
200 n 80(1de cda/5) n2 20 Yˆ2 22,807;Sˆ 2
2 8,774
n3 14 Yˆ3 40,983; Sˆ32 27,291

682 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

a) Para el promedio poblacional

3
YˆD MAE Wˆ hYˆh 17,297825 YˆD MAE N .Yˆ ( 2000 ).(17,297825 ) 34595,65
h 1

En la región el total de acres cultivadas de papa es de 34595.65 acres.

b) Para la estimación de varianza, se calcula primero la varianza para el estimador de la media:

n1 ( N 1) L
1 g1 L
Wˆ h 1 ˆ2 g1 L
Vˆ (YˆD MAE ) Wˆ h Sˆh2 1 Sh Wˆ h (Yˆh YˆD MAE )2
(n1 1).N h 1 vh n1 h 1 N 1
n .vh n1 h 1

A B C

Es decir:

(400)(2000 1)
V (YˆD MAE ) 57,4695 0,00120951 0.31774848 57,9019007
(400 1).2000

Y para la varianza del total se tendrá:

V (YˆD MAE ) N 2V (YˆD MAE ) (2000) 2 (57,9019007) 231607603 eeˆ(YˆD MAE ) 15218,6597

10.6 TAMAÑO DE MUESTRA Y ASIGNACIONES EN EL MUESTREO EN DOS ETAPAS PARA


ESTRATIFICACIÓN

Se tratará la forma de elegir n1 y las asignaciones muestrales vh (forma de repartir la muestra n1 en los L estratos) para
ˆ
minimizar V (Y ) a un costo específico.

Considerando:

c1 : El costo de la clasificación de una unidad en la primera fase,


ch : El costo de medir una unidad en el estrato h.
L L
1 1 1 1
C cn c h nh E (C ) cn E (n h )
h 1 h 1

n h n1h 1
nh . .n E (nh ) v h .E (Wˆ h ).n1 v h .n1 .Wh
n1h n1
L
* 1 1 1
E (C ) C cn n c h .v h .Wh (1)
h 1

El objetivo es determinar n1 y las asignaciones vh que minimicen V (Yˆ ) bajo la condición (1)

683 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

1 1 L
Wh .S h2 1 S2 S2 1 L
1
V ( Xˆ ) S 2
1 Wh .S h2 1
n1 N h 1 n1 vh n1 N n1 h 1 vh

S2 1 L
1
V ( Xˆ ) 1
S2 Wh .S h2 1
N n h 1 vh

S2 L L
n1 . V ( Xˆ ) S2 Wh S h2 Wh S h2 v h ( 2)
N h 1 h 1

Para la función de costos:


L
C* n1 c 1 c h .v h .Wh (3)
h 1

Multiplicando miembro a miembro las expresiones (2) y (3):

S2 L L L
C * V ( Xˆ ) c1 c h v hWh S2 Wh S h2 Wh S h2 v h ( 4)
N h 1 h 1 h 1
A

El producto de la izquierda depende de ch vhWh y Wh S h2 vh ya que c1 está fijo y las demás cantidades son
constantes.

Escribiendo la desigualdad de Cauchi-Scwarz se tiene:

L L L 2

c h v hWh Wh S h2 v h c h v hWh Wh S h2 v h
h 1 h 1 h 1

En donde la igualdad ocurre cuando (chvhWh ) (Wh Sh2 vh ) permanece constante para cada estrato. Por lo tanto para un h
cualquiera:

c h v hWh c h v h2 c1
constante
Wh S h2 v h S h2 2
L
2
S Wh S h
h 1

El menor valor que puede tomar el producto de la izquierda se da para la igualdad de la desigualdad y por lo tanto esta
constante minimiza la varianza que está en el producto de la izquierda en la ecuación (4)
1
c 1 S h2 L 2
v h2 L
vh S h c1 c h S 2 Wh S h2 (10.10)
2 2 h 1
ch S Wh S h
h 1

684 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Y el valor de n1 basado en costos será:

C* (10.11)
n1 L
1
c c h v hWh
h 1

Nota
La varianza mínima con la asignación de n1 y vh se obtiene reemplazando dichos valores en la expresión de la varianza:

1 2 L
1 S2
V (YˆD MAE ) S Wh .S h2 1
n1 h 1 vh N

Nota
Una vez determinado los valores de vh , puede determinarse n1 para satisfacer una varianza determinada V (YD _ MAE )
ˆ V0
Nota
Una manera fácil de obtener las asignaciones de acuerdo es considerar ch y S h constantes para cada estrato (Cochran, 1980).
En consecuencia con ello se tiene:

1 1
1 2 1
c S w
2
c 1 2
vh v . (10.12)
c ( S S w2 )
2
c ( 1)

Aquí:
L
ch c; S w2 Wh S h2 Sw Sh Constante
h 1

La expresión S 2 S w2 significa eficiencia relativa de la estratificación (MAE) proporcional al muestreo aleatorio simple
(MAS)

Nota
El tamaño de muestra n1 (tamaño de la primera etapa) depende del valor vh en donde como se dijo antes vh nh n1h

Ejemplo 10.2
Usando como muestra piloto la información obtenida con la muestra de lo 400 predios del ejemplo 10.1, y asumiendo
vh 1 5 ; h ¿Que tamaño de muestra se requiere para satisfacer un error de 1,07 acres con un nivel de confianza del
95%?, ¿cómo queda repartida la muestra entre las dos fases?

Solución//

Para el tamaño de muestra:

685 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Estrato Ŵh Sˆh2   Yˆh  


I 0,575 12,866 7,694
II 0,25 8,774 22,807
III 0,175 27,291 40,983
n1 400; vh 1 5, h

S2 Sh2Wh (Yh Y ) 2Wh Sˆ 2 14,367375 158,794804 173,162179

2 S2 4 Wh S h2
1 1 L
Wh .S 1
V (YˆD MAE ) S2 h
1 n1 h 1
599,65 600
n1 N n1 vh 1 2
h 1
V (YˆD MAE ) S
N
Es decir que se requieren 200 unidades adicionales a las unidades del tamaño de muestra de la primera fase para satisfacer el
error y el nivel de confianza establecidos manteniendo v 1 5; h .

Nota
Con esta nueva muestra se redefinen los Wh1 y se calcula de nuevo nh vh .n1h .
1
Se puede intentar encontrar los tamaños de muestra de la primera n y segunda fase n para luego realizar las asignaciones
por estrato. Utilizando el muestreo con reemplazo en las dos fases, válida en la práctica para muestreo sin reemplazo cuando
la población es grande respecto de los tamaños muestrales (Miras, 2000), las expresiones que siguen son expresadas por el
autor referido.

Se manejan las dos situaciones más comunes:

Situación 1(Asignación proporcional)

Aquí se considera que el reparto de la muestra en cada estrato nh de acuerdo con la muestra n definida de antemano es

proporcional a los pesos Wh1 encontrados con la muestra determinada para la primera fase n1 o pre-establecidos para reducir
la varianza para satisfacer unos costos del trabajo de campo establecidos.

nh n.Wh ; h

El sistema de ecuaciones que permite hallar los valores de n1 y n son:

L L 2 L
1
n n A 1
Wh ( h ) 2
Wh . h ; Wh h
h 1 h 1 h 1
A .c1 1
B.c Donde: (10.13)
L
C c1 .n1 c.n B (Yh Y ) 2
h 1

686 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

La varianza óptima encontrada mediante el uso de la situación (1) es:

1 2
V (YˆD MAE ) . A1 .c B.c1 (10.14)
C

Hay que recordar aquí que en poblaciones grandes tanto para la población como los estratos se cumple que:

2 ( N 1) 2
S S2
N

Situación 2 (Asignación Neyman)

Aquí se considera que el reparto de la muestra en cada estrato nh de acuerdo con la muestra n vienen dada por:

Wh .S h
nh n. L
; h
Wh S h
h 1

El sistema de ecuaciones que permite hallar los valores de n1 y n para la menor varianza con costos pre-establecidos es:

L 2
1
n n A Wh h
h 1
A.c 1
B.c Donde: (10.15)
L
C c1.n1 c.n B (Yh Y ) 2
h 1

La varianza óptima encontrada mediante el uso de la situación (1) es:

1 2
V (YˆD MAE ) . A.c B.c1 (10.16)
C

Nota
La aplicabilidad en la práctica de los modelos anteriores propuestos por Miras, requieren de un conocimiento muy fuerte de
parámetros en los estratos y en la población; lo que implica, suponer el número de estratos y estimar en forma adelantada
dichos parámetros (estudios anteriores o estudios piloto).

10.7 MUESTREO EN DOS FASES PARA LA APLICACIÓN DE ESTIMADORES DE RAZÓN

El estimador de razón visto en el capítulo 5 para la estimación de la media de la variable Y (variable principal), utiliza
información de la variable X correlacionada con la variable principal obtenida de toda la población es decir que se conoce
X.

687 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

En lo que sigue debe tenerse presente que:

Y : Variable principal objeto de estudio,


X : Variable auxiliar correlacionada con la variable principal,
R Y X : Razón poblacional involucrada.

En el muestreo de dos fases se sigue la siguiente metodología:

Primera fase
Se selecciona una primera muestra de tamaño n1 para obtener una muy buena estimación de X 1

Segunda fase
Se selecciona una segunda muestra n < n1 para estimar Xˆ y Yˆ obteniendo la razón Rˆ y x.

La figura 10.4 ilustra las dos situaciones posibles para el cumplimiento del muestreo bifásico para la estimación de razón:

Figura 10.4. Esquema del muestreo en dos fases para estimadores de razón.

10.7.1 Estimador de la media para la variable Y en el muestreo de dos fases para estimadores de razón.

Como resultado de las dos fases anteriormente definidas se tiene:

688 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

PARÁMETRO ESTIMADOR

(10.17)
N
yi Yˆ ˆ 1
Y i 1
R. X YˆDR
1
Rˆ . Xˆ 1 X
N Xˆ

10.7.2 Propiedades del estimador de la media para la variable Y en el muestreo de dos fases para estimadores de
razón.

A continuación se analizan las propiedades importantes del estimador de la media para estimadores de razón mediante el
muestreo en dos fases.

Propiedad 10.6: El estimador de la media para la variable Y en el muestreo doble para estimadores de razón es un
estimador sesgado.

Puede verse que:


E (YˆDR ) En1 En Rˆ Xˆ 1 En1 Xˆ 1.En Rˆ
Pero:

Yˆ 1
En ( Rˆ ) Rˆ 1
Xˆ 1

De acuerdo con lo anterior:


Xˆ 1 E n ( Rˆ ) Yˆ 1

Y finalmente:

En1 . Xˆ 1En ( Rˆ ) Y

Nota
Para muestras grandes el sesgo del estimador de razón R̂ disminuye, con lo que podría decirse que el estimador YˆDR sería
insesgado.

Propiedad 10.7: Expresión de la varianza para el estimador de la media de la variable Y en el muestreo doble para
estimadores de razón.

Se parte de la siguiente diferencia:

(YˆDR
1
Y) ?

689 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Sumando y restando R̂X se tiene:

(YˆDR
1
Y ) ( Rˆ Xˆ 1 Y ) Rˆ Xˆ 1 Rˆ X Rˆ X Y Rˆ Xˆ 1 X Rˆ X Y Rˆ Xˆ 1 X Rˆ X RX

Yˆ Xˆ
(YˆDR
1
Y) Rˆ Xˆ 1 X Rˆ X RX Rˆ Xˆ 1 X Rˆ R X Rˆ Xˆ 1 X X R
Xˆ Xˆ

Yˆ Xˆ X ˆ
(YˆDR
1
Y) Rˆ Xˆ 1 X X R Rˆ Xˆ 1 X Y RXˆ
Xˆ Xˆ Xˆ
Suponiendo que:
X
Rˆ R Y 1.0

Entonces:

(YˆDR
1
Y) Rˆ Xˆ 1 X Yˆ RXˆ

Sacando varianzas a ambos lados:

V (YˆDR
1
Y ) V Rˆ Xˆ 1 X Yˆ RXˆ

V R Xˆ 1 X V Yˆ RXˆ 2 RCov Xˆ 1 X , Yˆ RXˆ (1)

Pero:

V R Xˆ 1 X R 2V Xˆ 1 X R 2V Xˆ 1

V Yˆ RXˆ V Yˆ 2 RV Xˆ 2 RCov Yˆ , Xˆ

2 RCov Xˆ 1 X , Yˆ RXˆ

2 RCov Xˆ 1 , Yˆ 2 RCov Xˆ 1 , RXˆ 2 RCov X , Yˆ 2 RCov X , RXˆ


0 0

2 RCov Xˆ 1 , Yˆ 2 RCov Xˆ 1 , Xˆ

Reemplazando en la expresión (1) se tiene:

690 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

V (YˆDR
1
Y ) V YˆDR R 2V Xˆ 1 V Yˆ R 2V Xˆ 2 RCov Yˆ , Xˆ 2 RCov Xˆ 1 , Yˆ 2 RCov Xˆ 1 , Xˆ

Se analizan a partir de este momento dos situaciones:

Situación 1

Suponiendo que la fase 1 y la fase 2 son independientes es decir que la muestra de la segunda fase no es una subnuestra de la
primera muestra de la fase 1.

En este caso:

Cov Xˆ 1 , Xˆ 0 Y Cov Xˆ , Yˆ 0

V YˆDR
1
R 2V Xˆ 1 V Yˆ R 2V Xˆ 2 RCov Yˆ , Xˆ
Pero:
N n1 S X2 N n SY2 N n S X2 1 N
V Xˆ 1 1
; V Yˆ ; V Xˆ ; SYX ( yi Y )( xi X)
N n N n N n N 1i 1

N n SYX
Cov Yˆ , Xˆ
N N 1

Reemplazando y reorganizando:

N n 1 2 N n1 1 2 2
V YˆDR
1
SY R 2 S X2 2 RSYX R SX (10.18)
N n N n1

Propiedad 10.8: Estimador de la varianza para el estimador de la media de la variable Y en el muestreo doble para
estimadores de razón (situación 1)

Si en la expresión de la varianza 10.18 se toman los siguientes estimadores:

Rˆ ; SˆY2 ; Sˆ X2 ; SˆYX

Se tiene el estimador de la varianza para la varianza del estimador de la media por el método de muestreo doble para razón el
cual viene dado por:

N n 1 ˆ2 N n1 1 ˆ 2 ˆ 2
Vˆ YˆDR
1
SY Rˆ 2 Sˆ X2 2 Rˆ SˆYX R SX (10.19)
N n N n1

691 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

En poblaciones infinitas:

1 ˆ2 1 ˆ 2 ˆ2
Vˆ YˆDR
1
SY Rˆ 2 Sˆ X2 2 Rˆ SˆYX R SX
n n1

Situación 2

Se supone que la fase 1 y la fase 2 no son independientes es decir que la muestra de la segunda fase es una subnuestra de la
primera muestra de la fase.

En este caso:
Cov Xˆ 1 , Xˆ 0 Y Cov Xˆ , Yˆ 0

Se tiene en cuenta que en el MAS:

En1 Yˆ Yˆ 1 Y En1 Xˆ Xˆ 1

Propiedad 10.9: Expresión de la varianza para el estimador de la media de la variable Y en el muestreo doble para
estimadores de razón (situación 2)

Por ser la segunda muestra un subconjunto de la primera muestra ( n n1 ) se tiene:

Cov Yˆ , Xˆ 1 E Yˆ . Xˆ 1 E Yˆ .E Xˆ 1 En1 En Yˆ . Xˆ 1 En1 En Yˆ .En1 En Xˆ 1


Pero:

En1 En Yˆ . Xˆ 1 En1 Xˆ 1.En Yˆ En1 Xˆ 1.Yˆ 1 En1 Yˆ 1. Xˆ 1

E Yˆ En1 En Yˆ En1 Yˆ 1 ; E Xˆ 1 En1 En Xˆ 1 En1 Xˆ 1


Luego:

N n1 SYX
Cov Yˆ , Xˆ 1 Cov Yˆ 1 , Xˆ 1
N n1

Análogamente:
N n1 S X2
Cov Xˆ , Xˆ 1 Cov Xˆ 1 , Xˆ 1 V Xˆ 1
N n1
Entonces:

V YˆDr1 R 2V Xˆ 1 V Yˆ R 2V Xˆ 2 RCov Yˆ , Xˆ 2 RCov Xˆ 1 , Yˆ 2 R 2 Xˆ 1 , Xˆ

692 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Finalmente:

N n 1 2 N n1 1
V YˆDR
1
SY R 2 S X2 2 RSYX 2 RSYX R 2 S X2 (10.20)
N n N n1

Propiedad 10.10: Estimador de la varianza para el estimador de la media de la variable Y en el muestreo doble para
estimadores de razón (situación 2)

Realizando los respectivos cambios se tiene el estimador de la varianza para el estimador de la media en el muestreo en dos
fases para razón, el cual viene dado por:

N n 1 ˆ2 N n1 1
Vˆ YˆDR
1
SY Rˆ 2 Sˆ X2 2 Rˆ SˆYX 1
2 Rˆ SˆYX Rˆ 2 Sˆ X2 (10.21)
N n N n
Nota
Y
Debe tenerse siempre presente que la razón que se está estudiando es de la forma R y que ella no es conmutativa en sus
X
componentes.

Ejemplo 10.3
Una granja especializada en la cría de conejos tiene una población de 2000 conejos recién nacidos. Una semana después de
vacunados y antes de someterlos a una dieta especial se toma una muestra de 300 de ellos en forma aleatoria se marcan con
un código y se pesan ( X ) obteniendo la siguiente información:

Estadísticas Descriptivas: Peso Original


(X). Primera fase
Variable auxiliar Total Suma
n1
X: Peso original
(libras) n 1
xi1
i 1
300 912,8431

Después de 2 meses se toma una muestra de 80 conejos de entre los 300 marcados y se analiza el peso original ( X )
registrado hace dos meses y el peso actual ( Y ) de cada conejo muestreado, encontrando:

Estadísticas Descriptivas: Peso Original (X). Segunda fase


Variable Cantidad Promedio Cuasivarianza Suma
n
X
(libras)
n X̂ Sˆ X2 xi
i 1
80 3,0815 0,4791 246,5224

693 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Estadísticas Descriptivas: Peso Actual (Y). Segunda fase Estadísticas Descriptivas: Segunda fase
Variable Cantidad Promedio Cuasivarianza Suma Variable Cantidad Suma
n n
Y
(libras)
n Yˆ SˆY2 yi YX n xi yi
i 1 i 1
80 4,1546 0,1329 332,3651 80 1028,866

a) Estime el peso promedio actual para la población de los 2000 conejos


b) Estime su varianza

Solución//

a) Para la estimación del peso promedio actual:

Primera fase Segunda fase

n1
1 1
Xˆ 1 xi (912,8431) 3,043 Xˆ 3,0815; Yˆ 4,1546
n1 i 1 300

Yˆ ˆ 1 4,1546
Yˆ 1 Rˆ Xˆ 1 .X (3,043) 4,1027
Xˆ 3,0815

El peso actual promedio por conejo para la población de 2000 de ellos se estima en 4,1027 libras.

b) Para la estimación de la varianza:

N n 1 ˆ2 N n1 1 ˆ ˆ
Vˆ (YˆDR
1
) SY Rˆ 2 Sˆ X2 2 Rˆ SˆYX 2 RSYX Rˆ 2 Sˆ X2
N n N n1
Aˆ Bˆ

80
1 1
SˆYX xi yi nYˆXˆ 1028,866 (80)(4,1546)(3,0815) 0,05916466
n 1 i 1 79

Aˆ 0,84424764; Bˆ 0,71134764
Por lo tanto:

N n 1 ˆ2 N n1 1 ˆ ˆ
Vˆ (YˆDR
1
) SY Rˆ 2 Sˆ X2 2 Rˆ SˆYX 2 RSYX Rˆ 2 Sˆ X2
N n N n1
Aˆ Bˆ

694 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Finalmente:

2000 80 1 2000 300 1


Vˆ (YˆDR
1
) (0,84424764) ( 0,71134764) 0,00811546
2000 80 2000 3000

Ejemplo 10.4
Utilizando los resultados del capítulo 5, en lo concerniente a los estimadores de razón en el MAE; se puede encontrar el
estimador de la media mediante el muestreo de dos fases para razón (situación 2: La segunda muestra es un subconjunto de la
primera), cuando la población está divida en L estratos

Se aplica la teoría del estimador de razón por separado en el MAE.


Suponiendo que la población tiene L estratos plenamente identificados entonces se aplica el muestreo en dos fases para razón
en cada estrato obteniendo:

n11 Xˆ 1 YˆDR
1
1 Rˆ1 Xˆ 11
n 12 Xˆ 1 YˆDR
1
Rˆ 2 Xˆ 21 L
Primera n1 2
YˆDR
1
W h .YˆDRh
1

h 1

n 1
L Xˆ 1 YˆDRh
1
Rˆ h Xˆ h1

n1 Rˆ1 Yˆ1 Xˆ 1
n2 Rˆ 2 Yˆ2 Xˆ 2
Segunda n

nL Rˆ L YˆL Xˆ L

La varianza para el estimador en este caso viene dada por:

L
N h nh 1 N h n1h 1
V YˆDR
1
Wh2 SY2h Rh2 S Xh
2
2 Rh SYXh 2 Rh SYXh Rh2 S X2 h
h 1 Nh nh Nh n1h

Ejemplo 10.5
La siguiente información corresponde a una muestra de tamaño n1
200 , la cual fue repartida en dos estratos según se
indica y de ella se obtuvo el estimador de la media para la variable: X correlacionada con la variable: Y objeto de estudio.
1
Posteriormente de cada muestra nh se obtuvo una submuestra para obtener indicadores para las variables X e Y .La
población tiene 2000 unidades.

Primera fase:

695 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

 
Estrato II 
W2 0,4; n12 80; Xˆ 21 82,0837875
 
N2 800
 

 
Estrato I 
W1 0,6; n11 120; Xˆ 11 40,9882925
N1 1200
 
 

Segunda fase:

nh Xˆ h Yˆh   Sˆ Xh SˆYh2   S XYh  


2
Estrato  
I 72 39,6123486 62,5625907 99,0395976 150,559626 117,151338
II 32 81,358625 112,8604491 147,918013 210,532688 171,652892
Total 104

a) Encuentre para la población: YDR


ˆ1

Solución//
ˆ1
Se tienen las siguientes valores de YDRh . Para el estrato I: YˆDR
1
64,7357165 y para el estrato II:
1

YˆDR
1
2 113,866392 y por lo tanto:

2
YˆDR
1
WhYˆDRh
1
(0,4)(64,7357165) (0,4)(113,866392) 84,3879868
h 1

696 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

b) Estime su varianza

Solución//

El estimador correspondiente será:

L
N h nh 1 ˆ 2 N h n1h 1
Vˆ YˆDR
1
Wh2 SYh Rˆ h2 Sˆ Xh
2
2 Rˆ h SˆYXh 2 Rˆ h SˆYXh Rˆ h2 Sˆ X2 h
h 1 Nh nh Nh n1h
Ah Bh

(0,6) 2 0,35973803 0,92253918 (0,40) 2 0,56822607 2,15540796 0,89740124

c) Si se determina con anterioridad que la muestra de primera fase va ha ser repartida entre los dos estratos de acuerdo a una
2
ponderaciones ( wh ); ( wh ) 1.0 y a su vez la muestra de segunda fase se obtiene como un porcentaje de muestra
h 1

de primera fase es decir de acuerdo con (vh ); 0 < vh 1.0 . Determine el tamaño de muestra n1 para satisfacer una
varianza V0

Solución //

De acuerdo con lo establecido:

Para la muestra de primera fase se tendrá para cada estrato:

2
n1h n1.( wh ) ; es decir n1 n1h ; ( wh ) conocidos.
h 1

Para la muestra de segunda fase se tendrá para cada estrato:

nh n1h .(vh ) ; es decir ( nh es un porcentaje del n1h ); (vh ) conocidos.

Se tiene entonces que:

Reemplazando n1h n1.( wh ) y nh n1.( wh )(vh ) en la expresión de varianza se tiene:

L
N h nh 1 N h n1h 1
V YˆDR
1
W h
2
SY2h 2
R S
h
2
Xh 2 Rh SYXh 2 Rh SYXh Rh2 S X2 h
h 1 Nh nh Nh n1h
Ah Bh

697 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Es decir:

L
N h nh Ah L
N h n1h Bh L
Wh2 Ah L
Wh2 Ah L
Wh2 Bh L
Wh2 Bh
V YˆDR
1
Wh2 Wh2
h 1 Nh nh h 1 Nh n1h h 1 nh h 1 Nh h 1 n1h h 1 Nh
2 2
L
W Ah
h W Bh h
L
Wh2 Ah Wh2 Bh L
Wh2 Ah Wh2 Bh L
Wh2
1
Ah Bh
h 1 nh n h h 1 Nh Nh h 1 n1 ( wh )(vh ) n1 ( wh ) h 1 Nh

Finalmente:

L
Wh2 Ah Wh2 Bh Wh2
L
1 L
Wh2 Ah 1 L
V YˆDR
1
Ah Bh Bh Wh ( Ah Bh )
h 1 n1 ( wh )(vh ) n1 ( wh ) h 1 Nh n1 h 1 ( wh ) (vh ) N h 1

L
Wh2 Ah
Bh
h 1 ( wh ) (vh )
n1
1 L
V0 Wh ( Ah Bh )
N h1

10.8 TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA MEDIA POBLACIONAL EN EL MUESTREO


DE DOS FASES PARA RAZÓN (cálculo de n1 y n )

Para el manejo del tamaño de muestra para la estimación de la media poblacional para la variable analizada Y , en el
muestreo de dos fases para razón deben contemplase las dos situaciones antes vistas para la obtención de la varianza del
estimador y la función de costos dada por:

C* c1n1 cn (10.22)

Donde:
C * : Costo total esperado del trabajo de campo.
c1 : El costo de la clasificación de una unidad en la primera fase.
c : El costo de medir la unidad en la segunda fase.
1
Se propone entonces la siguiente metodología para determinar n y n para obtener la mínima varianza del estimador de Y
en el muestreo bifásico para razón de tal manera que se satisfagan los costos involucrados mediante la función (10.22). Es
necesario considerar dos situaciones:

Situación 1

1
Bajo el supuesto de que las muestras de primera fase ( n ) y segunda fase ( n ) son independientes se reorganiza la expresión
de varianza correspondiente de la siguiente manera:

698 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

N n 1 2 N n1 1 2 2
V YˆDR
1
SY R 2 S X2 2 RSYX R SX
N n N n1
A B
Sea:

A SY2 R 2 S X2 2 RSYX Y B R 2 S X2

Reemplazando:

N n 1 N n1 1 A A B B A B 1
V YˆDR
1
A B A B
N n N n1 n N n1 N n n1 N

Estableciendo la siguiente función de Lagrange:

A B 1
( A B) (c1n1 cn C * )
n n1 N

Derivando parcialmente e igualando a cero la ecuación anterior se tiene:

A A
c 0
n n2 n 2c A B n1 B.c
B B n 2c ( n1 ) 2 n A.c1
c1 0
n1 ( n1 ) 2 1 2 1
(n ) c
Los valores de n1 y n se obtienen resolviendo el siguiente sistema de ecuaciones:

Bc
n1 n n C * Ac1 c1 Bc c Ac1
1 (10.23)
Ac
1 * 1 1
n C Bc c Bc c Ac
C* c1n1 cn

Para obtener la varianza óptima remplazando los valores anteriormente hallados para en la expresión de varianza se tiene:

A c1 Bc c Ac1 B c1 Bc c Ac1 1
V YˆDR opt
( A B)
C Ac * 1
C * Bc N
1 1
V YˆDR opt *
Ac 2 ABcc1 Bc1 ( A B)
C N
(10.24)
1 1
2 1
*
Ac Bc ( A B)
C N

699 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Situación 2

1
Bajo el supuesto de que las muestras de primera fase ( n ) y segunda fase ( n ) no son independientes se reorganiza la
expresión de varianza correspondiente de la siguiente manera:

N n 1 2 N n1 1
V YˆDR
1
SY R 2 S X2 2 RSYX 2 RSYX R 2 S X2
N n A
N n1
B1

N n 1 N n1 1 1 A B1 1
V YˆDR
1
A B ( A B1 )
N n N n1 n n1 N

Definiendo la función de Lagrange y resolviendo análogamente a la situación anterior se tiene:

B1c
n1 n ; C* c1n1 cn
1
Ac
Resolviendo el sistema anterior se obtiene:

n C * Ac1 c Ac1 c1 B1c


(10.25)
1 * 1 1 1 1
n C Bc c Ac c Bc

Para la varianza óptima se tiene:

1 2 1
V (YˆDR
1
) opt Ac B1c1 ( A B1 ) (10.26)
C* N

Nota

Para encontrar los estimadores de las expresiones 10.24 y 10.26 basta con reemplazar las varianzas con las estimaciones
1
respectivas de A , B y B .

Ejemplo 10.6
Utilizando como muestra piloto las 300 mediciones obtenidas para la variable X en el ejemplo 10.3, determine el tamaño de
muestra asumiendo que n es un tercio de n y se desea V (YˆDR ) 0.0046
1

Solución//

N n 1 N n1 1 3A B
V ( Xˆ R1 ) A B n1
N n N n1 1
V(Xˆ R ) (A B)
N

700 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

3A B 1,82139528
n1 390,3 391
1 0,0046 0,00006645
V(Xˆ R ) (A B)
N
n (1 3)(n1 ) (1 3)(391) 131

Se requieren 91 conejos adicionales para la primera fase y 131 80 51 adicionales para la segunda fase.

10.9 MUESTREO EN DOS FASES PARA LA APLICACIÓN DE ESTIMADORES DE REGRESIÓN

El estimador de regresión visto en el capítulo 6 para la estimación de la media de la variable Y (variable principal), utilizó
información de la variable X correlacionada con la variable principal obtenida de toda la población es decir que se conocía
X.
En lo que sigue debe tenerse presente que:

Y : Variable principal objeto de estudio


X : Variable auxiliar correlacionada con la variable principal.

En el muestreo de dos fases se sigue la siguiente metodología:

Primera fase
Se selecciona una primera muestra de tamaño n1 para obtener una muy buena estimación de X 1

Segunda fase
Se selecciona una segunda muestra n < n1 para estimar Xˆ y Yˆ obteniendo de esta forma bajo el supuesto de que se
conoce el coeficiente de regresión b0 para aplicar el modelo de regresión lineal Y A b0 X el estimador de Y .

10.9.1 Estimador de la media para la variable Y en el muestreo de dos fases para estimadores de regresión.

Como resultado de las dos fases anteriormente definidas se tiene:

PARÁMETRO ESTIMADOR

(10.27)
N
yi
Y i 1
R. X YˆDRe
1
Yˆ b0(Xˆ 1 Xˆ)
N
10.9.2 Propiedades del estimador de la media para la variable Y en el muestreo de dos fases para estimadores de
regresión con b0 pre asignado.

A continuación se analizan las propiedades importantes del estimador de la media para estimadores de regresión con b0
mediante el muestreo en dos fases.

701 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Propiedad 10.6: El estimador de la media para la variable Y en el muestreo doble para estimadores de regresión con
b pre asignado ( b0 ) es un estimador insesgado.

Situación 1: la muestra n (segunda fase) no es un subconjunto de la muestra n1 (primera fase)

Puede verse que:

E (YˆDRe ) En1 En Yˆ 1 En1 En Yˆ b0 ( Xˆ 1 Xˆ ) En1 En Yˆ b0 En Xˆ 1 Xˆ

En1 Yˆ 1 b0 Xˆ 1 En ( Xˆ ) En1 Yˆ 1 b0 Xˆ 1 Xˆ 1 En1 Yˆ 1 Y

Nota
Análogamente puede verse el insesgamiento para la situación Nº 2 (la segunda muestra es un subconjunto de la primera)

Propiedad 10.7: Expresión de la varianza para el estimador de la media de la variable Y en el muestreo doble para
estimadores de regresión con b0 pre asignado.

Situación Nº 1 (la muestra n no es un subconjunto de n1 )

V (YˆDre
1
) V Yˆ b0 Xˆ 1 Xˆ V (Yˆ ) b02 .V ( Xˆ 1 Xˆ ) 2b0 .Cov Yˆ , ( Xˆ 1 Xˆ )

V (Yˆ ) b02 .V ( Xˆ 1 ) b02 .V ( Xˆ ) 2b0Cov ( Xˆ 1 , Xˆ ) 2b0Cov Yˆ , ( Xˆ 1 Xˆ )

1
Como X̂ está fijo:

Cov( Xˆ 1 , Xˆ ) 0
Vov Yˆ , ( Xˆ 1 Xˆ ) Cov(Yˆ , Xˆ ) Cov(Yˆ , Xˆ )

Reemplazando:

V (YˆDre
1
) V (Yˆ ) b02 .V ( Xˆ 1 ) b02 .V ( Xˆ ) 2b0Cov (Yˆ , Xˆ )
N n SY2 2 N n S X2 N n SYX 2 N n1 S X2
b 0 2b0 b0
N n N n N n N n1
N n 1 2 N n1 1 2 2
SY b02 .S X2 2b0 SYX b0 S X
N n N n1 B
A

N n 1 N n1 1
A B
N n N n1

702 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Finalmente:

A B 1
V (YˆDre
1
) ( A B) (10.28)
n n1 N

La expresión de la varianza mínima se obtiene cuando:

b0 B SYX S X2

De tal manera que:

2 2 2
2 2 2 SYX 2 S 2 SYX SY2 2 SYX
S Y b0 S X 2b0 SYX S Y S X 2 YX2 .SYX S Y S Y 1
S X2 SX SX SY2 S X SY
Pero:

SYX
XY
S X SY

Entonces:

SY2 b0 S X2 2b0 SYX SY2 1 2


XY

Análogamente:

b02 S X2 2
XY SY2

Finalmente reemplazando se tiene:

N n 1 N n1 1
V (YˆD1Re ) 1 2
XY SY2 2
XY SY2
N n N n1

Simplificando se tiene que la varianza mínima será:

1 1 1 2
V (YˆDRe
1
) MIN 1 2
XY .SY2 2
XY SY2 SY (10.29)
n n1 N

Situación Nº 2 (la muestra n es un subconjunto de n1 )

En este caso:

703 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

V (YˆDre
1
) V Yˆ b0 Xˆ 1 Xˆ V (Yˆ ) b02 .V ( Xˆ 1 Xˆ ) 2b0 .Cov Yˆ , ( Xˆ 1 Xˆ )

Pero:

V ( Xˆ 1 Xˆ ) V ( Xˆ 1 ) V ( Xˆ ) 2Cov ( Xˆ 1 , Xˆ ); Cov Yˆ , ( Xˆ 1 Xˆ ) Cov (Yˆ , Xˆ 1 ) Cov (Yˆ , Xˆ )

Cov( Xˆ 1 , Xˆ ) En1 En ( Xˆ 1 , Xˆ ) En1 En ( Xˆ 1 ).En1 En ( Xˆ ) En1 ( Xˆ 1. Xˆ 1 ) En1 ( Xˆ 1 ).En1 ( Xˆ 1 )


N n1 S X2
Cov( Xˆ 1 , Xˆ 1 ) V ( Xˆ 1 )
N n1

Análogamente:

N n1 SYX N n SYX
Cov (Yˆ , Xˆ 1 ) Cov (Yˆ 1 , Xˆ 1 ) ; Cov (Yˆ , Xˆ )
N n1 N n
Finalmente:

V (YˆDre
1
)
N n SY2 N n1 S X2 N n S X2 N n1 S X2 N n1 SYX N n SYX
b02 2 2b0
N n N n1 N n N n1 N n1 N n

N n 1 2 N n1 1 N n A N n1 B1
V (YˆDre
1
) SY b02 .S X2 2b0 .SYX 2b0 SYX b02 S X2
N n N n1 N n N n1
A 1
B

En conclusión:

A B1 1
V (YˆDre
1
) ( A B1 ) (10.30)
n n1 N

Nota
La varianza mínima en esta situación es la misma que la hallada bajo la situación Nº1

Propiedad 10.9: Estimadores de las varianzas para el estimador de la media de la variable Y en el muestreo doble
para estimadores de regresión (situación 1 y situación 2)

Se obtienen muy fácilmente reemplazando en las expresiones de varianza respectivas las estimaciones:

704 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

 , B̂ y B̂1

Ejemplo 10.7
Para la población de 1200 bachilleres que ingresaron a la facultad de Ingeniería de una universidad en el año 2008 se ha
tomado una muestra de 400 de ellos en forma aleatoria y se ha registrado el puntaje obtenido por cada uno en la prueba de
actitud matemática ( X ) obteniendo para dicha variable el siguiente indicador muestral:

Estadísticas Descriptivas: Actitud


matemática (X). Primera fase
Variable auxiliar Total Suma
X n1 X̂ 1
400 47,898

Posteriormente (6 meses después) al finalizar el primer semestre se escogen en forma aleatoria 200 estudiantes de los 400 y
se obtienen los siguientes indicadores muestrales para el puntaje de la prueba de actitud matemática ( X ) así como la
calificación obtenida en el curso de Cálculo I (expresada en puntos de 1 a 100) ( Y ).

Estadísticas Descriptivas:
Actitud Matemática (X). Segunda fase
Variable Cantidad Promedio Cuasivarianza
X n ˆ2
X̂ SX
200 47,225 70,437

Estadísticas Descriptivas: Estadísticas Descriptivas:


Calificación de Cálculo (Y) Segunda fase Variable Y.X. Segunda fase
Variable Cantidad Promedio Cuasivarianza Variable Cantidad Cusicovarianza Coeficiente
de correlación
Y ˆYX
n Yˆ SˆY2 YX n ŜYX
200 76,815 50,131 200 50,4689698 0,84931898

a) Encuentre la calificación promedio obtenida en los cursos de Cálculo I por la población de los 1200 estudiantes
b) Estime la varianza

Solución//

a) Para la estimación de la calificación promedio de la población, como no se conoce el coeficiente b0 , se estima mediante:

SˆYX
bˆ 0,7165122
Sˆ X2
Yˆ 1 Yˆ bˆ.( Xˆ 1 Xˆ ) 76,815 0,7165122 (47,898 70,437 ) 60,6655315

b) Para el estimador de la varianza:

705 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

2
ˆ XY ).SˆY2 ˆ XY
(1 2
.SˆY2 SˆY2
Vˆ YˆDRe
1

n n1 N
1 (0,84931898) .(50,131) (0,84931898)2(50,131)
2
50,131
0,11847509
200 400 1200

Ejemplo 10.8
Si la población está dividida en estratos plenamente identificados se realizara regresión separada cuando la muestra de la
segunda fase es un subconjunto de la muestra de la primera fase se tiene:
Primera fase: la muestra n1 se divide en los L estratos obteniendo para cada uno de ellos n1h ; y de esta manera obtener Xˆ h1 .
Segunda fase: con una sub-muestra de n1h en cada estrato se obtiene: Yˆh ; X̂ h y b0 h (este último puede estar asignado
previamente para cada estrato.

Con las dos fases se obtiene para cada estrato:

L
YˆDReh
1
Yˆh b0h(Xˆ h1 Xˆ h ) . Y YˆDRe
1
WhYˆDReh
1

h 1

Y la varianza correspondiente será:

L
Nh nh 1 N h n1h 1
V (YˆDre
1
) W h
2
SYh2 2
b .S
0h
2
Xh 2b0 h .SYXh 2b0 h SYXh b02h S Xh
2

h 1 N nh Nh n1h
Ah Bh1

L
N h nh Ah N h n1h Bh1 L
N h nh Ah L
N h n1h Bh1
Wh2 Wh2 Wh2
h 1 Nh nh Nh n1h h 1 Nh nh h 1 Nh n1h

Nota

SYXh SˆYXh
boh bˆoh
Sˆ Xh
2
S Xh 2

Ejemplo 10.9
En el ejemplo anterior encontrar la expresión para el tamaño de muestra para n1 cuando se determinan los porcentajes ( wh )
y (vh ) de tal manera que:

706 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

n11
Primera fase n1 n1h ( wh ).n1

n1
Segunda fase n nh (vh ).n1h

Para satisfacer una varianza V0 .

Solución//

L
N h nh Ah L
N h n1h Bh1 L
Ah Bh1 L
Ah Bh1
V (YˆDre
1
) Wh2 Wh2 Wh2 Wh2
h 1 Nh nh h 1 Nh n1h h 1 nh n1h h 1 Nh Nh
L ! L 2
Ah B W
Wh2 h h
( Ah Bh1 )
h 1 (vh ).( wh ).n1 ( wh ).n1 h 1 Nh

1 L
Wh2 Ah 1 L
Bh! Wh ( Ah Bh1 )
n1 h 1 ( wh ) (vh ) N h 1

Finalmente:

L
Wh2 Ah
Bh1
h 1 ( wh ) (vh )
n1
1 L
V0 Wh ( Ah Bh1 )
N h1

Ejemplo 10.10
Para los datos del ejemplo 10.5 :
L
a) Encuentre el estimador: YˆDRe
1
WhYˆDReh
1
.
h 1
b) Estime la varianza asociada con el estimador definido en el literal a).
c) Si la información suministrada se asume como una muestra piloto ¿qué tamaño de muestra manteniendo los porcentajes
( wh ) y (vh ) utilizados en el ejercicio 10.5 y satisfaciendo una varianza del estimador igual a V0 0,38 ?
d) ¿Cómo queda la muestra repartida en primera y segunda fase por estrato conservando los porcentajes de la información
piloto?

707 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Solución //

a) Para la primera fase:

Estrato Nh Wh n1h Xˆ h1  
I 1200 0,6 120 40,9882925
II 800 0,4 80 82,0837875
Total 2000 1.0 200

Para la segunda fase:

Estrato nh Xˆ h Yˆh   Sˆ Xh
2
  SˆYh2   S XYh   bˆ0 h
I 72 39,6123486 62,5625907 99,0395976 150,559626 117,151338 1,18287373
II 32 81,358625 112,8604491 147,918013 210,532688 171,652892 1,16045969
Total 104

SˆYXh
Nota: bˆ0 h
Sˆ Xh
2

Calculando para cada estrato el estimador bifásico para regresión se tiene:

YˆDReh
1
Yˆh bˆoh ( Xˆ h1 Xˆ h )

Estrato Wh YˆDReh
1
 
I 0,6 64,1901586
II 0,4 113,701971
Total 1.0

Y por lo tanto:

L
YˆDRe
1
WhYˆDReh
1
(0,6)(64,1901586) (0,4)(113,701971) 83,9948835
h 1

b) Para la varianza estimada:

Estrato ( wh ) nh n1 (v h ) nh n Âh   Bˆ h1
I 0,6 0,6923 11,9843861 138,57524
II 0,4 0,3079 11,3364256 199,196262
Total 1.0 1.0

Aˆ h SˆYh2 bˆ02h Sˆ Xh
2
2bˆoh SˆYXh Y Bˆ h 2bˆoh SˆYXh bˆ02h Sˆ Xh
2

708 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

De tal manera que:

L
N h nh Aˆ h L
N h n1h Bˆ h1
Vˆ (YˆDre
1
) Wh2 Wh2 0,11074146 0,73270642 0,84344788
h 1 Nh nh h 1 Nh n1h

c) Para el tamaño de muestra solicitado se tiene:

L
Wh2 Ah
Bh1
h 1 ( wh ) ( v h ) 187,937645
n1 402,199723 403
1 L 1
V0 Wh ( Ah Bh1 ) (0,38) (174,548851)
N h1 2000

d) Para el reparto por estrato en le primera y segunda fase:


Para la primera fase:

n11 0,6.n1 242


n1 403
n12 0,4.n1 162

Realmente se tomarán 404 unidades en la población.

Para la segunda fase guardando los porcentajes del piloto:

104 n1 (v1 ).(209,56) (0,6923)(209,56) 146


n (403) 209,56
200 n2 (v2 ).(209,56) (0,3079)(209,56) 65

La segunda muestra será de 211 unidades de la muestra de la primera fase para satisfacer el porcentaje del 52%
(104 / 200) .

10.10 TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA MEDIA POBLACIONAL EN EL MUESTREO


DE DOS FASES PARA REGRESIÓN

Para el manejo del tamaño de muestra para la estimación de la media poblacional para la variable analizada Y , en el
muestreo de dos fases para regresión deben contemplase las dos situaciones antes vistas para la obtención de la varianza del
estimador y la función de costos dada por:

C* c1n1 cn

1
Se propone entonces la siguiente metodología para determinar n y n para obtener la mínima varianza del estimador de Y
en el muestreo bifásico para regresión de tal manera que se satisfagan los costos involucrados. Es necesario considerar dos
situaciones:

709 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Situación 1
1
Bajo el supuesto de que las muestras de primera fase ( n ) y segunda fase ( n ) son independientes se plantea nuevemente la
función de Lagrange correspondiente es decir:

V (YˆDre
2
) (c1n1 cn C * )

Los valores de n1 y n siguientes:

n C* A c Ac Bc1
(10.33)

n1 C* B c1 Ac Bc1

Para obtener la varianza óptima remplazando los valores anteriormente hallados para en la expresión de varianza obteniendo:

1 2 1
V YˆDRe
1
opt
Ac Bc 1 (A B ) (10.34)
C* N

Situación 2
1
Bajo el supuesto de que las muestras de primera fase ( n ) y segunda fase ( n ) no son independientes análogamente se
obtiene:

n C* A c Ac B1c1
(10.35)

n1 C * B1 c1 Ac B1c1

Para la varianza óptima se tiene:

1 2 1
V (YˆDRe
1
) opt Ac B 1c 1 ( A B1 ) (10.36)
C* N

Nota
Para encontrar los estimadores de las expresiones 10.34 y 10.36 basta con reemplazar las varianzas con las estimaciones
respectivas de A , B y B1 .

710 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Ejemplo 10.11
Para la siguiente expresión de varianza asumiendo una varianza de V(YDRe )
ˆ1 V0 y suponiendo que n (1 k )n1 donde k es
un entero positivo, determinar la expresión del tamaño de muestra n1 .

A B1 1
V (YˆDRe
1
) ( A B1 ); A SY2 b02 S X2 2b0 SYX ; B1 2b0 SYX b02 SY2
n n1 N
Solución//

A B1 1 k . A B1 1
V (YˆDRe
1
) ( A B1 ) ( A B1 ) V0
n n1 N n1 N

Despejando n1 se tiene:

k . A B1 1 1
n1 ; n n
1 1 k
V0 (A B )
N

10.11 MUESTREO EN DOS FASES PARA LA APLICACIÓN DE ESTIMADORES PPT.

En muchas investigaciones las unidades elementales (objeto de estudio) vienen encapsuladas en grupos (conglomerados) de
tamaños diferentes y desconocidos. Se considera entonces conveniente seleccionar una muestra con probabilidad
proporcional al tamaño del conglomerado es decir, a Pi M i M , pero no se conoce el total ( M ) de unidades elementales
en la población (Raj, 1968).

 
U1 U2 ..... Ui ......... UN
POBLACIÓN:
Unidades conglomeradas

Tamaños de las unidades


M1 M2 Mi MN conglomeradas (desconocidos)
Se aplica la fase 1

Totales de las unidades


Y1 Y2 Yi YN conglomeradas para la variable
analizada Y (desconocidos)
Se aplica la fase 2

Figura 10.5. Objetivos de la aplicación de las fases en el Muestreo Bifásico para aplicar muestreo PPT en unidades conglomeradas.

711 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Se obtiene entonces esta información mediante una muestra aleatoria simple inicial de tamaño n1 (primera fase). De ella se
obtiene una muestra sin reemplazo de tamaño n con probabilidad proporcional al tamaño M i para encontrar los valores Yi .
Ver figura 10.5.

En el muestreo de dos fases para la aplicación de estimadores PPT en unidades conglomeradas de diferente tamaño se sigue
la siguiente metodología:

Primera fase
Se selecciona una primera muestra de tamaño n1 de unidades conglomeradas con igual probabilidad y sin reemplazo, con el
objetivo de conocer los tamaños de las unidades conglomeradas y con ello establecer las probabilidades de selección P(U i ) ,
es decir:

Se obtiene:

n1
1
M Mi
i 1

El promedio de unidades elementales por unidad conglomerada será:

M1
Mˆ 1
n1
Para todas las posibles muestras de tamaño n1 se cumple que:

N
(M i M )2
1 N
1 1 1 1 1 S M2
E ( Mˆ 1 ) M M i ; V ( Mˆ 1 ) i 1
N i 1 n1 N n1 N 1 n1 N n1

Así mismo:

n
(M i Mˆ 1 ) 2
1 1 1 1 1 SˆM2
Vˆ ( Mˆ 1 ) i 1
n1 N n1 n1 1 n1 N n1

El total de unidades elementales (estimado) será:

M1
Mˆ 0 N. NMˆ 1
n1

712 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

De tal manera que la probabilidad de la unidad conglomerada i-ésima es:

Mi Mi
P(U i ) Pˆi
M1
N 1 NMˆ 1
n

Segunda fase
Se selecciona una segunda muestra ( n < n ) de unidades conglomeradas con probabilidad Pi y reemplazo con el objetivo de
1

encontrar para cada una de ellas el valor Yi .

Mi
Yi yij
j 1

10.11.1 Estimador del total para la variable Y en el muestreo de dos fases para la obtención de estimadores PPT

Como resultado de las dos fases anteriormente definidas se tiene el siguiente estimador para el total de la variable Y
analizada.

PARÁMETRO ESTIMADOR

N Mi (10.37)
n
Yi n
NM 1Yi NM 1 n
Yi
Y yij YˆD1
nPˆi
PPT
i 1 j 1 i 1 i 1 nM i nn1 i 1 Mi

Situación 1
1
Bajo el supuesto de que las muestras de primera fase ( n ) y segunda fase ( n ) no son independientes es decir que la segunda
es un subconjunto de la primera seleccionada con reemplazo y proporcional al M (Miras,2000).

10.11.2 Propiedades del estimador del total para la variable Y en el muestreo de dos fases para la obtención de
estimadores PPT

Se analizan a continuación las principales propiedades del estimador del total para la variable Y analizada, obtenido
mediante un muestreo de dos fases para la obtención de estimadores PPT.

Propiedad 10.10: Insesgamiento del estimador del total en el muestreo en dos fases para la obtención de estimadores
PPT.

Haciendo:

713 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

NM 1 n
Yi
E (YˆD1 PPT ) E
n1 n i 1 Mi
NM 1 n
Yi N M1 n
Yi N 1 n
Yi
En1 En En1 E n En1 En
n1n i 1 Mi n1 n i 1 Mi n 1
n i 1 Mi M 1
n n
N Yi N Yi N ˆ1
En1 En En1 En En1 Y En1 NYˆ 1 En1 (Yˆ 1 ) Y
n1 i 1 n( M i M ) 1
n1 i nPi n1

Propiedad 10.11: Expresión para la varianza del estimador del total en el muestreo en dos fases para la obtención de
estimadores PPT.

La varianza para el estimador del total (Miras 2000) en el muestreo bifásico para probabilidades PPT viene dada por:

2
N n1 1 N
Y N n1 Mi
V (YˆD1 PPT ) Pi i Y N .SY2 ; Pi N
(10.38)
N 1 n.n1 Pi 1
n
i 1
Mi
i 1

Usando el Teorema de Madow se tiene:

V (YˆD1 PPT ) Vn1 En (YˆD1 PPT ) En1 En (YˆD1 PPT )

Para el primer sumando se tiene:

N M1 n
Yi M1 n
Yi
Vn1 En (YˆD1 PPT ) Vn1 En Vn1 En N .
n1 n i 1 Mi n1n i 1 Mi
N n1 SY2
Vn1 En ( NYˆ 1 ) Vn1 ( NY 1 ) N2
N n1
Para el segundo sumando se tiene:

2
n1
N M1 n
Yi N2 1 Mi Yi
En1Vn (Yˆ1
D PPT ) En1Vn 1 En 1 Y 1

n n i 1 Mi (n1 ) 2 n i 1 M1 Mi M 1
2
n1 Yj
N2 1 Yi
En 1 MiM j
(n1 ) 2 n i 1 j 1 Mi Mj

La probabilidad de que la pareja (U i ,U j ) pertenezca a la muestra S de tamaño n1 es:

714 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

n1 n1 1
Pr U i , U j S
N N 1

Por lo tanto:

2
N 2 .n1 (n1 1) 1 N
Yi Yj
En1Vn (Yˆ 1
D PPT ) En1 MiM j
(n1 ) 2 N ( N 1) n i 1 j 1 Mi Mj
2 2
N n1 1 1 N
Yi Yj N n1 1 N
Y
En1Vn (Yˆ1
D PPT ) MiM j Pi i Y
N 1 n1 n i 1 j 1 Mi Mj N 1 n1 i 1 Pi
N 2
Yi
Pi Y
i 1
Pi

Finalmente:

2
N n1 N n1 1 N
Y
V (Yˆ 1
D PPT ) Vn1 En (Yˆ 1
D PPT ) En1 En (Yˆ 1
D PPT ) N S2
Y Pi i Y
n1 N 1 n1n i 1 Pi

Donde:

Mi
Pi N
Mi
i 1

Propiedad 10.12: Estimador para la varianza del estimador del total en el muestreo en dos fases para la obtención de
estimadores PPT.

Un estimador para la varianza del estimador del total para la variable Y en el muestreo bifásico para estimadores PPT
(segunda muestra de tamaño n con reemplazo y con probabilidades proporcionales a Pi ) viene dado por:

2
N 2 ( M 1 )2 n
Yi 2 1 n
Yi
Vˆ (YˆD1 PPT )
(n1 ) 2 n.(n 1) i 1 M i2 n i 1 Mi
(10.39)
2
1 n 2 1 2 n n 2
N (N n ) Yi (M ) 1 Yi Yi
M1
nn1 (n1 1) i 1 Mi 1
n (n 1) i 1 Mi i 1 M i2

Véase Méndez et al. ,2004.

715 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Ejemplo 10.12
Con el objeto de estimar la cantidad de carme para ganado en pie en una región ganadera integrada por 2000 haciendas
ganaderas de las cuales se desconoce el número de cabezas de ganado de cada una se ha planteado un diseño muestral en dos
fases de la siguiente manera:

Hacienda Mi Hacienda Mi Hacienda Mi Hacienda Mi


u1 200 u6 120 u11 103 u16 200
u2 100 u7 101 u12 140 u17 210
u3 90 u8 190 u13 100 u18 210
u4 190 u9 80 u14 112 u19 210
u5 90 u10 86 u15 100 u20 210

En la primera fase se toma una muestra de 20 fincas una vez visitadas se obtuvo de parte de los administradores de la
hacienda la cantidad de cabezas de ganado que posee, encontrándose la información de la tabla anterior.

Posteriormente se selecciona una muestra de 5 haciendas con probabilidad proporcional a su número de cabezas de ganado de
entre las 20 haciendas visitadas, para ello se confeccionó la siguiente tabla con rangos de selección.

Rango de Rango de Rango de Rango de


Hacienda Hacienda Hacienda Hacienda
selección selección selección selección
u1 1-200 u6 675-795 u11 1267-1370 u16 1827-2027
u2 201-301 u7 796-897 u12 1371-1511 u17 2028-2238
u3 302-392 u8 898-1088 u13 1512-1612 u18 2239-2449
u4 393-583 u9 1089-1169 u14 1613-1725 u19 2450-2660
u5 584-674 u10 1170-1266 u15 1726-1826 u20 2661-2871

Al generar los cinco números aleatorios entre 1 y 2871 mediante la instrucción de Excel ( aleatorio () * (b a) a ) se
obtuvo: 414; 18; 388; 2317, 260. Estas haciendas fueron visitadas y en cada una de ellas fueron pesados los animales
obteniendo el peso total de todos los animales de la hacienda obteniendo la siguiente tabla.

Número generado Hacienda


animales Peso total (Kgs)
Muestreada
414 u4 190 63455,675
18 u1 200 78810,052
388 u3 90 38993,26
2317 u18 210 75860,01
260 u2 100 49420,724

Hallar:

a) La cantidad total de carne en el área


b) Estime la varianza asociada al resultado hallado en a)

716 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Solución//

a) Para la cantidad total de carne para las 2000 haciendas ganaderas se tiene:

20
M1 M i 2842; n1 20; n 5
i 1

NM 1 5
Yi 2000(2842)
YˆD1 PPT (2016,73132) 114631008,2 Kgs
nn1 i 1 Mi 5(20)
Es decir que en la zona ganadera hay un potencial de 114631008,2 Kgs / 1000 Kgs 114631,0082Ton

b) Para la estimación de la varianza se tiene:

2
5
Yi 2 5
Yi
829263,074; (2016,73132)2 4067205,23
i 1 M i2 i 1 Mi
 
2
n
Yi 2 1 n
Yi
15822,027
i 1 M i2 n i 1 Mi
 
2
n 2 1 2 n n 2
Yi (M ) 1 Yi Yi
M1 1
1688643972 2
i 1 Mi n ( n 1) i 1 Mi i 1 M i2

Finalmente:

(2000) 2 (2842) 2 2000(2000 20)


Vˆ (YˆD1 PPT ) 2
15822,027 16886439722
(20) 5.(5 1) 5(20)(20 1)
(6,3897 E 13) 3,51949 E 13 9,90919 E 13

Situación 2
1
Bajo el supuesto de que las muestras de primera fase ( n ) y segunda fase ( n ) son independientes la una de la otra (la
segunda se selecciona independentemente de la primera con probabilidades proporcionalesa Pi ) En este caso se tienen las
siguientes propiedades para el estimador (Raj, 1968).

Propiedad 10.13: Insesgamiento del estimador del total en el muestreo en dos fases para la obtención de estimadores
PPT

Se puede ver más explícitamente esta propiedad de la siguiente manera:

717 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

n n
N 1 1 Yi 1
YˆD1 PPT .M . ( N .Mˆ 1 ) ri ( Mˆ o )(r )
n1 n i 1 Mi n i 1

Pero:

N
Y
E ( Mˆ o ) M0 M i ; E (r ) R
i 1 M0

Como hay independencia entre las muestras se aplica:

Y M0 Y
E (YˆD1 PPT ) E ( Mˆ o ).( r ) E ( Mˆ 0 ).E ( r ) M 0 .R ( NM ). N Y
M0 N M0

Propiedad 10.14: Expresión para la varianza del estimador del total en el muestreo en dos fases para la obtención de
estimadores PPT.

La varianza para el estimador del total en el muestreo bifásico para probabilidades PPT viene dada por:

1 1 2 2 2 1 1 1 S M2
V (YˆD1 PPT ) R N SM 1 V p (Yˆ )
n1 N n n1 N M2
2
(10.40)
N 2 N
M0 (M i M ) Yi Mi
M ; S M2 ; VP (Y ) Pi Y ; Pi
N i 1 N 1 i 1 Pi M0

Una presentación explicita del anterior se obtiene de la siguiente:

La varianza del producto de variables aleatorias es:

2 2
V ( X .Y ) E (Y ) .V ( X ) E ( X ) V (Y ) V ( X ).V (Y ) (1)

n n
N 1 1 Yi 1
YˆD1 PPT .M . ( N .Mˆ 1 ) ri ( Mˆ o )(r )
n1 n i 1 Mi n i 1

De acuerdo con la definición anterior del estimador se tiene:

1 1 N
(M i M )2 1 1 2
V ( N .Mˆ 1 ) N 2V ( Mˆ 1 ) N2 N2 S M ; (2)
n1 N i 1 N 1 n1 N
n n n
1 Yi 1 Yi 1 1 1 Yi 1
V. V 2
V V (Yˆppt )
n i 1 Mi n i 1 M i MN MN ( MN ) n i 1 Pi ( MN ) 2

718 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 
En donde Yˆppt es el estimador del total con PPT al tamaño. Su varianza (Miras, 2000) viene dada por:

NM N
Yi 2 Y2 NM N
Y
V . Yˆppt M i (Yi Y ) 2 ; Y
n i 1 Mi Mn n i 1 NM

2 2 2
N N N
NM NM Y Y NM Y Y NM
V . Yˆppt M i (Yi Y ) 2
Mi i Mi i
n i 1 n i 1 Mi NM n i 1 Mi NM NM
2 2 2
N N N
NM 1 NMYi 1 Mi Yi 1 Y 1
Mi Y Y Pi i Y V p (Y )
n ( NM ) 2 i 1 Mi n i 1 NM M i NM n i 1 Pi n

Ahora:

2
N
1 1 1 Y 1 1
V (r ) V (Yˆppt ) Pi i Y V p (Y ) (3)
( NM ) 2 ( NM ) 2 n i 1 Pi ( NM ) 2 n

Reemplazando (2) y (3) en (1) se tiene:

2
V ( Mˆ 0 .r ) E (r ) .V ( Mˆ 0 ) E ( Mˆ 0 ) V (r ) V ( Mˆ 0 ).V (r )
2

N
Y
E (r ) R ; E ( Mˆ 0 ) M0 NM Mi
M0 i 1

1 1 2 1 1 1 1 2 1 1
V ( Mˆ 0 r ) R2 N 2 SM M 02 V p (Y ) N2 SM V (Yˆppt )
n1 N ( NM ) 2 n n1 N ( NM ) 2
n
2
1 1 2 2 2 1 1 1 S M2 M0
R N SM V p (Y ) 1 V (YˆD1 PPT ); M2
n1 N n n1 N M2 N

Propiedad 10.15: El estimador insesgado (Raj, 1968) para la varianza del estimador del total en el muestreo en dos
fases para la obtención de estimadores PPT viene dado por:

Vˆ ( Mˆ 0 .r ) Rˆ 2 .Vˆ ( Mˆ 0 ) M 02 .Vˆ (r ) Vˆ ( Mˆ 0 ).Vˆ (r ) (10.41)

Donde:

2
n1 n n
1 1 ˆ2 ˆ2 1 1 Yi 1 Yi
Vˆ ( Mˆ 0 ) N 2
SM ; SM (M i Mˆ 1 ) 2 ; Vˆ (r ) r ;r
n1 N n 1
1i 1 n(n 1) i 1 Mi n i 1 Mi

719 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 
Ejemplo 10.13
Si en el ejemplo anterior se obtienen las 5 haciendas de la segunda fase en forma independiente y se ha obtenido para ellas la
siguiente información:

Hacienda
animales Peso total (Kgs)
Muestreada
U25 290 114274,575
U240 200 88810,052
U510 90 40789,5
U1888 210 95860,01
U1300 100 48776,82772

a) Encontrar el estimador de la cantidad total de carne (potencial) en la zona ganadera.


b) Estime la varianza en el caso a).

Solución//

a) Para el estimador del total:

n
N 1 1 Yi 2000 1
YˆD1 PPT .M . 2842 ( 2235,5617 ) 127069327 Kgs 127069,327 Ton
n1 n i 1 Mi 20 5

b) Para la varianza se tiene:

2 2
5 5
1 1 Yi
Rˆ 2 ri (447,11234) 2 199909,445
n i 1 n i 1 Mi

n1
Mi n1
890 1
Mˆ 0 NM 1
N i 1
1
2000 89000; SˆM2 1
(M i Mˆ 1 ) 2 6970
n 20 n 1i 1

1 1 ˆ2 1 1
V ( Mˆ 0 ) N2 SM (2000) 2 (6970) 1380060000
n1 N 20 2000

2
n
1 Yi 1
V (r ) r (1652,90523) 82,6452615
n(n 1) i 1 Mi 5(4)

Además:

720 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 
Rˆ 2Vˆ ( Mˆ 0 ) 2,75887E 14; Mˆ 02Vˆ (r ) 6,54633E 11; Vˆ ( Mˆ 0 ).Vˆ (r ) 1,14055E 11

Finalmente:

Vˆ ( Mˆ 0 .r ) Rˆ 2 .Vˆ ( Mˆ 0 ) M 02 .Vˆ (r ) Vˆ ( Mˆ 0 ).Vˆ (r ) 2,7628E 14  

EJERCICIOS

Ejercicio 10.A
Usando el paquete estadístico MINITAB genere 60 grupos (conglomerados) y confeccione una base de datos con las
siguientes características:
a) Tamaño de los conglomerados: Diferente 10 Mi 20 .
b) Distribución de la variable: Y N ( ; ) ; donde 210 y 6 8.
c) Encuentre el parámetro: Y .
1 ˆ1
d) Si se toma una muestra de n 10 y n 5 ; que valor se tendría para V (YD PPT ) si las muestras son independientes.
e) Resuelva el punto de d) si las muestras no son independientes.

Ejercicio 10.B
Para el ejercicio anterior usando MINITAB:
a) Genere una muestra aleatoria simple sin reemplazo de n1 10 conglomerados.
b) Genere una muestra aleatoria simple de tamaño n 5 en donde esta muestra sea un subconjunto de la primera.
c) Encuentre Yˆ
1
D PPT y Vˆ (Yˆ1
D PPT ).
d) Resuelva el literal c) si la segunda muestra es independiente de la primera.

Ejercicio 10.C
Usando la base de datos RAKAN en sus variables (ING-FAMI), (GAST-ALI) y (VIVI-PRO); ingresos familiares y gasto en
alimentos y vivienda propia respectivamente.

a) Genere una muestra aleatoria de n1 100 registros.


1
b) Estime para la variable ingreso familiar el ingreso promedio por familia ( X̂ ).
c) Genere una muestra aleatoria de tamaño n 30 de la muestra generada en a) y estime la razón del gasto en alimentos
para la familia al ingreso familiar.
d) Estime el gasto promedio en alimentos por familia usando muestreo bifásico para estimadores de razón y estime su
varianza.

Ejercicio 10.D
Resuelva el ejercicio anterior utilizando muestreo bifásico para estimadores de regresión.

721 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 
Ejercicio 10.E
Considerando la información obtenida en el ejercicio 10.C.

a) Para la muestra generada en la primera fase de acuerdo con los resultados obtenidos para la variable Ingreso Familiar,
forme 3 estratos de igual amplitud y encuentre para cada uno Wˆh1 .
b) Tome una muestra de 50 registros de la primera muestra con la siguiente distribución:

Estrato vh
1 0,3
2 0,3
3 0,4
Total 1.0

c) Con la segunda muestra en cada estrato encuentre Ŷh .

d) Encuentre YD
ˆ y su varianza.
MAE

Ejercicio 10.F
Para la sub-base de datos generada con la muestra generada en el ejercicio 10.C y considerando los estrato definidos en el
ejercicio 10. E:

a) Encuentre para la variable tenencia de vehículo en la familia PˆD MAE .


b) Encuentre la varianza asociada al estimador definido en a).

Ejercicio 10.G
Usando la base de datos RAKAN en sus variables (ING-FAMI), (GAST-ALI) y (VIVI-PRO); ingresos familiares y gasto en
alimentos y vivienda propia respectivamente.

a) Determine para cada uno de los estratos su peso en la población ( Wh ).

b) Distribuya una muestra de n1 800 registros de acuerdo con el resultado obtenido en a), determinando así n1h para
cada estrato. Genere la muestra respectiva en cada estrato.
c) Determine en cada estrato para la variable ING-FAMI el estimador de la media por estrato.
d) Genere ahora una sub muestra en cada estrato de nh (0.5).n1h y determine la sub muestra correspondiente por estrato.
e) Estime para la variable GAST-ALI, el promedio poblacional mediante razón separada. Encuentre la estimación de su
varianza.
f) Estime para la variable GAST-ALI, el promedio poblacional mediante regresión separada. Encuentre la estimación de su
varianza.

Ejercicio 10.1
El problema consiste en estimar el número medio de cabezas de ganado y su varianza en una población de 80000 fincas
mediante datos muestrales de segunda fase. En la primera fase se obtuvo una muestra de 2072 fincas estratificadas en 5
estratos conforme a la superficie total de las fincas de la siguiente manera: Estrato I (0-15 acres), Estrato II (16-30 acres),
Estrato III (31-50 acres); Estrato IV (51-75 acres) y Estrato V (76-100 acres). La muestra de segunda fase estuvo compuesta
por 500 fincas seleccionadas en cada estrato de la muestra de primera fase de la siguiente manera:

722 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Número de fincas Número de fincas en la


Estrato h
en la primera fase segunda fase
0-15 635 84
16-30 570 125
31-50 475 138
51-75 303 112
76-100 89 41
Total 2072 500

Para la variable Número de cabezas de ganado se obtuvo en la segunda fase los siguientes estimadores muestrales:

ni ni
Estrato h yij yij2
j 1 j 1
0-15 356 3796
16-30 1442 23640
31-50 2200 44886
51-75 2642 83674
76-100 1214 49344
Total 7854 205340

a) Estime la cantidad promedio de cabezas de ganado y su varianza.


b) Estime la cantidad total de cabezas de ganado en las 2072 fincas y su varianza.

Ejercicio 10.2
En una población integrada por 1000000 de fincas ganaderas se tomo una muestra de 20000 fincas encontrando para ellas que
su área promedio igual a X
ˆ1 40,4 acres. Posteriormente se tomó una muestra dentro de la primera de tamaño 10 y en cada
una de ellas se recabo la siguiente información:

Área Número de Área Número de


Finca Finca
(acres) vacunos (acres) vacunos
1 4 0 6 20 30
2 10 5 7 24 33
3 12 2 8 60 40
4 14 20 9 74 53
5 16 21 10 80 60

a) Estime mediante muestreo bifásico para razón el número promedio de cabezas de ganado por finca.
b) Estime la varianza asociada con el estimador definido en a).

c) Estime el total de cabezas de ganado en la población y su varianza.

Ejercicio 10.3
Resuelva el ejercicio anterior mediante un muestreo bifásico para estimadores de regresión.
Ejercicio 10.4
Suponiendo conocidos los siguientes indicadores estadísticos para las variables X e Y:

723 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

S X2 64,2634139; SY2 97,5808144; S XY 77,0946317; X 36,2064683

Una primera muestra de tamañon1 200 da como resultado X 1 35,9983647 . Una sub muestra de la primera de
tamaño n 100 permite hallar: X
ˆ 35,757803 y Yˆ 66,4567498 . Estimar la media para la variable Y usando
muestreo bifásico para regresión óptimo. Calcule el costo total si c1 $1000 y c $4000 .

Ejercicio 10.5

ˆ1 V(YˆD1 Re )
Encuentre el coeficiente de variación CV (YD Re ) .100 para el ejercicio 10.5
Yˆ 2
D Re

Ejercicio 10.6
Suponiendo estimador de regresión óptimo encuentre los tamaños de muestra óptimos n1 y n en el ejercicio 10.4 para el
costo total hallado.

Ejercicio 10.7
Suponga que para determinada población se tiene la siguiente información poblacional correspondiente a tres estratos:

Estrato Wh h Ŷh
1 0,5 5 5
2 0,3 28 12
3 0,2 72 18

1
Para estimar la media para la variable Y , se desea determinar si es más conveniente un muestreo doble con: c $1200 y
c $5000 comparado con un muestreo de una sola fase asumiendo el mismo costo total en ambos casos cuando se desea:
a) Afijación proporcional en la segunda fase.
b) Afijación óptima en la segunda fase.

Ejercicio 10.8
Suponga que se conocen los siguientes indicadores:

S X2 64,2634139; SY2 97,5808144; S XY 77,0946317; X 36,2064683; R 1,86020417

En la estimación de Y se pide decidir si es más conveniente el muestreo doble para estimadores de razón con
c1 $1200 y c $4600 que un muestreo aleatorio simple en una fase con el mismo costo total en ambos casos.

a) La muestra de la segunda fase es independiente de la primera.


b) La muestra de la segunda fase es un sub muestra de la primera.

Ejercicio 10.9
En una población de tamaño N distribuida en dos estratos de aproximadamente el mismo tamaño se desea realizar una
encuesta con un presupuesto para el trabajo de campo de $5000000 y para el costo por unidad de $10000 así como el costo

724 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 
para obtener información adicional sobre una variable auxiliar que servirá para la estratificación de la población de alrededor
de $ 2000. Las proporciones de interés objeto de estudio son P1 0.7 y P2 0.4 .
1
a) ¿cuáles son los valores óptimos de n y n ?
b) ¿Cuál es la varianza obtenida con una muestra de n 2000 unidades usando afijación proporcional?

Ejercicio 10.10
Para estimar la proporción de viviendas en las cuales viven sus propietarios en un pueblo con N 100000 viviendas, se
decide utilizar un muestreo bifásico con las siguientes características: En la primera fase las viviendas se estratifican después
1
de tomar una muestra de tamaño n 2000 de acuerdo con una de dos curadurías que otorgaron la licencia de construcción
(A ó B). En dicha muestra resultó que a 900 viviendas les fue adjudicada la licencia de construcción por la curaduría urbana
A.
En la segunda fase mediante una sub muestra de la primera con una fracción de muestreo nh n1h 0.2; h , obteniendo:

Los habitantes de la vivienda Los habitantes de la vivienda


Total
son propietarios son inquilinos
Curaduría A 100 80 180
Curaduría B 98 122 220
Total 198 202 400

a) Estimar en cada estrato la proporción de viviendas ocupadas por sus propietarios.


b) Estime la proporción de viviendas ocupadas por sus propietarios en la población y su error estándar de estimación.

Ejercicio 10.11
1 1
Suponiendo que la relación entre la muestra de la primera fase y la submuestra de la segunda fase es n n determine el
2
tamaño de muestra para satisfacer una varianza V (YˆD1 PPT ) V0 .

Ejercicio 10.12
En una aplicación de muestreo doble para regresión, la muestra de segunda fase fue de 80 unidades y la de primera fase fue
de 500. Los siguientes son cálculos referidos a la muestra de la segunda fase.

( xi x ) 2 12124,8347 ; ( yi y ) 2 18648,7245 ; ( xi x )( yi y ) 14881,4197

Calcular el error estándar de estimación de la regresión de Y .


Ejercicio 10.13
Muestre que la V (YˆDR
1
) puede expresarse como:

N n1 1 2 2
V YˆDR
1
V (YˆR ) R SX
N n1

ˆ
Donde V (YR ) es la varianza del estimador de la media utilizando estimadores razón en la segunda fase.

725 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 

Ejercicio 10.14
Muestre que si f1 es la fracción de muestreo en la primera fase y esta es despreciable entonces:

N
( yi Rxi ) 2
1 1 2 2
V YˆDR
1 i 1
R SX
n N 1 n1

Ejercicio 10.15
En el ejercicio anterior muestre que:

1 2 1 1 2 2
V YˆDR
1
SY R SX 2 RS X SY XY
n n n1

Ejercicio 10.16
ˆ1
Muestre que la varianza V (YDRe ) para el estimador de la media en el muestreo en dos fases para regresión viene dada por:

N n 1 2 N n1 1 2
V YˆDRe
1
SY S X2 2 SYX SX
N n N n1

Cuando b0 1 ; en este caso el estimador se denomina por diferencia y su estructura será:

YˆDRe
1
Yˆ b0 ( Xˆ 1 Xˆ ) Yˆ Xˆ 1 Xˆ (Yˆ Xˆ ) Xˆ 1 V (YˆDdif
1
)

Ejercicio 10.17
Suponiendo que la población estudiada está dividida en L estratos y se aplica un muestreo en dos fases mediante
estimadores de razón cuando la segunda muestra es una sub muestra de la primera (fase 1) determine las expresiones para:

a) El estimador de la media poblacional utilizando estimadores de razón combinada.


b) La varianza del estimador defino en a) y su estimador.

Ejercicio 10.18
Suponiendo que la población estudiada está dividida en L estratos y se aplica un muestreo en dos fases mediante
estimadores de razón cuando la segunda muestra es una sub muestra de la primera (fase 1) determine las expresiones para:

a) El estimador de la media poblacional utilizando estimadores de regresión combinada.


b) La varianza del estimador defino en a) y su estimador.

Ejercicio 10.19
En el ejercicio 10.G. estime la varianza obtenida para el promedio mensual en GAST-ALI con un MAS de 800 registros.
Estime el efecto de diseño:

726 
 
CAPÍTULO 10. MUESTREO DOBLE
 
 
V (YˆDR
1
)
Deff
ˆ
V (Y )
MAS

Ejercicio 10.20
ˆ1 V (YˆMAS ) y asumiendo V (YˆDR
1 2
Suponiendo que se desea que V (YDR ) ) Z 2 para un nivel de confianza del 95%
y un error igual al 8% del valor encontrado en el literal e) del ejercicio 10.G, determine el número de registros que se deben
muestrear si se realizara un MAS. Use como apoyo la estimación encontrada en el ejercicio 10.19.

727 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

 
 
MUETREO E INGENIERÍA

Introducción
Glosario de términos relacionados con el muestreo para prácticas de laboratorio.
Aspectos que deben considerarse en el tratamiento de un problema de ingeniería que implique el análisis de
muestras de materiales.
¿Qué es y que contiene un plan de muestreo?
Cuidados en la manipulación de las muestras.
Tipos de muestras industriales.
Métodos y equipos para la toma de muestras.
Muestra de materiales sólidos.
Muestra de materiales líquidos.
Muestra de materiales gaseosos.
Almacenamiento y transporte de muestras.
Pre tratamiento de las muestras sólidas.
Algunas limitaciones del pre-tratamiento de una muestra.
Limitaciones en la trituración o pulverización de una muestra.
Aspectos a tener en cuenta en la disolución de una muestra.
Incertidumbre y tamaño de muestra probabilística para laboratorio.
Posibles fuentes de error para los resultados con base en muestras para laboratorio.
Aproximación estadística para la obtención de muestras representativas de materiales o residuos peligrosos en
suelos.
Muestras representativas para el control de calidad de agua.
Muestras representativas para la calidad de aire.
Muestras de suelos para análisis.
Tamaño de muestras homogéneas y heterogéneas en el laboratorio.
Muestreo en biología animal y vegetal.
Capturando y marcando las unidades muestreadas para determinar el tamaño poblacional.

Ejercicios.

________________________________________________________________________________

729 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

11.1 INTRODUCCIÓN

Todos los campos del conocimiento se nutren del muestreo estadístico unos más que otros; en particular en el campo de la
ingeniería lo concerniente al manejo de la calidad tanto en la producción de bienes como en el recibo y utilización de materia
prima para la fabricación de los mismos. Igualmente como apoyo al manejo de explotaciones de recursos naturales y
auditoría en la ejecución y realización de proyectos en el campo minero, químico, agrícola, etc.

Para la aplicación de muchos conceptos de calidad se hace necesario realizar alguna labor de muestreo tanto a los materiales
a granel como a los productos manufacturados. Algunas de las razones que obligan la aplicación de la teoría del muestreo
son:

La realización de comprobaciones de calidad es destructiva


El costo de inspeccionar el 100% es supremamente costoso
Se revisan muchos productos similares. Un buen plan produce resultados tan buenos, si no mejores, que los resultados al
100%
Muchas veces no se dispone de información sobre proveedores de materia prima o productores de bienes
En muchas empresas y para muchas labores ingenieriles no se tiene o es muy complicado disponer de inspecciones
automatizadas.
Cuando se tienen antecedentes de buena calidad y se desea reducir la inspección realizada en el pasado

En este capítulo se presentan aspectos generales relacionados con el uso particular del muestreo en la ingeniería, básicamente
en lo referente a la obtención de muestras con miras a la realización de prácticas de laboratorio.

11.2 GLOSARIO DE TÉRMINOS RELACIONADOS CON EL MUESTREO PARA PRÁCTICAS DE


LABORATORIO

Los siguientes son los términos más usados en la realización de las prácticas de laboratorio para análisis (Cámara et al., 2004)

Muestra: con este término se designa una porción de materia seleccionada a partir de una cantidad mayor del mismo.

Población: representa una colección finita o infinita de objetos o partículas individuales, en un concepto amplio, con alguna
propiedad que les diferencie de otros objetos que no pertenecen a la población.

Lote: cantidad de material que se asume como una población única en lo que respecta a la toma de muestra.

Incremento de muestra: cada porción establecida por el equipo (muestreardor) utilizado para tomar la muestra en materiales a
granel. Ejemplos de lotes a granel el agua de un lago, pilas de carbón extraídas de una mina.

Unidades de muestra: referido a productos manufacturados o empaquetados, la porción (muestra) puede variar en función de
la presentación comercial: Caja a nivel del productor, Unidad a nivel del consumidor.

Segmento: porción individual de un lote de material voluminoso preexistente en el espacio acumulado mediante un tiempo
prefijado o formado a partir de incrementos de muestra de un equipo de toma de muestras por ejemplo la descarga de una
cinta trasportadora en una hora o cantidad total de semillas obtenidas al utilizar un muestreador 6 veces.

Espécimen: porción de material tomada de un sistema dinámico (agua de un río, sangre de un animal) y que se asume como
representativa del material original en el momento que se toma. Un espécimen puede no ser reproducible en el tiempo.

Muestra primaria: es una porción que se toma de un lote para análisis o almacenamiento. Puede estar constituida por una
unidad de muestreo o por un incremento dependiendo del lote inicial, lo que constituye una muestra primaria bruta o
individual, por la mezcla de varios incrementos, lo que define la muestra primaria compuesta o agregada.

730 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

Muestras replicadas o repetidas: son muestras primarias independientes, recogidas de forma lo más próxima (en espacio o
tiempo) y comparable del lote de muestra.

Muestra reducida: muestra (primaria o no) dividida en una o más porciones iguales.

Sub muestra: es una porción de muestra después de un proceso de reducción o una unidad individual de una más grande.

Muestra de laboratorio: es la muestra que se envía al laboratorio. Puede ser la misma que la muestra primaria o
combinaciones de replicados de muestras primarias o puede ser el resultado de una reducción de estas.

Porción de ensayo o análisis: es cada parte extraída de la muestra de laboratorio (puede ser ya homogenizada o no) destinada
al proceso de análisis y medición.

La figura 11.1, representa las operaciones que transforman una muestra. En cada una de estas es susceptible cometer algún
error o descuido que afecte el resultado de laboratorio.

MUESTRA A MUESTRA DE PRODUCTOS


CARGAMENTO MANUFACTURADOS
GRANEL

LOTE

PRIMER
MUESTREO

MUESTRA
AGREGADA

MUESTRA
REDUCIDA

MUESTRA
TESTIGO/
LABORATORIO TESTIGO LABORATORIO
TESTIGO LABORATORIO

1
Figura 11.1.Operaciones que transforman una muestra.

731 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

PREPARACIÓN Y ENVÍO DE
LA MUESTRA

MUESTRA DE ENSAYO
Y ANÁLISIS

ANÁLISIS FISICOQUÍMICOS

RESULTADOS

Figura 11.1.Operaciones que transforman una muestra (continuación).

11.3 ASPECTOS QUE DEBEN CONSIDERARSE EN EL TRATAMIENTO DE UN PROBLEMA EN INGENIERÍA


QUE IMPLIQUE EL ANÁLISIS DE MUESTRAS DE MATERIALES

El trabajo de muestras en el campo ingenieril debe considerar los siguientes aspectos (todos igualmente
importantes) si se quiere obtener resultados de calidad:

¿Qué tipo de información se requiere? /Cualitativa/cuantitativa


¿Qué tipo de análisis se realizará? Cualitativo/ Cuantitativo/ Estructural/ Molecular/ En puntos concretos de la muestra /
Análisis continúo.
¿Qué restricciones establece la naturaleza de la muestra?
Los aspectos metodológicos de trabajo dependen de los compuestos presentes en la muestra (Gases tóxicos, materiales
radiactivos, líquidos contaminantes, valor del análisis, etc.
¿Qué precisión y exactitud se requiere en los resultados del análisis?
¿Tiempo disponible en función de urgencias o implicación de resultados?
¿Qué limitaciones de orden legal teórico o práctico se tienen?
Instrumentación disponible en los laboratorios y equipo humano.
Información teórica y metodológica existente sobre el problema analizado.
Costos

732 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

11.4 ¿QUÉ ES Y QUÉ CONTIENE UN PLAN DE MUESTREO?

Los detalles de un plan de muestreo dependen del problema investigado y deben adaptarse al proceso analítico, al aspecto
legal, social, de costos, teórico prácticos y de riesgo investigativo.

Un plan de muestreo es una serie de pasos metodológicos que:

1) Proporciona un modelo estandarizado para guiar en la toma de muestras. (referencia).


2) Proporciona los medios para la planificación del muestreo.
3) Permite comparar el resultado del muestreo a la luz de los objetivos establecidos en el proceso investigativo.

Un plan de muestreo contiene básicamente:

1) El propósito de la toma de la muestra,

2) La aplicación de las técnicas de muestreo.

La inspección del lote y los sucesivos muestreos así como los aparatos que se usaran.
El tipo de muestra deseada.
El uso de recipientes adecuados para mantener la muestra.
El mantenimiento de la integralidad de la muestra y sus registros asociados.
El uso de las precauciones apropiadas para preservar, empacar y enviar la muestra.
Las condiciones de almacenamiento (antes y después del análisis de laboratorio).

3) Los análisis de costos y beneficios.

11.5 CUIDADOS EN LA MANIPULACIÓN DE LAS MUESTRAS

En el trabajo con muestras desde su obtención hasta la publicación de los resultados del análisis todo es igualmente
importante se pueden distinguir en este proceso 6 etapas exigiendo cada una de ellas extremo cuidado en su realización. Ver
figura 11.2.

ALMACENAMIENTO Y RECEPCIÓN DE LA
RECOGIDA DE LA
ENVÍO DE LA MUESTRA EN EL
MUESTRA
MUESTRA LABORATORIO

PUBLICACIÓN / REVISIÓN DE LOS PREPARACIÓN Y


ENTREGA DE RESULTADOS DEL ANÁLISIS DE LA
RESULTADOS ANÁLISIS MUESTRA

Figura 11.2. Etapas básicas del recorrido de una muestra.

Los cuidados que deben tenerse a lo largo del recorrido de una muestra son:

El trabajo con las muestras debe hacerse en un área adecuada para ello.
Deben analizarse muy rápidamente cuando ellas son inestables.

733 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

Debe controlarse el recibo de la muestra por parte del personal de laboratorios (condiciones, estado, empaque, cantidad,
etc.).
La muestra debe ser almacenada en recipientes que eviten su degradación y contaminación. Deben controlarse si así lo
ameritan: la temperatura, humedad, etc.
Debe evitarse la contaminación cruzada con otras unidades existentes en el laboratorio.
Debe tenerse cuidado con los procesos de pre-tratamiento de la muestra para obtener sub-muestras que garanticen
representatividad.
Debe tenerse muy presente el protocolo de manejo existente.

11.6 TIPOS DE MUESTRAS INDUSTRIALES

Se pueden distinguir los siguientes tipos de muestras industriales:

A) Muestras probabilísticas
Se emplean cuando se desea una muestra representativa involucrando análisis estadístico.

B) Muestras no probabilísticas
No se desea o es imposible tener una muestra representativa y se usan criterios personales, muestras selectivas.

C) Muestreo por volumen


Se selecciona una muestra de un lote de material que no consiste en unidades separadas, identificadas o constantes. Puede
realizarse en condiciones estáticas o dinámicas.

D) Muestreo de aceptación
Involucra la aplicación de un plan predeterminado para decidir si un lote de productos satisface o no los criterios de
aceptación definidos.

E) Muestreo de Sólidos
Particulados: Estáticos; en movimiento (dinámicos).
Compactos.

F) Muestreo de líquidos
En sistemas abiertos.
En movimiento en sistemas cerrados.
Almacenados en barriles.
En sistemas abiertos (ríos, lagos).

G) Muestreo de gases
Licuados.
En movimiento.
Almacenados en tanques.
En sistemas abiertos (atmósfera).

734 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

11.7 MÉTODOS Y EQUIPOS PARA LA TOMA DE MUESTRAS.

Los principales métodos y equipos de muestreo son:

11.7.1 Muestras de materiales sólidos

Son varios los factores a considerar en la toma de muestras de materiales sólidos. Se consideran los siguientes:

 
Material particulado en movimiento
Material particulado
Material particulado estático
Muestra de materiales
sólidos
Material compactado

Las muestras sólidas suelen ser heterogéneas y este hecho obliga a tener mucho cuidado con la selección de la muestra para
vencer la falta de representatividad ya que el tamaño de la muestra no puede ser grande debido a los costos, suele en estos
casos tomar una muestra en varias partes y conformar una muestra agregada (compuesta) de la cual se extrae luego una
muestra reducida. Ejemplo de material particulado es el mineral transportado mediante bandas y de material particulado
estático es las harinas, sales o carbones particulados almacenados en contenedores. La figura 11.3 a) y b) muestra la forma
correcta e incorrecta respectivamente de tomar la muestra en materiales particulados en movimiento.

Flujo de material

MUESTRA
Se toma una porción del flujo de
partículas a lo largo del tiempo
(método incorrecto)

Flujo de material
MUESTRA

Se toman varias porciones del flujo


de partículas en un tiempo dado
(método incorrecto)

Figura 11.3a. Formas incorrectas de tomar muestras en materiales particulados en movimiento.

735 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

Flujo de material
MUESTRA
Se toma todo el flujo de
partículas a lo largo del tiempo
(método correcto) 

Figura 11.3b. Formas correctas de tomar muestras en materiales particulados en movimiento.

Algunos aparatos para la toma de muestras en materiales particulados o sólidos en movimiento o estáticos son:

a) Muestreador rotativo para material particulado proveniente de una banda trasportadora. Figuras 11.4.

FLUJO DE
FLUJO DE MATERIAL
MATERIAL

MUESTRA

MUESTREADOR ROTATORIO
PARA MUESTREO EN BANDAS
MUESTRA TRASPORTADORRAS

Figura 11.4. Muestrear rotativo.

b) Traer utilizado para muestreo de sólidos húmedos o pegajosos, figura 11.5.

TRAER
Figura 11.5. Traer.

736 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

c) Draga de Peterson usada para recolectar materiales que se encuentren en el fondo de contenedores debajo de una capa de
líquido en movimiento o estáticos como por ejemplo lechos de lagos y ríos. Figura 11.6.

Figura 11.6. Draga de Peterson.

d) Barrenas, perforadores, cavadores cinceles, palas y cucharones usados para muestreo en suelos. Figura 11.7.

BARRENAS

CUCHARONES
CINCEL

PERFORADOR CAVADOR

Figura 11.7. Instrumentos par muestreo de suelos.

e) Sondas o tubos huecos concéntricos usados para muestreo de materiales arenosos o granulados. Figura 11.8.

SONDAS PARA MUESTREO DE


HARINAS/ MATERIAL PULVERIZADO

Figura 11.8. Sondas para muestreo de harinas.

737 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

f) Bayoneta eléctrica utilizada para muestreo en rocas. Figura 11.9.

BAYONETA
Figura 11.9. Bayoneta eléctrica para muestreo de rocas.

11.7.2 Muestras de materiales líquidos

Las muestras de materiales líquidos pueden dividirse en cuatro tipos dependiendo de si están en movimiento, están estáticas y
si son de sistemas abiertos o cerrados:

Muestra líquida en movimiento en sistemas abiertos

Muestra líquida en movimiento en sistemas cerrados


Muestra líquida
Muestra líquida almacenada en barriles
Muestra líquida estática en sistemas abiertos

Ejemplos de muestras liquidas en movimiento son los ríos, océanos, canales, afluentes industriales, etc. La composición de
una muestra en este caso puede estar influenciada por la temperatura, el caudal, la profundidad, etc., lo que hace necesario
que se tome un alto número de muestras en períodos consecutivos dependiendo además si se desea evaluar el efecto de los
factores que las alteran.

Ejemplos de muestras líquidas en movimiento en sistemas cerrados son los líquidos enviados por tuberías, en este caso el
factor que favorece la homogeneidad de la muestra es la velocidad del flujo ya que esta agita el líquido. La muestra debe
tomarse en dirección contraria al flujo del líquido, se acostumbra tomar varias muestras en diferentes puntos en forma
transversal al flujo de la masa líquida. Para tomar la muestra puede perforase el tubo y obtener la muestra mediante sondas
tipo jeringa. Los líquidos en tanques industriales son ejemplos de muestras líquidas almacenadas en barriles en este caso
puede ser recomendable un muestreo estratificado siendo los posibles estratos las diferentes densidades (asentamiento), puede
ser muy difícil homogenizar el líquido cuando los barriles no tienen agitadores; se recomienda entonces tomar muestras a
diferentes profundidades desde luego también puede tomarse la muestra en diferentes barriles obteniendo una muestra
compuesta que luego se divide una vez homogenizada.

El agua de un lago, embalse se consideran muestras estáticas en sistemas abiertos y se requiere tomar muestras a diferentes
profundidades debido a la heterogeneidad que obliga a la consideración de estratos. Es posible establecer en estos casos si, la

738 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

toma de muestras tiene cierta regularidad un sistema de permanente toma de muestras. Algunos aparatos para la toma de
muestras de líquidos son los siguientes:

a) Colector de aguas lluvias. Figura 11.10.

Figura 11.10. Muestreador de aguas lluvias.

b) Muestreador de bomba para muestreo a diferentes niveles de líquidos almacenados o en movimiento. Figura 11.11.

Bomba

Muestra

Figura 11.11. Toma de muestras líquidas a diferentes niveles.

c) Muestreo en tanques mediante bomba de vacío y pipeta. Figura 11.12.

Vacio

PIPETA
Botella de
muestreo TANQUE

Figura 11.12. Muestreo en tanques mediante vacio y pipita para líquidos.

739 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

d) Muestreador de Kemmerer, Muestreador tipo jeringa y bomba peristáltica para muestreo de líquidos a alturas
discretas en lagos o estanques. Figura 11.13.

Mensajero 

BOMBA
PERISTÁLTICA
VÁLVULA
CERRADA
MUESTREADOR
DE KEMMERER

Vacio 
Desagüe 

MUESTREADOR TIPO
JERINGA
Figura 11.13. Aparatos para muestreo de líquidos a diferentes niveles.

e) Botella para muestreo de lodos y agua, tubo hueco y Perfilador de sólidos y líquidos fijos que proporciona una
columna vertical de líquido. Figura 11.14. Superior

Inferior
Medio

Válvula

TUBO HUECO PERFILADOR DE


MUESTREADOR PARA SÓLIDOS/LÍQUIDOS FIJOS
AGUA / LODO
Figura 11.14. Botella, tubo hueco y perfilador para muestreo de líquidos.

f) Jeringa para muestreo de líquidos en movimiento a través de tuberías. Figura 11.15.

Figura 11.15. Muestreo en tuberías mediante jeringa.

740 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

11.7.3 Muestras de materiales gaseosos

Este tipo de muestra tiene el inconveniente de que la masa de gas se altera con la temperatura y la presión, implicando
estabilizar estos dos parámetros. Se distinguen cuatro tipos de muestras gaseosas.

Muestra de gases licuados en cilindros

Muestra de gases en movimiento


Muestra Gaseosa
Muestra de gases almacenados en cilindros
Muestra de gases en la atmosfera

Gases licuados pueden tomarse como líquidos, dependiendo de la presión del contenedor. Antes de tomar la muestra se
recomienda abrir la válvula para llenar las líneas de gas y evitar pérdidas de los componentes más volátiles (Cámara., et al
2004)
En lo que respecta a los gases en movimiento un ejemplo lo constituye los gases producidos en cualquier industria que son
enviados por tubería hasta la chimenea; la muestra puede tomarse en tubería, es muy probable que haya homogeneidad en el
fluido gaseoso debido a la turbulencia con que viajan los gases por tubería. Algunas empresas tienen ya previsto el sitio de la
tubería en donde se toman las muestras y han instalado válvulas para tal efecto.

Los gases almacenados en barriles se presentan varias capas (estratos) dentro del barril debido a las densidades diferentes
dependiendo de altura y concentración. La muestra debe tomarse a intervalos aleatorios para tener información de la
heterogeneidad, las empresas pueden de ser posible disponer de barriles con paletas internas en movimiento con el propósito
de buscar la homogenización.

Los gases en la atmósfera son los producidos por todos los factores de contaminación y que afectan a extensas áreas de las
ciudades o campos. Este tipo de muestras puede tener poca representatividad no solo por la extensa región que ellos afectan si
no por los factores atmosféricos que influyen en ella como lo son; la lluvia y los vientos, se aconseja en estos casos tomar
varias muestras esparcidas por el área en estudio incluyendo especialmente lugares cercanos a las fuentes emisoras.
Algunos aparatos para muestreo de gases son:

a) Proceso de toma de muestra de gases el suelo mediante sonda y succionador hipodérmico. Figura 11.16.

MUESTREO DE GASES EN SUELO

A) Perforación
B) Sellado de la perforación
C) Abrir el sellado (2 horas después)
introducir la sonda y succionar con
hipodérmica

A B C
Figura 11.6. Proceso de muestreo de gases en el suelo.

741 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

b) Tubo para toma de muestra gaseosa. Figura 11.17.

Figura 11.17. Tubo para retener gases.

c) Muestreo de CO2 en botellas de vino y proceso de muestreo por desplazamiento de líquidos. Figura 11.18.

Conexión a bomba
de vacío

Gas muestreado

MUESTREO DE Nivel del agua


CO2

MUESTREO DE GAS POR


DESPLAZAMIENTO DE LÍQUIDO

Figura 11.18. Muestreo de CO2 y muestreo por desplazamiento de líquidos.

11.8 ALMACENAMIENTO Y TRANSPORTE DE LAS MUESTRAS

Una vez obtenida la muestra se hace necesario almacenarla y transportarla hasta el laboratorio en donde será pre-tratada y
procesada de acuerdo con las necesidades. El tipo de muestra determinará la naturaleza del envase en cuanto a sui forma,
tamaño y estructura. La figura 11.19, muestra los diferentes aspectos que influyen en el diseño del envase o contenedor de
una muestra.

CANTIDAD O VOLUMEN DE
FINALIDAD Y MANEJO MUESTRA RECOGIDA
CARACTERÍSTICAS
POSTERIOR DE LA FISICOQUÍMICAS DE LA
MUESTRA MUESTRA

RECIPIENTE PARA
ALMACENAR LA
MUESTRA

TIPO DE ESTADO DE LA
CONSERVACIÓN MUESTRA

TIPO DE ANÁLISIS Y SU
ESTABILIDAD

Figura 11.19. Factores que deciden el almacenamiento de una muestra.

742 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

La figura 11.20, relaciona los cinco propósitos básicos cumplidos por el recipiente usado para el almacenaje de una muestra:

EVITAR SU 
ALTERACIÓN  
POR CALOR 
/FRIO

EVITAR  TRANSPORTAR 
PÉRDIDAS LA MUESTRA
PROPÓSITO 
DEL 
RECIPIENTE

FACILITAR EL  PROTEGER LA 
MUESTRA  
ETIQUETADO (CONTAMINACIÓN)

Figura 11.20. El propósito del recipiente que contiene una muestra.

11.9 PRETRATAMIENTO DE LAS MUESTRAS SÓLIDAS

El objetivo de un pre-tratamiento de la muestra es el de facilitar el transporte, almacenamiento y tratamiento de la misma.


Debe en todo momento en esta fase dar respuesta a las siguientes preguntas:

Figura 11.21. Tipos de preparación de una muestra de material antes del análisis de laboratorio.

743 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

¿Qué cantidad de muestra se requiere para el análisis?


¿El pre-tratamiento afectará la validez del análisis?
¿Qué limitaciones se tienen?

La figura 11.21, muestra los tipos de preparación de una muestra para su posterior análisis y el propósito de una
preparación:

Algunos de los aparatos usados en la preparación (trituración) de una muestra se muestran en las figuras 11.22a, 11.22b.

TRITURAR DE CONO TRITURAR DE MANDÍBULA TRITURAR DE RODILLO

Figura 11.22a. Trituradoras de materiales.

MOLINO DE BOLAS

MOLINO MANUAL MONTEROS MANUALES

Figura 11.22a. Trituradores de materiales (continuación).

Parte del tratamiento de una muestra es la división y reducción de la misma, la figura 11.23, muestra los procesos de división
mediante rifle y tamizado así como el proceso de cuarteo mediante el cual la muestra es dividida en cuatro partes iguales para
posteriormente desechar dos partes opuestas, posteriormente se mezclan las dos partes seleccionadas y después de mezclar

744 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

(homogenizar) dividir nuevamente en cuatro partes para nuevamente desechar dos. Este proceso se sigue hasta obtener la
muestra requerida para el análisis del laboratorio.

FORMA CORRECTA DE
DIVIDIR LA MUESTRA

TAMIZADO DE LA
MUESTRA
DIVISOR DE RIFLE

A B
MUESTRA 

DIVISIÓN POR CUARTEO


A B C D
Figura 11.23. Procesos de división de una muestra.

A continuación se relaciona mediante un ejemplo el uso del cuarteo para la obtención de una muestra de laboratorio de cierto
material rocoso.

1) Muestra inicial obtenida del sitio de muestreo = 60 Kg.


2) Rotulado y empaquetado de la muestra.
3) Recibo de la muestra en el laboratorio.
4) Triturar el material hasta obtener partículas de diámetro máximo de 0.8 cm.
5) Mezclado del material triturado.
6) Reducción del material hasta 15Kg (primer cuarteo).
7) Mezcla de la reducción.
8) Reducción del material hasta 2 Kg.
9) Molienda del material obteniendo partículas máximo de 0.14 cm.
10) Mezcla de la reducción.
11) Reducción del material hasta obtener 0.45 Kg (segundo cuarteo).
12) Molienda del material hasta obtener partículas de de máximo 0.10 mm.
13) Reducción del material hasta obtener dos partes de 0.025 Kg (tercer cuarteo).
14) Muestra de laboratorio = 0.025 Kg y muestra testigo 0.025 Kg.

745 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

11.10 ALGUNAS LIMITACIONES DEL PRETATAMIENTO DE UNA MUESTRA

En la etapa de pre-tratamiento de una muestra para el análisis de laboratorio pueden presentarse una o variarías de las
siguientes limitaciones:

Está sujeto a la variabilidad humana (error).


Es una labor intensa y puede ser costosa.
Puede consumir mucho tiempo.
El personal de laboratorio está expuesto a peligros.
La muestra se puede contaminar.
Difícil su reproducibilidad cuando hay cambios de personal.

11.10.1 LIMITACIONES EN LA TRITURACIÓN O PULVERIZACIÓN DE UNA LA MUESTRA

Al pulverizar o triturar una muestra como etapa previa al trabajo de laboratorio pueden presentarse las siguientes
limitaciones:

Se puede generar calor y por lo tanto pérdida de componentes volátiles.


El sólido aumenta su área de contacto superficial.
Se aumenta la susceptibilidad a la atmósfera.
Pérdida de muestra en forma de polvo.
Se puede alterar la composición.
Desgaste mecánico por mucha abrasión a las superficies.

“La trituración o pulverización tiende a alterar la composición de la muestra y por esta razón, las partículas no debe ser
reducidas más de lo requerido sobre homogeneidad y facilidad de ataque con reactivos”

11.10.2 ASPECTOS A TENER EN CUENTA EN LA DISOLUCIÓN DE UNA MUESTRA

Al usar disolventes para diluir (uso de reactivos) una muestra se deben tener presente los siguientes aspectos:

El reactivo debe disolver completamente la muestra.


El Disolvente no debe interferir en las últimas etapas del análisis.
Las impurezas del disolvente pueden afectar el éxito del análisis y por lo tanto se debe realizar análisis de trazas.
Se deben evitar las perdidas por volatilización.

11.11 INCERTIDUMBRE Y TAMAÑO DE MUESTRA PROBABILÍSTICA PARA LABORATORIO

Al usar una metodología probabilística para la selección de una muestra con miras a la realización de un análisis de
laboratorio se hace necesario tener presente las fuentes básicas de incertidumbre (variabilidad) que inciden en el tamaño de la
muestra. Ver figura 11.24.

746 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

MUESTREO/ TRABAJO
DE CAMPO

PRETRATAMIENTO
DE LA MUESTRA

ANÁLISIS DE
LA MUESTRA

VARIACIÓN DEBIDA AL VARIACIÓN DEBIDA AL


VARIACIÓN DEBIDA AL PRE TRATAMIENTO DE LA PROCESO DE
MUESTREO MUESTRA LABORATORIO

ST2 S M2 S P2 S L2

Figura 11.24. Componentes de la variación total de una muestra para análisis de laboratorio.

2
En la figura anterior S T (cuasivarianza total) mide la incertidumbre (variabilidad) total, la cual incide directamente en el
tamaño de una muestra probabilística.

11.12 POSIBLES FUENTES DE ERROR PARA LOS RESULTADOS CON BASE EN MUESTRAS PARA
LABORATORIO.

Las fuentes de error pueden clasificarse en tres básicamente:

A) En el esquema de muestreo usado


En lo que respecta al esquema de muestreo usado pueden generarse errores en lo que respecta a la obtención misma de
la muestra: lugar, tiempo, equipo utilizado, forma de obtención de la muestra, cantidad de la muestra.

B) En el manejo de la muestra
Al respecto pueden generarse errores en los siguientes aspectos:

En la conservación de la muestra: control de temperatura, uso de conservantes, usos de recipientes.


En el almacenamiento de la muestra (antes y después del análisis): tipo de recipiente, contaminación.
En la preparación de la muestra para envío: identificación, tipo de embase, embalaje, transporte.

747 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

En el equipo humano: descuido, preparación.


Preparación de la muestra para análisis: homogeneidad, trituración, reducción.
En el análisis de la muestra: protocolo de laboratorio.
Incumplimiento de la cadena de custodia.

C) En la identificación y reporte de análisis.


Pueden generarse errores en el rotulado de embases y equivocaciones en el reporte de análisis y resultados.

11.13 APROXIMACIÓN ESTADÍSTICA PARA LA OBTENSIÓN DE MUESTRAS REPRESENTATIVAS DE


MATERIALES O RESIDUOS PELIGROSOS EN SUELOS

Un plan de muestreo apropiado para el estudio de materiales y/o residuos peligrosos debe estar de acuerdo con los objetivos
planteados en el estudio y las normas medioambientales que regulan estos procesos.
De acuerdo con la resolución 0062 de la IDEAM (instituto de Hidrología y Estudios Medio Ambientales) se deben seguir los
siguientes pasos para la obtención de una muestra representativa:

1) Determinación y cuadriculado del área de estudio (malla de muestreo)

Como se trata de una muestra probabilística se debe determinar el espaciamiento entre los posibles sitios para la toma de
la muestra mediante cuadrículas rectangulares, cuadriculadas o circulares según sea el caso. Los espacios entre las líneas
que definen las cuadrículas debe ser determinado de acuerdo con los objetivos del muestreo y el área específica que
cubrirá el mismo. Estas cuadrículas se diseñan sobre un plano de área que se investiga y se trasladan por el personal de
campo mediante mediciones (transformaciones) y colocación de estacas en el terreno.

2) Determinación del número de muestras que se deben recolectar.

El número de muestras que deben considerarse en el estudio se define mediante la siguiente fórmula:

2 2
t 20 s
n
( RT Yˆ ) 2

En donde:

n : Número de muestras que deben tomase en el terreno


t20 : Valor de la distribución t-student con 20 grados de libertad
2
S : Varianza de la variable analizada
RT : Valor de la norma (concentración determinada por la entidad reguladora medioambiental) para la presencia de
cierto material sea peligrosa para la comunidad
Yˆ : Concentración promedio de las diferentes muestras tomadas en el terreno.

3) Determinar los puntos de muestreo

En esta parte se recurre al reticulado realizado sobre el plano del lugar. Cada cuadrícula se enumera del 001 hasta N
(número total de posibles sitios de muestreo o total de cuadrículas), posteriormente se generan n (tamaño de la muestra)
números aleatorios entre 1 y N y estos números determinan las cuadrículas en las cuales debe tomase la muestra.

748 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

4) Equipos para el trabajo de campo

El personal que realiza el trabajo de campo debe ceñirse a las siguientes normar:

Equipo personal: botas, equipo para lluvia, mascara y guantes.


Equipo de seguridad: tubos de muestreo de aire, indicadores de gases combustibles y medidores de pH.
Equipos para almacenamiento de la muestra: contenedores, recipientes, tapas, bolsas, etc.
Equipos de muestreo: botellas de muestreo, pipetas, sondas, cucharas, palas etc.
Implementos de oficina: marcadores, sellos, cuadernos, tijeras, tablas de números aleatorios, calculadora, borrador y
lápiz.

5) Ejecución del trabajo de campo

En suelos debe seguirse el siguiente protocolo.

Anotar las características del sitio de muestreo, los procedimientos usados y las mediciones del estado del tiempo,
etc.
Realizar el hueco reservando el césped y la tierra para su posterior taponamiento.
Tomar la muestra mediante espátula, barrena, pala, etc.
Empacar las muestras con los preservativos adecuados si ello aplica y marcar el contenedor.
Diligenciar los formatos de datos sobre las muestras recolectadas.
Tapar el hueco.
Descontaminar el equipo de muestreo así como el sitio.

6) Cadena de custodia para las muestras

En todo proceso de muestreo debe asegurase la seguridad de la muestra que va desde la toma hasta el reporte de
resultados. La cadena de custodia debe contener básicamente:

Identificación de la muestra
Diligenciamiento del trabajo de campo (folleto)
Hoja de solicitud del análisis requerido y formato de recibo de la muestra en el laboratorio

11.14 DISEÑOS DE MUESTREO PROBABILÍSTICO SOBRE ESPACIO Y TIEMPO PARA SER USADOS EN
INVESTIGACIÓN MEDIOAMBIENTAL

Muestreo sobre espacio (dos dimensiones) Muestreo en una dimensión (tiempo/espacio)

Muestreo Aleatorio Simple Muestreo Aleatorio Simple

Figura 11.25. Esquemas de diseños probabilísticos para estudios medioambientales (IDEAM).

749 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

La figura 11.25, muestra los diseños de muestreo probabilístico usados en estudios de contaminación
medioambiental (IDEAM)

Muestreo sobre espacio (dos dimensiones) Muestreo en una dimensión (tiempo/espacio)

Muestreo Aleatorio Estratificado Muestreo Aleatorio Estratificado

Muestreo sobre espacio (dos dimensiones) Muestreo en una dimensión (tiempo/espacio)

Muestreo Aleatorio Sistemático de cuadrícula Muestreo Aleatorio Sistemático

Muestreo sobre espacio (dos dimensiones) Muestreo en una dimensión (tiempo/espacio)

Muestreo Aleatorio dentro de Bloques Muestreo Aleatorio dentro de Segmentos

Figura 11.25. Esquemas de diseños probabilísticos para estudios medioambientales (IDEAM) (continuación).

Véase también (Muestreo de material de dragado OMI, 2005).

11.15 MUESTRAS REPRESENTATIVAS PARA EL CONTROL DE CALIDAD DEL AGUA

Para la toma de muestra se propone el siguiente esquema (Ayuga et,al., 1998)

Dividir el territorio en secciones o zonas de fácil recorrido.

750 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

En cada área se toman muestras durante una semana con mínimo 4 mediciones diarias en cada punto de muestreo.
obteniendo datos sobre caudales y contaminación nocturna y de fin de semana.
Se deben realizar dos período de muestreo, uno en condiciones de cauce normal y otro en período de estiaje (nivel más
bajo o caudal mínimo).
Realizar valoraciones previas de la importancia de los vertimientos, para determinar la intensidad del muestreo.
El número de puntos de muestreo dependerá de la cantidad de puntos de vertimientos que tenga el rio. En aquellos puntos
de vertimiento en los cuales éste supere 1/10 del caudal del acuse o corresponda a poblaciones mayores a 25000
habitantes se recomienda situar un punto de muestreo aguas arriba y otro aguas abajo del punto de vertimiento para
comprobar su incidencia.
Entre otros datos se suelen obtener en las muestras las siguientes mediciones: caudal, temperatura del agua, oxigeno
disuelto, conductividad, materias en suspensión, nitratos, nitritos, pH, etc.

11.16 MUESTRAS REPRESENTATIVAS PARA LA CALIDAD DEL AIRE

Los siguientes factores influyen en la concentración de contaminantes en el aire haciendo que su concentración varíe incluso
a pequeñas distancias desde su emisión (Ayuga et,al., 1998). La toma de muestras de aire pueden realizarse de la siguiente
manera:

Muestras al tiempo en diferentes puntos a intervalos prefijados.


Muestras continuas a lo largo del tiempo durante 12 o 24 horas en uno o varios puntos.
Muestras discontinuas a lo largo del tiempo en uno o varios puntos.

Debe tenerse presente que en la efectividad de los datos influye fuertemente los factores atmosféricos como viento, lluvia,
corrientes de convección (características del flujo de contaminantes). Se busca determinar las concentraciones de
contaminantes (partículas) enviados a la atmosfera como polvo, humo, hollín, partículas líquidas, etc. El problema que se
presenta en la toma de muestras de partículas en el aire se debe al movimiento de las partículas con las corrientes de éste. En
lo que respecta a las fuentes de emisión de partículas como por ejemplo las chimeneas los puntos de muestreo suelen ser:

La boca de salida de la chimenea


Las curvas de conducción y los obstáculos presentes a lo largo del flujo

Se recomienda que los puntos escogidos estén ubicados 5 veces el diámetro de salida en el sentido del flujo y 3 veces el
diámetro en sentido contrario a la boca de salida, en todo caso lo más conveniente es tomar muestras a la misma velocidad de
emisión de los gases (muestreo isocinético) en el interior del conducto para que ellas sean representativas de los gases y de
las partículas en circulación.

Para el muestreo de partículas en la atmosfera, la localización de los puntos de muestreo es clave ya que las partículas se
dispersan mucho menos uniformemente en el aire libre que en un conducto o en la cercanía de éste. Normalmente para la
localización de los puntos de muestreo se debe tener presente:

La altura al suelo del punto de toma de muestras.


Si hay obstáculos cerca de dichos puntos, el punto debe estar localizado a favor del viento a una distancia, de ser posible
10 veces mínimo la altura del obstáculo.

751 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

Localizar varios puntos de muestreo en la zona que se realizará el estudio y a la hora de mayor interés (no representa el
día).

En el muestreo de plantas industriales o fuentes de contaminación, los puntos de muestreo deben determinarse con la ayuda
de diagramas de producción industrial y con la ayuda de expertos que conozcan los procesos, así como las fuentes de emisión
y las variaciones de estas con la duración de ellos.

11.17 MUESTRAS DE SUELO PARA ANÁLISIS AGROPECUARIOS

Una de las fuentes de error en las muestras de suelo para análisis se debe al muestreo. En la obtención de una muestra de
suelo para análisis debe tenerse presente lo siguiente (Sanchez, 1983):

1) Una muestra para estudio de suelo debe contemplar el área del campo, la profundidad del suelo, si este tiene pendiente o
no, el tipo de vegetación, el clima el grado de erosión el manejo, etc.
2) El área o terreno debe dividirse en sub-áreas homogéneas en cuanto relieve, vegetación, clima erosión, manejo, tipo de
cultivo, etc.
3) La época para la toma de muestras es de dos a tres meces antes de la siembra.
4) El número de sub-muestras recomendado para formar una muestra compuesta por cada 8 hectáreas es de 10 a 20 lugares,
siguiendo uno de los siguientes recorridos. Figura 11.26.

Zona Nº1
Pendiente

Zona Nº2 Zona Nº3


Ondulada Baja

Figura 11.26. Recorridos y puntos de sub-muestreo en tres zonas diferentes de un terreno.

5) La muestra de envío debe ser de aproximadamente 1 kg después de mezclar las submuestras obtenidas en el recorrido.
6) Debe evitarse tomar muestras en los surcos donde se aplican fertilizantes, en áreas cercanas a canales de riego, carreteras
o caminos, en sitios frecuentados por el ganado, en límites de cambio de pendiente, el lugares que sirvan de depósito de
desechos o materiales, en áreas de poco uso o sometidas a la sombra de árboles.
7) Dependiendo del tipo de cultivo así será la profundidad de la muestra.
8) Los materiales usados para la toma de las muestras son: barrenas, palas, baldes, cajas de cartón y bolsas plásticas.

Para más detalle sobre los métodos de muestreo en el campo de la agricultura el lector puede ver Colección FAO Nº3.
Desarrollo estadístico, Ayuga et al., 1999 y Otañez, 1988.

752 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

11.18 TAMAÑO DE MUESTRAS HOMOGENÉAS Y HETROGÉNEAS EN EL LABORATORIO

El tamaño de una muestra homogénea (referida a materiales homogéneos) para materiales (sólidos o líquidos) es desde luego
muy pequeña y está determinada fundamentalmente por las etapas posteriores de trabajo con ella, es decir del tratamiento
previo al que se someterá la muestra y del tipo de análisis que se realiza sobre ella así como la concentración de componentes
mínimos para facilitar dicho análisis. También influye en dicho tamaño el que se realicen replicas o no del mismo análisis.

Cuando la muestra es heterogénea (materiales heterogéneos) se requiere del análisis del la teoría estadística, así como del
conocimiento previo aproximado de la muestra y de la concentración de los compuestos analizados. En muchos casos no se
dispone de información previa sobre el tipo de muestra requerida (propiedades físico-químicas). Cuando se requiere tomar
una muestra de muchas partes (bultos) se recurre a la obtención de una muestra compuesta conformada como su nombre lo
dice por varias muestras de diferentes lugares o recipientes para luego de dicha mezcla obtener la muestra de envío al
laboratorio en donde será reducida obteniendo submuestras para análisis. Este método de muestreo es muy usado en
materiales a granel y es motivado por las siguientes razones:

Los envases en donde vienen el material son uniformes pero las muestras obtenidas de estos envases no se analizan por
separado, en lugar de esto se combinan físicamente por lo menos en parte para formar una o varias muestras compuestas
que se analizan por separado.
El contenido de los envases no es uniforme y surge el error de muestreo a las muestras que se toman de diferentes envases
El material no está envasado y deben tomarse muestras de diferentes partes del material (montones, camiones, bultos,
vagones o cintas transportadoras.

Las figura 11.27, representan la utilización del método muestra compuesta.

MUESTRA PRIMARIA Nº 1 MUESTRA COMPUESTA

MUESTRA PRIMARIA Nº 2

CONTENEDOR DE LA
MEZCLA

MUESTRA PRIMARIA Nº K

Figura 11.27. Método de obtención de una muestra compuesta.

En el estudio de aguas superficiales, es mejor analizar mezclas puntuales tomadas simultáneamente en diferentes puntos del
espacio analizado como por ejemplo en ríos o corrientes que varían a lo ancho, largo y profundidad de su cauce. En estos
casos para evaluar la composición promedio se usa una mezcla de muestras que representan varios puntos de su sección
transversal así mismo si se tienen varias efluentes residuales separados, su integración (muestras) puede dar una información
más útil (exacta) que el análisis de muestras separadas.

753 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

11.19 MUESTREO EN BIOLOGÍA ANIMAL Y VEGETAL

Hay diferentes procedimientos para estimar el tamaño y las características de las poblaciones biológicas que usualmente
suelen clasificarse en métodos directos (por cuadrados o áreas transversales, etc.) y métodos indirectos o muestreo inverso,
derivados de índices o de efectos relacionados con la variable de estudio (Pérez, 2000). Se relación a continuación el empleo
de transectos y el procedimiento de captura, marcado y recaptura.

La utilización de la teoría del muestreo en las ciencias biológicas tiene entre otros los siguientes objetivos (Ramírez, 2006);
(Pradillo, 2009).

Registrar la mayor cantidad de especies de una comunidad o taxocenosis.


Registrar las especies de una comunidad y valorar su abundancia.
Estimar la abundancia de las especies en una comunidad.
Estimar la cobertura de las especies en una comunidad.
Estimar el tamaño de una población por marcación y recaptura.
Estimar una variable por muestreo indirecto o mediante la estimación de otra variable.
Identificación de especies.
Tallaje y clases de edad.
Estimación de Peso y Biomasa.
Sexado.
Contenidos estomacales.
Estimar la densidad de una especie (número de individuos de una especie por unidad de área).
Estimar la densidad relativa (Densidad de una especie referida a la densidad de todas las especies presentes en un área.
Frecuencia (Número de muestras en que se encuentra la especie).
Dominancia (cobertura de todos los individuos de una especie, medida en unidades de superficie).

Uno de los métodos de muestreo usados en la Ecología Vegetal es el llamado Método de transectos (Thompson, 1992) usado
por la rapidez con que se mide y por la heterogeneidad con que se muestrea la vegetación. Un transecto es un rectángulo
situado en un lugar determinado para medir ciertos parámetros de un determinado tipo de vegetación, su tamaño puede ser
variable y dependerá del grupo de plantas a medir; en éstos generalmente se mide la altura de las plantas, la abundancia de las
mismas, el DAP (diámetro a la altura de pecho) entre otras variables. La figura 11.28, representa un transecto compuesto por
rectángulos de tres dimensiones en el cual a partir de la línea central se muestrea en ambos lados del transecto (A)
correspondiente a árboles de más de 10 cm de DAP. Los transectos B para muestrear árboles menores de 10 cm de DAP y
con más de dos metros de altura y los transectos (C) en donde se muestrean hierbas y arbustos menores a 2m de altura.
(Proyecto de Manejo Forestal BOLFOR. 2000). Véase también González et al (1993).

La escogencia de n transectos para estudios forestales o de biología animal puede escogerse en forma aleatoria (Ayuga, et al.,
1998) de la siguiente manera:

1. Sobre la base del plano de la zona a estudiar se dibuja una línea cuya longitud es la proyección perpendicular de los
puntos del área sobre la línea.
2. Se escogen aleatoriamente sobre la línea base n puntos.

3. Se traza perpendicularmente sobre cada punto una línea que traspase el plano del área de estudio.

754 
 
C
CAPÍTULO 1 MUESTR
11. REO E INGEN
NIERÍA

44. Con ayuda ded estacas y un n decámetro see trasladan a la zona las marcaas (manejo de escala)
e realizaddas en el planoo.
O método usado
Otro u en la cieencia forestal es
e el llamado método
m de los cuadrantes, éstos permiten muestreo hom mogéneos y
tiienen menos impacto
i de boorde en compaaración con el transecto. Estte método connsiste en coloccar un cuadraddo sobre la
v
vegetación, conn el propósito ded determinar la densidad, coobertura y frecuencia de las plantas,
p su tam
maño depende de d la forma
2
d vida y la deensidad de los individuos, assí por ejemplo para muestreoo de herbáceass se usan cuaddrantes de 1m ver figura
de
1
11.29.

Tran
nsecto A: 10m x 100m; transecto B: 4 m x 25
2 m, transectoo C: 2mx 5m.

Figura 11.288.Ttransectos utilizzados para muestrreo de plantas y annimales.

CUADRA
ANTE de
m2
1m

Figuraa 11.29. Cuadrantee usado para muesstreo de herbáceass.

Algunos de loss instrumentos básicos usados en el muestreeo biológico para animales se


A s presentan a continuación
c e la figura
en
1
11.30.

KOLA  KO
OLA  KOLA
A  KOLA
CA
ANASTILLA PARA
P MUEST
TREO DE
PECES POR ARRASTR
RE

MUESTREADO
OR DE INSECTOS
S (TRAMPA)

Figura 11.30. Innstrumentos para muestreo


m de animaales.

755 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

RED BATIDORARA PARA INSECTOS


VOLADORES

REDES DE ARRASTRE PARA


RED (GARLITO) ESTÁTICA PARA
EMBARCACIONES/CAPTURA DE
CAPTURA DE PECES
PECES
Figura 11.30. Instrumentos para muestreo de animales (continuación).

11.20 CAPTURANDO Y MARCANDO LAS UNIDADES MUESTREADAS PARA DETERMINAR UN TAMAÑO


POBLACIONAL

En los estudios de poblaciones animales en más de una oportunidad se desea determinar (estimar) el número de ellos en
determinada zona o habitad, como puede ser por ejemplo la cantidad de peces de un cardumen. Este método se basa en la
captura de un cierto número de individuos de dicha población que se supone cerrada (no nacimientos, no muertes, no
alejamientos de la masa poblacional, etc.). Un procedimiento muy útil es el llamado muestreo por captura y recaptura con
marcaje, consistente en que se obtiene una primera muestra de la población en estudio y todos los individuos capturados son
marcados (1M) y devueltos a su habitad. Posteriormente, trascurrido cierto tiempo para que ellos se mezclen en su población,
se toma una segunda muestra de individuos (2M) con los mismos instrumentos y de la misma forma como se realizó la
primera muestra. En esta segunda muestra desde luego deben aparecer individuos marcados y no marcados. Representando a
los individuos marcados y capturados en la segunda muestra, individuos recapturados por (RM) y a los no marcados por (2M-
RM) se tiene la formula de Petersen (Pradillo, 2009).

1M : Número de individuos capturados y marcados en la primera muestra.


2M : Número de individuos capturados en la segunda muestra.
RM : Número de individuos que aparecen marcados en la segunda muestra.

2M RM : Número de individuos no marcados encontrados en la segunda muestra.

756 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

Para el estimador del total de individuos en la población se tiene el estimador sesgado:

2M
N̂ 1M (11.1)
RM
Con estimador de la varianza dado por:

(2M RM)
Vˆ(Nˆ )
2
1M .(2M). (11.2)
(RM)3

La figura 11.32, representa la metodología explicada anteriormente.

PRIMERA MUESTRA
SELECCIONADA Y
MARCADA

LA MUESTRA SE
1M REGRESA A LA
POBLACIÓN

POBLACIÓN 
INDIVIDUOS NO
2M   RM MARCADOS

2M 
INDIVIDUOS
 
RM
  MARCADOS
SEGUNDA MUESTRA
SELECCIONADA

Figura 11.32. Metodología de captura de marcaje para estimación de tamaño de poblaciones animales.

El método de captura y marcaje es usado actualmente para estimar la cantidad de ballenas presentes en los mares disparando
un cilindro metálico de un pie de longitud en la parte espesa de la grasa de la ballena que está justo debajo de la piel. Cuando
las ballenas marcadas con capturadas más tarde, se obtiene información sobre su movimiento, su tasa de captura, y la
proporción de miembros en la manada (Tanur et al., 1989).

Ejemplo
Para determinar el número de peces que hay en un estanque, se toma una muestra de 90 peces y se procede a marcarlos
realizando una pequeña amputación en una aleta depositándolos nuevamente en el estanque. Una semana después se toma
del estanque una muestra de 60 peces encontrando 35 marcados.

a) Estime la cantidad de peces presentes en el lago


b) Estima la varianza del estimador del tamaño poblacional determinado a en a )

Solución//

a) Para la estimación del total de peces presentes en el estanque:

757 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

Total de peces marcados: 2M 60 .


Total de peces muestreados en la segunda muestra: 2M 60 .

Peces marcados que aparecieron en la segunda muestra: RM 35 .


Peces no marcados que aparecieron en la segunda muestra: 2M RM 25 .

2M 60
Nˆ 1M 90. 154
RM 35

b) Para la estimación de la varianza:

(2M RM) 25
Vˆ(Nˆ )
2
1M .(2M). (90)2 .(60). 283,38
(RM)3 (35)3

Otros métodos muy usados para estimar el tamaño de poblaciones son: Muestreo Inverso, Muestreo por cuadros (Rueda et
al., 1998).

EJERCICIOS

Ejercicio 11.1
Suponga que se desea obtener una muestra aleatoria de 50 pernos de un embarque de aproximadamente 10000 de ellos. Los
pernos vienen en bulto de igual cantidad de ellos. Si el embarque corresponde a 100 bultos de pernos los cuales son
descargados mediante una banda transportadora indique:

a) ¿Qué tipo de muestreo utilizaría para obtener la muestra?


b) Indique metodológicamente como obtendría la muestra de la banda transportadora.
c) Si los pernos vienen en dos contenedores de igual cantidad, ¿cómo obtendría la muestra?
d) Si los contenedores del caso c) no tienen igual cantidad, ¿cómo lo haría?

Ejercicio 11.2
Un ingeniero quiere comparar dos métodos para secar concreto para ello piensa en realizar los siguientes experimentos:

Experimento 1. Toma 10 muestras de concreto y en forma aleatoria asigna 5 de ellas al método I y las otras cinco al método
II
Experimento 2. Toma cinco muestras de concreto y de cada muestra la divide en dos partes y cada parte la asigna
aleatoriamente a cada método de secado.

a) ¿Cuál de los dos métodos para usted es el mejor para llevar a cabo la comparación de los métodos de secado y por qué?
b) Explique brevemente ¿cómo realizaría el experimento. ¿Cómo conformaría las unidades de muestreo?, ¿Qué factores
controlaría?

Ejercicio 11.3 (Mendenhall et al.,1997)


Es muy común utilizar aceros inoxidables en las plantas petroquímicas para el manejo de fluidos, sin embargo estos aceros
son susceptibles a agrietamientos por la corrosión causada por esfuerzos en ciertos entornos. Un ingeniero encuentra que de

758 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

295 fallas de aleaciones de acero ocurridas en refinerías de petróleo, 118 se deben a agrietamientos por corrosión causada por
fatigas y esfuerzos. Utilizando la información como proveniente de una muestra aleatoria simple (MAS) determine.

a) El parámetro investigado por el ingeniero.


b) Estime dicho parámetro y la estimación de su varianza con la información suministrada.
c) Determine un intervalo de confianza para el parámetro asociado con un nivel de confianza del 95%

Ejercicio 11.4
Usted necesita obtener 5 muestras de una grasa que está contenida en un barril, el cual puede destaparse superiormente.
¿Cómo obtendría las cinco muestras?
¿Qué tipo de aparato de muestreo usaría?

Ejercicio 11.5
Una empresa compradora de semillas dispone de la siguiente tabla para la intensidad del muestreo en sacos de semillas

Número de sacos Número de muestras primarias


Hasta 5 Todos los sacos
De 6 hasta 30 Uno de cada tres pero no menos de 5
De 31 en adelante Uno de cada cinco, pero no menos de 10

La empresa se dispone a comprar un cargamento de 20 sacos. ¿Cómo plantearía usted la toma de la muestra? . El Dtpo de
Calidad requiere una muestra de 1Kg para el análisis de las semillas.

Ejercicio 11.6
Un supervisor de producción sospecha que existe una diferencia entre las proporciones P1 y P2 de artículos defectuosos
producidos por dos máquinas distintas. La experiencia ha demostrado que la producción de artículos defectuosos para cada
una de las dos máquinas es del orden de 0.03. Si el supervisor quiere estimar la diferencia en las proporciones con una
exactitud de 0.005 y una probabilidad del 95% de que sea correcta, ¿Cuántos artículos debe muestrear aleatoriamente de la
producción de cada máquina? (suponga que n1 n2 n )

Ejercicio 11.7
Una empresa fabricante de tornillos recibe varillas de acero de 6 m y algunas de ellas tienen menos de la longitud estipulada
y todas vienen en atados de 12 varillas. La empresa recibirá 100 atados de dichas varillas. El inspector de calidad toma una
muestra de 5 atados y determina en cuáles de ellos hay varillas con longitud inexacta encontrando que el 40% de ellos tienen
varillas con longitud inexacta. Qué debe hacer el inspector de calidad para saber con base en la muestra ¿Entre que valores de
la longitud está la longitud de las varillas?

Ejercicio 11.8
Un material sólido está formado por dos tipos de partículas, la proporción de las partículas minoritarias (A) es probablemente
de 1 en 5. Si se busca un coeficiente de variación (error relativo) del 1% en la determinación de las partículas (A) ¿Cuál es el
valor de n ?. La muestra resultante debe reducirse de la toma de tres sitios de igual tamaño para finalmente enviar la tercera
parte. ¿Qué tamaño tendrá la muestra compuesta si aproximadamente cada 4000 partículas tendrá un peso de 2 Kg? Contar
40000 partículas es supremamente engorroso pero si se sabe que 4000 partículas tienen aproximadamente un peso de 2Kg.
Entonces la muestra compuesta será de 120000 partículas que representan 30 Kg y la muestra de envío será de 10 Kg
obtenidos de la muestra compuesta o sea (40000 partículas).

Ejercicio 11.9
Calcular el número de muestras para determinar la concentración de un compuesto (ppm: partes por millón), si las muestras
pueden presentar una variabilidad ( S ) de 0.06 ppm (análisis anteriores). Suponga un error relativo del 20% de la
concentración teórica que se supone en 0.1 ppm y un nivel de confianza del 95%.

759 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

Ejercicio 11.10
El análisis de 6 muestras permite calcular la concentración promedio de de cierto compuesto determinada por 0.052 ppm.
Experimentos previos con un número de muestras superior a 30 han mostrado una cuasivarianza muestral en el análisis de la
concentración de 0.17. Determine el intervalo de confianza para la verdadera concentración promedio.

Ejercicio 11.9
En determinados estudios de la calidad de agua es importante verificar la presencia o ausencia de varios tipos de
microorganismos. Suponga que 20 muestras de 100 seleccionadas al azar de un pozo profundo, muestran la presencia de un
determinado microorganismo. Entre que valores está el verdadero valor (Proporción) de encontrar este microorganismo en
una muestra del mismo volumen de agua, con una confianza del 95%?

Ejercicio 11.10 (Miller et al., 1992)


Suponga que se desea estimar la proporción real del número de microorganismos en una solución y se desea una confianza
del 95% de que el error sea a lo sumo de 0.04. ¿Cuántas muestras de X cantidad de solución deben ser tomas si:
a) No se tienen idea de cómo podría ser la proporción muestral
b) Se sabe que la proporción real no excede a 0.12?

Ejercicio 11.11 (Mendenhall et al., 2002)


Cuando investigadores químicos realizan experimentos pueden obtener resultados ligeramente diferentes en las repeticiones
sucesivas, aun cuando el experimento se realice de manera idéntica cada vez. Estas diferencias se deben a un fenómeno
llamado “error de medición”.
a) Enumere algunas de las variables en un experimento químico que podrían causar algunos cambios pequeños en la
medición de la respuesta final.
b) Si se quiere asegurar de que un error de medición sea pequeño, puede repetir el experimento y tomar el promedio
muestral de todas las mediciones. ¿Para disminuir la variabilidad en su medición promedio, deberá usar un número grande
o pequeño de repeticiones? Justifique su respuesta.

Ejercicio 11.12 (Mendenhall et al., 2002)


Estimaciones de la Biomasa terrestre (cantidad total de vegetación que sostienen los bosques de la tierra) son importantes
para determinar la cantidad de anhídrido carbónico no absorbido que se espera permanezca en la atmósfera de la tierra. Una
muestra piloto de 75 parcelas de 1 metro cuadrado, elegidas al azar en los bosques boreales de América del Norte, produjo
una biomasa media de 4.2 kg/m2, con una desviación estándar de 1.5 kg/m2. ¿Cuántas parcelas de las mismas se requieren
para estimar la biomasa promedio con un error del 5% de la media piloto y un nivel de confianza del 95%?

Ejercicio 11.13 (Mendenhall et al., 2002)


Suponga que se desea estimar el pH medio de la lluvia en una zona muy contaminada por la descarga de humo de una planta
de generación eléctrica. Usted sabe que 0.5 pH en la vecindad de la empresa, y desea que su estimación quede dentro
de 0.1 del promedio con una probabilidad cercana a .95. ¿Aproximadamente durante cuantos días de lluvia debe tomarse
la muestra (una lectura de pH por día lluvioso)?, ¿Será válido seleccionar todos los especímenes de agua durante una sola
lluvia?

Ejercicio 11.14
Con base en repetidas mediciones de la concentración de yodo en una solución, un ingeniero químico determina que la
concentración es de 4.614, con un error de 0.0061.
a) ¿cómo interpretaría el margen de error el ingeniero químico?
b) Si la concentración determinada se basa en una muestra aleatoria de 30 mediciones, con una desviación estándar muestral
de s 0.017 , ¿estaría usted de acuerdo en que el margen de error de que habla el ingeniero es correcto?

Ejercicio 11.15
Explique el método de muestreo que emplearía para estimar la cantidad de hormigas (muertas) presentes en un balde lleno de
tierra del nido + hormigas.

760 
 
CAPÍTULO 11. MUESTREO E INGENIERÍA

Ejercicio 11.16
Explique el método de muestreo que seguiría para estimar la cantidad de jugo que producirían 20 bultos de naranjas de una
misma variedad.

761 
 
 
 
BIBLIOGRAFÍA
 
 
 

 
 
1. Aldridge, A., Levine, K. (2003). Topografía del Mundo Social: Teoría y práctica de la investigación mediante
encuestas, Barcelona: Gedisa.

2. Ayuga, E., González, C., Martín, S., Martínez, J., y Pardo, M. (1999) Técnicas de muestreo en ciencias forestales y
ambientales, España: Bellisco.

3. Azorín, F. , Sánchez, J. (1986). Métodos y Aplicaciones del Muestreo. España: Alianza Editorial.

4. Bautista, L. (1998). Diseños de Muestreo Estadístico. Bogotá. Universidad Nacional de Colombia.

5. Babbie, E. (2000). Fundamentos de la Investigación Social. México. Thomson.

6. Bautista, F., Delfín H., Palacio, J., y Delgado, M. (2004) Técnicas de muestreo para manejadores de recursos naturales,
México: Universidad Nacional Autónoma de México.

7. Behar, R. , Grima, P. (2000). “Estadística Aplicada”. Cali: Universidad del Valle.

8. Behar, R. , Grima, P. (2004) 55 Respuestas a dudas típicas de estadística. España, Díaz de Santos, S.A.

9. Bethlehem, Jelke. (2009). Applied Survey Methods. United States of America. Wiley.

10. Bolfor : Proyecto de Manejo Forestal sostenible. (2000). Manual de Métodos de muestreo y Análisis en Ecología
Vegetal. Bolivia. Editorial El país. Pp3-27

11. Cámara, C., Fernández, P., Martín, A., Pérez, C., y Vidal, M. (2004) Toma y tratamiento de muestras, Madrid: Editorial
Síntesis. Pp 93-96

12. Clairin, R., Brion, P. (2001). Manual de muestreo. Madrid: La muralla, S.A.

13. Cochran, W.G. (1980). Técnicas de Muestreo, 2ª edición en español. México: Cecsa.

14. Colección FAO Nº 3 (1990): Métodos de Muestreo para encuestas agrícolas.

15. D´Ancona, M. (2004). “Métodos de Encuesta. Teoría y práctica, errores y mejora. Madrid, Editorial Síntesis.

16. Escuder, R. Méndez, S. (2002). Métodos de Muestreo Estadístico Aplicados a la Auditoría., Valencia España: Tirant Lo
Blanch.

17. Fernández, R. Mayor, J. (1995). Muestreo en poblaciones finitas: Curso Básico. Barcelona: EUB.

18. Fernández, M., Fuentes, N. (2004). Muestreo Estadístico, España: Setpem Ediciones.

781 
 
 
 
BIBLIOGRAFÍA
 
 
 
19. Flórez, L. (1999). Muestreo. Madrid. Universidad Politécnica.

20. García, F. (1993). “El análisis de la realidad social. Métodos y técnicas de investigación. Madrid: Alianza.

21. García, A., Oña, I. (2007). Encuestas continuas: Estimación de Parámetros en Muestreo Sucesivo, Almería. Universidad
de Almería.

22. Good, Phillip. (2005). Introduction to Statistics Through Resamplig Methods And Microsoft Office Excel. United States
of America. Wiley-Interscience.

23. Gondar, J. (2003). Muestreo (Técnicas muestrales) Madrid. España: Data Mining Institute, S.L.

24. González , C., Martínez, J., Pardo, M., Solana, J. (1993). Técnicas de muestreo en la evaluación de recursos forestales
Fundación Conde del Valle de Salazar.

25. Groves, R. (1989), Survey Errors and Survey Costs, New York: John Wiley & Sons.

26. Izcara, P. (2007). Introducción al muestreo. México: Fondo mixto de fomento a la investigación científica y
Tecnológica CONACYT.

27. Kish, L. (1979). “Muestreo de encuestas”, México: Editorial Trillas.

28. Lombardía, M. Sanchez, C. González, W. (2004), España: Ciencia y Tecnología Monografía: Tamaño de muestra y
precisión estadística. Universidad de Almería.

29. Lohr, S, L. (2000). Muestreo: Diseño y Análisis. México. Thomson.

30. Martínez, V. (2003). Diseño de encuestas de opinión, España: Ra-Ma.

31. Méndez, I. (1992). “Valoración Estadística en la Investigación”. México: UNAM.

32. Méndez, I., Eslava, G., y Romero. P. (2004). Conceptos Básicos de Muestreo. México: UNAM.

33. Mendenhall, W., Sincich, T. (1997) Probabilidad y Estadística para Ingeniería y Ciencias, México: Prentice Hall.

34. Miller, I., Freund, J., Johnson, R. (1992) Probabilidad y Estadística para Ingenieros, México: Prentice Hall.

35. Mendenhall, W., Behaver, R., Behaver, B. (2002) Introducción a la Probabilidad y Estadística, México: Thomson.

36. Mendenhall, W. (1990). “Estadística para la administradores”. México. Iberoamérica.

37. Montgomery, D.C., Peck, E.A., Vining, G.G. (2004). Introducción al análisis de regresión lineal. CECSA. México.

38. Mirás, J. (2000). Elementos de muestreo en poblaciones fintas. Madrid: Instituto Nacional de Estadística (INE).

39. Ospina, D. (2001). Introducción al muestreo. Bogotá: Universidad Nacional.

40. Otañez, G. (1988). Metodología del Muestreo Agrícola de áreas en Colombia. Bogotá. FAO.

782 
 
 
 
BIBLIOGRAFÍA
 
 
 
41. OMI (Organización Marítima Internacional). (2006). Directrices sobre el muestreo y análisis de material de dragado
destinado a la evacuación en el mar. Londres.

42. Pérez, C. (2005). Muestreo Estadístico: Conceptos y problemas resueltos. Madrid: Prentice Hall.

43. Pérez, C. (2000). Técnicas de muestreo Estadístico, México: Alfaomega.

44. Pradillo, A. (2009): Manual de Métodos de Censo y Muestreo de peces continentales, España: Tundra Ediciones.

45. Raj, D. (1980). “Teoría del muestreo”, México: Fondo de cultura económica.

46. Ramírez, A. (2006) ECOLOGÍA: Métodos de muestreo y análisis de poblaciones y comunidades, Bogotá: Editorial
Pontificia Universidad Javeriana.

47. Rodríguez, J. (1993). Métodos de muestreo. Casos prácticos. España: Centro de Investigaciones Sociológicas.

48. Rojas, A., Fernández, J., Pérez, C. (1998). Investigar mediante encuestas. España: Editorial Síntesis.

49. Resolución 0062 IDEAM. www.ideam.gov.co

50. Rueda, M., Arcos, A. (1998). Problemas de Muestreo en Poblaciones Finitas. España. Grupo Editorial Universitario.

51. Sánchez, J. y Parada, J. (2002). Ejercicios y Problemas resueltos de muestreo en poblaciones finitas. España: INE.

52. Sánchez, J. (1980). Curso intensivo de Muestreo en poblaciones finitas. Madrid. INE.

53. Santos, J., Muñoz, Á., Juez, P., Cortinas, P. (2003). Diseño de encuestas para estudios de mercado. España, Centro de
Estudios Ramón Arces, SA.

54. Sánchez, A. (1983) Tecnología agronómica, Universidad del Valle. Notas de clase.

55. Särdal, C.E., Swenson , B., y Wretman , J. (1992) Model Assisted Survey Sampling, New York: Springer-Verlag.

56. Scheaffer, R. Mendenhall III, W. Liman, R. (2007). “Elementos de muestreo”, España: Thomson.

57. Seijas, F. (1993). Investigación por Muestreo. Caracas. Universidad Central de Venezuela.

58. Serie: Aprender a investigar ICFES. Bogotá (Primera versión). Módulo 2.

59. Silva, L. (2000). Diseño razonado de muestras y captación de datos para la investigación sanitaria. Madrid: Díaz de
Santos, S.A.

60. Sierra, R. (1994). Técnicas de Investigación Social. Madrid. Paraninfo.

61. Tanur, J., Mosteller, F., Kruskal, W., Lehmann, E., Link, R., Pieters, R., y Rising, G. (1992) Las Estadística: Una guía
de lo desconocido. Madrid: Alianza Editorial.

62. Thompson, S. (1992). Sampling. New York: John Wiley & Sons, Inc.

783 
 
 
 
BIBLIOGRAFÍA
 
 
 
63. Urban, H, -J. (2000). Métodos y Conceptos de la Ecología de Poblaciones. Cali: Artes gráficas de la Facultad de
Ciencias. Universidad del Valle.

64. Velasco, V.M., Martínez, V.A., Roiz, J., Huazano, F., Nieves, A. (2003) Muestreo y tamaño de muestra, México, El
Cid Editores.

65. Vivanco, M. (2005), Muestreo Estadístico: Diseño y Aplicaciones, Chile: Editorial Universitaria.

66. Wimmer, R., Dominick, J. (2000). Introducción a la Investigación de Medios Masivos de Comunicación. México
Thomson.

67. Yamane, T. (1967). Elementary Sampling Theory, United Estates of America: Prentice Hall.

784 
 

También podría gustarte