Está en la página 1de 394

IMPRESO EN MXICO - PRINTED IN MEXICO

A mis nias

CONTENIDO

INTRODUCCIN .............................................................................................................................
CAPTULO 1.

CAPTULO 2.

CAPTULO 3.

xi

MUESTREO ESTADSTICO: CONCEPTOS, ESTIMADORES


Y SU DISTRIBUCIN .........................................................................................

Conceptos iniciales en la teora del muestreo ........................................................


Muestreo y estimadores. Distribuciones en el muestreo ........................................
Propiedades y precisin de los estimadores. Comparacin de estimadores...........
Estimacin por intervalos de confianza..................................................................
Problemas resueltos................................................................................................
Ejercicios propuestos..............................................................................................

3
4
6
8
10
47

MTODOS GENERALES DE SELECCIN DE MUESTRAS.


ESTIMACIN Y ERRORES..............................................................................

49

Seleccin con y sin reposicin. Probabilidades iguales y desiguales.....................


Estimacin puntual y formacin general de estimadores .......................................
Muestreo con reposicin y probabilidades desiguales. Estimador de Hansen Hurwitz ...
Muestreo con reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin ........................................................................
Muestreo sin reposicin y probabilidades desiguales. Estimador de Horvitz Thompson .
Muestreo sin reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin ........................................................................
Mtodo de Montecarlo ...........................................................................................
Problemas resueltos................................................................................................
Ejercicios propuestos..............................................................................................

51
51
54

57
62
64
108

MUESTREO ALEATORIO SIMPLE SIN Y CON REPOSICIN.


SUBPOBLACIONES ...........................................................................................

109

Muestreo aleatorio simple sin reposicin. Especificaciones ..................................


Estimadores, varianzas y estimacin de varianzas.................................................
Tamao de la muestra ............................................................................................

111
112
114

55
56

viii

Muestreo estadstico. Conceptos y problemas resueltos

CAPTULO 4.

CAPTULO 5.

CAPTULO 6.

Muestreo aleatorio simple con reposicin. Estimadores ........................................


Varianzas y su estimacin con reposicin..............................................................
Tamao de la muestra con reposicin ....................................................................
Comparacin entre muestreo aleatorio sin y con reposicin..................................
Subpoblaciones.......................................................................................................
Problemas resueltos................................................................................................
Ejercicios propuestos..............................................................................................

118
119
120
121
122
124
145

MUESTREO ESTRATIFICADO SIN Y CON REPOSICIN .......................

147

Concepto de muestreo estratificado .......................................................................


Muestreo estratificado sin reposicin. Estimadores y errores ................................
Muestreo estratificado con reposicin. Estimadores y errores...............................
Afijacin de la muestra. Tipos de afijacin y errores de los estimadores
para muestreo sin reposicin ..............................................................................
Afijacin de la muestra. Tipos de afijacin y errores de los estimadores
para muestreo con reposicin .............................................................................
Tamao de la muestra para muestreo sin reposicin..............................................
Tamao de la muestra para muestreo con reposicin.............................................
Comparacin de eficiencias en muestreo estratificado ..........................................
Postestratificacin ..................................................................................................
Problemas resueltos................................................................................................
Ejercicios propuestos..............................................................................................

149
150
151

155
156
156
157
159
161
195

MUESTREO SISTEMTICO ............................................................................

197

Muestreo sistemtico. Especificaciones .................................................................


Estimadores y varianzas .........................................................................................
Relacin entre el muestreo sistemtico y el muestreo aleatorio simple .................
Relacin entre el muestreo sistemtico y el muestreo estratificado .......................
Estimacin de varianzas .........................................................................................
Relacin entre el muestreo sistemtico y el muestreo por conglomerados ............
Problemas resueltos................................................................................................
Ejercicios propuestos..............................................................................................

199
200
203
203
205
206
207
224

MUESTREO POR MTODOS INDIRECTOS. RAZN, REGRESIN


Y DIFERENCIA...................................................................................................

225

Estimadores no lineales ..........................................................................................


Muestreo por mtodos indirectos. El estimador de razn ......................................
Estimaciones de los parmetros poblacionales basadas en la razn y errores .......
Estimaciones por regresin y errores .....................................................................
Estimaciones por diferencia y errores ....................................................................
Estimadores de razn en el muestreo estratificado ................................................
Estimadores de regresin en el muestreo estratificado ..........................................
Problemas resueltos................................................................................................
Ejercicios propuestos..............................................................................................

227
229
233
234
237
238
245
250
271

152

Contenido

CAPTULO 7.

CAPTULO 8.

CAPTULO 9.

MUESTREO UNIETPICO DE CONGLOMERADOS .................................

ix

273

Muestreo unietpico de conglomerados. Estimadores para conglomerados


del mismo tamao y probabilidades iguales.......................................................
Varianza de los estimadores. Coeficiente de correlacin intraconglomerados.
Estimacin de varianzas ....................................................................................
Muestreo de conglomerados del mismo tamao con reposicin.
Varianzas de los estimadores y estimacin de las varianzas.............................
Muestreo unietpico de conglomerados de distinto tamao ..................................
Muestreo unietpico de conglomerados de distinto tamao con
probabilidades desiguales...................................................................................
Tamao de la muestra ............................................................................................
Problemas resueltos................................................................................................
Ejercicios propuestos..............................................................................................

283
285
286
297

MUESTREO BIETPCO DE CONGLOMERADOS......................................

299

275
276
280
281

Muestreo bietpico de conglomerados. Estimadores para probabilidades iguales


y conglomerados del mismo tamao ..................................................................
Varianzas y su estimacin en muestreo bietpico con probabilidades iguales
y conglomerados del mismo tamao ..................................................................
Muestreo bietpico de conglomerados de distinto tamao y probabilidades iguales......
Tamao de la muestra en muestreo bietpico ........................................................
Muestreo bietpico con probabilidades desiguales y con reposicin
en 1 etapa. Estimadores, varianzas y su estimacin..........................................
Muestreo bietpico con probabilidades desiguales y sin reposicin
en 1 etapa. Estimadores, varianzas y su estimacin..........................................
Muestreo polietpico ..............................................................................................
Diseos complejos. Muestreo bietpico con estratificacin en primera etapa.......
Problemas resueltos................................................................................................
Ejercicios propuestos..............................................................................................

310
312
313
314
327

MUESTREO BIFSICO Y MUESTREO EN OCASIONES


SUCESIVAS .........................................................................................................

329

Muestreo bifsico ...................................................................................................


Muestreo bifsico para estratificacin. Estimadores, varianzas y estimacin
de varianzas .......................................................................................................
Muestreo bifsico para estimadores de razn.........................................................
Muestreo bifsico para estimadores de regresin...................................................
Muestreo bifsico para estimadores de diferencia .................................................
Mestreo en ocasiones sucesivas .............................................................................
Estimadores de mnima varianza en el muestreo en ocasiones sucesivas .............
Problemas resueltos................................................................................................
Ejercicios propuestos..............................................................................................

301
301
304
307
308

331
332
336
337
338
338
341
344
350

Muestreo estadstico. Conceptos y problemas resueltos

CAPTULO 10. MUESTREO ESTADSTICO MEDIANTE SPSS............................................


SPSS y el muestreo estadstico...............................................................................
Diseos complejos y el asistente de muestreo. Creacin de un nuevo plan
de muestreo...................................................................................................... ...
Asistente de muestreo: Modificar un plan existente ..............................................
Asistente de muestreo: Ejecutar un plan de muestreo dado ...................................
Preparacin de una muestra compleja para su anlisis: Creacin de un nuevo
plan de anlisis ...................................................................................................
Preparacin de una muestra compleja para su anlisis: Modificar un plan
de anlisis existente............................................................................................
Clculos en muestras complejas: frecuencias, descriptivos, tablas de contingencia
y razones.............................................................................................................

351
353
354
362
364
364
368
368

INTRODUCCIN

La finalidad esencial de este libro es presentar las tcnicas de muestreo estadstico en su


faceta prctica. Cada captulo comienza con una breve exposicin de los conceptos tericos
a utilizar en los problemas con el objetivo de que no sea necesario recurrir a textos externos
para comprender las herramientas utilizadas en la solucin de los ejercicios. Adems,
determinados ejercicios se refuerzan con aplicaciones informticas para obtener la solucin.
En particular se utilizan Excel y SPSS.
Los ms de 150 problemas que contiene el texto, as como los conceptos tericos, se
dirigen tanto a docentes como a estudiantes universitarios de todos los niveles que imparten o
cursan la materia de muestreo estadstico. El libro es tambin de utilidad para los profesionales de
la economa, biologa, botnica, zoologa, marketing, auditora, agronoma, comercio, transporte,
medicina, control de calidad, etc. En general puede utilizarse en todos los sectores en los que se
aplican las tcnicas de muestreo.
En cuanto al contenido, se comienza exponiendo los conceptos iniciales de la teora del
muestreo, para facilitar la situacin del lector en el contexto de la teora de muestras moderna. A
continuacin se presentan los mtodos bsicos para seleccionar la muestra y se desarrollan los
diferentes tipos de muestreo, como muestreo aleatorio simple, muestreo estratificado, muestreo
sistemtico, mtodos indirectos de estimacin por razn, regresin y diferencia, muestreo por
conglomerados unietpico, bietpico y polietpico, los procedimientos para el muestreo bifsico
y los problemas peculiares de las encuestas repetidas.
Los problemas suelen adecuarse en lo posible a situaciones prcticas y la metodologa pretende mantener la secuencia conceptos A aplicaciones, muy til en los mtodos de
enseanza modernos. Comenzar presentando los temas de forma terica, para a continuacin
resolver ejercicios prcticos que ilustran los mtodos tericos, cuya resolucin suele
apoyarse en la medida de lo posible en las herramientas informticas ms adecuadas, es la
secuencia ms lgica a seguir en la didctica de esta materia.

CAPTULO
MUESTREO ESTADSTICO: CONCEPTOS,
ESTIMADORES Y SU DISTRIBUCIN

OBJETIVOS
1. Presentar el concepto de muestreo estadstico en poblaciones finitas.
2. Distinguir claramente los conceptos de poblacin, marco y muestra.
3. Introducir el concepto de estimador y su distribucin en el muestreo.
4. Analizar las propiedades de los estimadores.
5. Estudiar la precisin de los estimadores.
6. Comparar estimadores.
7. Cuantificar la precisin de los estimadores.
8. Comprender el concepto de estimacin mediante intervalos de confianza.
9. Analizar la influencia del sesgo en la estimacin por intervalos de
confianza.
10. Analizar la influencia de la normalidad en la estimacin por intervalos de
confianza.
11. Realizar la estimacin mediante intervalos de confianza.

Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Conceptos iniciales en la teora del muestreo.
2. Muestreo y estimadores. Distribuciones en el muestreo.
3. Propiedades y precisin de los estimadores. Comparacin de estimadores.
4. Estimacin por intervalos de confianza.
5. Problemas resueltos.
6. Ejercicios propuestos.

Muestreo estadstico: conceptos, estimadores y su distribucin

CONCEPTOS INICIALES EN LA TEORA DEL MUESTREO


Al hablar de mtodos de muestreo nos referimos al conjunto de tcnicas estadsticas que estudian
la forma de seleccionar una muestra lo suficientemente representativa de una poblacin cuya
informacin permita inferir las propiedades o caractersticas de toda la poblacin cometiendo un
error medible y acotable. A partir de la muestra, seleccionada mediante un determinado mtodo
de muestreo, se estiman las caractersticas poblacionales (media, total, proporcin, etc.) con un
error cuantificable y controlable. Las estimaciones se realizan a travs de funciones matemticas
de la muestra denominadas estimadores, que se convierten en variables aleatorias al considerar la
variabilidad de las muestras. Los errores se cuantifican mediante varianzas, desviaciones tpicas o
errores cuadrticos medios de los estimadores, que miden la precisin de stos. La metodologa
que permite inferir resultados, predicciones y generalizaciones sobre la poblacin estadstica,
basndose en la informacin contenida en las muestras representativas previamente elegidas por
mtodos de muestreo formales, se denomina inferencia estadstica.
Es muy importante tener en cuenta que para medir el grado de representatividad de la
muestra es necesario utilizar muestreo probabilstico. Diremos que el muestreo es probabilstico
cuando pueda establecerse la probabilidad de obtener cada una de las muestras que sea posible
seleccionar, esto es, cuando la seleccin de muestras constituya un fenmeno aleatorio
probabilizable. Dicha seleccin se verificar en condiciones de azar, siendo susceptible de
medida la incertidumbre derivada de la misma. Esto permitir medir los errores cometidos en el
proceso de muestreo (a travs de varianza u otras medidas estadsticas).
Existen varios tipos de muestreo, dependiendo de que la poblacin estadstica sea
finita o infinita, materia sobre la que existe amplia literatura estadstica, pero nosotros
consideraremos solamente el muestreo en poblaciones finitas. La poblacin finita inicial que
se desea investigar se denomina poblacin objetivo, pero el muestreo de toda la poblacin objetivo
no siempre es posible debido a diferentes problemas que no permiten obtener informacin de
algunos de sus elementos (inaccesibilidad de algunos de sus elementos, negativas a colaborar,
ausencias, etc.), con lo que la poblacin que realmente es objeto de estudio o poblacin investigada
no coincide con la poblacin objetivo.
Por otro lado, para seleccionar la muestra, necesitaremos un listado de unidades de muestreo
denominado marco que tericamente debiera coincidir con la poblacin objetivo. Un marco ser
ms adecuado cuanto mejor cubra la poblacin objetivo, es decir, cuanto menor sea el error de
cobertura. Pero en los marcos son inevitables las desactualizaciones, las omisiones de algunas
unidades, las duplicaciones de otras y la presencia de unidades extraas y otras impurezas que
obligan a su depuracin (depuracin de marcos imperfectos). Idealmente podra conseguirse la
poblacin objetivo eliminando del marco las unidades errneamente incluidas en l (unidades
extraas, duplicaciones, etc.) y aadiendo las omisiones. Asimismo, tambin sera una meta que al
eliminar del marco las unidades de las que no se puede obtener informacin (inaccesibles, ausentes,
no colaboradoras, etc.) se obtuviera la poblacin investigada. El marco puede estar constituido por
unidades elementales de muestreo o por unidades compuestas. Una unidad elemental (o simple) es la
unidad de muestreo ms sencilla posible y una unidad compuesta (o primaria) est formada por
varias unidades elementales. Como en la prctica no es fcil disponer de marcos de unidades
elementales, se intenta conseguir marcos de unidades compuestas que son ms accesibles. Por
ejemplo, para estudiar habitantes de una regin es ms fcil disponer de un listado de hogares que de
un listado de individuos. Se selecciona la muestra de un marco de hogares (unidades compuestas de
varios individuos) y despus se estudian las propiedades de los individuos con tcnicas adecuadas.

Muestreo estadstico. Conceptos y problemas resueltos

MUESTREO Y ESTIMADORES. DISTRIBUCIONES EN EL MUESTREO


Consideramos los sucesos elementales asociados a un fenmeno o experimento aleatorio dado S1,
S2, ..., Sm, entendiendo por sucesos elementales los ms simples posibles, es decir, aquellos que no
pueden ser descompuestos en otros sucesos. El conjunto {S1, S2, ..., Sm} se denomina espacio
muestral asociado al fenmeno o experimento. Si consideramos como fenmeno o experimento
la extraccin aleatoria de muestras dentro de una poblacin por un procedimiento o mtodo
de muestreo dado, podemos considerar como sucesos elementales las muestras obtenidas,
constituyendo el conjunto de las mismas el espacio muestral.
Habitualmente en los mtodos de muestreo comunes se consideren iguales muestras con
los mismos elementos, aunque estn colocados en orden diferente (el orden de colocacin no
interviene). Una muestra de tamao n extrada de una poblacin U = {U1, U2, ..., UN} de tamao
N mediante un mtodo de muestreo dado, suele denotarse como s = {u1, u2, ..., un}. De esta forma,
El conjunto de las Nn muestras posibles de tamao n que se pueden formar con los N
elementos de la poblacin U es el espacio muestral S.
Evidentemente, para establecer la probabilidad de todas las muestras posibles
derivadas de un procedimiento de muestreo dado, ser necesario conocer ese conjunto de
muestras; es decir, ser necesario delimitar tanto el mtodo de muestreo como el espacio
muestral derivado del mismo. Un procedimiento, o mtodo, de muestreo es sencillamente un
proceso o mecanismo mediante el que se seleccionan las muestras de modo que cada una tenga
una determinada probabilidad de ser elegida. Por tanto, el mtodo aleatorio empleado para
seleccionar la muestra define en el espacio muestral S una funcin de probabilidad P tal que:
P(Si) * 0 i

P(S ) = 1
S

A partir de una muestra, seleccionada mediante un determinado mtodo de muestreo, se


estiman las caractersticas poblacionales (media, total, proporcin, etc.), con un error cuantificable
y controlable. Las estimaciones se realizan a travs de funciones matemticas de la muestra
denominadas estimadores, que se convierten en variables aleatorias al considerar la variabilidad
de seleccin de las muestras. Los errores se cuantifican mediante varianzas, desviaciones tpicas o
errores cuadrticos medios de los estimadores, que miden la precisin de los mismos.
Para formalizar el problema de la estimacin en poblaciones finitas, se considera que
tenemos definida una caracterstica X en la poblacin U que toma el valor numrico Xi sobre la
unidad Ui i = 1, 2 ,..., n. Consideramos ahora una cierta funcin e de los N valores Xi, por
ejemplo, el total poblacional e(X1, ...,XN) = Xi para la caracterstica X, o la media poblacional
e(X1, ..., XN) = (Xi )/N para la caracterstica X, que suele denominarse parmetro poblacional.
Seleccionamos una muestra s, y a partir de ella queremos estimar el parmetro poblacional e
mediante una funcin e = e (s(X))= e (X1, ..., Xn ), basada en los valores Xi i = 1, 2, ..., n, que toma
la caracterstica X sobre las unidades de la muestra s (por ejemplo, el total muestral e (X1, ..., Xn)
= Xi, o la media muestral e (X1, ..., Xn) = (Xi )/n, para estimar el total poblacional o la media
poblacional, respectivamente. La funcin e que asocia a cada muestra s el valor numrico
e (s(X)) = e (X1, ..., Xn), se denomina estimador del parmetro poblacional e. A los valores
e (s(X)) para cada s, se los denomina estimaciones.

Muestreo estadstico: conceptos, estimadores y su distribucin

Dada la muestra s = {u1, u2, ..., un}, es habitual especificar el conjunto de valores Xi
i = 1, 2, ..., n que toma la caracterstica X sobre las unidades de la muestra s mediante
s(X)={X1, X2, ..., Xn}. Al considerar todas las muestras s del espacio muestral S asociado al
procedimiento de muestreo, y los valores que toma la caracterstica X sobre dichas muestras,
se obtiene el conjunto S(X) = {s(X) / sDS}. Por tanto, podemos formalizar el concepto de
estimador e$ para el parmetro poblacional e definindolo mediante la aplicacin medible:
e : S ( X ) R n A R

( X 1 L X n ) A e( X 1 L X n ) = t

Ya tenemos definido el estimador como un estadstico funcin de los valores que


toma la caracterstica X sobre los elementos del espacio muestral (muestras). Como ejemplos
ms sencillos de estimadores de los parmetros poblaciones total poblacional y media
poblacional, tenemos los estimadores total muestral X$ y media muestral X$ , definidos como
se indica a continuacin:
e2 : S ( X ) R n A R

e1 : S ( X ) R n A R

( X 1 L X n ) A e1 ( X 1 L X n ) = X 1 + L + X n

= X

( X 1 L X n ) A e2 ( X 1 L X n ) =

X1 + L + X n

=X
n

En cuanto a la construccin del estimador, ha de ser tal que la funcin e$ que asocia a cada
muestra s el valor numrico e$ (s(X)) = e$ (X1, ..., Xn) sea calculable y est definida para todas las
muestras s del espacio muestral S generado por el procedimiento de muestreo considerado. La
formacin de estimadores no es una operacin independiente del procedimiento de muestreo que se
adopte. Generalmente, para construir estimadores se utiliza el principio de analoga; es decir, se
estima un parmetro poblacional a partir del estimador muestral anlogo. Por ejemplo, para estimar
la media poblacional, la razn poblacional, etc., se utilizan como estimadores sus anlogos
muestrales, es decir, la media muestral, la razn muestral, etc. No siempre estos estimadores por
analoga tienen las propiedades ms deseables, pero suelen ser siempre consistentes, y a veces
puede corregirse su sesgo multiplicndolos por una constante convenientemente elegida.

Distribucin de un estimador en el muestreo


Se denomina distribucin de probabilidad de una variable aleatoria a la funcin que asigna
probabilidad a los valores que puede tomar la variable. Cuando se especifican los posibles valores
de la variable aleatoria y sus probabilidades respectivas, tenemos construido el modelo de
distribucin de probabilidad. En nuestro caso la variable aleatoria es el estimador, y los posibles
valores que puede tomar son las estimaciones, con lo que habremos obtenido la distribucin de
probabilidad en el muestreo para el estimador cuando conozcamos todos los valores posibles del
estimador junto con las probabilidades de que el estimador tome cada valor.
En el prrafo anterior hemos formalizado el concepto de estimador e$ para el
parmetro poblacional e, definindolo mediante la variable aleatoria (aplicacin medible):
e : S ( X ) R n A R

( X 1 L X n ) A e( X 1 L X n ) = t

Sea T = {tDR / (X1, ..., Xn)DS(X) que cumple e (X1, ..., Xn) = t}. El conjunto TR
constituye el conjunto de valores del estimador. Ahora vamos a definir las probabilidades de que
el estimador tome estos valores (ley de probabilidad de la variable aleatoria e$ ) como sigue:

Muestreo estadstico. Conceptos y problemas resueltos

PT( e (X1, ..., Xn ) = t) =

P( s )

i
{ S i / e ( S i ( X )) = t }

Al par {T, PT}, formado por el conjunto de todos los posibles valores del estimador y
por las probabilidades de que el estimador tome esos valores, se lo denomina distribucin del
estimador en el muestreo. A partir de la introduccin del concepto de muestreo probabilstico
y del conocimiento de la distribucin de los estimadores en el muestreo, tanto la teora de la
probabilidad como la inferencia estadstica estn disponibles para ser aplicadas al muestreo.
En todo el desarrollo de este libro se supone la existencia de muestreo probabilstico.

PROPIEDADES Y PRECISIN DE LOS ESTIMADORES.


COMPARACIN DE ESTIMADORES
Como un estimador e$ de un parmetro poblacional e es sencillamente una variable
aleatoria unidimensional, nos interesarn sus caractersticas de centralizacin y dispersin,
particularmente su esperanza, su varianza y sus momentos, as como otras medidas relativas
a su precisin.

Precisin de los estimadores


Para analizar la precisin de un estimador suelen utilizarse los conceptos de error de
muestreo (o desviacin tpica), acuracidad (o error cuadrtico medio) y sesgo. Suele
llamarse precisin a la acuracidad, lo que no es del todo correcto, ya que, aunque la
acuracidad sea la magnitud ms general para la medicin de la precisin, hay casos en los
que el anlisis puede realizarse en funcin de otras magnitudes, como el sesgo o la
desviacin tpica. Todas estas magnitudes que influyen en la precisin de un estimador
pueden relacionarse a partir de la descomposicin del error cuadrtico medio en sus
componentes de la forma siguiente:

() ()

()

2
ECM e = m e + B e

Por tanto, la acuracidad (error cuadrtico medio) de un estimador se descompone en


la suma del cuadrado del error de muestreo y el cuadrado del sesgo.
En la prctica, se considera que el sesgo de e no es influyente cuando

()
()

B e
1
.
<
10
m e

Comparacin de estimadores insesgados


Un estimador e$ insesgado para el parmetro poblacional e tiene la propiedad de que su
error cuadrtico medio coincide con su varianza, ya que al ser E e = e se tiene:

()

() (

2
V e = E e < E (e) = E e < e

= ECM (e)

De esta forma los conceptos de acuracidad y error del estimador son similares para
estimadores insesgados. Por tanto, para comparar varios estimadores insesgados e$i del
parmetro poblacional e en cuanto a precisin bastar considerar sus errores de muestreo
m (ei ) = + V (ei ) , siendo ms preciso el estimador que menor error de muestreo presente.

Muestreo estadstico: conceptos, estimadores y su distribucin

Tambin en el caso de insesgadez el concepto de error relativo de muestreo puede


expresarse en trminos de una nica magnitud variable m e ya que:

()

() ()

()

m e m e
=
CV e =
e
E (e)

y al ser e una constante el error relativo est en funcin slo del error de muestreo.
Con lo que resulta que, en el caso de estimadores insesgados, la precisin puede
hacerse depender exclusivamente del error de muestreo m e .

()

Comparacin de estimadores sesgados


Para estimadores e$ sesgados del parmetro poblacional e, la magnitud general para analizar su
precisin es su error cuadrtico medio. Por tanto, para comparar varios estimadores sesgados del
parmetro poblacional e en cuanto a precisin se utilizar el error cuadrtico medio y el
estimador ms preciso ser el que menor error cuadrtico medio presente.
Pero en la prctica el clculo del error cuadrtico medio puede ser problemtico.
Por esta razn, cuando se intentan comparar varios estimadores e$i del parmetro
poblacional e todos sesgados, se calcula para cada uno de ellos la cantidad:

( )
( )

B ei
m e
i

siendo ms preciso aquel estimador que presenta una relacin del sesgo al error de muestreo
en valor absoluto ms pequea. Tambin puede utilizarse el coeficiente de variacin
CV ei = m (ei ) / E (ei ) , siendo ms preciso el estimador con menor coeficiente de variacin
(error relativo). Se observa que el denominador del coeficiente de variacin es el valor
esperado del estimador, con lo que el coeficiente de variacin recoge el efecto de un posible
sesgo en el estimador.

()

Si los estimadores sesgados a comparar tienen todos sesgo despreciable, es decir,


B(ei ) / m (ei ) < 1 / 10 , se compararan como si fuesen insesgados, de acuerdo con lo expresado
en el apartado anterior.

Comparacin de estimadores sesgados e insesgados


Para comparar en cuanto a precisin varios estimadores e$i unos sesgados y otros
insesgados del parmetro poblacional e, se utilizar el error cuadrtico medio, y el
estimador ms preciso ser el que menor error cuadrtico medio presente. A veces, ante las
dificultades de clculo del error cuadrtico medio se utiliza el coeficiente de variacin
CV ei = m (ei ) / E (ei ) (que contempla el posible efecto del sesgo en su denominador), siendo
ms preciso el estimador con menor coeficiente de variacin (error relativo).

()

Muestreo estadstico. Conceptos y problemas resueltos

Si los estimadores sesgados tienen todos sesgo despreciable, B(ei ) / m (ei ) < 1 / 10 , se
hara la comparacin global como insesgados de acuerdo con los valores de m (ei ) .

Cuantificacin de la ganancia en precisin de los estimadores


Para medir la precisin de los estimadores suele utilizarse el error cuadrtico medio,
el error relativo (coeficiente de variacin) o el error de muestreo (desviacin tpica). En cada
caso, la ganancia en precisin estar dada por las respectivas tasas de variacin:
ECM (e1 )

< 1 x100
ECM (e )
2

CV (e1 )

< 1 x100
CV (e )
2

m (e1 )

< 1 x100
m (e )
2

ESTIMACIN POR INTERVALOS DE CONFIANZA


Al estimar parmetros de la poblacin en estudio basndose en la informacin contenida en la
muestra, pueden usarse los valores puntuales de un estadstico basado en la misma, o puede
utilizarse un intervalo de valores dentro del cual se tiene confianza de que est el valor del
parmetro. En el primer caso estamos ante el proceso de estimacin puntual, en el que
utilizamos directamente los valores de un estadstico, denominado estimador puntual, sobre la
muestra dada (estimaciones puntuales), para estimar los valores poblacionales. En el segundo
caso estamos ante la estimacin por intervalos, donde se calcula un intervalo de confianza en
el que razonablemente cae el valor estimado con un nivel de confianza prefijado.
Obtener una estimacin por intervalos (o definir un intervalo de confianza) para un
parmetro poblacional e al nivel de confianza _ consiste en hallar un intervalo real para el
que se tiene una probabilidad 1< _ de que el verdadero valor del parmetro e caiga dentro
del citado intervalo. El valor 1< _ suele denominarse coeficiente de confianza.

Intervalos de confianza cuando el estimador es insesgado


En este caso se persigue estimar el parmetro poblacional e mediante un intervalo de
confianza basado en el estimador e insesgado para e (E( e ) = e ). Para estimadores
insesgados, es necesario distinguir entre el caso en que la distribucin del estimador es
normal y el caso en que dicha distribucin no puede asegurarse que sea normal.
a) El estimador e$ tiene una distribucin normal
El intervalo de confianza para el parmetro poblacional e basado en e ser:

[e < h m (e),e + h m (e)] con h


_

_
= FN<1(0,1) 1 <
2

F es la funcin de distribucin de la normal (0,1), y _ es el nivel de confianza. Si


realmente es dudoso que e$ tenga una distribucin normal, puede utilizarse la distribucin t de
Student con n < 1 grados de libertad para calcular el intervalo de confianza para e que, en este
caso, ser:

Muestreo estadstico: conceptos, estimadores y su distribucin

[e < t m (e),e + t m (e)] con


_

_
t_ = Ftn<<11 1 <
2

F es la funcin de distribucin de una t de Student con n < 1 grados de libertad.


b) El estimador e$ no tiene una distribucin normal
El intervalo de confianza, derivado de la desigualdad de Tchevichev, para el parmetro
poblacional e basado en e$ que cubre el valor de e con una probabilidad 1< _ (coeficiente
de confianza), ser:

()

()

m e m e
,e +
e <

_
_

Este intervalo suele ser ms ancho que el obtenido cuando la distribucin de e$ es


normal. A medida que e$ se aleja ms de la normalidad, la anchura de este intervalo es
mucho mayor respecto del obtenido para normalidad. Ya sabemos que una estimacin por
intervalos es tanto mejor cuanto ms reducido sea el intervalo de confianza correspondiente;
de ah que la propiedad de normalidad sea muy deseable, pues en este caso los intervalos
obtenidos son muy estrechos, lo que implica una buena estimacin por intervalos.

Intervalos de confianza en estimadores sesgados


El intervalo de confianza para e basado en el estimador e$ en presencia del sesgo no
despreciable B e = E e < e es el siguiente:

() ()

[e < h m (e)< | B(e) |,e + h m (e)< | B(e) |]


_

Observamos que se trata de un intervalo no centrado en e y desplazado en la


cantidad B e respecto del intervalo sin sesgo, que debe centrarse situndonos en la peor de
las circunstancias, es decir, tomando como extremo fijo del intervalo el ms lejano del centro
e , y calculando el otro extremo por equidistancia al centro. Ante esta situacin, la presencia
del sesgo B e origina que el intervalo de confianza para e basado en el estimador e y

()

()

centrado en e , tenga una longitud superior al intervalo cuando no hay sesgo. Por tanto, la
presencia de sesgo conduce a una estimacin por intervalos menos precisa.
El intervalo de confinaza ya centrado ser el siguiene:

[e < h m (e)< | B(e) |,e + h m (e)+ | B(e) |]


_

10

Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
1.1.

Sobre las regiones que componen un determinado pas se mide la variable X=Nmero de
personas activas, obteniendo como resultados 6 millones, 4 millones, 3 millones y 8 millones
con probabilidades iniciales de seleccin 1/6, 1/3, 1/3 y 1/6, respectivamente, para cada
regin. Se trata de estimar en millones de personas la cifra media de actividad, extrayendo
muestras de la variable X con tamao 2 sin reposicin y sin tener en cuenta el orden de
colocacin de sus elementos. Para ello se consideran los estimadores alternativos
MEDIANA y MEDIA ARMNICA. Se pide lo siguiente:
1) Especificar el espacio muestral definido por este procedimiento de muestreo, las
probabilidades asociadas a las muestras y la distribucin en el muestreo de los dos
estimadores. Analizar la precisin de los dos estimadores. Cul de ellos es mejor?
2) Hallar intervalos de confianza para la mediana y la media armnica basados en la
muestra de mayor probabilidad para un nivel de confianza del 2 por mil (_ = 0,002).
Como dato se sabe que F-1(0.999)= 3, siendo F la funcin de distribucin de la normal
(0,1). Comentar los resultados relacionndolos con los del apartado 1.
Tenemos un procedimiento de muestreo sin reposicin en el que no interviene el orden de
colocacin de las unidades en las muestras, con lo que el espacio muestral tendr
4
= 6 muestras.
2

A continuacin se especifican las muestras, sus probabilidades y los valores de los


estimadores mediana M y media armnica X H para cada muestra.
S ( X ) P( X )
(6 4) 3 / 20
(6 3) 3 / 20
(6 8) 1 / 15
(4 3) 1 / 3
(4 8)
(3 8)

M
5
9/2
7
7/2

XH
24 / 5
4
48 / 7
24 / 7

3 / 20
6
16 / 3
3 / 20 11 / 2 48 / 11

Dado que no hay reposicin y que no importa el orden de colocacin de los


elementos en las muestras (muestras con los mismos elementos colocados en orden diferente
se consideran la misma muestra), las probabilidades de la columna P(X) se han calculado de
la siguiente forma:
1 2 2 1
3
u + u =
6 5 6 4 20
1 2 2 1
3
P (6,3) = P{6,3} + P{3,6} = P (6) P (3 / 6) + P (3) P (6 / 3) = u + u =
6 5 6 4 20
1 1 1 1 1
P (6,8) = P{6,8} + P{8,6} = P (6) P (8 / 6) + P (8) P (6 / 8) = u + u =
6 5 6 5 15

P (6,4) = P{6,4} + P{4,6} = P (6) P (4 / 6) + P (4) P (6 / 4) =

Muestreo estadstico: conceptos, estimadores y su distribucin

11

2 2 2 2 1
u + u =
6 4 6 4 3
2 1 1 2 3
P (4,8) = P{4,8} + P{8,4} = P (4) P (8 / 4) + P (8) P (4 / 8) = u + u =
6 4 6 5 20
2 1 1 2 3
P (3,8) = P{3,8} + P{8,3} = P (3) P (8 / 3) + P (8) P (3 / 8) = u + u =
6 4 6 5 20
P(4,3) = P{4,3} + P{3,4} = P (4) P (3 / 4) + P (3) P (4 / 3) =

Las probabilidades anteriores tambin pueden calcularse mediante la expresin


P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj)=P(ui)P(uj)/(1-P(ui))+P(uj)P(ui)/(1-P(uj)) = PiPj/(1-Pi) + PiPj(1-Pj).
Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la
expresin ya conocida PT( e (X1, ...,Xn ) = t) =
P(S i ), de la siguiente forma:
{ S i / e ( S i ( X )) = t }

T
P (M

P T ( M

P T ( M

M
P T ( M

P T ( M

T
P ( M

3
20
9
3
= ) = P (6,3) =
2
20
1
= 7) = P (6,8) =
15
7
1
= ) = P (4,3) =
2
3
3
= 6) = P (4,8) =
20
11
3
= ) = P (3,8) =
2
20

T
P ( X H

P T ( X
H

P T ( X
H

XH
P T ( X
H

P T ( X H

T
P ( X H

= 5) = P (6,4) =

24
3
) = P (6,4) =
5
20
3
= 4) = P (6,3) =
20
48
1
= ) = P (6,8) =
7
15
24
1
= ) = P (4,3) =
7
3
16
3
= ) = P (4,8) =
3
20
48
3
= ) = P (3,8) =
11
20
=

Una vez conocida la distribucin de probabilidad en el muestreo de los dos estimadores


analizaremos si son insesgados o no. Para ello calculamos en primer lugar los valores de la
mediana y media armnica poblacionales como sigue:
M = (4 + 6) / 2 = 5

XH =

4
= 4,57
1/ 6 + 1/ 4 + 1/ 3 + 1/ 8

Ahora, para comprobar la insesgadez, hallamos la esperanza de los estimadores:


3 9 3
1 7 1
3 11 3
E ( M ) = 5 u
+ u
+ 7u + u + 6u
+ u
= 4,78 & X = 5
20 2 20
15 2 3
20 2 20
24 3
3 48 1 24 1 16 3 48 3

E( X H ) =
u
+ 4u
+
u
+
u +
u
+
u
= 4,37 & X H = 4,57
5 20
20 7 15 7 3 3 20 11 20

Vemos que los dos estimadores son sesgados y los valores de sus sesgos son:

B(M ) = E( X ) < X = 4,78 < 5 = <0,22

B( X H ) = E( X H ) < X H = 4,37 < 4,57 = <0,2

Ahora calculamos las varianzas de los dos estimadores como sigue:


V (M ) = E (M < 4,78) 2 = (5 < 4,78) 2 u

3
9
3
1
7
1
3
+ ( < 4,78) 2 u + (7 < 4,78) 2 u + ( < 4,78) 2 u + (6 < 4,78) 2 u
20 2
20
15 2
3
20
11
3
+ ( < 4,78) 2 u
= 1,19
20
2

12

Muestreo estadstico. Conceptos y problemas resueltos

24
3
3
48
1

V ( X H ) = E ( X H < 4,37) 2 = ( < 4,37) 2 u + (4 < 4,37) 2 u + ( < 4,37) 2 u


5
20
20
7
15
24
1
16
3
48
3
+ ( < 4,37) 2 u + ( < 4,37) 2 u + u ( < 4,37) 2 = 0,89
7
3
3
20 11 20

Ya que los dos estimadores son sesgados se pueden hacer las comparaciones a travs
B ei
para ver si el
del error cuadrtico medio, pero antes se deben calcular las cantidades
m ei
sesgo es o no despreciable. Tenemos:

( )
( )

) 0,22
B(M
=
= 0.2,
m(M )
1,19

0,2
B(X H )
=
= 0,2

0,89
m(XH )

Los dos valores son superiores a 1/10, con lo que el sesgo no resulta despreciable en
ningn caso (los dos estimadores son igualmente precisos segn la razn del sesgo a la
desviacin tpica). Calculamos ahora los errores cuadrticos medios para aquilatar mejor la
diferencia de precisiones y ver realmente qu estimador es mejor.
3
9
3
1
7
1
3 11
3
ECM(M ) = E(M < 5)2 = (5 < 5)2 u + ( < 5)2 u + (7 < 5)2 u + ( < 5)2 u + (6 < 5)2 u + ( < 5)2 u = 1,24
20 2
20
15 2
3
20 2
20
3
48
1
24
1
24
3

ECM( X H ) = E( X H < 4,57)2 = ( < 4,57)2 u + (4 < 4,57)2 u + ( < 4,57)2 u + ( < 4,57)2 u
20
20
7
15
7
3
5
16
3
48
3
+ ( < 4,57)2 u + u ( < 4,57)2 = 0,93
3
20 11 20

El mejor estimador resulta ser la media armnica porque tiene menor error
cuadrtico medio. Para cuantificar las ganancias en precisin calculamos:
1, 24

< 1 u 100 = 33 ,33

0 ,93

Se observa que el uso de la media armnica mejora en un 33,33% la estimacin a


partir de la mediana.
Para calcular los intervalos de confianza par la mediana y la media armnica
basados en la muestra de mayor probabilidad (4,3), una vez que ya sabemos que son
sesgados con sesgo influyente (no despreciable), utilizamos la expresin:

() ()

() ()

[e < h_ m e < | B e |, e + h_ m e + | B e |]

Tenemos:
M A [7 / 2 < 3 1,19 < | <0,22 |, 7 / 2 + 3 1,19 + | <0,22 |] = [0,004, 6,99]
X H A [24 / 7 < 3 0,89 < | <0,2 |, 24 / 7 + 3 0,89 + | <0,2 |] = [0,39, 6,45]

Se observa que el intervalo ms estrecho es el relativo a la media armnica, ya que


es el estimador ms preciso.

Muestreo estadstico: conceptos, estimadores y su distribucin

Los clculos pueden automatizarse con EXCEL como sigue:

Los resultados son los siguientes:

13

14

Muestreo estadstico. Conceptos y problemas resueltos

1.2.

Dada la poblacin {U1, U2, U3, U4, U5} seleccionamos muestras de tamao 3 por el siguiente
mtodo de muestreo: De un recipiente que contiene tres bolas numeradas del 1 al 3 se
extraen al azar dos bolas mediante muestreo aleatorio sin reposicin con probabilidades
iguales, y a continuacin, de otro recipiente con dos bolas numeradas con el 4 y el 5 se
extrae una bola. Se supone que extraer la bola i-sima equivale a elegir para la muestra la
unidad Ui. Consideramos los estimadores por analoga siguientes:
T1 = Proporcin de subndices pares en la muestra
T2 = Total de subndices impares en la muestra

1) Hallar las distribuciones en el muestreo de T1 y T2 y sus varianzas, sesgos y errores


cuadrticos medios.
2) Comparar las precisiones de los estimadores anteriores cuantificando las ganancias en
precisin tanto por la va de la estimacin puntual como por la va de la estimacin por
intervalos al 95%. Comentar los resultados.
Para hallar el espacio muestral asociado a este procedimiento de muestreo consideramos la
urna U1 con tres bolas y la urna U2 con dos bolas.
1, 2 , 3

4, 5

U1

U2

Como en la urna U1 seleccionamos dos bolas sin reposicin, las posibilidades son
(A1 A2), (A1 A3) y (A2 A3). Como para cada par de bolas seleccionadas de la urna U1 se
selecciona una bola en la urna U2, las posibles muestras de tres elementos sern (A1 A2 A4),
(A1 A2 A5), (A1 A3 A4), (A1 A3 A5), (A2 A3 A4) y (A2 A3 A5).
Las probabilidades de las muestras se calculan como se indica a continuacin:
P(A1 A2 A4) = P(A1 A2 /U1)P(A4/U2) + P(A2 A1/U1)P(A4/U2) = P1(A1)P1(A2/A1)P2(A4) +
P1(A2 )P1(A1 / A2)P2(A4) = (1/3)(1/2)(1/2) + (1/3)(1/2)(1/2) = 1/6
P(A1 A2 A5) = P(A1 A2/U1)P(A5/U2) + P(A2 A1/U1)P(A5/U2) = P1(A1 )P1(A2/A1)P2(A5) +
P1(A2)P1(A1/A2)P2(A5) = (1/3)(1/2)(1/2) + (1/3)(1/2)(1/2) = 1/6
El clculo de las probabilidades de las restantes muestras es similar, y el valor es 1/6
para todas ellas; es decir, estamos ante un mtodo de seleccin con probabilidades iguales. Ya
podemos formar la tabla con las muestras del espacio muestral S_X, sus probabilidades Pi y los
valores de los dos estimadores del problema sobre las mismas T1 y T2 , datos que van a
permitirnos el clculo de las distribuciones en el muestreo de los estimadores. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores de los estimadores para cada
muestra.

Muestreo estadstico: conceptos, estimadores y su distribucin

S_ X
A1 A 2 A 4

Pi
1/ 6

T1
2/3

T2
1

A1 A 2 A 5
A1 A 3 A 4

1/ 6
1/ 6

1/ 3
1/ 3

2
2

A1 A 3 A 5

1/ 6

A 2 A3 A 4

1/ 6

2/3

A 2 A3 A5

1/ 6

1/ 3

15

Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la


expresin ya conocida PT( e (X1, ...,Xn ) = t) =
P(S i ), de la siguiente forma:
{ S i / e ( S i ( X )) = t }

1 1
T
P (T 1= 2 / 3) = 2 u 6 = 3

1 1

T1 P T (T 1= 1 / 3) = 3 u =
6 2

1
T
P (T 1= 0) = 6

1 1
T
P (T 2 = 1) = 2 u 6 = 3

1 1

T1 P T (T 2 = 2) = 3 u =
6 2

1
T
P (T 2 = 3) = 6

Una vez conocida la distribucin de probabilidad en el muestreo de los dos estimadores


analizaremos si son insesgados o no. Para ello calculamos en primer lugar los valores de la
proporcin de subndices pares de la poblacin e1 y del total de subndices impares de la poblacin
e2, que son los parmetros que estamos estimando con los estimadores T1 y T2 , respectivamente.
Se tiene:

e1 = 2/3 e2 = 3
Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica de los
estimadores tal y como se indica a continuacin:
2 1 1 1
1
E(T1 ) = u + u + 0 u = 7 / 18 = 0,388888888& 2 / 5 = e1
3 3 3 2
6
1
1
1
E(T2 ) = 1u + 2 u + 3 u = 11 / 6 = 1,8333333333& 3 = e 2
3
2
6

El estimador T1 es sesgado con sesgo B( T1 ) = E( T1 ) <e1=7/18 < 2/5 = <1/90 =


<0,0111, y el estimador T2 tambin es sesgado con sesgo B( T2 ) = E( T2 ) < e2 = 11/6 < 3 =
<7/6 = <1,16666. Las varianzas de los estimadores son:
1
1
1
1
2
V (T1 ) = ( < 0,388 ) 2 u + ( < 0,388 ) 2 u + (0 < 0,388 ) 2 u = 0,0524
3
3
3
2
6
1
1
1
V (T2 ) = (1 < 1,833 ) 2 u + ( 2 < 1,833 ) 2 u + (3 < 1,833 ) 2 u = 0,4722
3
2
6

Con lo que las desviaciones tpicas valdrn:


m (T1 ) = 0,0524 = 0,2289 y m (T2 ) = 0,4722 = 0,687

16

Muestreo estadstico. Conceptos y problemas resueltos

Como |B( T1 )/m( T1 )| = 0,0485 < 1/10, el sesgo del estimador T1 es despreciable, por lo
que este puede considerarse a todos los efectos insesgado. Como |B( T )/m( T )| = 1,69 > 1/10
2

el sesgo del estimador T2 no es despreciable, y como un estimador es sesgado y el otro


insesgado, la comparacin de estimadores puede hacerse a travs de los errores cuadrticos
medios. Tenemos:
1
2
1
1
1
ECM (T1 ) = ( < 0,4) 2 u + ( < 0, 4) 2 u + (0 < 0, 4) 2 u = 0,0526
3
3
3
2
6
1
1
1
ECM (T2 ) = (1 < 3) 2 u + ( 2 < 3) 2 u + (3 < 3) 2 u = 1,833
3
2
6

Se observa que el error cuadrtico medio de T1 es prcticamente igual que su


varianza, dado que es prcticamente insesgado. Evidentemente el mejor estimador es T ,
1

pues su error cuadrtico medio es mucho menor que el de T2 . La ganancia en precisin por
usar T en vez de T es:
1

GP = (EMC( T2 )/EMC( T1 ) < 1)*100 = (1,833/0,0526 < 1)*100 = 3385,9%


Para hallar un intervalo de confianza para T1 (que es insesgado) basado en la primera
muestra y suponiendo normalidad en la poblacin se utilizar la frmula:

( )

( )

[T1 < h_ m T1 , T1 + h_ m T1 ] = [2 / 3 <1.96* 0.229, 2 / 3 + 1.96* 0.229] = [0.217, 1.15]

Para el resto de las muestras se realizan clculos similares.


Se puede suponer normalidad en la poblacin porque el coeficiente de asimetra g1 y el
coeficiente de curtosis g2 de T1 caen en el intervalo [-2,2]. El coeficiente de asimetra depende
del momento de tercer orden centrado en la media m3 y el coeficiente de curtosis depende
del momento de orden 4 centrado en la media m4 y se calculan como sigue:
g1 = m3/m3 = <0,0027/0,2293 = 0,22
g2 = m4/m4<3 = <0,0058/0,2294 <3 = <0,89
2
1
1
1
1
m 3(T1 ) = ( < 0,388 ) 3 u + ( < 0,388 ) 3 u + (0 < 0,388 ) 3 u = 0, 22
3
3
2
6
3
2
1
1
1
1
m 4(T1 ) = ( < 0,388 ) 4 u + ( < 0,388 ) 4 u + (0 < 0,388 ) 4 u = <0,89
3
3
3
2
6

Si no hubiera habido normalidad, el intervalo de confianza para T1 se habra calculado


como sigue:

( )

( )

m T1 m T1
0,229
0,229
, T1 +
, 2/3+
= [0.357, 1.69]
T1 <
= 2 / 3 <
_
_
0,05
0,05

Se observa que el intervalo de confianza para T1 sin existir normalidad es ms ancho,


es decir, es menos preciso.

Muestreo estadstico: conceptos, estimadores y su distribucin

17

Para hallar un intervalo de confianza para T2 (que es sesgado) basado en la primera


muestra, realizamos los siguientes clculos:

() ()

() ()

[T2 < h_m T2 < | B T2 |, T2 + h_m T2 + | B T2 |] = [1 <1.96* 0.687+ 0.16, 1 + 1.96* 0.687+ 0.16] = [<1.513, 3.513]

Se observa que el intervalo de confianza del estimador menos preciso es ms ancho.


Los clculos pueden automatizarse con Excel como sigue:

18

Muestreo estadstico. Conceptos y problemas resueltos

1.3.

En una poblacin de 3 unidades numeradas {U1, U2, U3} se extraen muestras de tamao 2
mediante el siguiente mtodo de muestreo: Se extraen al azar 2 bolas de una urna que
contiene 6 bolas (tres con el nmero 1, dos con el nmero 2 y una con el nmero 3), y se
extraen de la poblacin las dos unidades que tengan los mismos nmeros que las dos bolas
extradas. Se pide:
1) Considerando la extraccin de las bolas en la urna con reposicin y el estimador por analoga
T= Nmero de unidades distintas en las muestras, hallar su distribucin en el muestreo
analizando su precisin. Obtener una estimacin puntual del nmero de unidades distintas en
la poblacin y otra por intervalos al 99,8% de confianza (F-1(0,999) = 3) basndose en la
muestra de mayor probabilidad.
2) Contestar a las preguntas del apartado anterior suponiendo que la extraccin de las bolas en la
urna sin reposicin. Comparar las estimaciones en los dos casos comentando los resultados.
Para hallar el espacio muestral asociado a este procedimiento de muestreo sin reposicin
consideramos la urna U con 6 bolas (tres con el nmero 1, dos con el nmero 2 y una con el
nmero 3).

3
1
1

2
1

2
U

Como en la urna U seleccionamos dos bolas sin reposicin, las posibilidades son
(1,1), (1,2), (1,3), (2,2) y (2,3).
Las probabilidades de las muestras se calculan como se indica a continuacin:

P(1,1) = P1 (1) + P2 (1 / 1) =

3 2 1
u =
6 5 5

3 2 2 3 2
u + u =
6 5 6 5 5
3 1 1 3 1
P(1,3) = P{1,3} + P{3,1} = P1 (1) P2 (3 / 1) + P1 (3) P2 (1 / 3) = u + u =
6 5 6 5 5
2 1 1
P(2,2) = P1 (2) u P2 (2 / 2) = u =
6 5 15
2 1 1 2 2
P(2,3) = P{2,3} + P{3,2} = P1 (2) P2 (3 / 2) + P1 (3) P2 (2 / 3) = u + u =
6 5 6 5 15
P(1,2) = P{1,2} + P{2,1} = P1 (1) P2 (2 / 1) + P1 (2) P2 (1 / 2) =

Los ndices 1 y 2 de las probabilidades indican primera y segunda extraccin,


respectivamente. Las barras inclinadas indican condicionada a que se haya obtenido en la
primera extraccin el nmero que aparece en el denominador.

Muestreo estadstico: conceptos, estimadores y su distribucin

19

Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus
probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos
van a permitir el clculo de la distribucin en el muestreo del estimador. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada
muestra.
Muestras
( sin reposicn )
1

S_X

Pi

(1,1)

1/ 5

2
3

(1, 2 )
(1,3)

2/5
1/ 5

2
2

4
5

( 2, 2 )
( 2 ,3 )

1 / 15
2 / 15

1
2

La distribucin de probabilidad del estimador en el muestreo se calcularn mediante


la expresin ya conocida PT( e (X1, ...,Xn ) = t) =
P(S i ), de la siguiente forma:
{ S i / e ( S i ( X )) = t }

1 1
4
T
P (T = 1) = 5 + 15 = 15
T
P T (T = 2) = 2 + 1 + 2 = 11

5 5 15 15

Una vez conocida la distribucin de probabilidad en el muestreo del estimador


analizaremos si es insesgado o no. Para ello observamos que el valor del nmero de unidades
distintas en la poblacin es e = 3, que es el parmetro que estamos estimando con el estimador T.
Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica del estimador
tal y como se indica a continuacin:

E (T ) = 1 u

4
11
+ 2 u = 26 / 15 = 1,7333333333 & 3 = e
15
15

El estimador T es sesgado con sesgo B(T)=E(T) <e = 26/15-3 = <19/15 = <1,26666.


La varianza del estimador es la siguiente:
V (T ) = (1 < 1,733 ) 2 u

4
11
+ ( 2 < 1,733 ) 2 u
= 0,1955
15
15

Con lo que las desviaciones tpicas valdrn:


m (T ) = 0,1955 = 0,442

Como |B(T)/m(T)| = 1,266/0,442 = 2,864 > 1/10, el sesgo del estimador T no es


despreciable, por lo que calcularemos su precisin mediante el error cuadrtico medio.
Tenemos:
ECM (T ) = (1 < 3) 2 u

4
11
+ ( 2 < 3) 2 u
= 1,8
15
15

20

Muestreo estadstico. Conceptos y problemas resueltos

Para hallar un intervalo de confianza para T (que es sesgado) basado en la segunda


muestra (que es la de mayor probabilidad), realizamos los siguientes clculos:

[T < h_m (T )< | B(T ) |, T + h_m (T )+ | B(T ) |] = [2 < 3 * 0,442 < 1,26 + 3 * 0,442 + 1,26] = [<0,593, 4,593]
Los clculos pueden automatizarse con Excel como sigue:

Cuando en la urna U seleccionamos dos bolas con reposicin, las posibilidades


son (1,1), (1,2), (1,3), (2,2), (2,3) y (3,3).

Muestreo estadstico: conceptos, estimadores y su distribucin

21

Las probabilidades de las muestras se calculan como se indica a continuacin:

3 3 1
u =
6 6 4
3 2 1
P(1,2) = 2 P(1) u P(2) = 2 u =
6 5 3
3 1 1
P(1,3) = 2 P(1) u P(3) = 2 u =
6 6 6
2 2 1
P(2,2) = P(2) u P(2) = u =
6 6 9
2 1 1
P(2,3) = 2 P(2) u P(3) = 2 u =
6 6 9
1 1 1
P(3,3) = P(3) u P(3) = u =
6 6 36
P(1,1) = P(1) u P(1) =

Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus
probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos
van a permitir el clculo de la distribucin en el muestreo del estimador. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada
muestra.
Muestras

S_X

Pi

(1,1)

1/ 4

(1, 2 )

1/ 3

(1,3)

1/ 6

( 2, 2 )

1/ 9

( 2,3)

1/ 9

(3,3)

1 / 36

( con reposicin )
1

La distribucin de probabilidad del estimador en el muestreo se calcularn mediante


la expresin ya conocida PT( e (X1, ...,Xn ) = t) =
P(S i ), de la siguiente forma:
{ S i / e ( S i ( X )) = t }

1 1 1
7
T
P (T = 1) = 4 + 9 + 36 = 18
T
P T (T = 2) = 1 + 1 + 1 = 11

3 6 9 18

Una vez conocida la distribucin de probabilidad en el muestreo del estimador


analizaremos si es insesgado o no. Para ello observamos que el valor del nmero de unidades
distintas en la poblacin es e = 3, que es el parmetro que estamos estimando con el estimador T.
Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica del estimador
tal y como se indica a continuacin:

22

Muestreo estadstico. Conceptos y problemas resueltos

E (T ) = 1 u

7
11
+ 2 u = 29 / 18 = 1,611111& 3 = e
18
18

El estimador T es sesgado con sesgo B(T)=E(T)-e = 29/18-3 = -25/18=-1,3888. La


varianza del estimador es la siguiente:
V (T ) = (1 < 1,6111) 2 u

7
11
+ ( 2 < 1,6111) 2 u
= 0,237
18
18

Con lo que las desviaciones tpicas valdr:


m (T ) = 0,237 = 0,486

Como |B(T)/m(T)| = 1,388/0,486 = 2,85 > 1/10, el sesgo del estimador T no es


despreciable, por lo que calcularemos su precisin mediante el error cuadrtico medio.
Tenemos:
ECM (T ) = (1 < 3) 2 u

7
11
+ ( 2 < 3) 2 u
= 2,1666
18
18

Para hallar un intervalo de confianza para T (que es sesgado) basado en la segunda


muestra (que es la de mayor probabilidad), realizamos los siguientes clculos:

[T < h_ m (T )< | B(T ) |, T + h_ m (T )+ | B(T ) |] = [2 < 3* 0,486<1,38 + 3* 0,486+1,38] = [<0,851, 4,851]


Los clculos pueden automatizarse con Excel como sigue:

Muestreo estadstico: conceptos, estimadores y su distribucin

23

Para comparar las estimaciones con y sin reposicin observamos los errores
cuadrticos medios, resultando que el mtodo sin reposicin tiene menor error cuadrtico
medio, lo que indica que es mejor mtodo de estimacin.
La ganancia en precisin por trabajar sin reposicin en vez de con reposicin se
cuantifica como sigue:
GP = (EMCCR(T)/EMCSR(T) - 1)*100 = (2,1666/1,8-1)*100=20,37%
Se ve que la precisin mejora un 20,37% en caso de usa seleccin sin reposicin.
Adems, tambin se observa que el intervalo de confianza del estimador menos preciso (con
reposicin) es ms ancho.

1.4.

Con la finalidad de ensayar el anlisis de la divisibilidad en una poblacin numrica,


consideramos una poblacin virtual finita con 6 elementos U = {12, 13, 17, 23, 6, 1}.
Mediante un mtodo de muestreo aleatorio con probabilidades iguales y sin reposicin se
extraen muestras de tamao 2 sin tener en cuenta el orden de colocacin de sus elementos.
1) Cuntos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las
probabilidades asociadas a las muestras.
2) A partir de las muestras del espacio muestral se trata de estimar el parmetro poblacional
PROPORCIN DE NMEROS PRIMOS mediante el estimador por analoga y el
parmetro poblacional TOTAL DE NMEROS PRIMOS mediante el estimador de
expansin de la proporcin por el tamao poblacional (producto del estimador de la
proporcin por el tamao poblacional). Hallar la distribucin en el muestreo de dichos
estimadores. Qu estimador es mejor? Comparar el estimador de expansin del total
con el estimador por analoga.
3) Hallar intervalos de confianza al 99% (_ = 0.01) para el total y la proporcin de
nmeros primos en la poblacin, basados en las muestras cuyos dos elementos son
nmeros no primos. Tenemos como dato conocido que F-1(0.995)= 2.57, siendo F la
funcin de distribucin de la normal (0,1). Comentar los resultados.
Como se trata de muestreo aleatorio sin reposicin en el que el orden de colocacin de
los elementos en las muestras de tamao 2 no interviene, el nmero de muestras posibles ser:

24

Muestreo estadstico. Conceptos y problemas resueltos

6
=15
2
Por otra parte, en este problema estamos considerando la clase A de los nmeros
primos, con lo que asociaremos a los Ui los Ai que valen cero cuando Ui no es primo y valen
uno cuando Ui es primo. Luego sobre el conjunto UiA{2, 13, 17, 23, 6, 1} se mide la variable
A y se obtiene el conjunto AiA{0, 1, 1, 1, 0, 1}. Al tratarse de muestreo aleatorio sin
reposicin y probabilidades iguales, las probabilidades iniciales de seleccin de los elementos
de la poblacin para la muestra valdrn P(ui) = 1/6, i = 1, ..., 6 y la probabilidad de cualquier
muestra puede hallarse mediante la expresin:
P_X = P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj) = P(ui)P(uj)/(1<P(ui)) + P(uj)P(ui)/(1<P(uj))) =
(1/62)/(1<1/6) + (1/62)/(1<1/6) = 2(1/62)/(1<1/6) = 1/15
Se observa que las probabilidades de las muestras sern todas iguales a 1/15. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables.
A continuacin se presenta la tabla que contiene el espacio muestral, las
probabilidades de las muestras y la distribucin de los estimadores.
PROPORCIN ( P )
0,5
0,5
0,5
0
0,5
1
1
0,5
1
1
0,5
1
0,5

= 6 P )
TOTAL ( A
EXPANSIN
3
3
3
0
3
6
6
3
6
6
3
6
3

TOTAL ( T = 2 P )
MUESTRAL
1
1
1
0
1
2
2
1
2
2
1
2
1

1/15

1/15

0,5

S1_X
0
0
0
0
0
1
1
1
1
1
1
1
1

S2_X
1
1
1
0
1
1
1
0
1
1
0
1
0

P_X
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15

Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la


expresin ya conocida PT( e (X1, ..., Xn ) = t) =
P(S i ), de la siguiente forma:
{ S i / e ( S i ( X )) = t }

1 2
T
P ( P = 1) = 6 u 15 = 5

1
8

P P T ( P = 1 / 2) = 8 u =
15
15

1
T
P ( P = 0) = 15

1 2
T
P ( A = 6) = 6 u 15 = 5

1
8

A P T ( A = 3) = 8 u =
15
15

1
T
P ( A = 0) = 15

1 2
T
P (T = 2) = 6 u 15 = 5

1
8

T P T (T = 1) = 8 u =
15
15

1
T
P (T = 0) = 15

Muestreo estadstico: conceptos, estimadores y su distribucin

25

Una vez conocida la distribucin de probabilidad en el muestreo de los estimadores


analizaremos si son insesgados o no. Para ello calculamos en primer lugar los valores de la
proporcin de nmeros primos de la poblacin e1 = 2/3 y del total de nmeros primos de la
poblacin e2 = 4.
Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica de los
estimadores tal y como se indica a continuacin:

2 1 8
1
E( P ) = 1u + u + 0 u = 2 / 3 = 0,6666 = e1
5 2 15
15
2
8
1
E( A ) = 6 u + 3 u + 0 u = 6E( P ) = 4 = e 2
5
15
15
1
8
2
E(T ) = 2 u + 1u + 0 u = 2E( P ) = 4 / 3 = 1,33333 & 4 = e 2
15
15
5
Se observa que P es insesgado para e1 y A e insesgado para e2. El estimador T es
sesgado para e2 con sesgo B( T ) = E( T ) < e2 = 4/3 < 4 = <8/3 = <2,66. Para calcular las
varianzas de los estimadores se tiene en cuenta que A = 6 P y que T = 2 P .
2 1
8
1
V ( P ) = (1 < 0,666) 2 u + ( < 0,666) 2 u + (0 < 0,66) 2 u = 0,088888
5 2
15
15
V ( A ) = V (6P ) = 36V ( P ) = 3,2
V (T ) = V (2P ) = 4V ( P ) = 0,35555

Con lo que las desviaciones tpicas valdrn:


m ( P ) = 0,088888 = 0,298, m ( A ) = 3,2 = 1,7888 y m (T ) = 0,35555 = 0,596

Como los estimadores P y A son insesgados, su varianza coincide con su error cuadrtico
medio, por lo que su precisin se mide a travs de la varianza. De esta forma, el estimador P para
estimar e1 es ms preciso que el estimador A para estimar e2 por tener menor varianza.
Como |B( T )/m( T )| = 4,46 > 1/10, el sesgo del estimador T no es despreciable y al
compararlo con A tenemos un estimador sesgado y el otro insesgado. La comparacin debe
hacerse a travs de los errores cuadrticos medios. Tenemos:
8
1
2 1
ECM (T ) = (1 < 4 / 3) 2 u + ( < 4 / 3) 2 u + (0 < 4 / 3) 2 u = 0,53333 > ECM ( A ) = V ( A ) = 3,2
5 2
15
15
Se observa que el error cuadrtico medio de T es mayor que la varianza de A , luego
A es ms preciso que T para estimar e2. Por lo tanto, el estimador de expansin del total es
ms preciso que el estimador por analoga.

Para el clculo de las estimaciones por intervalos (intervalos de confianza de los


estimadores) es til poder suponer que A se distribuye normalmente. Como el coeficiente de
asimetra de A vale <0,96 y el de curtosis <1,87, puede ser lgico suponer la normalidad, ya que
ambos coeficientes se encuentran en el intervalo [<2,2]. Sin embargo, como el extremo inferior
est muy cerca de <2, para aceptar esta suposicin ser necesario realizar un contraste formal de
normalidad. Por lo tanto, hallamos los intervalos de confianza bajo las dos hiptesis (normalidad
y no normalidad en la poblacin).

26

Muestreo estadstico. Conceptos y problemas resueltos

Los coeficientes de asimetra g1 y curtosis g2 de A se calculan como sigue:

g1 =

g2 =

m4

m4

m3

m3

<3 =

1
2(0 < 2 / 3) 3 + 4(1 < 2 / 3) 3
6
1

2(0 < 2 / 3) 2 + 4(1 < 2 / 3) 2


6

1
2(0 < 2 / 3) 4 + 4(1 < 2 / 3) 4
6
1

2(0 < 2 / 3) 2 + 4(1 < 2 / 3) 2


6

= 0,968

< 3 = <1,875

Supuesta la no normalidad de A, para hallar un intervalo de confianza para la


proporcin P al 99%, basado en la nica muestra (0,0) correspondiente al nico par de
elementos ambos no primos (12,6), utilizamos el intervalo:

0, 298
0, 298
m ( P ) m ( P )
,P+
,0+
= [< 2 .98 , 2 .98 ]
P <
= 0 <
0,01
0,01
_
_

Si se hubiera supuesto normalidad el intervalo de confianza para P al 99% sera:

[ P < h_ m ( P ), P + h_ m ( P ) = [0 < 2,57 u 0,298, 0 + 2,57 u 0,298] = [< 0.766, 0.766 ]


Se observa que el intervalo de confianza en presencia de normalidad es ms estrecho
(ms preciso) que sin normalidad.
Dada la no normalidad de A, para hallar un intervalo de confianza para el total de
clase A al 99%, basado en la nica muestra (0,0) correspondiente al nico par de elementos
ambos no primos (12,6), utilizamos el intervalo:

m ( A ) m ( A ) 1,7888
1,7888
, A+
,0+
A <
= 0 <
= [< 17 .8, 17 .8]
0,01
0,01
_
_

Si se hubiera supuesto normalidad el intervalo de confianza para A al 99% sera:


[ A < h_ m ( A ), A + h_ m ( A ) = [0 < 2,57 u 1,7888 , 0 + 2,57 u 1,7888 ] = [< 4.59, 4,59 ]

Se observa que el intervalo de confianza en presencia de normalidad es ms estrecho


(ms preciso) que sin normalidad.
Adems, se observa que los intervalos de confianza para P son ms estrechos que los
correspondientes intervalos de confianza para A , lo que concuerdo con la superior precisin del
estimador P .
Los clculos pueden automatizarse con Excel como sigue:

Muestreo estadstico: conceptos, estimadores y su distribucin

27

28

Muestreo estadstico. Conceptos y problemas resueltos

1.5.

Supongamos que los gastos X y los ingresos Y de una empresa a lo largo de los 6 ltimos
meses fueron los siguientes:
X
Y

3 4 2 2,5 3,5 4,5


6 7 4 5 6,5 8

Se extraen muestras aleatorias simples de dos meses sin reposicin y con probabilidades
iguales y se pide:
1) Distribucin en el muestreo de los estimadores por analoga del gasto total y del
estimador por analoga de la proporcin que significan los gastos en los ingresos (razn
de gastos totales sobre ingresos totales). Qu estimador es mejor? Calcular la ganancia
en precisin y expresar los resultados en trminos de intervalos de confianza al 95%
basados en la muestra de mayor total.
2) Distribucin en el muestreo de los estimadores del gasto total siguientes:
Estimador de expansin del gasto total.
Proporcin de los gastos en los ingresos por el ingreso total poblacional
Qu estimador es mejor?
Como se trata de muestreo aleatorio sin reposicin en el que se supone que el orden de
colocacin de los elementos en las muestras de tamao 2 no interviene, el nmero de muestras

posibles, tanto para X como para Y, ser =15.


2

Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las


probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/6, i = 1, ..., 6 y la probabilidad de cualquier muestra, tanto para X como para Y, puede
hallarse mediante:
P_X = P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj) = P(ui)P(uj)/(1<P(ui)) + P(uj)P(ui)/(1<P(uj))) =
(1/62)/(1-1/6) + (1/62)/(1-1/6) = 2(1/62)/(1-1/6) = 1/15 = 0,066666
Se observa que las probabilidades de las muestras sern todas iguales a 1/15. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables.
A continuacin se presenta la tabla que contiene, para X y para Y, el espacio muestral,
las probabilidades de las muestras y la distribucin de los estimadores.
Denominamos GTOTAL al estimador por analoga del gasto total (total muestral del
gasto) y RAZN al estimador por analoga de la proporcin que significan los gastos en los
ingresos (total muestral del gasto entre total muestral del ingreso). Se tendr presente que el
estimador expandido del gasto total es el producto del tamao poblacional por la media
muestral del gasto (GTOTALEXP = 6(GTOTAL/2) = 3GTOTAL) y que la proporcin de los
gastos en los ingresos por el ingreso total poblacional es TOTAL = (36,5)RAZN. En los
estimadores, para las cuatro primeras filas de la tabla se indican todas las operaciones y para el
resto de las filas las operaciones son similares y se indican slo los resultados.

Muestreo estadstico: conceptos, estimadores y su distribucin

S1_X

GTOTAL

GTOTALEXP TOTAL
(3*GTOTAL) (36,5*RAZN)

S2_X

S1_Y

S2_Y

1/15

7=3+4

1/15

5=3+2

0,5=(3+2)/(6+4)

15=3*5

18,25=36,5*0,5

2,5

1/15 5,5=3+2,5

0,5=(3+2,5)/(6+5)

16,5=3*5,5

18,25=36,5*0,5

3,5

6,5

4,5

1/15

7,5

0,535714286

22,5

1/15

0,545454545

18

19,90909091

2,5

1/15

6,5

0,541666667

19,5

19,77083333

3,5

6,5

1/15

7,5

0,555555556

22,5

20,27777778

4,5

1/15

8,5

0,566666667

25,5

20,68333333

2,5

1/15

4,5

0,5

13,5

18,25

3,5

6,5

1/15

5,5

0,523809524

16,5

19,11904762

P=PX=PY

29

RAZN
0,53=(3+4)/(6+7)

1/15 6,5=3+3,5 0,52=(3+3,5)/(6+6,5)

21=3*7 19,65=36,5*0,53

19,5=3*6,5 18,98=36,5*0,52
19,55357143

4,5

1/15

6,5

0,541666667

19,5

19,77083333

2,5

3,5

6,5

1/15

0,52173913

18

19,04347826

2,5

4,5

1/15

0,538461538

21

19,65384615

3,5

4,5

6,5

1/15

0,551724138

24

20,13793103

Una vez conocida la distribucin de probabilidad en el muestreo de los estimadores


compararemos en primer lugar el estimador GTOTAL (que estima el gasto total poblacional e1) y
RAZN (que estima la proporcin de los gastos totales sobre los ingresos totales en la poblacin e2).
Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores
tal y como se indica a continuacin:
E (GTOTAL) =

15

i =1

E ( RAZN ) =

GTOTAL P = 7 u 15 + 5 u 15 + L + 8 u 15 = 6,5 & 19,5 = e


i

15

RAZN P = 0,53 u 15 + 0,5 u 15 + L + 0,55 u 15 = 0,53206 & 0,53424 = e


i

i =1

Para calcular los sesgos se observa que B(GTOTAL) = E(GTOTAL)<e1 = 6,5<19,5 = <13
y B(RAZN) = E(RAZN) < e2 = 0,53206 < 0,53424 = <0,00218. A continuacin se calculan las
varianzas de los estimadores.
V (GTOTAL) =

15

(GTOTAL
i =1

V ( RAZN ) =

15

(RAZN
i =1

< E (GTOTAL) ) Pi = (7 < 6,5) 2 u


2

1
1
+ L + (8 < 6,5) 2 u = 1,1666
15
15

< E ( RAZN ) Pi = (0,53 < 0,532) 2 u

1
1
+ L + (0,55 < 0,532) 2 u = 0,000399
15
15

Con lo que las desviaciones tpicas valdrn:

m (GTOTAL) = 1,1666 = 1,08, m ( RAZN) = 0,000399 = 0,0199


Como |B(GTOTAL)/m(GTOTAL)| = 12,03 > 1/10, el sesgo del estimador GTOTAL no
es despreciable y como |B(RAZN)/m(RAZN)| = 0,1 ) 1/10, el sesgo de RAZN es
despreciable y a todos los efectos este estimador es insesgado. Al comparar RAZN con
GTOTAL tenemos un estimador sesgado y el otro insesgado. La comparacin debe hacerse a
travs de los errores cuadrticos medios. Tenemos:

30

Muestreo estadstico. Conceptos y problemas resueltos

ECM (GTOTAL) =

15

(GTOTAL
i =1

< e 1 ) Pi = (7 < 19,5) 2 u


2

1
1
+ L + (8 < 19,5) 2 u = 170,166
15
15

ECM ( RAZN ) = V ( RAZN ) = 0,00399

Como el estimador RAZN es insesgado, su varianza coincide con su error cuadrtico


medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador RAZN
para estimar e2 es ms preciso que el estimador GTOTAL para estimar e1 por tener menor error
cuadrtico medio.
La ganancia en precisin de RAZN respecto de GTOTAL se cuantifica como sigue:
GP = (EMC (GTOTAL)/EMC (RAZN) < 1)100 = (170,166/0,00399-1)100 = 42045172,1%
El intervalo de confianza para GTOTAL (sesgado) basado en la muestra de mayor total
al 95% es el siguiente:

() ()

() ()

[e < h_ m e < | B e |,e + h_ m e + | B e |] = [8,5 < 1,96 u 1,08 < 13, 8,5 + 1,96 u 1,08 + 13] = [<6.61, 23.61]

Suponiendo normalidad el intervalo de confianza para RAZN (insesgado) al 95%


basado en la muestra de mayor total sera:

()

()

[e < h_ m e , e + h_ m e ] = [0,566<1,96u 0,0199, 0,566+1,96u 0,0199] = [0.527, 0.605]

Se observa que el intervalo de confianza relativo a RAZN es bastante ms estrecho


(ms preciso) que el relativo a GTOTAL. Esta fuerte diferencia de anchuras de intervalos est
en lnea con la cuanta tan fuerte de ganancia en precisin de RAZN sobre GTOTAL.
Para comparar los estimadores del gasto total GTOTAEXP y TOTAL, observamos
que GTOTALEXP = 3GTOTAL y TOTAL = (36,5)RAZN. Tenemos:
E(GTOTALEXP) = 3E(GTOTAL) = 3(6,5) = 19,5 = e1
E(TOTAL) = (36,5)E(RAZN) = (36,5)(0,532) = 19,42 5 e1
V(GTOTALEXP) = 9V(GTOTAL) = 9(1,166) = 10,5
V(TOTAL) = (36,52)V(RAZN) = (36,52)0,000399 = 0,539
Los dos estimadores han resultado ser insesgados, con lo que ser ms preciso el que
tenga menor varianza; es decir, TOTAL es ms preciso que GTOTALEXP.
A continuacin se presentan los clculos anteriores automatizados a travs de Excel.
Las hoja de Excel con las frmulas se ha dividido en dos trozos debido a la extensin de los
clculos necesarios.
A continuacin de las dos hojas de frmulas se presenta la hoja de resultados.

Muestreo estadstico: conceptos, estimadores y su distribucin

31

32

Muestreo estadstico. Conceptos y problemas resueltos

1.6.

Consideramos una poblacin virtual para simulacin formada por 10 individuos agrupados
en 4 hogares y cuyos ingresos anuales en miles de euros (variable X) se presentan en la tabla
adjunta:
HOGARES A
H1
H2
H3
H4
--
INGRESOS (Xi) A 1, 2, 3
4, 6
9, 11
2, 2, 5
Se considera un procedimiento de muestreo que consiste en elegir cada hogar con
probabilidades proporcionales a sus tamaos. Se considera el estimador T1 = Ingreso medio
de los hogares, para estimar el ingreso medio poblacional, y se considera el estimador T2 =
Ingreso total de los hogares, para estimar el ingreso total poblacional. Se pide:
1) Especificar el espacio muestral relativo a este procedimiento de muestreo y las
probabilidades asociadas a las muestras. Hallar tambin las distribuciones de
probabilidad en el muestreo de los estimadores T1 y T2. Cul de ellos es mejor?
Razonar la respuesta y cuantificar la ganancia en precisin.
2) Hallar un intervalo de confianza para el ingreso medio al nivel _ = 0,002 basado en el
subconjunto de mayor total. Se sabe que F-1 (0,999) = 3, siendo F la funcin de
distribucin de una Normal (0,1). Hallar tambin un intervalo de confianza del 95% para
el ingreso total basado en el subconjunto de mayor media. Se sabe que F-1 (0,975) = 2,
siendo F la funcin de distribucin de una Normal (0,1).

Muestreo estadstico: conceptos, estimadores y su distribucin

33

Como el procedimiento de muestreo es con probabilidades proporcionales a los tamaos


Mi de los hogares tenemos que Pi = kMi i = 1, 2, 3, 4 para una constante de proporcionalidad
k que se calcula de la forma siguiente:
P1 = 3 / 10

4
4
P2 = 2 / 10 = 1 / 5
Pi = kM i
Pi = k M i 1 = k u 10 k = 1 / 10
i =1
i =1
P3 = 2 / 10 = 1 / 5
P4 = 3 / 10

En el siguiente cuadro se especifican las muestras, sus probabilidades y los valores de los
estimadores para cada muestra.
S(X )

P( X ) T1

T2

{1,2,3}

3 / 10

{4,6}
{9,11}

1/ 5
1/ 5

{2,2,5} 3 / 10

5 10
10 20
3

Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la


expresin ya conocida PT( e (X1, ...,Xn) = t) =
P(S i ), de la siguiente forma:
{ S i / e ( S i ( X )) = t }

3
T
P (T 1= 2) = P{1,2,3} = 10

P T (T = 5) = P{4,6} = 1
1

5
T1
P T (T = 10) = P{9,11} = 1
1

3
P T (T 1= 3) = P{2,2,5} =
10

3
T
P (T 2= 6) = P{1,2,3} = 10

P T (T = 10) = P{4,6} = 1
2

5
T2
P T (T = 20) = P{9,11} = 1
2

3
P T (T 2= 9) = P{2,2,5} =
10

Una vez conocida la distribucin de probabilidad en el muestreo de los dos


estimadores analizaremos si son insesgados o no. Para ello calculamos en primer lugar los
valores de la media poblacional y el total poblacional, que son los parmetros que estamos
estimando. Se tiene:
X = (1 + 2 + 3 + 4 + 6 + 9 + 11 + 2 + 2 + 5) / 10 = 45 / 10
X = (1 + 2 + 3 + 4 + 6 + 9 + 11 + 2 + 2 + 5) = 45

Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica de los


estimadores tal y como se indica a continuacin:

34

Muestreo estadstico. Conceptos y problemas resueltos

3
1
1
3
+ 5 u + 10 u + 3 u = 4,5 = X
10
5
5
10
3
1
1
3
E (T2 ) = 6 u + 10 u + 20 u + 9 u = 10,5 & X = 45
10
5
5
10
E (T1 ) = 2 u

El estimador T1 es insesgado, pero el estimador T2 es sesgado con sesgo


B(T2)=E(T2) < X = 10,5 < 45 = <34,5. Las varianzas de los estimadores son:
3
1
1
3
+ (5 < 4,5) 2 u + (10 < 4,5) 2 u + (3 < 4,5) 2 u = 8,65
10
5
5
10
3
2 3
2 1
2 1
V (T2 ) = (6 < 10,5) u + (10 < 10,5) u + (20 < 10,5) u + (9 < 10,5) 2 u = 24,85
10
5
5
10
V (T1 ) = (2 < 4,5) 2 u

Con lo que las desviaciones tpicas valdrn:

m (T1 ) = 8,65 = 2.94 y m (T2 ) = 24,85 = 4.98


Como |B(T2)/m(T2)| = 6.92 > 1/10, el sesgo del estimador T2 no es despreciable, y
como T1 es insesgado, la comparacin de estimadores ha de hacerse a travs del error
cuadrtico medio. Tenemos:
3
1
1
3
+ (5 < 4,5) 2 u + (10 < 4,5) 2 u + (3 < 4,5) 2 u = 8,65
10
5
5
10
3
1
1
3
ECM (T2 ) = (6 < 45) 2 u + (10 < 45) 2 u + (20 < 45) 2 u + (9 < 45) 2 u = 1215,1
10
5
5
10
ECM (T1 ) = (2 < 4,5) 2 u

Evidentemente, el mejor estimador es T1, pues su error cuadrtico medio es mucho


menor que el de T2. La ganancia en precisin por usar T1 en vez de T2 es:
GP=(EMC(T2)/EMC(T1) - 1)100 = (1215,1/8,65-1)100=13946,24%
Para hallar un intervalo de confianza para T1 (que es insesgado) basado en la
muestra de mayor total {9,11}, suponemos primeramente que la poblacin se distribuye
normalmente, en cuyo caso se utiliza como intervalo de confianza el siguiente:

()

()

[e < h_ m e ,e + h_ m e ] = [10 < 3 u 2.94, 10 + 3 u 2.94] = [1.17, 18.82]

Si la poblacin no se distribuye normalmente el intervalo para T1 es:

()

()

m e m e
2.94
2.94
,e +
,10 +
e <
= 10 <
= [<55.74, 75.7]
_
_
0.002
0.002

Se observa que la longitud del intervalo de confianza cuando no hay normalidad es


mucho mayor que en el caso de normalidad, con lo que la estimacin es ms tosca (peor) en
el caso de no normalidad.
Para hallar un intervalo de confianza para T2 (que es sesgado) basado en la muestra de
mayor media {9,11}, realizamos los siguientes clculos:

() ()

() ()

[e < h_ m e < | B e |, e + h_ e e + | B e |] = [20 < 2 u 4.98 < 34.5, 20 + 2 u 4.98 + 34.5] = [<24.47, 64.47]

El problema puede automatizarse con Excel como sigue:

Muestreo estadstico: conceptos, estimadores y su distribucin

1.7.

35

Supongamos que las calificaciones de tres jueces deportivos sobre el ejercicio de un gimnasta han
sido X={1, 2, 3}. Usando probabilidades iguales se extraen muestras aleatorias de dos
calificaciones y se consideran los estimadores por analoga media muestral y varianza muestral.
Hallar la distribucin en el muestreo y sus errores para los dos estimadores en los casos siguientes:
1) Muestreo sin reposicin sin tener en cuenta el orden de colocacin de los elementos.
2) Muestreo sin reposicin teniendo en cuenta el orden de colocacin de los elementos.
3) Muestreo con reposicin sin tener en cuenta el orden de colocacin de los elementos.
4) Muestreo con reposicin teniendo en cuenta el orden de colocacin de los elementos.
Para muestreo sin reposicin sin tener en cuenta el orden de colocacin de los elementos el
nmero de muestras de tamao 2 en el espacio muestral sern las combinaciones sin repeticin
de tres elementos tomados de dos en dos:
3
C3,2 = =3
2
Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las
probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante:
P_X = P(ui,uj) = P(ui)P(uj/ui)+P(uj)P(ui/uj)=P(ui)P(uj)/(1-P(ui))+P(uj)P(ui)/(1-P(uj))) =
(1/32)/(1-1/3) + (1/32)/(1-1/3) = 2(1/32)/(1-1/3) = 1/3 = 0,33333
Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
S1_X
1
1
2

S2_X
2
3
3

P_X
1/3
1/3
1/3

MEDIAM
1,5
2
2,5

VARIANZAM
0,25
1
0,25

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores


tal y como se indica a continuacin:
E ( MEDIAM ) =

MEDIAM P = 2 = MEDIAP
i i

i =1

E (VARIANZAM ) =

VARIANZA P = 0,5 & 2 / 3 = 0,6666 = VARIANZAP


i =1

i i

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 0,5<0,6666 = <0,16666. A continuacin se calculan las varianzas de los
estimadores.

36

Muestreo estadstico. Conceptos y problemas resueltos

V ( MEDIAM ) =

(MEDIAM
i =1

V (VARIANZAM ) =

< E ( MEDIAM ) ) Pi = 0,16666


2

(VARIANZAM
i =1

< E (VARIANZAM ) ) Pi = 0,125


2

Con lo que las desviaciones tpicas valdrn:

m (MEDIAM) = 0,1666 = 0,408, m (VARIANZAM) = 0,000399 = 0,353


Como |B(VARIANZAM)/m(VARIANZAM)| = 0,47 > 1/10, el sesgo del estimador
VARIANZAM no es despreciable.
Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo
estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del
error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
ECM (VARIANZAM ) =

(VARIANZAM
i =1

< 2 / 3) Pi = 0,152777
2

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,16666

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico


medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador
VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM
para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la
ganancia en precisin es pequea: (0,16666/0,15277-1)100 = 9%.
A continuacin se presenta la solucin con Excel.

Muestreo estadstico: conceptos, estimadores y su distribucin

37

Para muestreo sin reposicin teniendo en cuenta el orden de colocacin de los


elementos el nmero de muestras de tamao 2 en el espacio muestral sern las variaciones sin
repeticin de tres elementos tomados de dos en dos:
3
V3,2 = u 2! = 6
2

Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las


probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante:
P_X = P(ui,uj) = P(ui)P(uj/ui) = P(ui)P(uj)/(1-P(ui)) = (1/32)/(1-1/3) = 1/6 = 0,1666
Se observa que las probabilidades de las muestras sern todas iguales a 1/6. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
S1_X
1
1
2
2
3
3

S2_X
2
3
1
3
1
2

P_X
1/6
1/6
1/6
1/6
1/6
1/6

MEDIAM
1,5
2
1,5
2,5
2
2,5

VARIANZAM
0,25
1
0,25
0,25
1
0,25

38

Muestreo estadstico. Conceptos y problemas resueltos

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores


tal y como se indica a continuacin:
E ( MEDIAM ) =

MEDIAM P = 2 = MEDIAP
i i

i =1

E (VARIANZAM ) =

VARIANZA P = 0,5 & 2 / 3 = 0,6666 = VARIANZAP


i i

i =1

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 0,5 < 0,6666 = <0,16666. A continuacin se calculan las varianzas de los
estimadores.

V ( MEDIAM ) =

(MEDIAM
i =1

V (VARIANZAM ) =

< E ( MEDIAM ) ) Pi = 0,16666


2

(VARIANZAM
i =1

< E (VARIANZAM ) ) Pi = 0,125


2

Con lo que las desviaciones tpicas valdrn:

m (MEDIAM) = 0,1666 = 0,408, m (VARIANZAM) = 0,000399 = 0,353


Como |B(VARIANZAM)/m(VARIANZAM)| = 0,47 > 1/10, el sesgo del estimador
VARIANZAM no es despreciable.
Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo
estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del
error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
ECM (VARIANZAM ) =

(VARIANZAM
i =1

< 2 / 3) Pi = 0,152777
2

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,16666

Como el estimador MEDIAM es insesgado, su varianza coincide con su error


cuadrtico medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador
VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM
para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la
ganancia en precisin es pequea: (0,16666/0,15277-1)100 = 9%.
Se observa que cuando se trabaja sin reposicin, el hecho de tener o no en cuenta el
orden de colocacin de los elementos en las muestras no interviene a los efectos de clculo de
medias, varianzas, sesgos, intervalos de confianza y precisiones de los estimadores.
Los clculos pueden implementarse mediante Excel tal y como se indica en las
pantallas siguientes:

Muestreo estadstico: conceptos, estimadores y su distribucin

39

Para muestreo con reposicin sin tener en cuenta el orden de colocacin de los
elementos el nmero de muestras de tamao dos en el espacio muestral sern las
combinaciones con repeticin de tres elementos tomados de dos en dos:
3 + 2 < 1
= 6
CR3,2 =
2

Al tratarse de muestreo aleatorio con reposicin y probabilidades iguales, las


probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante:

40

Muestreo estadstico. Conceptos y problemas resueltos

P_X = P(ui,uj) =2 P(ui)P(uj) = 2(1/3)2 = 2/9 si i & j


P_X = P(ui,ui) =P(ui)2 = (1/3)2 = 1/9 si i = j
Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
S1_X
1
1
1
2
2
3

S2_X
1
2
3
2
3
3

P_X
1/9
2/9
2/9
1/9
2/9
1/9

MEDIAM
1
1,5
2
2
2,5
3

VARIANZAM
0
0,25
1
0
0,25
0

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores


tal y como se indica a continuacin:
E ( MEDIAM ) =

MEDIAM P = 2 = MEDIAP
i i

i =1

E (VARIANZAM ) =

VARIANZA P = 1 / 3 = 0,3333 & 2 / 3 = 0,6666 = VARIANZAP


i i

i =1

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 1/3-2/3 = -1/3 =-0,3333. A continuacin se calculan las varianzas de los
estimadores.

V ( MEDIAM ) =

(MEDIAM
i =1

V (VARIANZAM ) =

< E ( MEDIAM ) ) Pi = 0,3333


2

(VARIANZAM
i =1

< E (VARIANZAM ) ) Pi = 0,13888


2

Con lo que las desviaciones tpicas valdrn:

m (MEDIAM) = 0,3333 = 0,577, m (VARIANZAM) = 0,13888 = 0,372


Como |B(VARIANZAM)/m(VARIANZAM)| = 0,894 > 1/10 el sesgo del estimador
VARIANZAM no es despreciable.
Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo
estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del
error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
ECM (VARIANZAM ) =

(VARIANZAM
i =1

< 2 / 3) Pi = 0,25

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,3333

Muestreo estadstico: conceptos, estimadores y su distribucin

41

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico


medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador
VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM
para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la
ganancia en precisin es (0,3333/0,25-1)*100 = 33,32%. Hay que subrayar que la ganancia en
precisin es ahora mayor que en el mismo caso para muestreo sin reposicin, debido a la
mayor precisin en general del muestreo sin reposicin.
Los clculos en Excel se muestran a continuacin.

42

Muestreo estadstico. Conceptos y problemas resueltos

Para muestreo con reposicin teniendo en cuenta el orden de colocacin de los


elementos el nmero de muestras de tamao 2 en el espacio muestral sern las variaciones con
repeticin de tres elementos tomados de dos en dos:
VR3,2 = 32 = 9
Al tratarse de muestreo aleatorio con reposicin y probabilidades iguales, las
probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn
P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante:
P_X = P(ui,uj) = P(ui)P(uj) = (1/3)2 = 1/9
Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego
estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
S1_X
1
1
1
2
2
2
3
3
3

S2_X
1
2
3
1
2
3
1
2
3

P_X
1/9
1/9
1/9
1/9
1/9
1/9
1/9
1/9
1/9

MEDIAM
1
1,5
2
1,5
2
2,5
2
2,5
3

VARIANZAM
0
0,25
1
0,25
0
0,25
1
0,25
0

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores


tal y como se indica a continuacin:
E ( MEDIAM ) =

MEDIAM P = 2 = MEDIAP
i i

i =1

E (VARIANZAM ) =

VARIANZA P = 1 / 3 = 0,3333 & 2 / 3 = 0,6666 = VARIANZAP


i i

i =1

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 1/3 < 2/3 = <1/3 = <0,3333. A continuacin se calculan las varianzas de los
estimadores.

V ( MEDIAM ) =

(MEDIAM
i =1

V (VARIANZAM ) =

< E ( MEDIAM ) ) Pi = 0,3333


2

(VARIANZAM
i =1

< E (VARIANZAM ) ) Pi = 0,13888


2

Con lo que las desviaciones tpicas valdrn:

m (MEDIAM) = 0,3333 = 0,577, m (VARIANZAM) = 0,13888 = 0,372


Como |B(VARIANZAM)/m(VARIANZAM)| = 0,894 > 1/10, el sesgo del estimador
VARIANZAM no es despreciable.

Muestreo estadstico: conceptos, estimadores y su distribucin

43

Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo


estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del
error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
ECM (VARIANZAM ) =

(VARIANZAM
i =1

< 2 / 3) Pi = 0,25

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,3333

Los clculos se automatizan con Excel como sigue:

44

Muestreo estadstico. Conceptos y problemas resueltos

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico


medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador
VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM
para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la
ganancia en precisin es (0,3333/0,25 < 1)100 = 33,32%. Hay que subrayar que la ganancia en
precisin es ahora mayor que en el mismo caso para muestreo sin reposicin, lo que es debido
a la mayor precisin en general del muestreo sin reposicin.
Se observa que cuando se trabaja con reposicin, el hecho de tener o no en cuenta el
orden de colocacin de los elementos en las muestras no interviene a los efectos de clculo de
medias, varianzas, sesgos, intervalos de confianza y precisiones de los estimadores. Ya vimos
que esto mismo ocurra cuando se trabajaba sin reposicin.
Si comparamos los mtodos con reposicin con los mtodos sin reposicin vemos que
los errores de muestreo siempre son mayores con reposicin. Para el estimador MEDIAM la
ganancia en precisin por muestrear sin reposicin se cuantifica en (0,333/0,166 < 1)100 =
100%, ya que se duplica la precisin. Para el estimador VARIANZAM la ganancia en precisin
por muestrear sin reposicin se cuantifica en (0,25/0,15277 < 1)100 = 63,63%. La ganancia en
precisin para VARIANZAM es menor que para MEDIAM, porque habamos visto que
VARIANZAM es ms preciso que media M y los estimadores ms precisos son los que menos
precisin pierden al considerar muestreo con reposicin.

1.8.

En una prueba de patinaje artstico los 10 jueces del jurado calificaron a un patinador con tres
cincos, cuatro seises y tres sietes. Usando probabilidades iguales se extraen muestras aleatorias de
dos calificaciones sin reposicin y teniendo en cuenta el orden de colocacin de los elementos.
Se consideran los estimadores por analoga media muestral, varianza muestral y recorrido para
estimar la calificacin media y su dispersin (por dos vas). Hallar la distribucin en el muestreo y
sus errores para los tres estimadores.
Las probabilidades iniciales de seleccin sern las siguientes:

Xi
Pi

5
6
7
3 / 10 4 / 10 3 / 10

Para muestreo sin reposicin teniendo en cuenta el orden de colocacin de los


elementos el nmero de muestras de tamao 2 en el espacio muestral sern las variaciones sin
repeticin de 10 elementos tomados de dos en dos:
3
V3,2 = u 2! = 6
2

Al tratarse de muestreo aleatorio sin reposicin teniendo en cuenta el orden, la


probabilidad de cualquier muestra puede hallarse mediante:
P_X = P(ui,uj) = P(ui)P(uj/ui) = P(ui)P(uj)/(1-P(ui)) = PiPj/(1-Pi)
El espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el
muestreo de los estimadores media muestral (MEDIAM), varianza muestral (VARIANZAM) y
recorrido muestral RM se presentan en la siguiente tabla:

Muestreo estadstico: conceptos, estimadores y su distribucin

45

S1_X S2_X P1
P2 P_X
MEDIAM VARIANZAM RM
5
6
0,3 0,4
0,171=0,3*0,4/(1-0,3)
5,5
0,25
1
5
7
0,3 0,3
0,128=0,3*0,3/(1-0,3)
6
1
2
6
7
0,4 0,3
0,2=0,4*0,3/(1-0,4)
6,5
0,25
1
6
5
0,4 0,3
0,2=0,4*0,3/(1-0,4)
5,5
0,25
1
7
5
0,3 0,3
0,128=0,3*0,3/(1-0,3)
6
1
2
7
6
0,3 0,4
0,171=0,3*0,4/(1-0,3)
6,5
0,25
1

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores


tal y como se indica a continuacin:
6

E ( MEDIAM ) = MEDIAM i Pi = 6 = MEDIAP


i =1

E (VARIANZAM ) = VARIANZAi Pi = 0,442 & 0,6 = VARIANZAP


i =1

E ( RM ) = RM i Pi = 1,257 & 2 = RP
i =1

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP,
B(VARIANZAM) = 0,442-0,6 = <0,157, y B(RM) = 1,257 < 2 = <0,743. A continuacin se
calculan las varianzas de los estimadores.
6

V ( MEDIAM ) = (MEDIAM i < E ( MEDIAM ) ) Pi = 0,185


2

i =1

V (VARIANZAM ) = (VARIANZAM i < E (VARIANZAM ) ) Pi = 0,107


2

i =1

V ( RM ) = (RM i < E ( RM ) ) Pi = 0,191


2

i =1

Con lo que las desviaciones tpicas valdrn:

m (MEDIAM) = 0,1666 = 0,408, m (VARIANZAM) = 0,000399 = 0,353


Como |B(VARIANZAM)/m(VARIANZAM)| = 0,47 > 1/10, el sesgo del estimador
VARIANZAM es no despreciable.
Como |B(RM)/m(RM)| = 1,7 > 1/10, el sesgo del estimador RM no es despreciable.
Para hallar el error de muestreo de MEDIAM, VARIANZAM y RM vemos que los dos
ltimos estimadores son sesgados con sesgo no despreciable y el primero es insesgado. La
medicin del error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
ECM ( MEDIAM ) = V ( MEDIAM ) = 0,185
6

ECM (VARIANZAM ) = (VARIANZAM i < 0,6 ) Pi = 0,132


i =1

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,742

46

Muestreo estadstico. Conceptos y problemas resueltos

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico


medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador
VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM
para estimar la media poblacional y que el estimador RM para estimar el recorrido poblacional
por tener menor error cuadrtico medio.
Los clculos pueden implementarse mediante Excel tal y como se indica en las
pantallas siguientes:

Muestreo estadstico: conceptos, estimadores y su distribucin

47

EJERCICIOS PROPUESTOS
1.1.

Para la poblacin U = {U 1 , U 2 , U 3 } consideramos el siguiente proceso de seleccin de muestras


de tamao 2. Se extrae una primera unidad con probabilidades iguales de seleccin, y si sta resulta
ser U1, se extrae la segunda unidad entre las dos restantes tambin con probabilidades iguales; pero
si la primera no es U1, la segunda se extrae de las tres que componen la poblacin asignando doble
probabilidad a U1 que a cada una de las otras dos. Hallar el espacio muestral y las
probabilidades asociadas a las muestras para este procedimiento de muestreo. Si
consideramos la variable X que toma los valores Xi ={1,1,0} i = 1, 2, 3 en los tres elementos
de la poblacin y definimos el estimador para el total poblacional X = k ( X 1 + X 2 ) , hallar su
sesgo, su varianza y el valor de k para que sea insesgado.

1.2.

Para medir la variable X = nivel de precipitacin atmosfrica en una determinada regin


disponemos de un marco de 4 zonas climticas de la misma cuyos niveles de precipitacin
actual son de 6, 4, 3 y 8 decenas de litros por metro cuadrado, siendo sus probabilidades
iniciales de seleccin en el muestreo 1/6, 1/3, 1/3 y 1/6, respectivamente. Se trata de estimar
en decenas de litros por metro cuadrado el nivel actual medio de precipitacin atmosfrica
en la regin extrayendo muestras de la variable X con tamao 2 sin reposicin y sin tener en
cuenta el orden de colocacin de sus elementos. Para ello se consideran los estimadores
alternativos MEDIA ARITMTICA, MEDIA GEOMTRICA, MEDIA CUADRTICA y
MEDIA ARMNICA. Se pide lo siguiente:
1) Especificar el espacio muestral definido por este procedimiento de muestreo S(X), las
probabilidades asociadas a las muestas P(S) y la distribucin en el muestreo de los cuatro
estimadores analizando su precisin. Cul de ellos es mejor? Razonar la respuesta y
cuantificar las ganancias en precisin.
2) Hallar intervalos de confianza para la media segn los cuatro estimadores basados en la
muestra de mayor probabilidad para un nivel de confianza del 2 por mil ( _=0,002). Como
dato se sabe que F-1(0.999)= 3, siendo F la funcin de distribucin de la normal (0,1).
Comentar los resultados.

1.3.

Para la poblacin A = { A1 , A2 , A3 , A4 , A5 } consideramos el siguiente proceso de seleccin de


muestras de tamao 3. De una urna con tres bolas numeradas del 1 al 3 se extraen al azar y sin
reposicin dos bolas. A continuacin, de otra urna con dos bolas numeradas con el 4 y el 5
se extrae una bola. Se pide:
1) Espacio muestral asociado a este experimento de muestreo y probabilidades de las
muestras. Consideramos el estimador por analoga e = suma de los subndices de unidades
de las muestras para estimar la caracterstica poblacional e = suma de los subndices de las
unidades de poblacin. Calcular la precisin del estimador y hallar un intervalo de confianza
al 95%.

2) Se considera el estimador por analoga e = Media de los subndices de unidades de las


muestras para estimar la caracterstica poblacional e = Media de los subndices de las
unidades de poblacin. Calcular la precisin de este estimador y hallar un intervalo de
confianza al 95%. Qu estimacin es mejor? Cuantificar la ganancia en precisin.

48

Muestreo estadstico. Conceptos y problemas resueltos

1.4.

Consideramos una poblacin de 3 unidades {u1 , u 2 , u 3 } cuyas probabilidades iniciales de


seleccin son iguales a 1/3. Se extraen muestras de tamao 2 con reposicin sin tener en cuenta el
orden de colocacin de sus elementos. Se pide:
1) Espacio muestral y probabilidad asociadas a las muestras para este tipo de muestreo.
2) Se estima por analoga el parmetro poblacional e = n de unidades distintas en la
poblacin mediante el estimador e$ = n de unidades distintas en la muestra Hallar la
distribucin en el muestreo del estimador e$ de e .
3) Analizar la precisin de e$ para los valores e = 1, e = 2, e = 3 del parmetro poblacional e.
4) Se estima el parmetro poblacional e = N medio de unidades distintas en la poblacin

mediante el estimador por analoga e = N medio de unidades distintas en la muestra. Hallar

la distribucin en el muestreo de e y analizar su precisin para los valores e = 1 y e = 2


del parmetro poblacional e .
5) Cul de las dos estimaciones anteriores es mejor? Hallar intervalos de confianza para

ambos estimadores e$ y e al 95% y comparar sus precisiones.

1.5.

Para la poblacin A = {A1 , A2 , L , A12 } consideramos el siguiente proceso de seleccin de muestras


de tamao 3. Se selecciona un entero al azar en el conjunto {1,2,3,4} y siendo b este nmero se
forma la muestra {Ab , Ab + 4 , L , Ab +8 } . Considerando la variable Xi=X(Ai)=i se pide la distribucin,
esperanza y varianza de los estimadores T1=Mx(Xi) y T2=2(Xi)/n 1. Cul de los dos
estimadores es ms preciso? Realizar estimaciones por intervalos al 95% basadas en las
muestras de mayor valor de los estimadores y comentar los resultados.

1.6.

En una poblacin con N = 3 unidades Ui (i = 1, 2, 3), la variable Ti medida sobre cada unidad
toma los valores (1, 3, 5). Se considera un proceso de muestreo sin reposicin con probabilidades
iniciales de seleccin Pi = (1/5, 2/5, 2/5) y tamao muestral n = 2 sin tener en cuenta el orden de
colocacin de las unidades en las muestras. Se pide:
1) Distribuciones en el muestreo de los estimadores X=Ti+Tj, Y=Min(Ti,Tj), Z= (Ti+Tj)/2.
Si con X estimamos el total poblacional, con Y el menor valor de la poblacin y con Z la media
poblacional, cul de los tres estimadores es mejor? Razonar la respuesta y cuantificar las
ganancias en precisin.
2) Hallar intervalos de confianza para los estimadores X, Y y Z basados en la muestra de mayor
probabilidad para un nivel de confianza del 2 por mil (F-1(0.999)=3 con F N(0,1)). Comentar
los resultados.

1.7.

Para la poblacin U = {U 1 , U 2 , U 3 } se mide la variable X sobre sus unidades y se obtiene


X={3, 2, 4}. Se extrae una muestra de tamao 2 mediante el siguiente proceso de seleccin. Se
extraen dos bolas de una urna que tiene ocho (cuatro marcadas con un 1, tres con un 2 y una con
un 3) y si sus nmeros son (i,j) se extraen para la muestra las unidades (Xi,Xj). Hallar el espacio
muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo,
esperanza y varianza del estimador por analoga media muestral. Resolver el problema para
muestreo con y sin reposicin.

CAPTULO
MTODOS GENERALES DE SELECCIN
DE MUESTRAS. ESTIMACIN Y ERRORES

OBJETIVOS
1. Distinguir entre muestreo de unidades elementales y muestreo de unidades
compuestas.
2. Distinguir claramente los conceptos de muestreo con probabilidades
iguales y muestreo con probabilidades desiguales.
3. Distinguir entre muestreo con reposicin y muestreo sin reposicin.
4. Comprender cmo se forman los estimadores en el proceso de estimacin puntual.
5. Comprender el concepto de factor de elevacin.
6. Obtener el estimador lineal insesgado general para el caso de seleccin con
reposicin y probabilidades desiguales: Estimador de Hansen y Hurwitz.
7. Obtener la varianza y su estimacin para el estimador de Hansen y Hurwitz.
8. Analizar los mtodos especiales de seleccin con reposicin y probabilidades
desiguales: Mtodo del tamao acumulativo y mtodo de Lahiri.
9. Obtener el estimador lineal insesgado general para el caso de seleccin sin
reposicin y probabilidades desiguales: Estimador de Horvitz y Thompson.
10. Obtener la varianza y la estimacin de la varianza para el estimador de
Horvitz y Thompson.
11. Obtener el estimador alternativo de Yates y Grundy para la varianza.
12. Analizar los mtodos especiales de seleccin con reposicin y probabilidades
desiguales: Modelos de Ikeda, Mitzumo, Brewer, Durbin, Sampford y Murthy.
13. Analizar el muestreo con probabilidades gradualmente variables: Estimador
de Snchez Crespo y Gabeiras, error y estimacin del error.
14. Obtener muestras aleatorias, especialmente mediante el mtodo de Montecarlo.

50

Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Seleccin con y sin reposicin. Probabilidades iguales y desiguales.
2. Estimacin puntual y formacin general de estimadores.
3. Muestreo con reposicin y probabilidades desiguales. Estimador de Hansen
Hurwitz.
4. Muestreo con reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin.
5. Muestreo sin reposicin y probabilidades desiguales. Estimador de Horvitz
y Thompson.
6. Muestreo sin reposicin y probabilidades proporcionales a los tamaos.
Mtodos especiales de seleccin.
7. Mtodo de Montecarlo
8. Problemas resueltos
9. Ejercicios propuestos

Muestreo estadstico: conceptos, estimadores y su distribucin

51

SELECCIN CON Y SIN REPOSICIN. PROBABILIDADES IGUALES Y


DESIGUALES
Las formas bsicas de seleccin de la muestra se clasifican atendiendo a los siguientes
criterios:
1. Atendiendo a las probabilidades de seleccin
1.1. Con probabilidades iguales: Todas las unidades de la poblacin tienen la misma
probabilidad de ser seleccionadas en cada extraccin.
1.2. Con probabilidades desiguales: Al menos dos unidades tienen distintas probabilidades
de seleccin en cierta extraccin.
2. Atendiendo a la mecnica de seleccin
2.1. Muestreo con reposicin: Cada unidad que es extrada para formar parte de la
muestra en una extraccin se repone a la poblacin antes de realizar la siguiente
extraccin; es decir, la estructura poblacional permanece invariante.
2.2. Muestreo sin reposicin: Cada unidad que es extrada para formar parte de la
muestra en una extraccin no se repone a la poblacin antes de realizar la siguiente
extraccin, por lo que una unidad podr aparecer en la muestra a lo sumo una vez y
la estructura poblacional va cambiando de una extraccin a otra.
Combinando estos cuatro tipos de muestreo resulta:
-

Muestreo con reposicin y probabilidades iguales

Muestreo sin reposicin y probabilidades iguales

Muestreo con reposicin y probabilidades desiguales

Muestreo sin reposicin y probabilidades desiguales

ESTIMACIN PUNTUAL Y FORMACIN GENERAL DE ESTIMADORES


Supongamos que tenemos definida una caracterstica X en la poblacin U = {U1, U2, ..., UN}
que toma el valor numrico Xi sobre la unidad Ui i = 1, 2, ..., N, dando lugar al conjunto de
valores {X1, X2, ..., XN}. Consideramos ahora una cierta funcin e de los N valores Xi, que suele
denominarse parmetro poblacional. Seleccionamos una muestra s = {u1, u2, ..., un} de U mediante
un procedimiento de muestreo dado, y consideramos los valores s(X) = {X1, X2, ... , Xn} que toma la
caracterstica X en estudio sobre los elementos de la muestra. A partir de estos valores estimamos
puntualmente el parmetro poblacional e mediante la expresin e = e (s(X))= e (X1, ..., Xn), basada
en los valores Xi i = 1, 2, ..., n, que toma la caracterstica X sobre las unidades de la muestra s.
X
(X 1 L X N )
U = {U 1 LU N } A

X
s = {u1 L u n } A
s( X ) = (X 1 L X n )

52

Muestreo estadstico. Conceptos y problemas resueltos

La funcin e que asocia a cada muestra s el valor numrico e (s(X)) = e (X1, ..., Xn), se
denomina estimador del parmetro poblacional e. A los valores e (s(X)) para cada s del espacio
muestral se los denomina estimaciones puntuales. Por lo tanto podemos formalizar el concepto
de estimador e$ para el parmetro poblacional e definindolo mediante la aplicacin medible:

e$: S ( X ) R n A R

(X

L X n ) A e$( X 1 L X n ) = t

Ya tenemos definido el estimador como un estadstico funcin de los valores que toma
la caracterstica X sobre los elementos del espacio muestral (muestras). Como ejemplos tenemos
los estimadores total muestral y media muestral que estiman el total y la media poblacionales:

e1 : S ( X ) R n A R

( X 1 L X n ) A e1 ( X 1 L X n ) = X 1 + L + X n = X
e2 : S ( X ) R n A R

( X 1 L X n ) A e2 ( X 1 L X n ) =

X1 + L + X n
= X
n

Entre los parmetros poblacionales e (funcin de los N valores poblacionales Xi)


ms comunes a estimar, tenemos el total poblacional y la media poblacional para la
caracterstica X, definidos de la forma siguiente:

Total poblacional: X = e(X1, ..., XN) = X i


i =1

Media poblacional: X = e(X1, ..., XN) =

X
1
=
N N

X =
i =1

i =1

Xi
N

Hasta ahora hemos supuesto que la caracterstica X definida sobre los elementos de la
poblacin es cuantitativa, es decir, cuantificable numricamente. Sin embargo, tambin se pueden
definir caractersticas cualitativas sobre los elementos de la poblacin, como, por ejemplo, su
pertenencia o no a una determinada clase A. Si para cada unidad ui i = 1, 2, ..., N de la poblacin
definimos la caracterstica Ai, que toma valor 1 si la unidad ui pertenece a la clase A, y que toma
valor 0 si la unidad ui no pertenece a la clase A, podemos definir el total de elementos de la
poblacin que pertenecen a la clase A (total de clase) y la proporcin de elementos de la
poblacin que pertenecen a la clase A (proporcin de clase) de la forma siguiente:

Total de clase: A = e(A1, ..., AN) = Ai


i =1

Proporcin de clase: P = e(A1, ..., AN) =

A
1
=
N N

Ai

A = N
i =1

i =1

Analizados ya los cuatro parmetros poblacionales ms tpicos a estimar, vemos que,


en general, un parmetro poblacional e puede expresarse como una suma de elementos Yi =
f(Xi) funcin de los valores que la caracterstica cuantitativa X o cualitativa A considerada
toma sobre los elementos de la poblacin. De esta forma, podemos escribir:

Muestreo estadstico: conceptos, estimadores y su distribucin


N

i =1

i =1

53

e = Yi = f ( X i )
Yi =

Yi =

en cuyo caso tenemos:


Yi =

Yi =

f ( X i ) = X i para el total poblacional X


Xi
para la media poblacional X
N
f ( Ai ) = Ai para el total de clase A
f (X i ) =

f ( Ai ) =

Ai
para la proporcin de clase P
N

Ahora surge el problema de analizar la forma de los estimadores puntuales ptimos e =


e (X1, ..., Xn) para estos parmetros poblacionales tpicos. Resulta que las mejores propiedades
n

suelen presentarlas los estimadores lineales insesgados de la forma e = wi Yi . Los valores ti se


i =1

denominan pesos o factores de elevacin, ya que so los nmeros por los que hay que multiplicar
los valores muestrales para obtener los valores poblacionales.
Concretamente, para muestreo sin reposicin, el estimador ptimo es el de Horvitz y
Thompson eHT =

Yi

/
i =1

, donde /i es la probabilidad que tiene la unidad ui de la poblacin de

pertenecer a la muestra. Se observa que los pesos o factores de elevacin son en este caso w i = 1 .
/i
Para muestreo con reposicin el estimador ptimo es el de Hansen y Hurwitz
n

eHH =
i =1

Yi
, donde Pi es la probabilidad de seleccionar la unidad ui de la poblacin para
nPi

la muestra (probabilidad unitaria de seleccin de la unidad ui ). Se observa que los pesos o

factores de elevacin son, en este caso, w i = 1 .


nPi

Existen justificaciones para considerar que el parmetro poblacional e =


estimarse convenientemente mediante el estimador e$ =

Y
i =1

puede

w Y , entre las que podemos citar:


i =1

i i

Todas las mediciones de la variable en estudio sobre las unidades de la muestra


intervienen en la formacin del estimador.
La importancia de la aportacin al estimador de la unidad muestral ui puede controlarse
mediante el coeficiente de ponderacin wi o factor de elevacin.
Cuando wi = 1, todas las unidades muestrales intervienen de igual forma en la formacin
del estimador.
Los coeficientes wi pueden depender, entre otros factores, del tamao de las unidades
muestrales (cuando son compuestas), del orden de colocacin de las mismas en la
muestra, y sobre todo de la probabilidad que tiene la unidad ui de pertenecer a la muestra
segn el mtodo de muestreo considerado.
Las funciones lineales son las ms sencillas de manejar matemticamente.

54

Muestreo estadstico. Conceptos y problemas resueltos

MUESTREO CON REPOSICIN Y PROBABILIDADES DESIGUALES:


ESTIMADOR DE HANSEN HURWITZ
Consideremos una poblacin de tamao N, con unidades {u1 , u 2 , L , u N } . Seleccionamos con
~ ) de tamao n. Ya sabemos que en este esquema de seleccin cada
reposicin una muestra (x
~ ) de tamao n desde 0 a n veces ya
unidad ui de la poblacin puede pertenecer a la muestra (x
que al seleccionar una unidad para la muestra, sta se devuelve a la poblacin antes de realizar
la siguiente extraccin.
La probabilidad de una muestra cualquiera de tamao n seguir el modelo multinomial
(conjunta de n binomiales ei), ya que al haber reposicin puede seleccionarse para la muestra
N

cada unidad ui de la poblacin ti veces con i = 1,2,...,N y

t
i =1

= n, con lo que:

P (~
x ) = P(u1 , L u1 , u 2 , L , u 2 , L , u N , L , u N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N )
1
424
3 1424
3
14243
t1 veces t2 veces
t N veces
=

N
n!
P1t P2t L PNt n! = (t1 + t 2 + L + t N )! t i = n
t1 !t 2 !L t N !
i =1
1

El estimador lineal insesgado ptimo en el muestreo con reposicin y probabilidades


N

desiguales para el parmetro poblacional e = Yi es el estimador de Hansen y Hurwitz:


i =1

i =1

i =1

eHH = tiYi =

n
Y
1
Yi = i
nPi
i =1 nPi

Al particularizar el estimador de Hansen y Hurwitz para los distintos parmetros


poblacionales, tenemos los siguientes estimadores:
N

i =1

i =1

e = X = X i Yi = X i X HH =

Total A

e = X =

Media A

i =1

Total de clase A

Xi
n
Xi
Xi
1

Yi =
X HH = N =
N
N
N
i =1 nPi

e = A = Ai Yi = Ai
i =1

A
A
e = P = i Yi = i
N
i =1 N
N

ProporcinA

Xi
nPi
n

Xi

nP
i =1

A
A HH = i
i =1 nPi
n

PHH

Ai
1
= N =
nP
N
i =1
i
n

Ai

nP
i =1

Varianza del estimador de Hansen y Hurwitz


2

2
1 N N Y
Yj

1 N Y
1 N Y
Pi Pj
V (eHH ) = i < e Pi = i < e 2 = i <
Pi

n i =1 Pi
n i =1 Pi
n
P
i
j
i
=
1
>
j

Muestreo estadstico: conceptos, estimadores y su distribucin

55

Estimacin de la varianza del estimador de Hansen y Hurwitz


V (eHH ) =

1 n Yi

n(n < 1) i =1 Pi

2
2
n

Yi
1
2

<ne HH =
< e HH
n(n < 1) i =1 Pi

SELECCIN CON REPOSICIN Y PROBABILIDADES PROPORCIONALES


AL TAMAO: MTODOS ESPECIALES DE SELECCIN
Mtodo de seleccin del tamao acumulativo o modelo polinomial
Sea Mi un entero positivo asociado a la unidad ui que denominamos tamao de ui para i = 1, 2, ..., N
(Mi puede ser el nmero de unidades elementales de la unidad compuesta ui o una ponderacin o
medida de la importancia que concedemos a la seleccin de la unidad ui para la muestra).
A continuacin se expone un mtodo prctico que permite seleccionar muestras con
reposicin de modo que en cada extraccin la unidad ui tiene probabilidad Pi proporcional a
su tamao Mi .
N

Sea M = M i . Consideramos el intervalo de nmeros enteros [1, M] y lo dividimos en


i =1

N subintervalos Ii cada uno de ellos con Mi unidades, tal y como se indica en el cuadro siguiente:
Subintervalos

Unidades Tamaos

I 1 = [1, M 1 ]

u1

M1

I 2 = [ M 1 + 1,M 1 + M 2 ]

u2

M2

I 3 = [ M 1 + M 2 + 1,M 1 + M 2 + M 3 ]

u3

M3

M
N
N <1
I N = [ M i + 1, M i ]
i =1
i =1

1
23

uN

MN

Ahora elegimos un entero b D [1,M] aleatoriamente y con probabilidades iguales y


seleccionamos como primera unidad de la muestra la unidad u i tal que b D Ii. Repetimos este
proceso n veces hasta obtener una muestra de tamao n, de modo que para cualquiera de las
n extracciones se cumple:
M
P(u i ) = P(b D I i ) = i = Pi
M
El procedimiento de seleccin es con reposicin, pues el entero b D [1,M] elegido
aleatoriamente puede caer varias veces dentro del mismo intervalo Ii, con lo que la unidad ui
estar varias veces en la muestra. Tambin hemos visto que el procedimiento de seleccin se
realiza en cada extraccin con probabilidades proporcionales a los tamaos, ya que
Pi=Mi/M.
Este mtodo tambin permite obtener muestras sin reposicin. Basta no tener en
cuenta la obtencin de unidades repetidas y seguir seleccionando hasta acompletar el tamao
de muestra requerido. Por lo tanto, es un mtodo general de seleccin de muestras.

56

Muestreo estadstico. Conceptos y problemas resueltos

Este mtodo tambin permite extraer una muestrea con probabilidades desiguales
no necesariamente proporcionales a sus tamaos. Basta formar un rango acumulativo del
los Pi y extraer una muestra de nmeros aleatorios uniformes en (0,1). Es decir, basta montar
un cuadro como el anterior donde los intervalos acumulativos Ii se formaran ahora con los
Pi = Mi/M, en vez de con los Mi. Y en vez de obtener nmeros aleatorios entre 1 y M, se
obtendran entre 0 y 1.

Mtodo de seleccin de Lahiri


Una variante que abrevia el mtodo del tamao acumulativo la constituye el mtodo de
Lahiri, que permite tambin seleccionar muestras con reposicin y probabilidades
proporcionales a los tamaos.
Sea M0 un nmero entero mayor o igual que todos los Mi, por ejemplo,
M 0 = Max
{ ( M i ) . Elegimos un par de nmeros aleatorios (i, j) tales que 1) i ) N y 1) j ) M0.
i =1, 2 ,..., N

Si j ) Mi, la unidad seleccionada para la muestra es la ui. Si j > Mi se repite la


seleccin del par de nmeros aleatorios (i, j) tales que 1) i ) N y 1) j ) M0 tantas veces
como sea necesario hasta que j ) Mi.
Este mtodo tambin permite obtener muestras sin reposicin. Basta no tener en
cuenta la obtencin de unidades repetidas y seguir seleccionando hasta completar el tamao
de muestra requerido. Por lo tanto, es un mtodo general de seleccin de muestras.

MUESTREO SIN REPOSICIN Y PROBABILIDADES DESIGUALES:


ESTIMADOR DE HORVITZ THOMPSON
Decimos que un procedimiento aleatorio de muestreo es sin reposicin cuando todas las
muestras que tienen algn elemento repetido son imposibles. Las unidades seleccionadas no
se reponen a la poblacin para seleccionar la siguiente unidad de la muestra, con lo que las
muestras resultantes tienen todos sus elementos distintos.
Decimos que un procedimiento aleatorio de muestreo es con probabilidades iguales
cuando todas las unidades de la poblacin ui tienen la misma probabilidad de ser elegidas
para la muestra en una determinada extraccin. En caso de que no sea la misma estaremos
ante muestreo con probabilidades desiguales. Tanto el muestreo con reposicin como el
muestreo sin reposicin pueden ser con probabilidades iguales o desiguales.
En el caso de muestreo sin reposicin y probabilidades desiguales, el estimador lineal
N

insesgado para el parmetro poblacional e = Yi es el estimador de Horvitz y Thompson:


i =1

i =1

i =1

/i

e$HT = wY
i i =

Yi =
i =1

Yi

/i

donde /i es la probabilidad de que la unidad i de la poblacin pertenezca a la muestra.


Al particularizar el estimador de Horvitz y Thompson para los distintos parmetros
poblacionales, tenemos los siguientes estimadores:

Muestreo estadstico: conceptos, estimadores y su distribucin

Xi
X
1

Yi = i X HT =
N
N
N

e = X =
i =1

Total de clase A

A
e = A = Ai Yi = Ai A HT = i
i =1 / i
i =1

ProporcinA

e = P = i Yi =

/i

i =1

i =1

Media A

Xi

e = X = X i Yi = X i X HT =

Total A

57

Xi

/
i =1

A
i =1 N
N

1
Ai
PHT =
N
N

Ai

/
i =1

Varianza del estimador de Horvitz y Thompson

( )= /
N

V e

HT

Yi 2

i =1

(1 < / i ) + 2 Yi
N

i =1 j >i

Yj

/i / j

(/

ij

< / i/ j )

donde /i es la probabilidad de que la unidad i de la poblacin pertenezca a la muestra y /ij es


la probabilidad de que el par de unidades de la poblacin (i,j) pertenezcan a la muestra.
Estimacin de la varianza del estimador de Horvitz y Thompson
n
n n
Yi 2
Y Y j (/ ij < / i )

V e HT = 2 (1 < / i ) + 2 i

( )

i =1

/i

i =1 j >i

/i / j

/ ij

Estimador de la varianza de Yates y Grundy para el estimador de Horvitz y Thompson

( )

V eHT

Y Y j (/ i/ j < / ij )
= i <

/ j
/ ij
i =1 j >i / i
n

Todas las frmulas para estimadores y errores vistas hasta ahora para el caso general
sin reposicin con probabilidades desiguales son vlidas para el caso particular de
probabilidades iguales sin reposicin haciendo las siguientes sustituciones:

/i =

n(n < 1)
n
, / ij =
N
N ( N < 1)

Se observa que cualquier mtodo de seleccin sin reposicin queda perfectamente


definido al conocer /i y/ij ya que los estimadores y sus errores dependen slo de estos valores.

SELECCIN SIN REPOSICIN Y PROBABILIDADES PROPORCIONALES


AL TAMAO: MTODOS ESPECIALES DE SELECCIN
Estimador de Horvitz y Thompson con probabilidades proporcionales al tamao
Sea Mi el entero positivo asociado a la unidad compuesta Ui i = 1,,N que representa su
tamao (nmero de unidades elementales que contiene). En la prctica las unidades de
muestreo suelen ser conglomerados, aunque a veces este modelo tambin suele utilizarse con
unidades de muestreo simples, en cuyo caso los Mi son ponderaciones utilizadas para dar un
mayor peso o importancia a determinadas unidades muestrales.

58

Muestreo estadstico. Conceptos y problemas resueltos

Mediante este modelo se selecciona sin reposicin de la poblacin para la muestra la


unidad compuesta Ui de tamao Mi. Como se trata del modelo clsico de seleccin sin
reposicin, se procede a retirar de la poblacin las Mi unidades elementales que componen la
unidad de muestreo compuesta Ui antes de proceder a la seleccin para la muestra de la
siguiente unidad de muestreo compuesta. Cuando se realiza la siguiente seleccin ya faltan de
la poblacin Mi unidades elementales. Se supone que en la poblacin hay N unidades de
muestreo compuestas que contienen un total de M unidades elementales, es decir:
N

M = Mi
i =1

Este modelo clsico de seleccin de la muestra sin reposicin es equivalente a considerar


un modelo de urna generalizado consistente en introducir en una urna M bolas que representan
las unidades elementales de la poblacin y que se clasifican en N grupos distinguibles, cada uno
de los cuales tiene las Mi bolas correspondientes al tamao de la unidad compuesta Ui, de tal
forma que cada unidad compuesta de muestreo Ui queda representada en la urna por Mi bolas
distinguibles. Si en una extraccin se obtiene una bola que representa una unidad elemental del
grupo de la unidad compuesta Ui, se procede a retirar de la urna las Mi bolas correspondientes a
todas las unidades elementales de Ui antes de realizar la siguiente seleccin.
U3
UN
MN bolas ..... M3 bolas

U1
M1 bolas

U2
M2 bolas

Segn este modelo, la probabilidad de seleccionar la unidad Ui en una extraccin


(probabilidad unitaria de seleccin) es Pi = Mi/M = p(ui) i = 1, 2,..., N. Se cumple que:
N

Mi
N
N
Mi
Mi
Mi
M
i =1
Pi =
= N
Pi =
=
=
=1
M
M
M
i =1
i =1 M
Mi
i =1

con lo que el modelo est bien definido. Los valores /i y /ij relativos, respectivamente, a la
probabilidad de que una unidad de la poblacin pertenezca a la muestra y de que un par de
unidades de la poblacin pertenezcan a la muestra para muestras de tamao 2 son:

N
1 < 2 Pi
Pi

P
+
=

j =1 1 < Pj
i =1 1 < Pi
1 < Pi
j &i

/ i = Pi 1 +

Pj

1
1
+

1 < Pi 1 < Pj

/ ij = Pi Pj

Al conocer /i y/ij este mtodo de seleccin sin reposicin queda perfectamente definido,
ya que los estimadores y sus errores dependen slo de estos valores.
El mtodo es generalizable para muestras de tamao n.

Muestreo estadstico: conceptos, estimadores y su distribucin

59

Estimador de Horvitz y Thompson con seleccin Brewer


Brewer propuso un mtodo de seleccin para muestras de tamao n tal que la primera unidad
se extrae sin reposicin con probabilidad proporcional al valor:
k i = Pi

(1 < Pi )
(1 < 2 Pi )

Pi <

y el resto de las extracciones se realizan sin reposicin y con probabilidades proporcionales a Pi .


Para muestras de tamao 2 las probabilidades /i y /ij son las siguientes:

/ i = 2Pi

/ ij =

1
2 Pi Pj
1
+
*

N
Pi
1 < 2 Pi 1 < 2 Pj

1+
i =1 1 < 2 Pi

Para muestras de tamao n se demuestra que /i = nPi.

Estimador de Horvitz y Thompson con seleccin Durbin


El mtodo de Durbin consiste en un muestreo con probabilidades desiguales y sin
reemplazamiento con el siguiente mtodo de seleccin para una muestra de tamao n = 2: la
primera unidad es seleccionada con probabilidad dada Pi y la segunda unidad se selecciona
con probabilidades proporcionales a kj , siendo:
1
1
k j = Pj
+

1 < 2 Pi 1 < 2 Pj

Para muestras de tamao 2 las probabilidades /i y /ij son las siguientes:

/ i = 2Pi

/ ij =

1
2 Pi Pj
1
+
*

N
Pi
1 < 2 Pi 1 < 2 Pj

1+
i =1 1 < 2 Pi

Para muestras de tamao n se demuestra que /i = nPi.


Se observa que los valores de / i y / ij son idnticos a los obtenidos con el mtodo
de seleccin de Brewer. Con estos valores ya se pueden hallar estimadores y errores.

Estimador de Horvitz y Thompson con selecciones de Ikeda y Mitzuno


Ikeda propuso un mtodo de seleccin en el que la primera unidad se obtiene sin reposicin
con probabilidad Pi proporcional a su tamao Mi y las n <1 unidades restantes de la muestra
se seleccionan sin reposicin y con probabilidades iguales.
Los valores de /i y /ij para este mtodo son:

/ i = Pi + (1 < Pi ) *
/ ij = Pi *

n <1
n <1 N < n
* Pi +
=
N <1
N <1 N <1

n <1
n <1
n <1 n < 2
n <1 N < n
(Pi + Pj ) + n < 2
*
+ Pj
+ (1 < (Pi + Pj )) *
=
*
N <1
N <1
N <1 N < 2 N <1 N < 2
N < 2

60

Muestreo estadstico. Conceptos y problemas resueltos

Este mtodo de Ikeda es un caso particular del mtodo ms general de Mitzuno, que
consiste en comenzar efectuando m extracciones sin reposicin y con probabilidades iguales; en
la extraccin m + 1 se asignan probabilidades:
m

Pi +
r =1

Pr
N <m

donde Pr corresponde a la unidad extrada en r-simo lugar (1) r )m), y por ltimo las
n<(m+1) unidades muestrales restantes se seleccionan sin reposicin y probabilidades
iguales. El mtodo de Ikeda es un caso particular del mtodo de Mitzuno para m = 0.

Estimador de Horvitz y Thompson con seleccin Sampford


En este mtodo los elementos muestrales se eligen con reposicin seleccionando el primer
elemento con probabilidad Pi y los restantes n < 1 elementos con probabilidades proporcionales a
Pi/(1 < nPi). Finalizada la extraccin, la muestra se acepta si todos los elementos son diferentes, y
en caso contrario se rechaza y se vuelve a empezar. Se tiene que:

/ i = nPi

1 + (Pi + Pj ) < Pk2 + 2(Pi 2 + Pj2 ) < 2 Pk3 < (n < 2) Pi Pj +


k
k

/ ij 5 n(n < 1) Pi Pj

+ (n < 3)(Pi + Pj ) < Pk3 < (n < 3) Pk2

k
k

Muestreo con probabilidades gradualmente variables


Se considera un esquema de urna en el que la unidad Ui viene representada por Mi bolas. En este
esquema de seleccin con probabilidades gradualmente variables, al seleccionar la unidad Ui se
retira una bola de entre las Mi que representan a Ui y no se vuelve a reponer a la urna para la
siguiente extraccin. Se podr extraer la unidad Ui las veces que corresponda mientras no se
acaben las Mi bolas que la representan o mientras no se cubra el tamao n de la muestra, por lo
que la unidad Ui puede figurar en la muestra un mximo de veces igual a Mn(Mi,n) i=1,..,N.
La probabilidad de una muestra de tamao n seguir el modelo hipergeomtrico
generalizado (conjunta de n hipergeomtricas ei). Si cada unidad Ui de la poblacin puede
N

elegirse para la muestra ti veces con i = 1, 2, ..., N y se cumple que

i =1

= n , tenemos:

P (~
x ) = P(U 1 , LU 1 , U 2 , L , U 2 , L , U N , L , U N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N )
1424
3 14243
14243
t1 veces
t2 veces
t N veces
M 1 M 2 M N

L
t1 t 2 t N
=
=
M1 + M 2 +LM N

t1 + t 2 + L t N

M u P1 M u P2 M u PN

L
t1 t 2 t N
M

n

con

t
i =1

=n

Mediante seleccin con probabilidades gradualmente variables, el estimador lineal


N

insesgado (de Snchez Crespo y Gabeiras) para el parmetro poblacional e = Yi ser:


i =1

eSCG

n
Y
1
= t i Yi = Yi = i = eHH
i =1
i =1 nPi
i =1 nPi
n

Muestreo estadstico: conceptos, estimadores y su distribucin

61

que coincide con la expresin del estimador de Hansen y Hurwitz para muestreo con
reposicin y probabilidades desiguales. Se cumple que:

( )

M <n
V eSCG =
V (e HH )
M <1
n Y
M <n
1
i
V (eSCG ) =
M n( n < 1) i =1 Pi

2
M <n

2
<neSCG
=
V (eHH )
M

Se observa que el estimador de Snchez Crespo y Gabeiras tiene menor varianza y


menor varianza estimada que el estimador de Hansen y Hurwitz, ya que:

( )

( )

M <n
M <n
V eSCG =
V (e HH ) ) V (eHH ) y V eSCG =
V (e HH ) ) V (eHH )
M <1
M
Gabeiras sugiri una generalizacin del mtodo anterior consistente en retirar b
bolas en lugar de una cuando la unidad i-sima es seleccionada para formar parte de la
muestra, supuesto un esquema de urnas en el que la unidad U i est representada por M i
bolas (i = 1, ..., N ) , siendo b el mayor valor que permita a todas las unidades estar
Min( M i )
representadas en la urna durante las n extracciones, es decir, b =
.
n <1
Snchez Crespo comprob que con esta restriccin la varianza del estimador
resultante es menor e incluso en ciertos casos inferior a la varianza de los estimadores
obtenidos bajo un muestreo sin reposicin y probabilidades desiguales. La varianza del
estimador para el total con el esquema mixto (generalizacin del muestreo gradual) viene
dada por la expresin:
M < bn
V ( X HH )
V ( X SC ) =
M <b
Se denomina esquema mixto a este procedimiento de muestreo ya que puede
considerarse con reposicin, en el sentido de que cada unidad puede pertenecer a la muestra
ms de una vez, y sin reposicin, pues no se reponen en la urna las b unidades retiradas en
cada extraccin.

Mtodo de Murthy
Murthy mejor un mtodo anterior de Des Raj extrayendo unidades sucesivas para la muestra
con probabilidades Pi, Pj(1<Pi), Pk(1<Pi<Pj) y as sucesivamente. Propuso el estimador del total:
n

X M =

P( S / i) X
i =1

P( S )

( )

, V X M

1
=
P( S ) 2

X
[P( S ) P( S / i, j ) < P( S / i) P( S / j )]Pi Pj X i < j

Pj
i =1 j > i
Pi
n

P(S) = Probabilidad incondicional de obtener la muestra S.


P(S/i) = Probabilidad de obtener la muestra S condicionado a que se sac la unidad i la primera
P(S/i,j) = Probabilidad de S condicionado a que se sacaron las unidades i y j las dos primeras.
Para n=2 se tiene que P(S/i) = Pj/(1<Pi) y P(S) = /ij = PiPj(2<Pi<Pj)/(1<Pi)(1<Pj) y adems:
2

Pj
(1< Pi )(1< Pj )(1< Pi < Pj ) Xi X j
Xj
1
Xi
<
/ i = Pi 1+
(1< Pj ) + (1< Pi ) , V(X M ) =
X M =
P P
(2 < Pi < Pj )2
2 < Pi < Pj
Pi
Pj
j
j &i 1< Pj
i

62

Muestreo estadstico. Conceptos y problemas resueltos

MTODO DE MONTECARLO
Es un procedimiento general para seleccionar muestras aleatorias simples de cualquier poblacin
(finita o infinita, real o terica) de la que se conoce su distribucin de probabilidad.

Variable aleatoria discreta


Consideremos la variable aleatoria discreta siguiente y veremos cmo se toma una muestra de ella.
x

P(x)

F(x)

0
1
2
3
4

0,41
0,26
0,18
0,10
0,05

0,41
0,67
0,85
0,95
1

_______________________________________

Observamos los valores de la funcin de distribucin y, basndonos en ellos,


construimos la tabla:
Intervalos

F(x)

00-40
41-66
67-84
85-94
95-99

0
1
2
3
4

0,41
0,67
0,85
0,95
1

_______________________________________

Para seleccionar la muestra aleatoria segn la variable X, elegimos un nmero


aleatorio entre 0 y 99 y observamos en qu intervalo cae, eligiendo para la muestra el valor x
correspondiente a ese intervalo. Tambin se puede tomar el nmero aleatorio y convertirlo
en decimal NA (por ejemplo, si sale 69 utilizamos NA = 0,69) y tomar para la muestra el
valor x ms pequeo que verifica F(x) > NA
F(x)
1
0,95
0,85
NA=0,69
0,67

0,41

El valor x ms pequeo que verifica F(x) > 0,69 es x = 2, luego el primer valor para
la muestra es x = 2.

Muestreo estadstico: conceptos, estimadores y su distribucin

63

Variable aleatoria continua


El proceso a seguir sera el siguiente:

Tomar un nmero aleatorio de tantas cifras como precisin se desee y convertirlo en


decimal (por ejemplo, 23457 se convertira en 0,23457), y sea NA dicho valor.

Considerar el valor NA como un valor de F(x) y tomar como valor observado en la


muestra aquel valor de x tal que NA=F(x) x=F-1(NA).

Repetir el proceso con distintos nmeros aleatorios hasta completar el tamao de


muestra deseado.
F(x)
NA

x=F-1(NA)
Dado el nmero aleatoria NA, se toma para la muestra el valor x tal que x=F-1(NA).

64

Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
2.1.

Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propsito de estimar la proporcin de pacientes que han estado (o estarn) en el
hospital por ms de dos das consecutivos. Puesto que los hospitales varan en tamao, stos
sern muestreados con probabilidades proporcionales al nmero de sus pacientes. Con la
informacin sobre los hospitales dada en la tabla adjunta se selecciona una muestra de tres
hospitales con probabilidades proporcionales al tamao (nmero de pacientes) con reposicin
utilizando el modelo del tamao acumulativo (o modelo polinomial).
Hospital
1
4

Pacientes
328
220

Hospital
2
5

Pacientes
109
280

Hospital
3
6

Pacientes
432
190

Puesto que sern seleccionados tres hospitales, deben ser elegidos tres nmeros aleatorios entre el
0001 y el 1559 = Pacientes. Nuestros nmeros elegidos son 1505, 1256 y 0827. Qu
hospitales sern elegidos para la muestra? Supngase que los hospitales muestreados registraron
los siguientes datos sobre el nmero de pacientes con permanencia de ms de dos das:
Hospital
a
b
c

N de pacientes con ms de dos das de permanencia


250
150
80

1) Estimar la proporcin de pacientes con permanencia superior a dos das para los seis
hospitales.
2) Establecer un lmite para el error de estimacin con una confianza del 95%.
Para seleccionar la muestra comenzamos construyendo la tabla relativa al mtodo del
tamao acumulativo.
I 1 = [1, M 1 ] = [1,328]

Unidades Tamaos

I 2 = [ M 1 + 1,M 1 + M 2 ] = [329,437]

u1

M1

I 3 = [438,869] A 827
I 4 = [870,1089]

u2
u3

M2
M3

I 5 = [1090,1369] A 1256

I 6 = [1370,1559] A 1505

uN

MN

Para seleccionar tres hospitales para la muestra se eligen tres nmeros aleatorios
entre 0001 y 1559 que resultan ser el 1505, el 1256 y el 0827. Localizados estos nmeros en
la columna de los intervalos acumulados, seleccionamos para la muestra los hospitales 3, 5 y
6. A continuacin se presenta un esquema ilustrativo de la seleccin de las unidades
muestrales.

Muestreo estadstico: conceptos, estimadores y su distribucin

65

M3 = 432
M5=280
M4=220

M2=109
PPT

A2 = 150
P 2=150/280
A3 = 250 A1=80

M3=432

M5=280

P3=250/432 P1= 80

190

M6=190

M1=328

M6=190

N = 6, M=1559

n=3

A continuacin se realiza la estimacin de la proporcin de pacientes con


permanencia superior a dos das utilizando el estimador de Hansen y Hurwitz (ya que el
mtodo de seleccin de la muestra es con reposicin). Se tiene:
1
1
X =
X HH =
M
M

Xi

nP

1
M

Mi Xi 1 n
1 n
1 80 150 250
= X i P = Pi =
+
+
= 0,51
M
n i
n i
3 190 280 432
n i
M

Por lo tanto, se estima que un 51% de los pacientes permanece ms de dos das en el
hospital. A continuacin hallamos el error de esta estimacin.
2

V (eHH ) =

Y
1
i <eHH

n(n <1) i =1 Pi

Xi

2
n M

1
1 n

V ( X HH ) =
< X HH =
X i < X HH

n(n <1) i =1
n(n <1) i =1 M i

con lo que se tiene:

(P
n

()

V P =

< P

n (n < 1)

2
2
2
1 80

150

250

0
,
51
0
,
51
<
+
<
+
<
0
,
51

= 0,0022

3 u 2 190

280

432

()

V P
0,0022
C v P =
=
= 0,0091 A 1%
0,51
P

()

Se observa que el error relativo de muestreo es del 1%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.
P h_ V ( P ) = 0,51 1,96 0,0022 = [0.4, 0.6] A 95 % confianza

Se observa que el intervalo de confianza es muy estrecho. Esto se debe a que la


estimacin realizada es bastante precisa (solamente un 5% de error).
Utilizando la hoja de clculo Excel, se pueden automatizar los clculos anteriores tal y
como se indica en las figuras siguientes (en las figuras, Pi juega el papel de Pi )

66

Muestreo estadstico. Conceptos y problemas resueltos

2.2.

Una multinacional tiene un total de 40.000 trabajadores distribuidos en 400 fbricas de 100
obreros cada una. Una muestra aleatoria con probabilidades iguales sin reposicin de 25
fbricas presenta la siguiente distribucin de obreros mayores de 50 aos:
Total de obreros
12 17 23 33 36
mayores de 50 aos
N de fbricas
2 3 9 5 6
de la muestra

Estimar el total y la proporcin de obreros de la multinacional con ms de 50 aos, as como


sus errores de muestreo absolutos y relativos.

Muestreo estadstico: conceptos, estimadores y su distribucin

67

9
M2=100

A3 = 23
PI

3
A4 = 33
5

A2 = 17

SR
M400=100

M1=100

A5 = 36
6

N = 400

A1 = 12
2
n = 20

Como el muestreo es con probabilidades iguales y se seleccionan 25 fbricas de entre


400, se tiene /i = 25/400 = 0,0625 y /ij = (25.24)/(400.399) = 0,00376. Como el mtodo es sin
reposicin, tomamos como estimador del total de clase el estimador de Horwitz y Thompson
y tenemos:
25
A
2 u 12 + 3 u 17 + 9 u 23 + 5 u 33 + 6 u 36
= 10608
A HT = i =
25 / 400
i =1 / i
Para estimar la varianza tomamos el estimador de Yates y Grundy. Tenemos:
2

2
25
25 / /
Ai A j
i
j < / ij

= 0,0625 < 0,00376 (Ai < A j )2 =


<
V ( A HT ) =
2
/

0,00376 u 0,0625 i < j


/ ij
i< j
i /j

= 9,957 2 u 3(12 < 17 ) + L + 5 u 6(33 < 36) 2 = 386906,5


2

Las operaciones anteriores totalmente desarrolladas se muestran a continuacin.


V ( A HT ) = 9,957[2*3(12-17)2+2*9(12-23)2+2*5(12-33)2+2*6(12-36)2+3*9(17-23)2+3*5(17-33)2
+3*6(17-36)2 +9*5(23-33)2+9*6(23-36)2+5*6(33-36)2 = 386906,553

El error absoluto de muestreo ser m ( A HT ) = 386906,5 = 622, con lo que el error


m ( A HT )
622
u 100 =
u 100 = 0,05863 A 5,8%
relativo valdr
A
10608
HT
Como estimador de la proporcin de trabajadores mayores de 40 aos tenemos:

A
10608
PHT = HT =
= 0,2642 = 26,42%
M
40000
El estimador insesgado de su varianza ser :
V ( A HT ) 386906,5
=
= 0,000242
V ( PHT ) =
M2
40000 2

El error absoluto de muestreo ser m ( PHT ) = 0,000242 = 0,0155 , con lo que el error
m ( PHT )
0,0155
relativo valdr
u 100 =
u 100 = 0,05863 A 5,8% .
0,2642
PHT

68

Muestreo estadstico. Conceptos y problemas resueltos

2.3.

Considrese la poblacin de los grupos de la materia Introduccin a la Estadstica que se


imparte en cierta universidad. La universidad tiene 647 estudiantes de esta materia repartidos
en 15 grupos con Mi estudiantes cada grupo segn la tabla siguiente:
Grupos ( Poblacin)
Mi

10 11 12 13

14 15

44 33 26 22 76 63 20 44 54 34 46 24 46 100 15

Extraemos una muestra de cinco grupos con probabilidades proporcionales a los tamaos de
los grupos con reemplazo y anotamos el total de horas durante una semana que todos los
estudiantes de cada grupo han empleado para estudiar la materia de Introduccin a la
Estadstica. Los datos se recogen en la siguiente tabla:
Grupos ( Muestra)
Horas

a b c
d
e
120 203 100 90 40

Si se ha selecciona la muestra {a, b, c, d, e} por el mtodo del tamao acumulativo, estimar la


cantidad promedio de tiempo semanal que un estudiante emple para estudiar la materia
Introduccin a la Estadstica midiendo la calidad de la estimacin. Estimar por intervalos al 95%.
Podemos realizar la disposicin de los clculos del mtodo del tamao acumulativo y
la obtencin de los cinco nmeros aleatorios, como se indica en la siguiente hoja de Excel.

Realizados los clculos, tenemos la siguiente tabla:

Muestreo estadstico: conceptos, estimadores y su distribucin

69

La muestra estar formada por los grupos {6, 14, 11, 9, 7} cuyos tamaos son los
siguientes:
Grupos ( Muestra)
6 14 11 9 7
Tamaos ( M i )
63 100 54 46 20
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )

14

11

120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican


los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Hansen
y Hurwitz (ya que el mtodo de seleccin de la muestra es con reposicin). Se tiene:
1
1 n X
1 n X
1 n X
1 n
1 120 203 100 90 40
X HH = X HH = i = i = i = X i =
+
+
+ + = 1,94
M
M i nPi M i M i n i M i n i
5 63 100 54 46 20
n
M

Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es algo inferior a dos horas. A
continuacin hallamos el error de esta estimacin.

n
n

X
X
1
1
1
1
1

i
i

=
<
<
M
X
X
V ( X HH ) = 2 V ( X HH ) = 2

HH
HH

M 2 n(n < 1) i =1 M i
M
M n(n < 1) i =1 Pi

2
n
n
Xi
Xi
1
1
1
= M
= 1 n X < X

= 2
<
<
X
M
M
X
i

HH
HH
HH
n(n < 1) i =1
M 2 n(n < 1) i =1 M i
M n(n < 1) i =1 M i

con lo que se tiene:


2
2
2
2
2
1 120

40
90
100
203

V X HH =
< 1,94 + < 1,94 + <1,94 = 0,0034
< 1,94 +
< 1,94 +

5 u 4 63


20
46
54
100

V X HH
0,0034

C v P =
=
= 0,03 A 3%
1,94
X

()

HH

Se observa que el error relativo de muestreo es del 3%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.
X HH h_ V ( X HH ) = 0,51 1,96 0,0034 = [1.83, 2.06 ] A 95 % confianza

Se observa que el intervalo de confianza es muy estrecho. Esto se debe a que la


estimacin realizada es bastante precisa (solamente un 3% de error).
A continuacin se presentan clculos y resultados automatizados con Excel.

70

Muestreo estadstico. Conceptos y problemas resueltos

Muestreo estadstico: conceptos, estimadores y su distribucin

2.4.

71

Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e}


utilizando el mtodo de Lahiri.
Para seleccionar la muestra mediante el mtodo de Lahiri elegimos un par de
nmeros aleatorios (i, j) tales que 1) i ) N = 15 y 1) j ) M 0 = Max
{ ( M i ) = 100.
i =1, 2 ,..., N

Si j ) Mi la unidad seleccionada para la muestra es la ui. Si j > Mi, se repite la


seleccin del par de nmeros aleatorios (i,j) tales que 1) i ) N y 1) j ) M0 tantas veces como
sea necesario hasta que j ) Mi.
La obtencin de los nmeros aleatorios (i,j) puede realizarse con Excel mediante la
funcin ALEATORIO.ENTRE (que se evaluar las veces necesarias para cubrir el tamao
muestral) tal y como se indica en la figura siguiente.

El resultado obtenido es el siguiente:

72

Muestreo estadstico. Conceptos y problemas resueltos

La muestra estar formada por los grupos {5, 9, 14, 13, 12} cuyos tamaos son los
siguientes:
Grupos ( Muestra)
5 9 14 13 12
Tamaos ( M i )
76 54 100 46 24
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )

14 13

12

120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican


los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Hansen
y Hurwitz (ya que el mtodo de seleccin de la muestra es con reposicin). Se tiene:
1
1 n X
1 n X
1 n X 1 n
1 120 203 100 90 40
+
+
+ + = 1,99
X HH = X HH = i = i = i = Xi =
M
M i nPi M i n Mi n i Mi n i
5 76 54 100 46 24
M
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es prcticamente dos horas. A
continuacin hallamos el error de esta estimacin.

n
n

X
X
1
1
1
1
1

i
i

< X HH = 2
< MX HH
V ( X HH ) = 2 V ( X HH )V (e HH ) = 2

M
<
n
n
(
1
)
M
M n(n <1) i =1 Pi
M
1
i
=
i

2
n
n
Xi
Xi
1
1
1
1 n
= M

<
<
=
M
M
X
X
X i < X HH

HH
HH
2
2

M n(n <1) i =1 M i

M n(n <1) i =1 M i
n(n <1) i =1

con lo que se tiene:


2
2
2
2
2
1 120

40
90
100
203
V X HH =
< 1,99 + < 1,99 + < 1,96 = 0,73
< 1,99 +
< 1,99 +

5 u 4 76


24
46
100
54

C v X HH =

V X HH
0,73

=
= 0,429 A 43%

1,99
X
HH

Se observa que el error relativo de muestreo es del 43%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.
X HH h_ V ( X HH ) = 1,99 1,96 0,73 = [0.31, 3.66 ] A 95 % confianza

Se observa que el intervalo de confianza es ms ancho que en el problema anterior.


Esto se debe a que la estimacin realizada es menos precisa (43% de error).
A continuacin se presentan clculos y resultados automatizados con Excel.

Muestreo estadstico: conceptos, estimadores y su distribucin

73

74

Muestreo estadstico. Conceptos y problemas resueltos

2.5.

Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} sin


reposicin utilizando el mtodo de Ikeda.
Mediante el mtodo de Ikeda la primera unidad se obtiene sin reposicin con probabilidad Pi
proporcional a su tamao Mi y las n <1 = 4 unidades restantes de la muestra se seleccionan sin
reposicin y con probabilidades iguales (1/4) descartando el elemento elegido inicialmente.
Los valores de /i y /ij para este mtodo son:

/i =

n <1
N <n
* Pi +
N <1
N <1

/ ij =

n <1 N < n
(Pi + Pj ) + n < 2
*
N <1 N < 2
N < 2

Para elegir la primera unidad proporcional a su tamao podemos utilizar el mtodo


de Lahiri del problema anterior, resultando seleccionada como primera unidad muestral u5.
A continuacin elegimos cuatro nmeros aleatorios entre 1 y 15 (sin tener en cuenta el 5).
Las probabilidades Pi, /i y los cuatro nmeros aleatorios restantes para seleccionar
las cuatro unidades que faltan para completar la muestra, pueden obtenerse como se indica
en la tabla Excel siguiente.

El resultado obtenido es el siguiente:

Muestreo estadstico: conceptos, estimadores y su distribucin

75

La muestra estar formada por los grupos {5, 9, 14, 13, 12} cuyos tamaos son los
siguientes:
Grupos ( Muestra)
5 11 4 2 12
Tamaos ( M i )
76 46 22 33 24
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)

Horas ( X i )

11

12

120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican


los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Horvitz y
Thompson (ya que el mtodo de seleccin de la muestra es sin reposicin). En la tabla siguiente
se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).
Pi=Mi/M

MUESTRA Mi
5
11
4
2
12

76
46
22
33
24

/i = Pi (N-n)/(N-1) + (n-1)/(N-1)

0,1174652
0,0710974
0,0340031
0,0510046
0,0370943

0,369618017 120
0,336498123 203
0,310002208 100
0,322146169
90
0,312210201
40

SUMA=

1
1
X HT =
X HT =
M
M

25

Xi

i =1

Xi

Xi//i
324,659
603,272
322,578
279,376
128,119
1658,01

1 120
203
100
90
40 1658
+
+
+
+
= 2,56

647 0,369 0,336 0,310 0,322 0,312 647

Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a
la materia de Introduccin a la Estadstica es prcticamente dos horas y media. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. En la siguiente tabla
se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).
(Xi//i)2(1-/i)
66444,64999
241473,2008
71798,95557
52907,24303
11289,67748
SUMA=443913,7

/ij
0,107
0,099
0,103
0,1
0,089
0,093
0,09
0,085
0,082
0,085

Xi
120
120
120
120
203
203
203
100
100
90

Xj
203
100
90
40
100
90
40
90
40
40

/i
0,3696
0,3696
0,3696
0,3696
0,3365
0,3365
0,3365
0,31
0,31
0,3221

/j
0,3365
0,31
0,3221
0,3122
0,31
0,3221
0,3122
0,3221
0,3122
0,3122

Pi
0,117
0,117
0,117
0,117
0,071
0,071
0,071
0,034
0,034
0,051

Pj
0,0711
0,034
0,051
0,0371
0,034
0,051
0,0371
0,051
0,0371
0,0371

(Xi//i)(Xj//j)(/ij-/i/j)//ij
-31007,41923
-16210,59516
-14192,52368
-6451,525615
-33402,58498
-28399,38423
-13220,87321
-16240,761
-7715,377148
-6412,377049
2*SUMA= -346506,8426

76

Muestreo estadstico. Conceptos y problemas resueltos


2
5
5
X X j / ij < / i / j
1
1 5 X

=
V X HT = 2 V X HT = 2 2i (1 < / i ) + 2 i

M
/
M i =1 / i
i =1 j > i / i / j
ij

2
2
X X / </ /
X
X X / </ /
1 X1
(1 < / 1 ) + L + 5 (1 < / 5 ) + 2 1 2 12 1 2 + L + 4 5 45 4 5

2
/ 12
/4 /5
/ 45
/5
M / 1

/1 / 2
443913,7269 < 346506,8426
=
= 0,232692
647 2

( )

con lo que se tiene:


V X HT
0,232692

=
= 0,188 A 19%
C v X HT =

2,56
X
HT

Se observa que el error relativo de muestreo es del 43%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.
X HT h_ V ( X HT ) = 2,56 1,96 0,232692 = [1.617 , 3.508 ] A 95 % confianza

Se observa que el intervalo de confianza es ms estrecho que en el problema


anterior. Esto se debe a que la estimacin realizada es ms precisa (19% de error).
A continuacin se presentan clculos y resultados automatizados con Excel.

Muestreo estadstico: conceptos, estimadores y su distribucin

2.6.

77

Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} sin


reposicin utilizando el mtodo de Sampford.
En el mtodo de Sampford los elementos muestrales se eligen con reposicin seleccionando
el primer elemento con probabilidad Pi y los restantes n < 1 elementos con probabilidades
proporcionales a Pi/(1-nPi). Finalizada la extraccin, la muestra se acepta si todos los
elementos son diferentes, y en caso contrario se rechaza y se vuelve a empezar.
Mediante este mtodo se tiene que:

/ i = nPi

78

Muestreo estadstico. Conceptos y problemas resueltos

1 + (Pi + Pj ) < Pk2 + 2(Pi 2 + Pj2 ) < 2 Pk3 < (n < 2) Pi Pj +


k
k

/ ij 5 n(n < 1) Pi Pj

+ (n < 3)(Pi + Pj ) < Pk3 < (n < 3) Pk2

k
k

Para llevar a la prctica el mtodo de Sampford se calculan los Pi = Mi/M y a


continuacin se hallan YPi2 y YPi3, valores que se utilizarn para calculai /ij. La siguiente
tarea es calcular Pi/(1<5Pi), Pi = [Pi/(1<5Pi)]/Y [Pi/(1<5Pi)] y /i = 5Pi.
La siguiente tarea es extraer las cinco unidades muestrales. La primera unidad se extrae
con probabilidad Pi = Mi/M proporcional a su tamao Mi y las siguientes unidades se extraen con
probabilidades Pi= [Pi/(1<5Pi)]/Y[Pi/(1<5Pi)] proporcionales a Pi/(1<5Pi), con reemplazamiento.
Si sale alguna unidad repetida se repiten otra vez todas las extracciones hasta que no salga
ninguna repetida. Para elegir la primera unidad proporcional a su tamao podemos utilizar el
mtodo de Lahiri del problema 2.4, resultando seleccionada como primera unidad muestral u5.
Para elegir las cuatro siguientes unidades volvemos a repetir el mtodo de Lahiri [extraccin de
pares de nmeros aleatorios (i,j) con 1) i )15 y 0) j ) Mx(Mi) = 0,68 hasta que j ) Mi] y
resultan elegidas u3, u8, u13 y u14. Las tablas siguientes ilustran las frmulas con Excel y los
resultados obtenidos.

Mi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
SUMA

44
33
26
22
76
63
20
44
54
34
46
24
46
100
15
647

Pi=Mi/M
Mi=Pi/(1-5Pi)
0,0680062
0,103044
0,0510046
0,068465
0,0401855
0,05029
0,0340031
0,040968
0,1174652
0,284644
0,0973725
0,189759
0,0309119
0,036563
0,0680062
0,103044
0,0834621
0,143236
0,0525502
0,071279
0,0710974
0,110312
0,0370943
0,045541
0,0710974
0,110312
0,1545595
0,680272
0,0231839
0,026224
1
2,063954

/i
0,34
0,255
0,2009
0,17
0,5873
0,4869
0,1546
0,34
0,4173
0,2628
0,3555
0,1855
0,3555
0,7728
0,1159
5

Pi'
i
j
0,0499
0,0332
4 0,613
0,0244
14 0,037 <M'3=0,04
0,0198
14 0,665
0,1379
4 0,365
0,0919
13 0,514
0,0177
2 0,585
0,0499
4 0,096 <M'8=0,10
0,0694
14 0,231
0,0345
11 0,081
0,0534
15 0,674
0,0221
3 0,295
0,0534
13 0,054 <M'13=0,11
0,3296
1 0,319 <M'14=0,68
0,0127
1

Ui
5
3

13
14

Pi2
Pi3
0,0046
0,0026
0,0016
0,0012
0,0138
0,0095
0,001
0,0046
0,007
0,0028
0,0051
0,0014
0,0051
0,0239
0,0005
0,0845

0,00031
0,00013
6,5E-05
3,9E-05
0,00162
0,00092
3E-05
0,00031
0,00058
0,00015
0,00036
5,1E-05
0,00036
0,00369
1,2E-05
0,00864

Muestreo estadstico: conceptos, estimadores y su distribucin

79

La muestra estar formada por los grupos {5, 3, 8, 13, 14} cuyos tamaos son los
siguientes:
Grupos ( Muestra)
5 3 8 13 14
Tamaos ( M i )
76 26 44 46 100
y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )

13

14

120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican


los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Horvitz y
Thompson (ya que el mtodo de seleccin de la muestra es sin reposicin). En la siguiente tabla
se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).
MUESTRA
5
3
8
13
14

1
1
X HT =
X HT =
M
M

Mi
76
26
44
46
100

Pi=Mi/M
0,1174652
0,0401855
0,0680062
0,0710974
0,1545595

25

Xi

i =1

/i = 5Pi
0,5873
0,2009
0,34
0,3555
0,7728

Xi
120
203
100
90
40

Xi//i
204,32
1010,3
294,09
253,17
51,76
1813,7

(Xi//i)2(1-/i)
17227,0471
815643,153
57080,3719
41311,3781
608,6976
931870,648

1 120
203
100
90
40 1813,7
+
+
+
+
= 2,8

=
647 0,587 0,201 0,340 0,355 0,772
647

Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 2,8 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. Ahora se
presenta la tabla con todos los clculos necesarios para realizar la estimacin (N = 15, n = 5).
(Xi//i)(Xj//j)(/ij-/i/j)//ij
(Xi//i)2(1-/i)
/ij
/i
/j
Xi
Xj
Pi
Pj
17227,0471
0,1024232 120 203 0,58733 0,201 0,117
0,04
-31413,39362
815643,153
0,177923 120 100 0,58733
0,34 0,117 0,068
-7357,500123
57080,3719
0,1865756 120
90 0,58733 0,355 0,117 0,071
-6157,939465
41311,3781
0,4440242 120
40 0,58733 0,773 0,117 0,155
-234,8366464
608,6976
0,0554606 203 100 0,20093
0,34
0,04 0,068
-68900,81915
931870,648
0,0582159 203
90 0,20093 0,355
0,04 0,071
-58046,26694
0,1421053 203
40 0,20093 0,773
0,04 0,155
-4846,785171
0,1016725 100
90 0,34003 0,355 0,068 0,071
-14063,38541
0,2458765 100
40 0,34003 0,773 0,068 0,155
-1046,18541
0,2577209 90
40 0,35549 0,773 0,071 0,155
-864,3197294
-385862,8633

80

Muestreo estadstico. Conceptos y problemas resueltos


5
5
X X j / ij < / i / j
1
1 5 X2
V X HT = 2 V X HT = 2 2i (1 < / i ) + 2 i

M
/ ij
M i =1 / i
i =1 j > i / i / j

( )

X 12

X 52
(
)
(1 < / 5 ) + 2 X 1 X 2 / 12 < / 1/ 2
1
<
+
+
L
/

1
/5
/ 12
/ 1
/1 / 2
931870,648 < 385862,8633
=
= 1,3043
647 2
1
M2

X X
+ L + 4 5
/4 /5

/ 45 < / 4 / 5

/ 45

con lo que se tiene:


V X HT
1,3043

=
= 0,4074 A 41%
C v X HT =

2,8
X
HT

Se observa que el error relativo de muestreo es del 41%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.
X HT h_ V ( X HT ) = 2,8 1,96 1,3043 = [0.56, 5.04 ] A 95 % confianza

A continuacin se presentan los resultados automatizados con Excel.

Muestreo estadstico: conceptos, estimadores y su distribucin

2.7.

81

Resolver el problema anterior suponiendo que se selecciona una muestra de tamao 2 sin
reposicin mediante el mtodo de Brewer.
Brewer propuso un mtodo de seleccin para muestras de tamao n tal que la primera unidad
se extrae sin reposicin con probabilidad proporcional al valor:
k i = Pi

(1 < Pi )
(1 < 2 Pi )

Pi <

y el resto de las extracciones se realizan sin reposicin y con probabilidades proporcionales a Pi .


Para muestras de tamao 2 las probabilidades /i y /ij son las siguientes:

/ i = 2Pi

/ ij =

1
2 Pi Pj
1
*
+

N
Pi
1 < 2 Pi 1 < 2 Pj

1+
i =1 1 < 2 Pi

En nuestro problema, para realizar la primera extraccin con probabilidades


proporcionales a ki aplicaremos el mtodo de Lahiri seleccionando pares de nmeros
aleatorios (i,j) con 1) i) 15 y 0) j) Mx(ki)=0,68 hasta que j ) ki,con lo que resulta elegida
la unidad u12 despus de dos intentos.
Para realizar la segunda extraccin con probabilidades proporcionales a Mi
aplicaremos otra vez el mtodo de Lahiri seleccionando pares de nmeros aleatorios (i,j) con
1) i ) 15 y 0 ) j ) Mx(Mi)=100 hasta que j ) Mi,con lo que resulta elegida la unidad u4 despus
de tres intentos.
Las tablas siguientes ilustran las frmulas con Excel y los resultados obtenidos.

82

Muestreo estadstico. Conceptos y problemas resueltos

La muestra estar formada por los grupos {12, 4} cuyos tamaos son los siguientes:
Grupos ( Muestra)
Tamaos ( M i )

12 4
24 22

y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )

12 4
120 203

A continuacin se realiza la estimacin del promedio de horas semanales que dedican


los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Horvitz y
Thompson (ya que el mtodo de seleccin de la muestra es sin reposicin). En la tabla siguiente
se presentan todos los clculos necesarios para realizar la estimacin (N = 15, n = 2).
MUESTRA Mi
12 24
4 22

Pi=Mi/M /i
Xi
0,03709 0,074
0,034 0,068

1
1
X HT =
X HT =
M
M

25

Xi

i =1

(Xi//i)2(1-/i)
Xi//i
120
1617,5 2422206,3
203 2985,0227 8304401,1
4602,5227
10726607

1 120
203 4602,5227
+
= 4,614

=
647 0,074 0,068
647

Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 4,6 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza. Ahora se
presenta la tabla con todos los clculos necesarios para realizar la estimacin (N = 15, n = 2).
(Xi//i)(Xj//j)(/ij-/i/j)//ij
(Xi//i)2(1-/i) /ij
/i
/j
Xi
Xj
Pi
Pj
2422206,3 0,00297
120 203
0,07419 0,068 0,037 0,034
-3383694,955
8304401,1
-6767389,909
10726607

Muestreo estadstico: conceptos, estimadores y su distribucin


5
5
X X / </ /
1 5 X i2
= 1 V X
(1 < / i ) + 2 i j ij i j
=

HT
2
2
2
M
M i =1 / i
/ ij
i =1 j > i / i / j


X 22
1 X 12
(
)
(1 < / 2 ) + 2 X 1 X 2 / 12 < / 1/ 2 = 9,458
<
+
1
/
1
2
2
2
M / 1
/2
/ 12

/1 / 2

V X HT

( )

83

con lo que se tiene:

C v X HT =

V X HT
9,458

=
= 0,66 A 66%

4,614
X
HT

Se observa que el error relativo de muestreo es del 66%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.
X HT h_ V ( X HT ) = 4,614 1,96 9,458 = [ <1.414 , 10 .6414 ] A 95 % confianza

A continuacin se presentan los resultados automatizados con Excel.

84

Muestreo estadstico. Conceptos y problemas resueltos

2.8.

Resolver el problema anterior suponiendo que se selecciona una muestra de tamao 2 sin
reposicin utilizando el estimador de Murthy.
Murthy mejor un mtodo anterior de Des Raj extrayendo unidades sucesivas para la muestra
con probabilidades Pi, Pj(1<Pi), Pk(1<Pi<Pj) y as sucesivamente. Propuso el estimador del total:
n

X M =

P( S / i) X
i =1

P( S )

( )

, V X M =

1
P( S ) 2

X
[P( S ) P( S / i, j ) < P( S / i) P( S / j )]Pi Pj X i < j

Pj
i =1 j > i
Pi
n

P(S) = Probabilidad incondicional de obtener la muestra S.


P(S/i) = Probabilidad de obtener la muestra S condicionado a que se sac la unidad i la primera
P(S/i,j) = Probabilidad de S condicionado a que se sacaron las unidades i y j las dos primeras.
Para n=2 se tiene que P(S/i) = Pj/(1<Pi) y P(S) = /ij = PiPj(2<Pi<Pj)/(1<Pi)(1<Pj) y adems:
2

Pj
(1< Pi )(1< Pj )(1< Pi < Pj ) Xi X j
Xj
Xi
1
<
/ i = Pi 1+
(1< Pj ) + (1< Pi ) , V(X M ) =
X M =
P P
(2 < Pi < Pj )2
Pj
Pi
2 < Pi < Pj
j &i 1< Pj
j
i

En nuestro problema, para realizar la primera extraccin con probabilidad Pi


proporcional a su tamao Mi, aplicamos el mtodo de Lahiri seleccionando pares de nmeros
aleatorios (i,j) con 1 ) i ) 15 y 0 ) j ) Mx(Mi)=100 hasta que j ) Mi, con lo que resulta
elegida la unidad u10 despus de dos intentos.
Para realizar la segunda extraccin con probabilidad Pj/(1<Pi) aplicamos otra vez
el mtodo de Lahiri seleccionando pares de nmeros aleatorios (i,j) con 1 ) i ) 15 y 0) j )
Mx(Pj/(1<Pi)) = 0,15456 hasta que j ) Pj/(1-Pi), con lo que resulta elegida la unidad u2
despus de tres intentos.
Las tablas siguientes ilustran las frmulas con Excel y los resultados obtenidos.

Muestreo estadstico: conceptos, estimadores y su distribucin

85

La muestra estar formada por los grupos {10, 2} cuyos tamaos son los siguientes:
Grupos ( Muestra)
Tamaos ( M i )

10 2
34 33

y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra)
Horas ( X i )

10 2
120 203

A continuacin se realiza la estimacin del promedio de horas semanales que


dedican los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador
de Murthy. En la siguiente tabla se presentan todos los clculos necesarios para realizar la
estimacin (N = 15, n = 2).
Mi
MUESTRA
10
2

/i
Pi=Mi/M
Xi
34
0,05255 0,055375
33
0,051005 0,053834

1
1
1
X HT =
X HT =
M
M 2 < Pi < Pj

ESTIMADOR
Xi/Pi
DEL TOTAL
120 2283,5294
3131,088537
203 3980,0303

Xj
Xi
1
+ (1 < Pi )
3131,088 = 4,839
(1 < Pj )
=
Pi
Pj 647

Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introduccin a la Estadstica es 4,8 horas. A continuacin
hallamos el error de esta estimacin a travs de la estimacin de la varianza.

( )

1
1
V X HT = 2 V X HT = 2

M
M

2
(1 < P )(1 < P )(1 < P < P ) X
X
i
j
i
j
i < j = 1 1223240,6 = 2,92

P
(2 < Pi < Pj ) 2
Pj 6472

86

Muestreo estadstico. Conceptos y problemas resueltos

con lo que se tiene:


V X HT
2,92

=
= 0,3532 A 35%
C v X HT =

4,839
X
HT

Se observa que el error relativo de muestreo es del 35%. A continuacin se realiza


una estimacin por intervalos al 95% de confianza.
X HT h_ V ( X HT ) = 4,839 1,96 2,92 = [ <1.48, 8.18] A 95 % confianza

A continuacin se presentan los resultados y frmulas con Excel.

Muestreo estadstico: conceptos, estimadores y su distribucin

2.9.

87

En una regin montaosa de 25000 hectreas se trata de estudiar la superficie dedicada a la


plantacin de pinos. La regin de divide en 100 zonas disjuntas lo ms similares entre s, de
tal forma que cada zona contiene plantas de todas las clases que crecen en la regin. Se
extrae una muestra de 10 zonas con reemplazamiento y con probabilidades proporcionales a
sus superficies. Las proporciones de superficie total dedicadas a la plantacin de pinos en
cada una de las zonas de la muestra son:
0.05, 0.25, 0.10, 0.30, 0.15, 0.25, 0.35, 0.25, 0.10 y 0.20
Se pide:
1) Un estimador insesgado de la superficie total de la regin dedicada a la plantacin de
pinos, su error relativo y un intervalo de confianza al nivel _ = 0,05.
2) Contestar a las mismas preguntas del apartado anterior suponiendo que la seleccin es
sin reposicin mediante el mtodo de Ikeda. En este caso considerar la muestra con slo
tres zonas de igual superficie (250 hectreas) para las que las proporciones de superficie
total dedicadas a la plantacin de pinos en cada una de ellas son 0.25, 0.35 y 0.40,
respectivamente. Se supone en este caso que las 100 zonas de la poblacin son de igual
superficie.
Considerando muestreo con reposicin (CR) y seleccin con probabilidades
proporcionales a los tamaos (PPT), el esquema del problema es el siguiente:

M2
PPT
CR

M100
N = 100

M1
M = 25000

X1/M1
0,05
X4/M4
0,30

X2/M2
0,25
X5/M5
0,15

X8/M8
0,25

X9/M9
0,10

X3/M3
0,10
X6/M6 X7/M7
0,25
0,35
X10/M10
0,20
n = 20

88

Muestreo estadstico. Conceptos y problemas resueltos

Sea Mi = Superficie de la zona i-sima


Sea Xi = Superficie dedicada a la plantacin de pinos
n
n
X
Xi
M
X HH = i =
=
M
n
i =1 nPi
i =1
n i
M

Xi

M
i =1

25000
(0,05 + 0,25 + L + 0,20) = 5000
10

n
n

Xi
Xi
X

M i < X HH

X
X
<
<

HH
HH

Mi
i =1 Pi
i =1 M i M
i =1

V ( X HH ) =
=
=
=
n(n < 1)
n(n < 1)
n(n < 1)
n

(25000u 0,05 < 5000) 2 + (25000u 0,25 < 5000) 2 + L + (25000u 0,20 < 5000) 2
= 590278
10(10 < 1)

V ( X )
590278
=
= 0,15 (15%)
C v( X ) =
5000
X

La estimacin por intervalos suponiendo normalidad en la poblacin es:


X h_ m ( X ) = 5000 2 590278 = [3464, 6536]

La estimacin por intervalos sin normalidad en la poblacin es:


590278
m ( X )
X
= 5000
= [1564, 8346]
0,05
_

Para resolver el segundo apartado del problema consideramos la muestra con slo tres
zonas de igual superficie (M1 = M2 = M3 = 250) para las que las proporciones de superficie total
dedicadas a la plantacin de pinos en cada una de ellas son de 0,25, 0,35 y 0,40, respectivamente.
Como los Pi son proporcionales a las superficies de las zonas se tiene:
M
250

= 0,01 (i = 1,2,3 j = 1,2,3)


P = i =
i M 25000
X1
X1
=
= 0,25 X 1 = 62,5
M 1 250
/ i = Pi + n < 1 (1 < Pi ) = 0,01 + 2 u 0,9 = 0,028

99
N <1
X2
X
= 2 = 0,35 X 2 = 87,5
P + Pj
n<2
M 2 250
/ ij = (n < 1) [( N < n) u i
+
]=

( N < 1)
N <2 N <2
X3
X3
=
= 0,40 X 3 = 100
= (3 < 1) [(100 < 3) u 0,02 + 3 < 2 ] = 0,006
M 3 250
(100 < 1)
100 < 2 100 < 2
n

Xi

i =1

/i

Sin reposicin X HT =

1
(62,5 + 87,5 + 100) = 8928,6
0,028

Muestreo estadstico: conceptos, estimadores y su distribucin

n
X
V ( X HT ) = i
i =1 / i

C v( X ) =

2.10.

X X / < / i/ j
(1 </ i ) + 2 i j ij

/ ij
i< j / i / j

49429600
= 0,78
8928,6

89

= 49429600

X h_ m ( X ) = [< 5122.6, 22989.8]

Una gran empresa tiene sus inventarios de equipo listados separadamente en 15


departamentos. Se selecciona una muestra de tres departamentos con reposicin y
probabilidades proporcionales al nmero de artculos de equipo en cada departamento. La
tabla siguiente presenta el nmero de artculos de equipo NA en cada departamento D.
D
1
2

NA D
12 4
9 5

NA D
40 7
35 8

NA D NA D NA
18 10 22 13 16
10 11 22 14 33

27

15

31 12

19

15

a) Suponiendo que los tres departamentos seleccionados (que sern los de mayor
probabilidad) tienen cada uno 2 artculos impropiamente identificados, estimar el nmero
total de artculos impropiamente identificados en la empresa y su error relativo de muestreo.
b) Estimar por intervalos al 95% la media de artculos propiamente identificados, sabiendo
que los tres departamentos seleccionados tienen respectivamente 4, 5 y 6 artculos
impropiamente identificados. Qu estimador es mejor?
El esquema del problema es el siguiente:

M1=12

M2 = 9

M3 =10
M4=40

M4=40

M5 = 35

M6 =15 PPT

M7=18

M8 = 10 M9 =31

M10=22 M11= 22 M12 =19

M5=35

A1 = 2
P 1=2/40
A 2 = 2 A3=2

P 2=2/35 P3= 2

CR

33

M14=33

M13=16 M14= 33 M15 =6


N = 15, M=315

n=3

Como se selecciona la muestra de tres departamentos con probabilidades PPT


proporcionales al nmero de artculos de equipo en cada departamento, los tres departamentos
seleccionados para la muestra sern el 4, el 5 y el 14, ya que son los que van a tener mayor
probabilidad de seleccin (por tener el mayor nmero de artculos). Al ser la seleccin con
probabilidades proporcionales a los tamaos, se tiene que Pi = M i / M , con lo que:
P1 =

40
35
33
, P2 =
y P3 =
315
315
315

90

Muestreo estadstico. Conceptos y problemas resueltos

Como el muestreo es con reposicin, el estimador insesgado del total de la clase de los
artculos impropiamene clasificados vendr dado por la frmula de Hansen y Hurwitz.
n
n
A
M i Pi
1 n M i Pi
M
A HH = i =
=
=
n i Mi M
n
i nPi
i n Mi M

P =
i

Pi = proporcin muestral en el conglomerado i-simo.

315 2
2
2
+ 18
+
3 40 35 33

Como estamos en muestreo con reposicin y probabilidades desiguales


proporcionales a los tamaos, utilizamos para estimar la varianza la siguiente expresin:
2

i Pi < A
i
=
V A =
n (n < 1)
n

()

315 2
3u2

n
M P

i Pi i < M P M 2 Pi < P
i

=
i
n (n < 1)
n (n < 1)
n

2
2
2
2
18
18
18
2
2
<
<
<
+
+
= 1,04209

35 315
33 315
40 315

Para estimar la proporcin de artculos propiamente identificados observamos que


los tres departamentos seleccionados para la muestra (el 4, el 5 y el 14) tienen 36, 30 y 27
artculos propiamente identificados respectivamente. El estimador ser el siguiente:
1
1
PHH =
AHH =
M
M

A
1 M
i nPi = M n
i
n

(P < P )
n

()

()

1
V P = 2 V A =
M

1 36 30 27
1 n
P
i i = n i Pi = 3 40 + 35 + 33 = 0,858
n

n(n < 1)

2
2
2
1 36
30
27

=
< 0,858 + < 0,858 + < 0,858 = 0,000558
3 u 2 40
35
33

El intervalo de confianza al 95%, suponiendo normalidad, ser:

P h_ V ( P ) = 0,858 1,96 0,000558 = [0.8117, 0.9043]

2.11.

Un gran banco que tiene 1000 sucursales con cuarenta microordenadores en cada una,
emprende un proceso de auditora informtica. Para ello se extrae una muestra sin reposicin
y probabilidades iguales de 20 sucursales, resultando que en nueve de ellas no hay
microordenadores con defectos, en ocho hay un ordenador defectuoso y en tres hay dos
ordenadores defectuosos. Se pide:
1) Estimar el nmero total de microordenadores defectuosos en el banco y sus errores absoluto
y relativo de muestreo. Realizar la estimacin por intervalos al 99% (F-1(0,995) = 2,57).
2) Resolver el problema con reposicin y comparar los resultados con los del apartado
primero.

Muestreo estadstico: conceptos, estimadores y su distribucin

91

Tenemos como datos N = 1000, M = 40000 y n = 20. Como el muestreo es sin reposicin, el
total de microordenadores defectuosos puede estimarse mediante el estimador de Horvitz y
Thompson. Adems, al ser el muestreo con probabilidades iguales tenemos que /i = n/N =
20/1000 = 0,02 y /ij = 20(20-1)/[1000(1000-1)] = 0,00038. Se tiene:
25
A 9 u 0 + 8 u1 + 3 u 2
A HT = i =
= 700
0,02
i =1 / i

La varianza se estima de la siguiente forma:


20
20 20
A2
A Aj / ij < / i / j
V A HT = i2 (1 < / i ) + 2 i
/
i =1 / i
i =1 j >i / i / j
ij

1 < 0,02 20 2 2(0,00038< 0,022 ) 20 20


=
Ai +
Ai Aj
0,022
0,022 u 0,00038 i =1 j >i
i =1

( )

8
3
2450(9 u 02 + 8 u 12 + 3 u 22 ) < 263,15 (0 u 0) + 9 u 8(0 u 1) + 9 u 3(0 u 2) + (1u 1) + 8 u 3(1u 2) + (2 u 2)
2
2
2

= 25842,1

Ahora calculamos el error relativo.


V ( A )
25842,1
C v( A ) =
=
= 0,2296 (22,96%)
700
A

La estimacin por intervalos suponiendo normalidad en la poblacin es:


A h_ m ( A ) = 700 2.57 25842,1 = [286.86, 1113.14]

La estimacin por intervalos sin normalidad en la poblacin es:

m ( A )
A
= 700
_

25842,1
= [< 907.55, 2307.55]
0,01

Para muestreo sin reposicin, para estimar la varianza podramos haber tomado el
estimador de Yates y Grundy:
2

2
20 / /
20
Ai A j
i
j < / ij

= 0,02 < 0,00038 (Ai < A j )2 =


<
V ( A HT ) =
/

0,00038 u 0,02 2 i < j


/ ij
i< j
i /j

= 131,58 9 u 8(0 < 1) + 9 u 3(0 < 2 ) L + 8 u 3(1 < 2) 2 = 26842,3


2

Se observa que el estimador de Yates y Grundy sobreestima la varianza en este caso.


Cuando el muestreo es con reposicin, el total de microordenadores defectuosos
puede estimarse mediante el estimador de Hansen y Hurwitz. Adems, al ser el muestreo con
probabilidades iguales, Pi = 1/N y tendremos:

92

Muestreo estadstico. Conceptos y problemas resueltos


n
n
A
A
N
A HH = i = i =
1
n
i nPi
i
n
N

A
i

1000
(9 u 0 + 8 u 1 + 3 u 2) = 700
20

La varianza se estima de la siguiente forma:


2

i Pi < A
i
=
V A =
n (n < 1)
n

()

Ai

< 700

=
n (n < 1)

1/ N

20

(1000 A
i =1

< 700 )

20 (20 < 1)

20

100 2 (10 Ai < 7 )


i =1

380

1000
2
2
2
9 (10 u 0 < 7 ) + 8 (10 u 1 < 7 ) + 3(10 u 2 < 7 ) = 26842 ,1
38

V ( A )
26842,1
C v( A ) =
=
= 0,234 (23,4%)
A
700

La estimacin por intervalos suponiendo normalidad en la poblacin es:


A h_ m ( A ) = 700 2.57 26842,1 = [283.2, 1116.8]

La estimacin por intervalos sin normalidad en la poblacin es:

m ( A )
= 700
A
_

26842,1
= [< 921.9, 2321.9]
0,01

Las operaciones anteriores totalmente desarrolladas se muestran a continuacin.


V ( A )
26842,3
C v( A ) =
=
= 0,234 (23,4%)
700
A

La estimacin por intervalos suponiendo normalidad en la poblacin es:

A h_ m ( A ) = 700 2.57 26842,1 = [279, 1121]


La estimacin por intervalos sin normalidad en la poblacin es:

26842,1
m ( A )
= 700
= [< 938.35, 2338.35]
A
0,01
_
Se observa que los errores de muestreo estimados son ligeramente superiores en muestreo
con reposicin. Adems, como es natural, los intervalos de confianza son ms anchos (o sea,
peores) en muestreo con reposicin. La ganancia en precisin es (26842,1/25842,1-1)100=3,8%,
que es una cantidad pequea. Tambin se observa que el estimador de Yates y Grundy para
muestreo sin reposicin sobreestima la varianza hasta hacerla incluso mayor que en el caso de
con reposicin (debido a la baja ganancia en precisin del muestreo sin reposicin).

Muestreo estadstico: conceptos, estimadores y su distribucin

2.12.

93

Generar una muestra de tamao 50 de cada una de las siguientes distribuciones:


a) Uniforme entre 10 y 20
b) Poisson con h=1
Calcular la media aritmtica en cada muestra y realizar un histograma para sus valores
comentando los resultados.
Para obtener muestras aleatorias segn una distribucin dada es necesario utilizar una
herramienta adecuada. Antiguamente se usaban tablas de nmeros aleatorios, pero en la
actualidad cualquier software estadstico dispone de esta funcionalidad. Por ejemplo, Excel
dispone de dos funciones para seleccin de nmeros aleatorios uniformemente con reposicin.
La funcin ALEATORIO( ) devuelve un nmero aleatorio mayor o igual que 0 y menor que 1,
distribuido uniformemente. Cada vez que se calcula la hoja de clculo, se devuelve un nmero
aleatorio nuevo. Si desea usar ALEATORIO para generar un nmero aleatorio, pero no desea
que los nmeros cambien cada vez que se calcule la celda, puede escribir =ALEATORIO( ) en
la barra de frmulas y, despus, pulsar la tecla F9 para cambiar la frmula a un nmero
aleatorio. Para generar un nmero real aleatorio entre a y b, use: ALEATORIO( )*(b-a)+a. No
obstante, la funcin ALEATORIO.ENTRE(a,b) devuelve un nmero entero aleatorio
uniforme entre los nmeros a y b
Por otra parte, Excel permite obtener nmeros aleatorios independientes extrados
segn una distribucin dada utilizando herramientas de anlisis. Si en el cuadro de dilogo
Anlisis de datos de la Figura 2-1 elegimos Generacin de nmeros aleatorios, se obtiene el
cuadro de dilogo Generacin de nmeros aleatorios de la Figura 2-2. En el cuadro Nmeros
de variables introduzca el nmero de columnas de valores que desee incluir en la tabla de
resultados. Si no introduce ningn nmero, Microsoft Excel rellenar todas las columnas del
rango de salida que se haya especificado. En el cuadro Cantidad de nmeros aleatorios
introduzca el nmero de puntos de datos que desee ver. Cada punto de datos aparecer en una
fila de la tabla de resultados. Si no introduce ningn nmero, Microsoft Excel rellenar todas
las columnas del rango de salida que se haya especificado. En el cuadro Distribucin haga clic
en la distribucin estadstica que desee utilizar para crear los valores aleatorios.

Figura 2-1

Figura 2-2

Las distribuciones posibles son:


Uniforme: Caracterizada por los lmites inferior y superior. Se extraen las variables con
probabilidades iguales de todos los valores del rango. Una aplicacin normal utilizar una
distribucin uniforme en el rango 0...1.

94

Muestreo estadstico. Conceptos y problemas resueltos

Normal: Caracterizada por una media y una desviacin estndar. Una aplicacin normal
utilizar una media de 0 y una desviacin estndar de 1 para la distribucin estndar normal.
Bernoulli: Caracterizada por la probabilidad de xito (valor p) en un ensayo dado. La
variables aleatorias de Bernoulli tienen el valor 0 o 1; por ejemplo, puede trazarse una
variable aleatoria uniforme en el rango 0...1. Si la variable es menor o igual que la
probabilidad de xito, se asignar el valor 1 a la variable aleatoria de Bernoulli; en caso
contrario, se le asignar el valor 0.
Binomial: Caracterizada por una probabilidad de xito (valor p) durante un nmero de
pruebas; por ejemplo, se pueden generar variables aleatorias Bernoulli de nmero de
pruebas, cuya suma ser una variable aleatoria binomial.
Poisson: Caracterizada por un valor lambda, igual a 1/media. La distribucin de Poisson se
utiliza con frecuencia para caracterizar el nmero de incidencias por unidad de tiempo; por
ejemplo, el ritmo promedio al que llegan los vehculos a una garita de peaje.
Frecuencia relativa: Caracterizada por un lmite inferior y superior, un incremento, un
porcentaje de repeticin para valores y un ritmo de repeticin de la secuencia.
Discreta: Caracterizada por un valor y el rango de probabilidades asociado. El rango debe
contener dos columnas. La columna izquierda deber contener valores y la derecha
probabilidades asociadas con el valor de esa fila. La suma de las probabilidades deber ser 1.
En el campo Parmetros introduzca un valor o valores para caracterizar la
distribucin seleccionada. En el campo Iniciar con escriba un valor opcional a partir del cual
se generarn nmeros aleatorios. Podr volver a utilizar este valor para generar los mismos
nmeros aleatorios ms adelante. En el cuadro Rango de salida introduzca la referencia
correspondiente a la celda superior izquierda de la tabla de resultados. Microsoft Excel
determinar el tamao del rea de resultados y mostrar un mensaje si la tabla de resultados
reemplaza datos ya existentes. Haga clic en la opcin En una hoja nueva para insertar una
hoja nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva
hoja de clculo. Para asignar un nombre a la nueva hoja de clculo, escrbalo en el cuadro.
Haga clic en la opcin En un libro nuevo para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado. En la Figura 2-3 se muestra la salida correspondiente a las
opciones de Generacin de nmeros aleatorios de la Figura 2-2 (10 nmeros aleatorios
normales de media cero y varianza 1 con semilla 50).

Figura 2-3
Adicionalmente, Excel permite obtener una muestra aleatoria simple con reposicin de
una poblacin numrica dada como rango de entrada. Si en el cuadro de dilogo Anlisis de datos
de la Figura 2-4 elegimos Muestra, se obtiene el cuadro de dilogo Muestra de la Figura 2-5. A
continuacin se explica la funcionalidad de todos los campos del cuadro de dilogo Muestra.

Muestreo estadstico: conceptos, estimadores y su distribucin

95

Figura 2-4

Figura 2-5

Figura 2-6

Rango de entrada: Introduzca la referencia correspondiente al rango de datos que contenga la


poblacin de valores de los que desee extraer una muestra. Microsoft Excel extraer muestras
de la primera columna, luego de la segunda y as sucesivamente.
Rtulos: Active esta casilla si la primera fila y la primera columna del rango de entrada
contienen rtulos. Desactvela si el rango de entrada carece de rtulos; Excel generar los
rtulos de datos correspondientes para la tabla de resultados.
Mtodo de muestreo: Haga clic en Peridico o Aleatorio para indicar el intervalo de
muestreo que desee.
Perodo: Introduzca el intervalo peridico en el que desee realizar la muestra. El valor n del
perodo del rango de entrada y cada valor n del perodo siguiente se copiarn en la columna
de resultados. El muestreo terminar cuando se llegue al final del rango de entrada.
Nmero de muestras: Introduzca el nmero de valores aleatorios que desee en la columna de
resultados. Cada valor se extrae de una posicin aleatoria del rango de entrada y puede
seleccionarse cualquier nmero ms de una vez.
Rango de salida: Introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados. Los datos se escribirn en una sola columna debajo de la celda. Si
selecciona Peridico, el nmero de valores de la tabla de resultados ser igual al nmero de
valores del rango de entrada, dividido por la tasa de muestreo. Si selecciona Aleatorio, el
nmero de valores de la tabla de resultados ser igual al nmero de muestras.

96

Muestreo estadstico. Conceptos y problemas resueltos

En una hoja nueva: Haga clic en esta opcin para insertar una hoja nueva en el libro actual y
pegar los resultados comenzando por la celda A1 de la nueva hoja de clculo. Para darle un
nombre a la nueva hoja de clculo, escrbalo en el cuadro.
En un libro nuevo: Haga clic en esta opcin para crear un nuevo libro y pegar los resultados
en una hoja nueva del libro creado.
Al pulsar Aceptar en la Figura 2-5, se obtiene la muestra aleatoria simple de tamao
10 con reposicin de la columna C de la Figura 2-6, que ha sido extrada de la poblacin de
22 elementos de la columna B. Si la muestra se quiere sin reposicin, se utiliza este mismo
procedimiento hasta obtener tantos elementos distintos como tamao muestral se requiera.
Centrndonos ya en nuestro problema particular, seleccionaremos nuestra primera
muestra de tamao 50 aleatoria uniforme de valores entre 10 y 20. Para ello, situamos la funcin
ALEATORIO( )*(20-10)+10 en una casilla de Excel y arrastramos esta frmula 50 casillas hacia
abajo. Para seleccionar la muestra de Poisson, en Herramientas A Anlisis de datos elegimos
Generacin de nmeros aleatorios y rellenamos la pantalla de entrada como se indica en la Figura
2-7. Al pulsar Aceptar se obtiene la columna de 50 nmeros aleatorios de Poisson con h = 2. Con
las funciones PROMEDIO(A2:A51) y PROMEDIO(B2:B51) calculamos las medias de ambas
columnas de nmeros aleatorios obteniendo como resultado nmeros cercanos a 15 y 2, que son el
centro del intervalo en la distribucin uniforme y el parmetro de la distribucin de Poisson,
respectivamente.

Figura 2-7
Para representar los histograma de frecuencias de cada muestra, en Herramientas A
Anlisis de datos (Figura 2-8) elegimos Histograma y rellenamos la pantalla de entrada como se
indica en las Figuras 2-9 y 2-10. Al pulsar Aceptar se obtienen los histogramas de frecuencias. La
Figura 2-11 presenta las dos series de nmeros aleatorios con sus distribuciones de frecuencias y
sus histogramas. Se observa que el histograma de la distribucin de Poisson se acerca mucho a una
normal.

Muestreo estadstico: conceptos, estimadores y su distribucin

Figura 2-8

Figura 2-9

Figura 2-10

Figura 2-11

97

98

Muestreo estadstico. Conceptos y problemas resueltos

2.13.

Sea la poblacin {U1, U2, U3} en la que se conocen los valores de una determinada variable X:
X(U1)=2 X(U2)=3 y X(U3)=6. Se seleccionan dos unidades sin reemplazamiento con probabilidades
proporcionales a los valores de la variable X en cada extraccin, resultando elegidas las unidades U1
y U3. Se pide:
1) Calcular la estimacin puntual lineal insesgada para el total de la variable X.
2) Calcular la estimacin por intervalos al 95% para el total de la variable X (poblacin normal).
Como el muestreo es con probabilidades proporcionales a los nmeros 2, 3 y 6,
tenemos que las probabilidades iniciales de seleccin de cada unidad poblacional para la
muestra son Pi = Mi/Mi, es decir: 2/11, 3/11 y 6/11. Como el mtodo es sin reposicin
tomamos como estimador del total el estimador de Horwitz y Thompson y tenemos:
3
1 < 2 Pi
P
+ i
i =1 1 < Pi
1 < Pi

/ i = Pi

2 / 11
3 / 11
6 / 11
1 < 2( 2 / 11)
+
+
+
= 0,468
1 < 2 / 11 1 < 3 / 11 1 < 6 / 11
1 < 2 / 11

/ 1 = (2 / 11)

2 / 11
3 / 11
6 / 11
1 < 2(3 / 11)
+
+
+
= 0,660
1 < 2 / 11 1 < 3 / 11 1 < 6 / 11
1 < 3 / 11

/ 2 = (3 / 11)

2 / 11
3 / 11
6 / 11
1 < 2(6 / 11)
+
+
+
= 0,871
1 < 2 / 11 1 < 3 / 11 1 < 6 / 11
1 < 6 / 11

/ 3 = (6 / 11)

2
X
X HT = i =
i =1

/i

2
6
+
= 11,16
0,468 0,871

Para estimar la varianza necesitamos el valor de /12. Tenemos:

/12 = P(U1U3)=P(U1)P(U3/U1)+P(U3)P(U1/U3)=(2/11)(6/9)+(6/11)(2/5)=0,34
El valor anterior puede calculase tambin mediante:
1
1
+
1 < P 1 < P
i
j

/ ij = Pi Pj

2 6
1
1

=
+
=0,34
11 11 1 < 2 / 11 1 < 6 / 11

2
2
2
X2
X X j / ij < / i / j 4(1 < 0,468) 36(1 < 0,871)
=
+
+
V X HT = 2i (1 < / i ) + 2 i

/ ij
0,468 2
0,8712
i =1 / i
i =1 j > i / i / j

0,34 < (0,468)(0,871)


2
6
+2
u
u
= 15,837 < 11,711 = 4,126
0,468 0,871
0,34

( )

El error relativo de muestreo ser

m ( X HT )
X HT

u 100 =

4,126
u 100 A 18,2%
22

La estimacin por intervalos suponiendo normalidad en la poblacin es:


X h_ m ( X ) = 11,16 1,96 4,126 = [7.17, 15.14]

Muestreo estadstico: conceptos, estimadores y su distribucin

2.14.

99

Consideremos una regin con N = 3 municipios con una poblacin de 3, 5 y 7 miles de habitantes
cada uno. Sabemos que la variable X = Nmero de mujeres en cada municipio toma los valores 1,
3, y 4 (en miles). Para estudiar el nmero medio de mujeres en la regin se toman muestras de dos
municipios con probabilidades proporcionales a sus tamaos sin reposicin y sin tener en cuenta el
orden de colocacin de sus elementos utilizando el mtodo de Brewer. A partir de las distribuciones
en el muestreo de X HT y V ( X HT ) , hallar V ( X HT ) , E ( X HT ) y E (V ( X HT )) . Comentar los
resultados.
Como estamos ante un mtodo de seleccin de unidades primarias compuestas con
probabilidades iniciales proporcionales a los tamaos 3, 5 y 7, dichas probabilidades sern
{3/15, 5/15, 7/15}. Como no hay reposicin y las probabilidades son desiguales, utilizamos el
estimador de Horwitz y Thompson.
Dado que el mtodo de seleccin es el de Brewer tenemos:

/i = nPi = 2Pi , / ij =

1
2 Pi Pj
1
*
+

N
Pi
1 < 2 Pi 1 < 2 Pj
1+
i =1 1 < 2 Pi

Dado que el mtodo es sin reposicin y no importa el orden de colocacin de los


elementos en las muestras, el espacio muestral est constituido por la muestras (u1,u2), (u1,u3) y
(u2,u3) con P1= p(u1) =3 /15, P2 = p(u2) = 5/15 y P3 = p(u3) = 7/15. La distribucin en el
muestreo (con el esquema de seleccin de Brewer) del estimador de Horvitz y Thompson y del
estimador de su varianza, as como el espacio muestral y las probabilidades asociadas a las
muestras se presentan en el siguiente cuadro:
X1

X2

/i

/ ij

6
15
10
15
14
15

1
15
5
15
9
15

X
X2
X HT = 1 +
2 P1 2 P2
7
95
14
123
14

/ / < / 12 X 1 X 2

+
VYG ( X HT ) = 1 2
/ 12
/2
/1
12

0 ,38265
0 , 00170

A partir de las distribuciones de X HT y V ( X HT ) podemos calcular su esperanza y su


varianza de la siguiente forma:
E( X HT ) = 7(1/15)+(95/14)(5/15)+(123/14)(9/15) = 8
V( X ) = (7-8)2(1/15 -8)2+(95/14 -8)2(5/15 -8)2+(123/14 -8)2(9/15) = 0,9285
HT

E( V ( X HT ) ) = 12(1/15)+0,38265(5/15)+0,0017(9/15) = 0,9285
V( V ( X ) ) = (12-0,9285)2(1/15)+(0,38265-0,9285)2 (5/15)+(0,0017-0,9285)2 (9/15) = 8,768
HT

Segn el resultado anterior se tiene E ( X HT ) = 8 = X, con lo que se comprueba que el

estimador de Horwitz y Thompson es insesgado. Tambin se tiene que V ( X HT ) = 0.9285 y

E (V ( X HT )) = 0,9285 = V ( X HT ) , con lo que se comprueba que el estimador de la varianza es

insesgado.

100 Muestreo estadstico. Conceptos y problemas resueltos

2.15.

Resolver el problema anterior considerando ahora el esquema de seleccin de probabilidades


gradualmente variables de Snchez Crespo y Gabeiras con probabilidades iniciales de seleccin de
las unidades {1/6, 1/3, 1/2}. Comparar los resultados con los obtenidos utilizando muestreo con
reposicin sin tener en cuenta el orden de colocacin de los elementos en las muestras.
Segn el esquema de probabilidades gradualmente variables, se puede suponer que existen seis
bolas en una urna de las que una bola representa a la unidad u1, dos bolas representan a la unidad
u2 y tres bolas representan a la unidad u3, ya que P1 = p(u1) = 1/6, P2 = p(u2) = 1/3 = 2/6 y P3 =
p(u3) = 1/2 = 3/6. En cada seleccin se extrae una nica bola que no se repone a la urna para
seleccionar la siguiente bola, con lo que al seleccionar la segunda bola falta una bola de la urna.
Segn este esquema, el espacio muestral y las probabilidades asociadas a las muestras sern:
S(X )
(u 1 , u 2 )
(u 1 , u 3 )
(u 2 , u 2 )
(u 2 , u 3 )
(u 3 , u 3 )

P (u i , u j ) =
1 1
u
6 5
1 3
u
6 5
2 1
u
6 5
2 3
u
6 5
3 2
u
6 5

P (u i ) P (u j / u i ) + P (u j ) P (u i / u j )
2 1
2
+ u =
= 0 ,13333333
6 5 15
3 1
3
+ u =
= 0,2
6 5 15
1
=
= 0 , 06666666
15
3 2
6
+ u =
= 0,4
6 5 15
3
=
= 0,2
15

El estimador insesgado para el total de Snchez Crespo y Gabeiras es:


n
X
X
X
X SCG = i = 1 + 2
2 P1 2 P2
i =1 nPi

6 < 2 1 X 12 X 22 X 32
M < n 1 n X i2


+
+
< 82
Su varianza es V X HT =
< X 2 =
M < 1 n i =1 Pi
6 < 1 2 P1
P2
P3

( )

El estimador insesgado de la varianza vale:


2
6 < 2 1 X 2 X 2

M < n 1 n Xi
2
2
<nX SCG
=
1 + 2 < 2 X SCG

V ( X SCG) =
M n(n <1) i =1 Pi
6 2(2 <1) P1 P2

El cuadro del diseo muestral completo sera el siguiente:


X1

X2

/ ij

X
X
X SCG = 1 + 2
2 P1 2 P2

1
1
3
3
4

3
4
3
4
4

0 ,1333
0,2
0 , 0666
0,4
0,2

7 ,5
7
9
8 ,5
8

2
2

X
1 X
2

V ( X SCG ) = 1 + 2 < 2 X SCG


3 P1
P2

1,5
0 , 6666
0
0 ,1666
0

Muestreo estadstico: conceptos, estimadores y su distribucin

101

A partir del diseo anterior se tiene E ( X SCG ) = (7,5)0,1333 + + 8(0,2) = 8 = X =


1 + 3 + 4, con lo que se comprueba que el estimador de Snchez Crespo y Gabeiras es
insesgado. Tambin se tiene a partir del diseo que V ( X SCG ) = (7,5-8)2(0,1333) + + (8-8)2(0,2)
= 0.4 y E (V ( X SCG )) = (1,5)0,1333 + + 0(0,2) = 0,4 = V ( X SCG ) , con lo que el estimador de

la varianza es insesgado. Por ltimo se tiene V (V ( X SCG )) = (1,5<0,4)2 (0,1333) +


+(0<0,4)2(0,2) = 0,24.

El clculo de la varianza del estimador del total de Snchez Crespo y Gabeiras


tambin puede realizarse a travs de su frmula correspondiente como sigue:

4 1 X12 X22 X32 2 4 1 12 32 42


6 < 2 1 3 Xi2
2
= 0,4

< X 2 =
+
=
+
<
8
V X SCG =
+
+
<
8
5 2 P P P
5 2 1/ 6 1/ 3 1/ 2

6 <1 2 i =1 Pi
2
3
1

( )

Para el caso de muestreo con reposicin sin importar el orden de colocacin de los
elementos en las muestras la probabilidad de cualquier muestra ser:
P(ui,uj) = P(ui)P(uj)+ P(uj)P(ui) = 2 P(ui)P(uj) y P(ui,ui) = [P(ui)]2
Las muestras posibles son (u1,u1), (u1,u2), (u1,u3), (u2,u2) (u2,u3) y (u3,u3) con P1 =
p(u1) = 1/6, P2 = p(u2) = 1/3 y P3 = p(u3) = 1/2,. Como estamos en muestreo con reposicin el
estimador lineal insesgado para el total es el estimador de Hansen y Hurwitz ( X HH = X1/2P1 +
X2/2P2). Como estimador insesgado para la varianza se puede utilizar:
V ( X HH ) =

n X 2
X 2 X
1
1
2
i <nX HH
=
1 + 2
n ( n < 1) i =1 Pi
2( 2 < 1) P1 P2

2
< 2 X HH

La distribucin en el muestreo del estimador de Hansen y Hurwitz y del estimador de su


varianza, as como el espacio muestral y las probabilidades asociadas a las muestras se presentan
a continuacin:
X
X
X HH = 1 + 2
2 P1 2 P2

2
2
X
1 X
2
V ( X HH ) = 1 + 2 < 2 X HH
P
2 P1
2

X1

X2

Pij = P ( u i , u j )

0 ,1666

1
1

3
4

0 ,1666
0 ,1666

7 ,5
7

2 , 25
1

0 ,3333

3
4

4
4

0 ,3333
0 ,5

8 ,5
8

0 , 25
0

Segn la tabla anterior, E ( X HH ) = 6(0,1666) + + 8(0,5) = 8 = X = 1 + 3 + 4, con lo que


se comprueba que el estimador de Hansen y Hurwitz es insesgado. Tambin se tiene que
V ( X HH ) = (6-8)2(0,1666 + + (8-8)2(0,5) = 0,5 y E (V ( X HH )) = 0(0,1666) + +0(0,5) =
0,5 = V ( X ) , con lo que el estimador de la varianza es insesgado. Por ltimo se tiene que
HH

V (V ( X HH )) = (0-0,5)2(0,1666) + + (0-0,5)2(0,5) = 0,5.

102 Muestreo estadstico. Conceptos y problemas resueltos

El clculo de la varianza del estimador del total de Hansen y Hurwitz tambin puede
realizarse a travs de su frmula correspondiente como sigue:

1 12 32 42
1 X2 X2 X2
1 3 X2
V X HT = i < X 2 = 1 + 2 + 3 < 82 =
+
+
< 82 = 0,5

2 i =1 Pi
2 1/ 6 1/ 3 1/ 2
2 P1 P2 P3

( )

Observando los resultados vemos que se cumple V ( X SCG ) =

M <n
u V ( X HH ) , ya que
M <1

0,4=[(6-2)/(6-1)]0,5.
M <n
u V ( X HH ) , ya que V ( X SCG ) = [(6-2)/6] V ( X HH ) para
M
todos los elementos correspondientes de las columnas consideradas en las tablas anteriores.

Adems, V ( X SCG ) =

( )

Como V ( X SCG ) =0,4 y V X HT =0,5, el mtodo de seleccin con probabilidades


gradualmente variables con el estimador de Snchez Crespo y Gabeiras resulta ms preciso
que el mtodo de seleccin con reposicin de Hansen y Hurwitz.

2.16.

Supongamos que tenemos una poblacin de N = 5 nios para los que sus edades correspondientes en
aos son {3, 3, 4, 6, 8} y sus pesos en kilos son {10, 16, 16, 25, 33}. Se toman muestras sin reposicin de tamao 2 de la poblacin de nios con probabilidades proporcionales a sus pesos. Se pide:
1) Obtener un etimador lineal insesgado para la edad media de los nios basado en la muestra de
mayor probabilidad, as como su error de muestreo.
2) Si consideramos la seleccin de la primera unidad muestral proporcional al peso y la segunda
con probabilidades iguales, obtener un estimador lineal insesgado para la edad media de los
nios basado en la muestra (4,8) as como su error de muestreo.
Como no se especifica nada respecto al orden de colocacin de los elementos en las muestras y
el muestreo es sin reposicin, supondremos que el orden no interviene. Habr entonces

5
=10 muestras posibles, que son: (3,3), (3,4), (3,6), (3,8), (3,4), (3,6), (3,8), (4,6), (4,8) y (6,8).
2
Las probabilidades iniciales de seleccin Pi proporcionales a M1=10, M2=16, M3=16,
M4=25 y M5=33 originan los siguientes valores: Pi = {M1/M=1/10, M2/M=4/25, M3/M=4/25,
M4/M=1/4, M5/M=33/100}. Las probabilidades /ij se calcularn de la siguiente forma:

/ ij = P((u i u j ) D ( ~x )) = P(u i D 1 E u j D 2 ) + P(u j D 1 E u i D 2 )


= P (u i D 1 ) P (u j D 2 / u i D 1 ) + P (u j D 1 ) P (u i D 2 / u j D 1 ) =
1
Mj
Mj
Pj
Mi
Mi
P
1
u
+
u
= Pi u
+ Pj u i = Pi Pj
+

M M < Mi
M M <Mj
1 < Pi
1 < Pj
1 < Pi 1 < Pj

Y como ya conocemos las Pi, para calcular las probabilidades /ij basta sustituir en la
frmula anterior. Tambin es posible el clculo como sigue:

/11 = P(3,3) = P(3D1)P(3D2/3D1) + P(3D1)P(3D2/3D1) = (M1/M)(M2/(M-M1)) +


(M2/M)(M1/(M-M2)) = (1/10)(16/90) + (4/25)(10/84) = 0,0368

Muestreo estadstico: conceptos, estimadores y su distribucin

103

/12 = P(3,4) = P(3D1)P(4D2/3D1) + P(4D1)P(3D2/4D1) = (M1/M)(M3/(M-M1)) +


(M3/M)(M1/(M-M3)) = (1/10)(16/90)+(4/25)(10/84) = 0,0368

/13 = P(3,6) = P(3D1)P(6D2/3D1) + P(6D1)P(3D2/6D1) = (M1/M)(M4/(M-M1)) +


(M4/M)(M1/(M-M4)) (1/10)(25/90)+(1/4)(10/75) = 0,0611
De la misma forma se obtiene /14=0,0611, /15=0,0859, /23=0,0609, /24=0,1009,
/25 =0,1416, /34 =0,1009, /35 =0,1416 y /45 =0,2331
El clculo de los /i se realiza de la forma siguiente:

/1 = /12+/13+/14+/15=0,0368+0,0368+0,0611+0,0859=0,22069
/2 = /12+/23+/24+/25=0,0368+0,0609+0,1009+0,1416=0,34039
/3 = /13+/23+/34+/35=0,0368+0,0609+0,1009+0,1416=0,34039
/4 = /14+/24+/34+/45=0,0611+0,1009+0,1009+0,2331=0,49614
/5 = /15+/25+/35+/45=0,0859+0,1416+0,1416+0,2331=0,60237
Tambin pueden calcularse los / i mediante una expresin que los haga depender
solamente de los Pi, tal y como se indica a continuacin.

/ i = P(ui D(~x )) = P(ui D1 ) + P(ui D 2 E u j &i D1 ) = P(ui D1 ) +


P(ui D 2 / u j &i D1 )P(u j &i D1 ) = P(ui D1 ) + P(ui D 2 / u j D1 )P(u j D1 )
j &i

Pj
P
Mi
P
= Pi 1 < 2Pi + Pi + j
Pj = Pi + i Pj = Pi 1 +
j &i 1 < P
1< P
j &i 1 < Pj
j &i M < M j
j &i 1 < Pj
j
i

N
N
P
Pj

1 < 2Pi
Pi
j

= P 1 < 2Pi +
= Pi 1 < 2Pi + Pi
= Pi
+
+

1< P

1 < Pi 1 < Pi j &i 1 < Pj


j =1 1 < Pj
i
1 < Pi i =1 1 < Pi

144
42444
3

= Pi +

Y como ya conocemos las Pi, para calcular las probabilidades /ij basta sustituir en
la frmula anterior, con lo que se obtienen los mismos resultados. El diseo muestral ser el
siguiente:
X HT =

Xi

1 2 X
X HT = i
N i =1 / i
4, 482
5,068
5,138

S(X )

P ( X ) = / ij

(3,3)
(3, 4)
(3,6)

0,0368
0,0368
0,0611

3 / 0, 22069 + 3 / 0,34039 = 22 , 41
3 / 0, 22069 + 4 / 0,34039 = 25,34
3 / 0, 22069 + 6 / 0, 49614 = 25,69

(3,8)
(3, 4)
(3,6)
(3,8)

0,0859
0,0609
0,1009
0,1416

3 / 0, 22069
3 / 0,34039
3 / 0,34039
3 / 0,34039

= 26 ,87
= 20 ,56
= 20 ,91
= 22 ,09

5,374
4,112
4,182
4, 418

( 4,6 )
( 4,8)
(6,8)

0,1009
0,1416
0,2331

4 / 0,34039 + 6 / 0, 49614 = 23,84


4 / 0,34039 + 8 / 0,60237 = 25,03
6 / 0, 49614 + 8 / 0,60237 = 25,37

4,768
5,006
5,074

i =1

+ 8 / 0,60237
+ 4 / 0,34039
+ 6 / 0, 49614
+ 8 / 0,60237

104 Muestreo estadstico. Conceptos y problemas resueltos

Como el muestreo es sin reposicin se utiliza el estimador insesgado de Horwitz y


Thompson. Para el total dicho estimador basado en la muestra de mayor probabilidad, la (6,8),
vale 25,37. Para la media vale 5,074. Se estima entonces que la edad media es 5 aos.
Para calcular las varianzas de estos estimadores se pueden utilizar directamente las
frmulas adecuadas, o bien se puede calcular la distribucin en el muestreo de los estimadores.
Para el total tenemos:

( )

X
X
V X HT = i (1 < / i ) + 2 i
5

i =1

/i

i =1 j >i

Xj

/i / j

(/

ij

< / i/ j ) =

X 12

/1

(1 < / 1 ) + L +

X 52

/5

(1 < / 5 ) +

32
82
X X

X X
(1 < 0,22069) + L +
(1 < 0,60237)
+ 2 1 2 (/ 12 < / 1/ 2 ) + L + 4 5 (/ 45 < / 4/ 5 ) =
0,60237
/4 /5
/1 / 2
0,22069
3
8
3
(0,03683< 0,22069* 0,34039) + L + 6
(0,23313< 0,49614* 0,60237)
+ 2
0
,
22069
0
,
34039
0
,
49614
0
,
60237

=4,25.

( )

Para la media, como V X HT = N 2V ( X HT ) V ( X HT ) = V ( X HT ) /25 = 4,25/25 = 0,17.

El estimador insesgado para la varianza basado en la muestra de mayor probabilidad


(6,8) ser:
2
2 2
X X (/ < / / )
X2
X X j (/ ij < / i/ j ) X12
X2
V X HT = 2i (1 < / i ) + 2 i
= 2 (1 < /1 ) + 22 (1 < / 2 ) + 2 1 2 12 1 2 = 0,41
/ ij
/1
/2
/12
i =1 / i
i =1 j > i / i / j
/1 / 2

( )

Para la media, V ( X HT ) = V ( X HT ) /25 = 0,41/25 = 0,016.


Para el segundo apartado del problema las probabilidades Pi proporcionales a M1=10,
M2=16, M3=16, M4=25 y M5=33 en la primera extraccin tienen los siguientes valores:
P1=M1/M=1/10, P2=M2/M=4/25, P3=M3/M=4/25, P4=M4/M=1/4 y P5=M5/M=33/100. Las
probabilidades iguales en segunda extraccin valdrn 1/4. Las probabilidades /ij se calcularn
de la siguiente forma:

/ ij = P((u i u j ) D ( ~x )) = P(u i D 1 E u j D 2 ) + P (u j D 1 E u i D 2 )
= P(u i D 1 ) P(u j D 2 / u i D 1 ) + P(u j D 1 ) P(u i D 2 / u j D 1 ) =
Mi 1 M j 1
1
1 Pi + Pj
u +
u = Pi u + Pj u =
M 4 M 4
4
4
4

Calculamos ahora los / i mediante una expresin que los haga depender solamente de
los Pi, tal y como se indica a continuacin.

/ i = P(u i D ( ~x )) = P(u i D 1 ) + P(u i D 2 E u j &i D 1 )


= P(u i D 1 ) + P(u i D 2 / u j &i D 1 ) P(u j &i D 1 )
= P(u i D 1 ) + P(u i D 2 / u j D 1 ) P(u j D 1 )
j &i

1
1
1
3
1
= Pi + Pj = Pi + Pj = Pi + (1 < Pi ) = Pi +
4 j &i
4
4
4
j &i 4

Muestreo estadstico: conceptos, estimadores y su distribucin

105

Se observa que estamos ante el mtodo de seleccin sin reposicin de Ikeda para el
caso de tamao de muestra n=2, con lo que las / i y / ij tambin podran haberse calculado
mediante las expresiones siguientes (se obtendran los mismos resultados):

/ i = Pi + (1 < Pi ) *
/ ij =

n <1
n <1 N < n
* Pi +
=
N <1
N <1 N <1

n <1 N < n
(Pi + Pj ) + n < 2
*
N <1 N < 2
N < 2

Ya tenemos todos los datos para calcular los valores de / i y / ij , pues slo dependen de Pi
y Pj que son datos. Tambin podemos calcular ya el estimador X HT . El diseo muestral ser:
S ( X ) P( X ) = / ij =
(3,3)
(3,4)
(3,6)

Pi + Pj

0,065
0,065

(3,8)
(4,6)

0,1025
0,1225
0,1025

(4,8)
(6,8)

0,1225
0,145

(3,6)

i =1

/i

/i =

3 / 0,325 + 3 / 0,37 = 17,34


3 / 0,325 + 4 / 0,37 = 20,04
3 / 0,325 + 6 / 0,4375 = 22,95
3 / 0,325 + 8 / 0,4975 = 25,31

0,0875
0,1075
0,08

(3,8)
(3,4)

2
X
X HT = i

3
1
Pi +
4
4

0,325
0,37
0,37

3 / 0,37 + 4 / 0,37 = 18,92


3 / 0,37 + 6 / 0,4375 = 21,82

0,4375
0,4975

3 / 0,37 + 8 / 0,4975 = 24,19


4 / 0,37 + 6 / 0,4375 = 24,53
4 / 0,37 + 8 / 0,4975 = 26,90
6 / 0,4375 + 8 / 0,4975 = 29,8

Vemos que para la muestra (4,8) el estimador insesgado de Horvitz y Thompson para
el total poblacional vale 26,90 y para la media 26,90/5 = 5,38. Sigue obtenindose que la edad
media estimada de los nios es 5 aos aproximadamente.
Para hallar la varianza del estimador del total se puede utilizar su distribucin en el
muestreo o bien se puede aplicar directamente la frmula apropiada tal y como se indica a
continuacin:

( )

2
2
5
5 5
X2
X Xj
(/ ij < / i/ j ) = X1 (1 < /1 ) + L + X 5 (1 < / 5 ) +
V X HT = i (1 < / i ) + 2 i
i =1

/i

i =1 j > i

/i / j

/1

/5

32
82

X X
X X
(1 < 0,325) + L +
(1 < 0,4975)
+ 2 1 2 (/12 < /1/ 2 ) + L + 4 5 (/ 45 < / 4/ 5 ) =
/ 4 /5
0,4975
0,325
/1 / 2
8
3
3
(0,065 < 0,325* 0,37) + L + 6
(0,145 < 0,4375* 0,4975) = 12,66
+ 2
0,4375 0,4975
0,325 0,37

El estimador insesgado para la varianza basado en la muestra (4,8) ser:

106 Muestreo estadstico. Conceptos y problemas resueltos


2
2 2
X X (/ < / / )
X2
X X (/ < / / ) X 2
X2
V X HT = 2i (1 < / i ) + 2 i j ij i j = 12 (1 < /1 ) + 22 (1 < / 2 ) + 2 1 2 12 1 2
/ ij
/1
/2
/12
i =1 / i
i =1 j >i / i / j
/1 / 2

2
2
4
8
8 (0,1225< 0,37 * 0,4975])
(1 < 0,37) +
(1 < 0,4975) + 2 4
=
= 43,3
2
2
0,1225
0,37
0,4975
0,37 0,4975

( )

( )

1
Para la media se tiene que V X HT = V X HT = 1,73 .

25

Para hallar el estimador insesgado para la varianza basado en la muestra (4,8) tambin
se puede usar el estimador insesgado de Yates y Grundy de la forma siguiente:
2
2 2
X X j (/ i/ j < / ij ) X1 X 2 (/1/ 2 < /12 ) 4
8 (0,37* 0,4975< 0,1225])
V X HT = i <
= <
=
<
=13,958

0,1225
/ j
/ ij
/12
i =1 j >i / i
0,37 0,4975
/1 / 2

( )

Para la media, V X HT

( )

= 1 V X
HT = 0,55
25

Se observa que para la muestra (4,8) el estimador de Yates y Grundy para la varianza
del total resulta ms preciso que el estimador de la varianza de Horwitz y Thompson.

Muestreo estadstico: conceptos, estimadores y su distribucin

107

EJERCICIOS PROPUESTOS
2.1.

Supongamos que tenemos una poblacin de N = 3 unidades primarias de la que se obtienen


todas las muestras posibles de tamao n = 2 con probabilidades iguales y bajo los siguientes
supuestos:
Muestreo sin reposicin sin intervenir el orden
Muestreo sin reposicin interviniendo el orden
Muestreo con reposicin sin intervenir el orden
Muestreo con reposicin interviniendo el orden
Se pide:
Hallar el espacio muestral asociado a los cuatro tipos de muestreo y las probabilidades
asociadas a las muestras.
Si al medir una variable X sobre los elementos de la poblacin se obtienen los valores {1, 3, 4},
cul de todos los mtodos de muestreo es ms preciso al estimar el total poblacional mediante
un estimador lineal insesgado apropiado?

2.2.

Una poblacin consta de 40000 unidades distribuidas en 400 conglomerados de 100 unidades
cada uno. Una muestra aleatoria con probabilidades iguales sin reposicin de tamao 25
conglomerados presenta los siguientes datos:
Total de unidades
12 17 23 33 36
de la clase C
N de conglomerados
2 3 9 5 6
de la muestra

Estimar el total y la proporcin de unidades de la poblacin que pertenecen a la clase C, as como


sus errores de muestreo absolutos y relativos.

2.3.

Supongamos que tenemos una poblacin de N = 5 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores 3, 3, 4, 6 y 8. Se toma una muestra de tamao n = 2
sin reposicin asignando en la primera extraccin probabilidades proporcionales a los nmeros
10, 16, 16, 25 y 33, y tambin en la segunda (prescindiendo de la unidad seleccionada en primer
lugar). Se pide:
Calcular las probabilidades /ij (i&j) y comprobar que /i =2 para i = 1, 2, ..., 5
N

Comprobar tambin que

/ i = n < / j y
i =1
i& j

/
i =1
i& j

ij

= (n < 1)/ j .

Obtener estimadores lineales insesgados para el total y la media (para la muestra de mayor
probabilidad), as como sus errores de muestreo.

2.4.

Supongamos que tenemos una poblacin de N = 3 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores {1, 3, 4} con probabilidades de seleccin
proporcionales a los tamaos 3, 5 y 7. Se toman muestras de tamao n=2 sin reposicin y sin
tener en cuenta el orden de colocacin de los elementos mediante el mtodo de seleccin de
y V ( X ) , hallar V ( X ) ,
Durbin. A partir de las distribuciones en el muestreo de X
E ( X HT ) y E (V ( X HT )) . Comentar los resultados.

HT

HT

HT

CAPTULO
MUESTREO ALEATORIO SIMPLE SIN Y
CON REPOSICIN. SUBPOBLACIONES

OBJETIVOS
1. Introducir el concepto de muestreo aleatorio simple.
2. Comprender las especificaciones del muestreo aleatorio simple sin
reposicin o muestreo irrestricto aleatorio.
3. Analizar el muestreo aleatorio simple sin reposicin.
4. Estudiar las estimaciones, errores y estimacin de los errores en muestreo
aleatorio simple sin reposicin.
5. Especificar los factores de elevacin en muestreo aleatorio simple sin
reposicin.
6. Evaluar el tamao de la muestra en muestreo aleatorio simple sin
reposicin.
7. Comprender las especificaciones del muestreo aleatorio simple con
reposicin.
8. Analizar el muestreo aleatorio simple con reposicin.
9. Estudiar las estimaciones, errores y estimacin de los errores en muestreo
aleatorio simple con reposicin.
10. Especificar los factores de elevacin en muestreo aleatorio simple con
reposicin.
11. Evaluar el tamao de la muestra en muestreo aleatorio simple con
reposicin.
12. Comparar el muestreo aleatorio simple con y sin reposicin.
13. Obtener estimadores en subpoblaciones con y sin reposicin.
14. Calcular errores y estimacin de los errores en subpoblaciones con y sin
reposicin.

110 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo aleatorio simple sin reposicin. Especificaciones
2. Estimadores, varianzas y estimacin de varianzas.
3. Tamao de la muestra.
4. Muestreo aleatorio simple con reposicin. Estimadores
5. Varianzas y su estimacin con reposicin.
6. Tamao de la muestra con reposicin.
7. Comparacin entre muestreo aleatorio sin y con reposicin.
8. Subpoblaciones.
9. Problemas resueltos.
10. Ejercicios propuestos.

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

111

MUESTREO ALEATORIO SIMPLE SIN REPOSICIN. ESPECIFICACIONES


El muestreo aleatorio simple sin reposicin es un procedimiento de seleccin de muestras con
probabilidades iguales, que consiste en obtener la muestra unidad a unidad de forma aleatoria sin
reposicin a la poblacin de las unidades previamente seleccionadas, teniendo presente que el
orden de colocacin de los elementos en las muestras no interviene (es decir, que muestras con
los mismos elementos colocados en orden distinto se consideran iguales). De esta forma, las
muestras con elementos repetidos son imposibles. Como el procedimiento de seleccin es con
probabilidades iguales, todas las muestras son equiprobables, y adems se cumple que todas las
unidades de la poblacin tienen la misma probabilidad de pertenecer a la muestra /i = n/N. Se
supone que el tamao de la poblacin es N y el tamao de la muestra es n. Como la muestra
se selecciona sin reposicin, se realiza la seleccin sucesiva de las unidades para la muestra
con probabilidades 1/(N< t) para valores de t = 0, 1, ..., n.
Podramos resumir las especificaciones del muestro aleatorio simple sin reposicin o
muestreo irrestricto aleatorio como sigue:

Se trata de un tipo de muestreo de unidades elementales.

Consiste en obtener la muestra unidad a unidad de forma aleatoria sin reposicin a la


poblacin de las unidades previamente seleccionadas.

El orden de colocacin de los elementos en las muestras no interviene; es decir, las


muestras con los mismos elementos colocados en orden distinto se consideran iguales.

Las muestras con elementos repetidos son imposibles.

Se trata de un procedimiento de seleccin con probabilidades iguales porque todas las


unidades de la poblacin van a tener la misma probabilidad de pertenecer a la muestra.

Todas las muestras son equiprobables.

Probabilidad de una muestra cualquiera


En la seleccin de una muestra aleatoria simple sin reposicin de n elementos de entre los N
de la poblacin, el espacio muestral asociado tiene un nmero total de muestras igual a:

N
C N ,n =
n
ya que el orden de colocacin de los elementos en las muestras no interviene. Como el
procedimiento es con probabilidades iguales, la probabilidad de una muestra cualquiera ser:

p( u1 ,L, un ) =

Casos favorables
1
1
=
=
Casos posibles
C N ,n N

n

Estamos entonces ante un procedimiento de seleccin con muestra equiprobables.

112 Muestreo estadstico. Conceptos y problemas resueltos

Probabilidad /i que tiene una unidad de la poblacin de pertenecer a la muestra


Para calcular la probabilidad /i que tiene una unidad de la poblacin de pertenecer a
la muestra observamos que el nmero de muestras posibles de tamao n en seleccin
irrestricta aleatoria es:
N
CN,n =
n

Por otra parte, el nmero de muestras posibles que se pueden formar con los
elementos de la poblacin y que contengan al elemento dado ui ser:

N <1

CN<1,n<1 =
n<1
ya que en este caso se fija el elemento ui y las muestras posibles resultan de las formas
posibles de seleccionar de entre los N-1 elementos de la poblacin restantes n-1 de ellos para
la muestra (el elemento ui ya est fijo en la muestra).
Tenemos entonces:

/ i = P (u i D ( ~x ) ) =

Casos favorables
=
Casos posibles
N de muestras que contienen la unidad u i
=
N total de muestras
N < 1
( N < 1)!
( N < 1)!

<
n
1
= ( n < 1)! ( N < n )! = ( n < 1)! ( N < n )! = 1 = n
=
N .( N < 1)!
N
N!
N
N

<
<
n
n
N
n
n
n
N
n
<
(
1
)!
(
)!
!
(
)!
n

Como todas las unidades de la poblacin tienen la misma probabilidad de pertenecer a


la muestra, estamos ante un procedimiento de seleccin con probabilidades iguales.

ESTIMADORES, VARIANZAS Y ESTIMACIN DE VARIANZAS


Ya sabemos que el estimador lineal insesgado general para el caso de muestreo sin reposicin
es el estimador de Horvitz y Thompson e HT .

()

Y
Se tiene que eHT = i estima e = Yi , con E e = e , es decir, insesgadamente,
N

i =1

/i

i =1

siendo /i la probabilidad de que la unidad ui pertenezca a la muestra (/i = n/N).


Entonces podemos deducir los estimadores lineales insesgados para el total (Yi=Xi),
media (Yi =Xi/N), proporcin (Yi =Ai/N) y total de clase (Yi =Ai) como sigue:

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

Xi
1 n
= N X i = Nx
n4i2
i =1
i =1 / i
i =1 n
=1
1
4
3
N
x
Xi
Xi
N
n
n
Xi
Xi
1 n
e = X =
Yi =
e = X = N = N = X i = x
N
n i =1
i =1 N
i =1 / i
i =1 n
N
Ai
N
n
A
A
1 n
e = P = i Yi = i e = P = N = Ai
N
n i =1
i =1 N
i =1 n
N
N
n
A
1 n
e = A = Ai Yi = Ai e = A = i = N Ai = NP
n i =1
i =1
i =1 n
N
N

e = X = X i Yi = X i e = X =

Xi

113

Se observa que los estimadores de la media y la proporcin poblacional son los


estimadores por analoga (media y proporcin muestral), mientras que los estimadores del total y
el total de clase poblacionales son la expansin mediante el tamao poblacional de la media y
proporcin muestrales (en este caso, X = Nx = ( N / n) x los factores de elevacin son N/n).

Varianzas de los estimadores


Sabemos que la varianza del estimador de Horvitz y Thompson est dada por la expresin:
N

Yi Yj

i< j

/ i/ j

Y
V e$HT = i (1 < / i ) + 2

( )

i =1

/i

(/

ij

< / i/ j

Para el caso particular del muestreo aleatorio simple sin reposicin se sabe que /i = n/N
y /ij = n(n <1) / [N(N <1)]. Considerando el estimador del total y sustituyendo estos valores de /i
y /ij en la expresin de la varianza tenemos:
N
N
N X X
X2
n
n n
i
j n (n < 1)

V X = i 1 < + 2
<
n
N
N N
i =1
i =1 j > i n n N ( N < 1)
N N
N
2
1 N
(
)
X
X
<
i
n N <1
S2

i =1
= N 2 (1 < f )
= N 2 1 <
N
n
n

( )

Para los estimadores de la media, total y total de clase tenemos:


2

S
V X = (1 < f )

n

N
PQ
S
N 1
1
N
<

(1< f )PQ
= (1< f )
=
V P = (1< f )
n
n
N <1 n

()

N
PQ
2
S
N3 1
2
2
<
N
1

(1 < f )PQ
V A = N (1 < f )
= N (1 < f )
=
n
n
N <1 n

()

114 Muestreo estadstico. Conceptos y problemas resueltos

Estimacin de varianzas
Sabemos que la varianza del estimador de Horvitz y Thompson est dada por la expresin:
2

Y
V$ ( e$ HT ) = i 2 ( 1 < / i ) +
n

i =1

/i

i< j

Yi Yj / ij < / i /

/ i/

/ ij

Si aplicamos la expresin anterior al estimador del total tendremos:


n(n < 1)
n n

<
X i X j N (N < 1) N N
X
n

=
V X =
1 < + 2
n(n < 1)
N
i =1 n
i =1 j > i n n

N (N < 1)
N N
N2
2
N (N < n ) 1 n
S 2
2
2 (N < n ) S
2
(
)
(
)
<
=
=
<
1
X
x
N
N
f
i

n
n < 1 i =1
n
N
N
144
424443

( )

2
i
2

S 2

Para los estimadores de la media, total y total de clase tenemos:


S 2
V ( X ) = (1 < f )
n

n
PQ
2
S
1
V P = (1 < f )
PQ
= (1 < f ) n < 1
= (1 < f )
n
n
n <1

()

n $$
PQ
2
$
S
1 $$
n <1
V$( A$ ) = N 2 ( 1< f ) = N 2 ( 1< f )
= N 2 (1< f )
PQ
n
n
n <1

De las frmulas de las varianzas y sus estimaciones, se deduce que en muestreo


aleatorio simple sin reposicin la cuasivarianza muestral

1 n
( X i < x )2
S 2 =

n < 1 i =1
es un estimador insesgado de la cuasivarianza poblacional S 2 =

1 N
Xi < X
N <1 i =1

TAMAO DE LA MUESTRA
Estudiaremos el tamao de muestra necesario para cometer un error de muestreo e = m( e )
dependiendo de si e estima la media, el total, la proporcin o el total de clase.
Media:
n S2 S2 S2

e 2 = 1 <
=
<
n
N n
n
N

2
2
2
2
S
S
S
NS

= e2 +
n=
=
2
n
N
S
Ne 2 + S 2
e2 +
N
Se observa que cuando N A ' (fraccin de muestreo n/N tendiendo a cero) el tamao
muestral n A S2/e2 = n0 (n inversamente proporcional al cuadrado del error de muestreo).
e = m ( X ) =

(1 < f ) S

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

115

La expresin del tamao muestral n puede ponerse en funcin de N y del valor n0


como sigue:
n=

n0
n N
S2
S 2 e2
=
=
= 0
= f (N )
2
2
2
n0 n0 + N
S
S e
2
1+
1+
e +
N
N
N

Si representamos grficamente la curva de ecuacin n = f(N) observamos que pasa


por el origen de coordenadas, ya que f(0) = 0, que tiene una asntota paralela al eje OX de
ecuacin n = n0, ya que lim f (N) = n0 , que es siempre creciente dado que la primera derivada:
N A'

f '(N ) =

n 02
( n0 + N ) 2

es siempre positiva, que no tiene mximos ni mnimos dado que la ecuacin definida por
f(N) = 0 no tiene solucin en N, que es siempre convexa ya que la segunda derivada:
f ''(N ) = <

2 n 02
( n0 + N ) 3

es siempre negativa y que no tiene puntos de inflexin ya que que la ecuacin definida por
f(N)=0 no tiene solucin en N. Por tanto, la representacin grfica de n = f(N) es la
siguiente:
n
n = n0
n0

n0 < n

n-

Como la curva n = f(N) es creciente, al aumentar el tamao poblacional N tambin


aumenta el tamao muestral n necesario para un error de muestreo dado. Pero como n ha de
ser un nmero entero y la curva n=n0 es una asntota horizontal, desde un cierto N en
adelante los aumentos de N no producen aumentos en n. Precisamente los aumentos de N no
producen aumentos en n cuando |n0 < n|<1. Pero:

n0 N
n02
S2 S2
2
n0 < n = n0 <
=
< 1 n0 < n0 + N N > n0 (n0 < 1) = 2 2 < 1
n0 + N n0 + N
e e

Luego la misma precisin da una muestra de tamao n para una poblacin de N


elementos que para una poblacin de N elementos con N > N siempre y cuando se cumpla que:

S2 S2
N > n 0 ( n 0 < 1) = 2 2 < 1
e e

116 Muestreo estadstico. Conceptos y problemas resueltos

Total:

S2
n S 2 N 2S 2 N 2S 2

e 2 = N 2 1 <
=
<

e = m ( X ) = N 2 (1 < f )
n
n
N
N n
N 2S 2
N 2S 2
N 2S 2
N 3S 2
N 2S 2

= e2 +
n=
=
=
2
2 2
N 2S 2 1
+ N43
n
N
Ne42
S
e 2 + NS 2
e2 +
N
N e 2 + NS 2

La expresin anterior tambin puede escribirse como:


2

S
N
2
e = N n1 = f ( N )
n=
2
1 + Nn1
S
1+ N
e
2

Si representamos grficamente la curva de ecuacin n = f(N) observamos que pasa


por el origen de coordenadas ya que f(0) = 0, que tiene una asntota oblicua de ecuacin n =
N <1/n1 ya que:
lim
N A'

f (N )
<N
1
= 1 y lim ( f ( N ) < N ) = lim
=<
N
A
'
N
A
'
1 + n1 N
n1
N

Adems es siempre creciente ya que la primera derivada:

2n1 N + n12 N 2
f '(N ) =
(1 + n1 N ) 2
es siempre positiva, que no tiene mximos ni mnimos ya que la ecuacin definida por
f(N)=0 no tiene solucin en N, que es siempre cncava puesto que:

f ''(N ) =

2 n12 N
(1 + n1 N ) 3

es siempre positiva. Por tanto, la representacin grfica de n = f(N) es la siguiente:


n
n=f(N)
n=N-1/n1

1/n1

Observando la grfica de n = f(N) se ve que n siempre crece al crecer N, es decir,


que al aumentar el tamao poblacional tambin aumentar el tamao de muestra necesario
para cometer un error de muestreo prefijado.

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

117

Proporcin:
Si sustituimos el valor de S2 para variables Ai (que slo toman los valores 0 y 1) en la frmula
del tamao muestral para la media tendremos para la estimacin de la proporcin el tamao:
2

NS
=
n=
Ne 2 + S 2

N
PQ
N <1

N 2 PQ
NPQ
=
2 = 2
N
NPQ + ( N < 1) Ne
e ( N < 1) + PQ
3
PQ + Ne 2 14442444
N <1
N e 2 ( N < 1) + PQ

En el caso de la proporcin se observa que cuando N A ' (fraccin de muestreo n/N


N
PQ e 2 PQ e 2 =n0 (n inversamente
tendiendo a cero) el tamao muestral n A S2/e2 =
N <1
proporcional al cuadrado del error de muestreo y directamente proporcional a la proporcin
poblacional P). En este caso, la misma precisin da una muestra de tamao n para una
poblacin de N elementos que para una poblacin de N elementos con N > N siempre y
cuando se cumpla la desigualdad definida por:
N
N

PQ
PQ PQ

PQ
N < 12
N > n0 (n0 < 1) = N < 12
< 1
2 < 1
2
e
e

e e

Para la estimacin de la proporcin es muy interesante tener en cuenta que para


poblaciones grandes o fraccin de muestreo pequea (N A '), el valor mximo de n se
obtiene para P = Q = 1/2. Para constatar este resultado sabemos que si N A ' el tamao
muestral n tiende al valor n0 = PQ/e2 = f(P), expresin que tenemos que maximizar en P. Si
igualamos la primera derivada al valor cero tenemos que como f(P) = P(1<P)/e2 entonces
f(P) = (1<2P)/e2 = 0 P = 1/2. Por otra parte f (P) = <2/e2 < 0, lo que asegura la presencia
de un mximo para la funcin f en el punto P = 1/2. Como Q =1<P = 1<1/2 = 1/2, el valor
mximo de n para poblaciones grandes o fracciones de muestreo pequeas se obtiene para P =
Q = 1/2. Por lo tanto, para un error prefijado se necesitarn tamaos de muestra ms pequeos
cuanto ms prximo est P a cero o a uno. Este resultado es muy importante en la prctica, ya
que cuando se estiman proporciones y no se conoce el valor de la proporcin poblacional P
ni se tiene una aproximacin suya (proporcionada por una encuesta similar, por una
encuesta piloto, por la misma encuesta realizada anteriormente o por cualquier otro
mtodo), entonces se toma P=1/2, con lo que estamos situndonos en el caso de mximo
tamao muestral para el error fijado, lo cual siempre es aceptable estadsticamente. La
dificultad prctica puede ser que se obtenga un tamao muestral n demasiado grande para el
presupuesto de que se dispone.
Total de clase:
Si sustituimos el valor de S2 para variables Ai (que slo toman los valores 0 y 1) en la frmula
del tamao muestral para el total tendremos para la estimacin del total de clase el tamao:

N 2S 2
=
n= 2
e + NS 2

N
PQ
N 3 PQ
N <1
= 2
N
e (N < 1) + N 2 PQ
PQN
e2 +
N <1
N2

118 Muestreo estadstico. Conceptos y problemas resueltos

Tambin puede estudiarse el tamao de muestra necesario para cometer un error


relativo de muestreo er = Cv( e) dependiendo de si se estima la media, el total, la proporcin
y el total de clase.
Asimismo, es tpico introducir un coeficiente de confianza adicional P_ al error de
muestreo a cometer (lmite de tolerancia). En este caso las frmulas de los tamaos muestrales
necesarios para cometer un error absoluto o relativo de muestreo dado en presencia del
coeficiente de confianza adicional se derivarn de las expresiones e_ = h_m( e) y er_ = h_Cv( e) .
En general h_ = F-1(1<_/2), siendo F la funcin de distribucin de una normal (0,1).
El cuadro siguiente resume las expresiones de los tamaos muestrales.
Tipo de error A
Parmetro
?
Media

Absoluto
e

Relativo
er

NS 2
Ne 2 + S 2

NC 1,2 x

Total
Proporcin
Total de clase

N S
e 2 + NS 2
NPQ
e 2 ( N < 1) + PQ
N 3 PQ
e 2 ( N < 1) + N 2 PQ

Relativo y
confianza

Absoluto y coeficiente
de confianza adicional
e_

h_2 NS 2
Ne 2 + h_2 S 2
h_2 N 2 S 2
e 2 + h_2 NS 2
h_2 NPQ
e 2 ( N < 1) + h_2 PQ
h_2 N 3 PQ
e 2 ( N < 1) + h_2 N 2 PQ

Ne r2 + C 1,2 x
NC 1,2 x
Ne r2 + C 1,2 x
NQ
P ( N < 1)e r2 + Q
NQ
P ( N < 1)e r2 + Q

e r_

h_2 NC 1,2 x
Ne r2_ + h_2 C 1,2 x
h_2 NC 1,2 x
Ne r2_ + h_2 C 1,2 x
NQh_2
e r2_ ( N < 1) P + h_2 Q
NQh_2
e r2_ ( N < 1) P + h_2 Q

En todas las frmulas S2 es la cuasivarianza poblacional y C1,2 x = (S / X ) . Por otra parte,


2

h_ es el valor crtico de la normal unitaria al nivel _.


MUESTREO ALEATORIO SIMPLE CON REPOSICIN. ESTIMADORES
El muestreo aleatorio simple con reposicin es un procedimiento de seleccin con
probabilidades iguales que consiste en obtener la muestra unidad a unidad de forma aleatoria
con reposicin a la poblacin de las unidades previamente seleccionadas. De esta forma las
muestras con elementos repetidos son posibles y cualquier elemento de la poblacin puede
estar repetido en la muestra 0, 1, ..., n veces. Supongamos en todo momento que el tamao
de la poblacin es N y el tamao de la muestra es n. Como la muestra se selecciona con
reposicin (se reponen a la poblacin las unidades previamente seleccionadas) y con
probabilidades iguales, se realiza la seleccin sucesiva de las unidades para la muestra con
probabilidades Pi = 1/N y todas las muestras son equiprobables, ya que:
P(u1, u2, ..., un) = P(u1)P(u2) ... P(un) = (1/N)(1/N) ... (1/N) = 1/(Nn)
En cuanto a los estimadores, partimos de que el estimador lineal insesgado general
para el caso de muestreo con reposicin es el estimador de Hansen y Hurwitz e$

HH

=
i =1

Yi
nPi

(Pi = probabilidad de seleccionar la unidad ui de la poblacin para la muestra =1/N), que estima
insesgadamente la caracterstica poblacional e =

Y . Segn los distintos valores de Y se tiene:


i =1

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

119

n
Xi
X
1 n
= i = N X i = Nx
n4i2
=1
i =1
i =1 nPi
i =1 n
1
4
3
N
x
Xi
Xi
n
n
N
Xi
Xi
1 n
e = X =
Yi =
e = X = N = N = X i = x
n
n i =1
N
i =1 nPi
i =1
i =1 N
N
Ai
N
n
A
A
1 n
e = P = i Yi = i e = P = N = Ai
N
n i =1
i =1 N
i =1 n
N
N
n
A
1 n
e = A = Ai Yi = Ai e = A = i = N Ai = NP
n i =1
i =1
i =1 n
N
N

e = X = X i Yi = X i e = X =

Da la casualidad de que se obtienen los mismos estimadores insesgados para los


parmetros poblacionales que para el caso de muestreo aleatorio simple sin reposicin. Por
lo tanto, los estimadores de la media y la proporcin poblacional son los estimadores por
analoga (media y proporcin muestral), mientras que los estimadores del total y el total de clase
poblacionales son la expansin mediante el tamao poblacional de la media y proporcin
muestrales (en este caso, X = Nx = ( N / n) x los factores de elevacin son N/n).

VARIANZAS Y SU ESTIMACIN CON REPOSICIN


Partiendo de la varianza del estimador de Hansen y Hurwitz:
2

1 N Yi
$
V ( e HH ) = < Y Pi
n i =1 Pi

y considerando que para el caso particular del muestreo aleatorio simple con reposicin se
sabe que Pi = 1/N, tenemos:
2

N
N

X
X
1
1
1 N2 1
i
i

< X Pi =
V (X ) =
<X
=
N
n i =1 Pi
n i =1 1
n N

(X

i =1

< X) = N2

m2
n

X 1
1
m2 m2
V X = Var = 2 Var X = 2 N 2
=

n
n
N
N N
N <1 2
S
2
PQ
m
m2
PQ
N

V P =
=
=
= N2
V A = N 2
n
n
n
n
n

( )

()

()

Para estimar las varianzas partimos del estimador de la varianza de Hansen y Hurwitz:

V$ (e$HH ) =

Yi
1
< Y$HH

n(n < 1) i =1 Pi

120 Muestreo estadstico. Conceptos y problemas resueltos

y considerando que para el caso particular del muestreo aleatorio simple con reposicin se
sabe que Pi = 1/N, tenemos:
2

n
2
X
1
N2 1 n
2 S
i

(
)
=
<
=
X
X
x
N
<
V X =

n n < 1 i =1
n
n(n < 1) i =1 1

( )

X
1
1
S 2 S 2
=
V X = V = 2 V X = 2 N 2

N
n
n
N N
n
n
PQ
PQ
2
2
S
1
S
1
2
2
n
n
1
<
<
1

V A =N
V P =
PQ
PQ
=
=
=N
= N2
n
n
n <1
n
n <1
n

( )

()

()

Un resultado interesante que se deduce de las frmulas anteriores es que la


cuasivarianza muestral definida S 2 es un estimador insesgado de la varianza poblacional m2
en muestreo aleatorio simple con reposicin

TAMAO DE LA MUESTRA CON REPOSICIN


Igual que en el caso de sin reposicin, consideraremos el tamao de muestra necesario para
cometer un error de muestreo e = m( e ) dependiendo de si e estima la media, el total, la
proporcin o el total de clase. Tambin se considerar el tamao de muestra necesario para
cometer un error relativo de muestreo er = Cv( e) dependiendo de si se estima la media, el total, la
proporcin y el total de clase. Asimismo, se tendr presente la introduccin de un coeficiente de
confianza adicional P_ al error de muestreo a cometer (lmite de tolerancia), en cuyo caso las
frmulas de los tamaos muestrales necesarios para cometer un error absoluto o relativo de
muestreo dado en presencia del coeficiente de confianza adicional se derivarn de las expresiones
e_ = h_m( e) y er_ = h_Cv( e) . En general, h_ = F-1(1<_/2), siendo F la funcin de distribucin de
una normal (0,1). El cuadro siguiente resume las expresiones de los tamaos muestrales.
Tipo de error A
Parmetro
?
Media
Total
Proporcin
Total de clase

Absoluto y coeficiente
Absoluto Relativo
de confianza adicional
er
e
e_
2
2
2
h_ m 2
Cx
m
2
2
e
er
e2
h_2 N 2m 2
C x2
N 2m 2
2
2
e
er
e2
h_2 PQ
PQ
Q
2
2
e
Per
e2
h_2 N 2 PQ
N 2 PQ
Q
2
2
e
Per
e2

Relativo y
confianza
e r_
h_2 C x2
er2_
h_2 C x2
er2_
h_2 Q
Per2_
h_2 Q
Per2_

En todas las frmulas m 2 es la varianza poblacional y C x2 = (m / X ) . Por otra parte,


2

h_ es el valor crtico de la normal unitaria al nivel _.

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

121

COMPARACIN ENTRE MUESTREO ALEATORIO SIN Y CON REPOSICIN


Se pueden realizar las comparaciones a travs error de muestreo o a travs del tamao
muestral necesario para cometer un error de muestreo dado. Desde el primer enfoque ser
ms preciso aquel mtodo de seleccin cuyo error de muestreo sea menor, es decir, el que
tenga menor varianza de los estimadores. Tenemos:

N
V SR X
N <n
m2
2
S
n N <1
N <nm
=
<1

V SR X = (1 < f )
= (1 < )
=

N <1

V
X

n
N
n
N < 1 n CR

2
2

m
m

VCR X =
n= 2
V X < V X
SR
CR
n
e



2

Para el resto de los estimadores todo sera equivalente, luego la varianza siempre es
menor en el caso del muestreo sin reposicin, lo que nos indica que el muestreo sin
reposicin es en general ms preciso que el muestreo con reposicin.
Desde el punto de vista del tamao muestral, ser mejor aquel mtodo de seleccin
en el que se necesite menor tamao muestral para cometer un error de muestreo dado. En
este captulo hemos visto que para muestreo sin reposicin el valor de n era:
n SR =

n0
1 + n0 N

tanto en el caso de estimaciones de medias y proporciones para un error de muestreo dado


como en el caso de estimaciones de medias, totales, proporciones y totales de clase para un
error relativo de muestreo dado con o sin coeficiente de confianza. En los mismos casos,
para muestreo con reposicin se observa que el tamao muestral resulta ser nCR = n0. Por lo
tanto, tenemos:

nSR =

n0
nCR
=
< nCR n SR < nCR
1 + n0 N 1 + nCR N

En el caso de estimacin sin reposicin de totales y totales de clase para un error de


muestreo dado con o sin coeficiente de confianza se vio que:

n SR =

nCR
N 2 n1

< nCR n SR < nCR


1 + Nn1 1 + nCR N

En los mismos casos para muestreo con reposicin se observa que el tamao
muestral resulta ser nCR = N2n1.
Por lo tanto, en todas las situaciones, en el caso de muestreo sin reposicin se
necesita menos tamao de muestra para cometer el mismo error que en el caso del
muestreo con reposicin, con lo que el muestreo sin reposicin es ms eficiente que el
muestreo con reposicin.

122 Muestreo estadstico. Conceptos y problemas resueltos

SUBPOBLACIONES
La escasa disponibilidad de marcos que listen especficamente los elementos de la poblacin
que interesa estudiar, sobre todo cuando utilizamos unidades poblacionales muy elementales
(marco muy fino), nos lleva a considerar la teora de subpoblaciones o dominios.
Normalmente se dispone de marcos menos finos cuyas unidades contienen a las unidades
elementales en estudio. Por ejemplo, podemos desear estudiar una muestra de los hogares
que tienen nios, pero el mejor marco disponible puede ser una lista de todos los hogares en
la ciudad (sin poder desagregar hasta los hogares que tienen nios). Utilizaremos entonces el
marco amplio de todos los hogares y consideraremos la subpoblacin de los hogares que
tienen nios para intentar estimar los parmetros de dicha subpoblacin a travs de los
mtodos para subpoblaciones. Supongamos que dividimos una poblacin de tamao N en
subpoblaciones o dominios. Consideremos que el j-simo dominio contiene Nj unidades, y
que nj es el nmero de unidades, en una muestra aleatoria simple de tamao n, que
pertenecen al dominio j.
n3 N 3

y3

n2
N2
y2

n1
N1

y1

N = Tamao de la poblacin
n = tamao de la muestra
Sea Yjk (k = 1, 2, ..., nj y nj = n) son los valores de la variable en estudio medida
sobre los elementos de la muestra que pertenecen al dominio j-simo. Un estimador
insesgado de la media en la subpoblacin o dominio j ser el siguiente:
Y jk
Y j = y j =
k =1 n j
nj

cuya varianza puede expresarse como:


Nj
Nj
n j S 2j
1
2
2
(Y jk < Y j ) donde Y j = Y jk
siendo S j =
V ( y j ) = (1 <
)

N j nj
N j < 1 k =1
k =1 N j

y pudiendo expresarse la estimacin de su varianza como:

V ( y j ) = (1 <

nj
nj
n j S 2j
1
2
2

(Y jk < y j ) dnde y j = Y jk
siendo S j =
)

N j nj
n j < 1 k =1
k =1 n j

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

123

Si no se conoce el valor de Nj, se sustituye nj/Nj por n/N y se tiene:


n S j
V ( y j ) = (1 < )
N nj

n Sj
V ( y j ) = (1 < )
N nj

En el caso del muestreo con reposicin tenemos:

V(yj ) =

m 2j
nj

1
siendo m =
Nj
2
j

Nj

(Y
k =1

< Yj )

jk

y V ( y j ) =

S 2j
nj

Un estimador insesgado del total en la subpoblacin o dominio j en caso de


conocer Nj ser el siguiente:
nj

Y jk

k =1

nj

Y j = N j y j = N j

cuya varianza y estimacin de varianza son, respectivamente:

V (Y j ) = N 2j V ( y j ) = N 2j (1 <

n j S 2j
)
N j nj

y V (Y j ) = N 2j (1 <

n j S 2j
)
N j nj

En el muestreo con reposicin tendremos:

V (Y j ) = N 2j V ( y j ) = N 2j

m 2j

nj

V (Y j ) = N 2j

S 2j
nj

Un estimador insesgado del total en la subpoblacin o dominio j en caso de no


conocer Nj ser el siguiente:
nj

Y jk

k =1

nj

Y j = N j

nj

Nj

k =1

nj

Y jk =
{

?
Se aplica
Nj N
A
nj
n

N
n

nj

Y
k =1

jk

N
n

y
{j

Total
muestral
en dominio
j < simo

cuya varianza y estimacin de varianza son, respectivamente:


2

n S'
V (Y j ) = N 2 (1 < )
N n

2
n S '
2

y V (Y j ) = N (1 < )
N n

n
nj
Y j2
y 2j
1
1 j
2
2
2

siendo S ' =
Y jk <
e y j = Y jk
Y jk < N , S ' = n < 1

n
N < 1 Dominio j
k
1
=
k =1

En el muestreo con reposicin tendremos:

V (Y j ) = N 2

m '2
n

y V (Y j ) = N 2

S ' 2
n

con m ' 2 =

1
N

Y jk <

Dominio j

Y j2

124 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
3.1.

Un auditor muestrea aleatoriamente con reposicin 20 cuentas impagadas de una empresa y


verifica en 12 de ellas la cantidad adeudada y si los documentos respectivos cumplen (1) o
no cumplen (0) con los procedimientos establecidos. Se tienen la siguiente estructura
poblacional:
Cuenta
1
2
3
4
5
6
7
8
9
10

Cantidad Concordancia
278
192
310
94
86
335
310
290
221
168

1
1
1
0
1
1
0
1
1
1

Cuenta
11
12
13
14
15
16
17
18
19
20

Cantidad Concordancia
188
212
92
56
142
37
186
221
229
305

0
0
1
1
1
1
0
1
0
1

Basndose en las 12 cuentas verificadas, estimar la proporcin de cuentas cuyos documentos


concuerdan, as como el importe medio adeudado, y cuantificar el error cometido.
Comenzamos introduciendo los datos en una hoja de clculo de Excel. A continuacin,
para elegir la muestra, en el men Herramientas de Excel elegimos Anlisis de datos,
seleccionamos Muestra y rellenamos la pantalla de entrada como se indica en la Figura 3-1. Al
pulsar Aceptar se obtiene la MUESTRA de tamao 12 de la Figura 3-2. Mediante las frmulas de
la Figura 3-2 se obtienen los resultados de la Figura 3-3.

Figura 3-1

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

125

Figura 3-2

Figura 3-3
Hemos obtenido que el importe medio adeudado se estima en:
X=

1 12
X i = 209,583
12 i =1

con un error absoluto de:

m
= 655,745
V X =
n
2

La proporcin de cuentas cuyos documentos concuerdan con los procedimientos


establecidos se estima mediante:
1 12
P = Ai = 0,75
12 i =1

El error absoluto de esta estimacin es:

()

PQ (14 / 20)(6 / 20)


84
V P =
=
=
= 0,0175
n
12
4800

126 Muestreo estadstico. Conceptos y problemas resueltos

En trminos relativos estos errores son ms fcilmente interpretables, y se


cuantifican en el 12,2% y el 17,6%, respectivamente (a travs de los coeficientes de
variacin de los estimadores). Tenemos:
655,745
100 = 12,218%
Cv X =
209,583

3.2.

()

0,0175
Cv P =
100 = 17,638%
0,75

El gerente de un taller de maquinaria desea estimar el tiempo promedio que necesita un operador
para terminar una tarea sencilla. El taller tiene 98 operadores y se selecciona una muestra de 8 sin
reposicin a los que se les toma el tiempo, Se obtienen los siguientes resultados:
4,2 5,1 7,9 3,8 5,3 4,6 5,1 4,1
Estimar el tiempo promedio y el tiempo total para terminar la tarea entre todos los
operadores estableciendo lmites al 95% para los errores de estimacin.
Comenzamos introduciendo los datos como la variable T en una hoja de clculo de Excel. A
continuacin, para calcular los estadsticos necesarios, en el men Herramientas de Excel
elegimos Anlisis de datos, seleccionamos Estadstica descriptiva y rellenamos la pantalla
de entrada como se indica en la Figura 3-4. Al pulsar Aceptar se obtienen los estadsticos
maestrales de la Figura 3-5. Por ltimo, se calculan los estimadores y sus errores segn las
frmulas de la Figura 3-6 que nos llevan a los resultados de la Figura 3-7.
1 12
Se observa que el tiempo medio por operario para terminar la tarea es T = Ti =
12 i =1
2

S
= 0,189 y un error relativo
5,0125 minutos con un error de muestreo de V (T ) = (1 < f )
n
0,189
m (T )
dado por Cv(T ) =
100 =
100 = 9,69%. El tiempo total para terminar la tarea se
5,0125
T
estima en T = NT = 89 u 5,0125 = 491,225 minutos con un error de muestreo estimado por
V (T ) = N 2V (T ) = 89 2 u 0,189 = 1822,07, siendo el error relativo el mismo que el del estimador
del tiempo medio, es decir, 9,69%. El coeficiente de curtosis = 4,24 no est en el intervalo
[<2,2] luego no podemos suponer normalidad, con lo que intervalo de confianza al 95% para
la media de anchura 1,07475886 no es vlido.

Figura 3-4

Figura 3-5

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

127

Figura 3-6

Figura 3-7
Al no existir normalidad utilizamos como intervalos de confianza:

()

()

m e m e
,e +
e <

_
_

cuya anchura es 2

()

m e
. Esta anchura (3,895 para el estimador de la media y 381,79 para el
_

estimador del total) suele considerarse como un lmite para el error de estimacin. Se
observa que estas anchuras son mayores que con normalidad, ya que en este caso las
estimaciones son menos precisas (errores mayores).

3.3.

En una regin con N = 1000 viviendas determinar el tamao de muestra necesario para que,
con un grado de confianza del 95%, la estimacin de la proporcin de viviendas sin agua
corriente no difiera en ms del 0,1 del valor verdadero. Comentar los resultados para
muestreo sin reposicin y con reposicin.

128 Muestreo estadstico. Conceptos y problemas resueltos

P(| P < P |) 0,10) = 0,95 P (<0,10 ) P < P ) 0,10) = 0,95


< 0,10 P < P 0,10
= 0,95
P
)
)
m ( P ) m ( P ) m ( P )

< 0,10
0,10
= 0,95
) N (0,1) )
P
m ( P )
m ( P )

De lo anterior se deduce que:


0,10
0,10
= h_ = 1,96 m ( P ) =
= 0,051
1,96
m ( P )

Luego el problema se traduce en calcular el tamao de muestra necesario para


cometer un error de muestreo de 0,051 al estimar la proporcin de viviendas sin agua
corriente. Como no tenemos informacin acerca de la proporcin poblacional P de
viviendas sin agua corriente, nos colocamos en la situacin ms desfavorable, es decir, P =
Q = 1/2. Tendremos:
n=

NP (1 < P )
1000 u 0,5 u 0,5
=
= 91 viviendas
2
0,5 u 0,5 + 999.0,0512
P (1 < P ) + ( N < 1)e

Para el caso de muestreo con reposicin tendremos:


n=

P (1 < P ) 0,5 u 0,5


=
= 96 viviendas
e2
0,0512

Se observa que el tamao de muestra necesario para cometer el mismo error de


muestreo al estimar igual parmetro es superior en el caso de muestreo con reposicin.

3.4.

De una poblacin con 33 millones de habitantes se ha obtenido una muestra de 10.000. En


ella, 4.000 se han clasificado como poblacin activa, y de stos, 40 se encuentran en
situacin de desempleo. Se pide:
1) Estimar el porcentaje de poblacin activa. Estimar tambin el nmero de personas activas que
se encuentran en situacin de desempleo. Calcular los errores absoluto y relativo de muestreo
en ambas estimaciones as como intervalos de confianza con un riesgo del 3 por mil.
2) Cuntas personas de todas las edades sera necesario incluir en una muestra para
estimar la tasa de actividad en Espaa con un error absoluto E = 0,02 y una probabilidad
del 95%? Del ltimo censo se sabe que en el pas hay un 39% de activos. Contestar a la
misma pregunta para cometer un error relativo del 5%.
Realizamos el siguiente esquema de apoyo (PA significa poblacin activa y NPA significa el
complentario):
PA=4000
N=33000000

3660 activos
40 parados
NPA=6000

n=10000

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

129

El porcentaje estimado de poblacin activa ser:


4000
P =
= 0,4 (40%)
10000

El error de muestreo ser:

m ( P ) = 1 <

10000 0,4(1 < 0,4)


n P (1 < P )

= 1 <
= 0,00489

N n <1
33000000 10000 < 1

El error relativo de muestreo ser la estimacin del coeficiente de variacin de P , que


se calcula de la siguiente forma:

m ( P ) 0,00489
C v( P ) =
=
= 0,012225 (1,2225%)
0,4
P
Para hallar el intervalo de confianza para la proporcin con _ = 0,003, utilizamos h_ =
F-1N(0,1) (1<_/2) = F-1 N(0,1) (1<0,003/2) = F-1 N(0,1) (0,9985)=2,997. El intervalo ser:
[ P < h_ m ( P ), P + h_ m ( P )] = [0,4 < 2,997 u 0,00489, 0,4 + 2,997 u 0,00489] = (0.3853, 0.4146)

Se podra interpretar el intervalo de confianza diciendo que el porcentaje de la poblacin


activa est comprendido entre el 38,53% y el 41,46% con una probabilidad del 997 por mil, es
decir, prcticamente la certeza.
El total estimado de personas activas que se encuentran en situacin de desempleo ser:
40
A = 33000000
= 132000
10000
1
424
3
P

El error de muestreo ser:

m ( A ) = N 2 1 <

n P (1 < P )
10000 0,004(1 < 0,004)

= 33000000 1 <
= 20827

N n <1
33000000 10000 < 1

El error relativo de muestreo ser la estimacin del coeficiente de variacin de A , que


se calcula de la siguiente forma:

m ( A ) 20827
=
= 0,157
C v( A ) =
132000
A

(15,7%)

Para hallar el intervalo de confianza para el total con _ = 0,003, utilizamos el valor
h_=F-1N(0,1) (1<_/2) = F-1 N(0,1) (1<0,003/2)= F-1 N(0,1) (0,9985)=2,997. El intervalo ser:

[ A < h_ m ( A ), A + h_ m ( A )] = [132000< 2,997 u 20827, 132000+ 2,997 u 20827] = (69581, 194419)


El tamao de muestra necesario para estimar la tasa de actividad en Espaa con un
error de muestreo e_ = 0,02 y un coeficiente de confianza del 95% ser:
n=

h_2 NPQ
1,96 2 u 33000000 u 0,39 u (1 < 0,39)
=
= 2379
( N < 1)e_2 + h_2 PQ (33000000 < 1) u 0,02 2 + 1,96 2 u 0,39 u (1 < 0,39)

130 Muestreo estadstico. Conceptos y problemas resueltos

El tamao de muestra necesario para estimar la tasa de actividad en Espaa con un


error relativo de muestreo e r _ =0,05 y un coeficiente de confianza del 95% ser:
n=

3.5.

h 2r_ NQ
( N < 1) Pe r2_ + h 2r_ Q

1,96 2 u 33000000 u (1 < 0,39)


= 2379
(33000000 < 1) u 0,39 u 0,02 2 + 1,96 2 u (1 < 0,39)

Mediante muestreo irrestricto aleatorio se trata de estimar la proporcin y el total de aciertos


obtenidos en un juego ilegal en el que se realizan un total de 6000 apuestas. En un ensayo
previo se han obtenido 1/3 de fallos en las apuestas. Se pide:
1) Hallar el nmero de apuestas necesario para que el error de muestreo sea de una dcima
al estimar la proporcin de aciertos en las apuestas del juego ilegal. Hallar tambin el
nmero de apuestas necesario para que el error relativo de muestreo sea del 20% en la
misma estimacin.
2) Hallar el nmero de apuestas necesario para que el error de muestreo sea de 600 unidades
al estimar el total de aciertos en las apuestas con un coeficiente de confianza del 99,7% y
suponiendo muestreo aleatorio simple con reposicin. Hallar dicho tamao en las
condiciones anteriores pero para un error relativo de muestreo del 10%.
Tenemos como datos N = 6000 y P = 2/3. El tamao de muestra necesario para
estimar la proporcin de aciertos en las apuestas con un error de muestreo e = 0,1 ser:
n=

NPQ
6000 u 0,6666 u (1 < 0,6666)
=
= 22,14
2
( N < 1)e + PQ (6000 < 1) u 0,12 + 0,6666 u (1 < 0,6666)

Ser necesario utilizar un tamao de muestra de 23 apuestas.


El tamao de muestra necesario para estimar la proporcin de aciertos con un error
relativo de muestreo e r = 0,2 ser:
n=

NQ
6000 u (1 < 0,6666)
=
= 12,47
2
( N < 1) Pe r + Q (6000 < 1) u 0,6666 u 0,2 2 + (1 < 0,6666)

Ser necesario utilizar un tamao de muestra de 13 apuestas.


Para hallar el tamao de muestra necesario para estimar el total de aciertos con _ = 0,003,
se usa h_ = F-1N(0,1) (1<_/2) = F-1N(0,1) (1<0,003/2) = F-1N(0,1) (0,9985) = 2,997. Dicho tamao en
muestreo con reposicin para un error de muestreo e_ = 600 se calcula de la siguiente forma:
n=

h_2 PQN 2
e_2

2,997 2 u 0,6666(1 < 0,6666)6000 2


= 199,6 (200 apuestas)
600 2

El tamao de muestra en muestreo con reposicin para un error relativo de muestreo


er_ = 0,1 con _ = 0,003 se calcula de la siguiente forma:
n=

h_2 Q
e_2 P

2,997 2 u (1 < 0,6666)


= 449,1 (450 apuestas)
0,12 u 0,6666

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

3.6.

131

De una poblacin de 100 opositores que se presentan a un examen se ha extrado una


muestra irrestricta aleatoria de tamao n = 8, siendo sus edades (variable X) las siguientes:
{25, 32, 28, 35, 26, 34, 30, 28}. Basndose en esta muestra, estimar la edad media y la suma
de las edades de los opositores as como sus errores absoluto y relativo de muestreo.
Determinar tambin:
1) Basndose en la muestra anterior, qu tamao de muestra sera necesario para que el
error de muestreo sea 2 al estimar la edad media y 50 al estimar la suma de las edades?
Y para que el error relativo sea del 6%? Contestar a las mismas preguntas con un
coeficiente de confianza del 95%.
2) A partir de la muestra anterior, estimar la proporcin de edades pares en la poblacin y
el total de la clase de las edades pares estimando los errores absoluto y relativo de
muestreo. Qu tamao de muestra sera necesario para que el error relativo de muestreo
fuese del 6% al 95% de confianza al estimar la proporcin?
3) Hallar el tamao de muestra del apartado anterior suponiendo muestreo con reposicin.
Comentar los resultados.
Se observa que la media muestral es 29,75, la cuasivarianza muestral es 13,3571 y la
cuasidesviacin tpica muestral es 3,65474. Tambin se obtienen buenos valores para los
coeficientes de asimetra (0,28) y curtosis (<0,79), que al estar comprendidos entre <2 y 2
permiten suponer normalidad.
Las estimaciones de la edad media y la suma de edades y sus errores absoluto y
relativo son:
8 13.3571
S 2

X = x = 29,75
e = m ( x ) = (1 < f )
= 1 <
= 1,536

8
n
100
m ( x ) 1,536
e r = Cv( x ) =
=
= 0,051 (5,1%)
29,75
x

X = N u x = 100 u 29,75 = 2975

e = m ( X ) = N u m ( x ) = 100 u1,536 = 153,6

m ( X ) 153,6
e r = Cv( X ) =
=
= 0,051
2975
X

(5,1%)

Evidentemente, los errores relativos de las estimaciones de media y total coinciden.


Para hallar el tamao de muestra necesario para estimar la edad media (media) con un
error de muestreo e igual a 50, consideramos la muestra anterior como una muestra piloto que
nos proporciona una estimacin del valor de la cuasivarianza. Se aplica la frmula:
n=

100 u13,3571
NS 2
=
= 3,23
2
2
13,3571 + 100.2 2
S + Ne

con lo que se tomar como tamao de muestra necesario n = 4.


Para hallar el tamao de muestra necesario para estimar la suma de edades (total) con
un error de muestreo e igual a 50, se aplica la frmula:

132 Muestreo estadstico. Conceptos y problemas resueltos

n=

100 2 u13,3571
N 2S 2
=
= 34,82
NS 2 + e 2 100 u13,3571 + 50 2

con lo que se tomar como tamao de muestra necesario n = 35.


Si introducimos un coeficiente de confianza del 95%, los tamaos de muestra necesarios
para cometer el mismo error de muestreo e_ = 2 al estimar la media y e_ = 50 para el total
lgicamente sern algo superiores a los calculados anteriormente. Tenemos:
MediaA n =

TotalA n =

h2 S 2 1,962 u13,3571
n0
12,82
= 12,82
=
= 11,36 con n0 = _ 2 =
2
n0
12,82
2
e
_
1+
1+
N
100

h2 S2 1,962 u13,3571
N 2n1
1002u12,82
=
= 99,92 con n0 = _ 2 =
= 12,82
1 + Nn1 1 + 100u12,82
22
e_

Para el caso de un error relativo de muestreo igual a er = 0,06 el tamao de muestra


necesario es el mismo para la estimacin del total y de la media. Tendremos:
n=

C12, x
e r2 +

C12, x

S 2 13,3571
0,015
= 0,015
= 4 con C12, x = 2 =
0,015
29,75 2
X
2
0,06 +
100

Para el caso de un error relativo de muestreo igual a er_ = 0,06 con un coeficiente de
confianza del 95%, el tamao de muestra necesario es el mismo para la estimacin del total y
de la media, y lgicamente ser mayor que cuando no existe el coeficiente de confianza.
Tendremos:

h_2 C12, x

n=

e r2_ + h_2

C12, x
N

1,96 2 u 0,015
= 61,54
2
2 0,015
0,06 + 1,96 u
100

con lo que se tomar como tamao de muestra necesario n = 65 que, evidentemente, es


superior al tamao de muestra necesario sin coeficiente de confianza.
A continuacin consideramos la muestra asociada a la inicial, cuyos valores son cero para
edades impares y uno para edades pares, es decir, la nueva muestra ser {0, 1, 1, 0, 1, 1, 1, 1}. A
partir de esta muestra estimaremos la proporcin P y el total de la clase A de los valores pares de X
en la poblacin, as como los errores de muestreo correspondientes. Tenemos:
8

6
6
= 0,75 (75%)
A = N u P = 100 = 75
8
n
8
P Q
8 0,75 u 0,25

e = m ( P ) = (1 < f )
= 1 <
= 0,0246

n <1
100 8 < 1
e = m ( A ) = N u m ( P ) = 100 u 0,0246 = 2,46

P =

i =1

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

133

El tamao de muestra necesario para estimar la proporcin de edades pares en la


poblacin con un error relativo de muestreo e r_ = 0,06 y un coeficiente de confianza del 95%
ser:
n=

h 2r_ NQ
( N < 1) Pe r2_

1,96 2 u100 u (1 < 0,75)


= 78,22
=
+ h 2r_ Q (100 < 1) u 0,75 u 0,06 2 + 1,96 2 u (1 < 0,75)

Vamos a realizar a continuacin para muestreo con reposicin el clculo del tamao
de muestra necesario para que el error relativo de muestreo sea 0,06 al estimar la proporcin
de edades pares de la poblacin con un coeficiente de confianza del 95%. Utilizamos:

h_ C
2

n=

Q 1,96 2 1 < 0,75


0,75
= 2P =
= 355
0,06 2
e r_

h_2

2
X

e r2_

luego el tamao de muestra necesario ser n = 355, que supera al tamao poblacional. Eso se
debe a lo bajo que es el error especificado a cometer. En este caso habr que aumentar el
error a cometer. No obstante, se ha comprobado que el tamao de muestra necesario para
estimar el mismo parmetro cometiendo el mismo error siempre es mayor en el muestreo
con reposicin, lo que indica que este tipo de muestreo es menos preciso que el muestreo sin
reposicin. Esto concuerda tambin con el hecho de que los errores de muestreo siempre son
menores en el caso de sin reposicin.

3.7.

Una muestra irrestricta aleatoria de 600 habitantes procedente de una poblacin de N = 15.000
presenta los siguientes datos para la variable X = nmero de visitas anuales a doctores
especialistas:
600

X
i =1

= 2946 y

600

X
i =1

2
i

= 18694

Hallar intervalos de confianza al 95% para el total y la media por habitante anuales de visitas
a doctores especialistas en la poblacin admitiendo normalidad para la distribucin de los
estimadores. Tomando la muestra anterior como muestra piloto, qu tamao de muestra
ser necesario para cometer un error absoluto de muestreo de 1.000 unidades al estimar el
total de visitas a doctores especialistas en la poblacin? Y para cometer un error relativo de
muestreo del 15%?
El total de visitas a doctores especialistas en la poblacin, su error y el intervalo de
confianza al 95% se estiman como sigue:
2

2946
1 20 2 20

<
X = N u x = 15000 u
= 73650 S 2 =
X
X
i i n = 7,06
n < 1 i =1
600
i =1

m ( X ) = N 2 (1 < f )

600 7,06
S 2

= 15000 2 1 <
= 1594,239

n
15000 600

IC ( X ) = X h_ m ( X ) = 73650 1,96 u1594,239 = (70526, 76775)

134 Muestreo estadstico. Conceptos y problemas resueltos

La media de visitas por habitante a doctores especialistas en la poblacin, su error y


el intervalo de confianza al 95% se estiman como sigue:
x=

2946
= 4,91
600

m ( x ) = (1 < f )

600 7,06
S 2

= 1 <
= 0,106282

n
15000 600

IC ( x ) = x h_ m ( x ) = 4,91 1,96 u 0,106282 = (4,70168, 5,11831)

El tamao de muestra necesario para cometer un error absoluto de muestreo de


1.000 unidades al estimar el total poblacional de X, se puede calcular despejando n en la
frmula de la desviacin tpica del estimador del total, de la forma siguiente:
15000 2 u 7,06
n 7,06

1000 2 = 15000 2 1 <


n=
= 1437

1000 2 + 15000 u 7,06


15000 n

El tamao de muestra necesario para cometer un error relativo de muestreo del 15%
al estimar el total poblacional de X puede hallarse como sigue:

n=

NC

2
1, x

Ne r2 + C12, x

7,06
S2
15000
2
4,912
X
=
=
= 13
7,06
S2
2
2
15000
0
,
15
u
+
Ne r + 2
4,912
X
N

Hemos utilizado un valor de S2 = 7,06 porque la muestra de tamao 600 con los
datos dados en el enunciado del problema se utiliza como muestra piloto.

3.8.

Un sector industrial de Estados Unidos tiene un censo de 1000 fbricas. Hallar el tamao de
muestra necesario (nmero de fbricas) para que, con un grado de confianza del 95%, la
estimacin de la produccin total del sector quede dentro del 10% de su valor verdadero. Se
utiliza muestreo irrestricto aleatorio y se sabe por una muestra piloto que el coeficiente de
variacin poblacional es 0,6.

P(| X < X |) 0,10 X ) = 0,95 P(<0,10 X ) X < X ) 0,10 X ) = 0,95


< 0,10 X X < X 0,10 X
< 0,10 X
0,10 X
= 0,95 P
= 0,95
P
(
0
,
1
)
)
)
)
)
N
m ( X )

X
X
X
(
)
(
)
(
)
(
)
m
m
m
m
X

0,10 X
m ( X )
m ( X )

= h_ 0,10 = h_
= h_
= h_ Cv( X ) = er_ con h_ =1,96
X
m ( X )
E ( X )
Por lo tanto, el problema se traduce en calcular el tamao de muestra necesario para
cometer un error relativo de muestreo de 0,051 al estimar la produccin total.
2

n=

h_2 NC12,x
Ner2_ + h_2 C12, x

h_ N m
1,962 u1000
h_2 N
S2
2

(
u 0,62
CV )
h_ N 2
N <1 X
999
1
N
<
X
=
= 122
=
=
=
2
2
2
1,962
h_2
2
h
m
N
2
2 S
2
2
2

2
_
(CV ) 0,1 +
.0,6
Ner_ + h_ 2 Ner_ +
er_ +

999
N <1
X
N <1 X
2

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

3.9.

135

Los partidos de izquierdas desean obtener informacin rpida sobre el nmero total de concejales
que obtuvieron en las ltimas elecciones en los 300 municipios ms pequeos de una regin
espaola. Para ello se eligieron 50 municipios, y se obtuvieron los siguientes resultados:
Nmero de concejales por municipio
Xi

Nmero de municipios
ni

0
1
2
3
4
5
6
7
8
9

2
7
5
7
8
10
5
3
2
1

Se pide:
1) Estimar el nmero total de concejales que obtuvieron los partidos de izquierdas en las
ltimas elecciones en la regin en los municipios ms pequeos.
2) Si se hubiera querido un error de muestreo inferior a 150 concejales, cuntos municipios
habra sido necesario seleccionar?
Tenemos N = 300 y n = 50. Para estimar el total de concejales que obtuvieron los partidos de
izquierdas se procede como sigue:

x=

1 k
196
x i ni =
= 3,92 X = Nx = 300 3,92 = 1176 concejales

n i =1
50

Como no se especifica lo contrario, se supone que el muestreo es sin reposicin, en


cuyo caso el error del estimador anterior al 99% de confianza es:
4,8098
n S
m ( X ) = h_ N 2 (1 < )
= 2,575 300(300 < 50)
= 218,7189
N n
50
2

2
(
xi ) 1
196 2
1 k 2

x i ni <
=
<
= 4,8098
S =
1004
50
n < 1 i =1
n 49

Por tanto, la estimacin del nmero de concejales obtenidos en los 300 municipios
ms pequeos de esa regin durante las pasadas elecciones es de 1178 concejales. El error de
muestreo con un 99% de confianza ha resultado ser 218,7, que en trminos relativos (de
coeficiente de variacin) es:
218,7189
C v ( X ) =
u 100 = 18,59%
1176

136 Muestreo estadstico. Conceptos y problemas resueltos

Para estimar el total de concejales con un error de muestreo inferior a 150, el


nmero de municipios que habra sido necesario seleccionar se calcular como:
n=

3.10.

N 2 h_2 S 2
300 2 2,575 2 4,8098
= 89,51 5 90 municipios
=
eT2 + Nh_2 S 2 150 2 + 300 2,575 2 4,8098

Un prestamista se dispone a contabilizar deudas atrasadas de 10000 clientes. Necesita


aproximar la deuda sin cobrar y para ello elige una muestra aleatoria de 36 clientes, los
cuales adeudan en media 7500 euros con un error (cuasidesviacin tpica) de 3000 euros.
Realizar una estimacin por intervalos al 95% de la deuda sin cobrar. Qu tamao de
muestra deber seleccionarse para estimar la deuda pendiente con un error de muestreo
inferior a 2500000 euros.
Sea X la variable que mide la deuda sin cobrar. Dicha deuda total se estimar mediante:
X = Nx = 1000 * 7500 = 7500000 euros

El error de muestreo ser:

m ( X ) = N 2 (1 <

n S
36 3000 2

)
= 1000 2 1 <
= 2764,8

N n
1000 36
2

El intervalo de confianza para el total poblacional ser:


[ X < h_ m ( X ), X + h_ m ( X )] = [75000<1,96(2764,8); 75000+ 1,96(2764,8)] = [65217655,9; 84782344,1]

Para estimar la deuda pendiente con un error inferior a 2500000 euros, se debe elegir
una muestra de tamao superior al valor siguiente:
n=

3.11.

N 2 h_2 S 2
10000 2 1,96 2 3000 2
= 524,19 5 525
=
2
eT2 + Nh_2 S 2 (2500000) + 10000 1,96 2 3000 2

En un recinto ferial se desea estimar la cantidad X gastada por visitante en sus instalaciones.
Para ello, de entre los 500 visitantes de un da determinado, se seleccion una muestra
aleatoria simple de 100 y a la salida del recinto ferial se les pregunt la cantidad en euros
que haban gastado. Se obtuvieron los siguientes datos:
100

X i = 250
i =1

100

X
i =1

2
i

= 649,75

Hallar un intervalo de confianza al 95% para la cantidad media gastada por persona en el
recinto ferial. A cuntas personas se debera haber preguntado para que, con la misma
confianza, el error de la estimacin anterior no superarse los 75 euros? Cuntas personas
deberan haber sido preguntadas si se hubiera deseado estimar la proporcin de personas
insatisfechas con los servicios prestados en el recinto ferial con un error del 10% y una
confianza del 95%?

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

137

El intervalo de confianza para la media poblacional ser:

n S
n S

I = x < h_ (1 < )
; x < h_ (1 < )
N n
N n

1 n
250
x = xi =
= 2,50 euros
n i!
100
2

2
1 n 2 1 n
1
1
2

(250)2 = 0,25
S =
649,75 <
X i < X i =

n < 1 i =1
n i =1
100

99

El intervalo de confianza para el gasto medio en euros por persona en la feria ser:

100 0,25
I = 2,5 < 1,96 (1 <
)
;
500 100

2,5 < 1,96 (1 <

100 0,25
)
= [2,4123; 2,5876]
500 100

Para un error en la estimacin de la media de 75 euros, el nmero de personas que


ser necesario entrevistar ser:
n=

h_2 NS 2

e +2 N + h_2 S 2

1,96 2 500 0,25


= 127,2761 5 128
0,075 2 500 + 1,96 2 0,24

El nmero de personas que deberan haber sido preguntadas si se hubiera deseado


estimar la proporcin de personas insatisfechas con los servicios prestados en el recinto
ferial con un error del 10% y una confianza del 95% sera el siguiente:
n=

h_2 NPQ
1,96 2 500 0,5 0,5
= 80,7005 5 81 personas
=
e_2 (N < 1) + h_2 PQ 0,10 2 499 + 1,96 2 0,5 0,5

Como no se tiene informacin sobre el valor de P, se toma P = 0,5.

3.12.

Para tomar la decisin de mantener un determinado libro como texto oficial de una
asignatura, se pretende tomar una muestra aleatoria simple entre los 1250 profesores de una
universidad y enviarles un cuestionario a travs del cual manifiesten si son favorables a la
renovacin del libro como texto oficial.
1) Cul deber ser el nmero apropiado de profesores encuestados de entre los 1250 para
obtener una estimacin sobre la proporcin de profesores favorables a la renovacin del
libro de texto con un error de muestreo inferior al 12% y una confianza del 90%?
2) Si de la encuesta realizada el ao anterior se sabe que la proporcin de profesores
favorables al mantenimiento del libro de texto estar entre el 75% y el 85%, cul debera
ser en este caso el nmero apropiado de profesores encuestados del apartado anterior?
3) Si finalmente se decidi enviar cuestionarios a 100 profesores, de los cuales tan slo 35
no se manifestaron favorables a la renovacin del libro de texto, estimar la proporcin del
nmero apropiado de profesores encuestados de entre los 1250 para obtener una estimacin.

138 Muestreo estadstico. Conceptos y problemas resueltos

El nmero apropiado de profesores a encuestar de entre los 1250 para obtener una
estimacin sobre la proporcin de profesores favorables a la renovacin del libro de texto
con un error de muestreo inferior al 12% y una confianza del 90% ser el siguiente:
n=

h_2 NPQ
1,645 2 1250 0,5 0,5
= 45,2968 5 46 profesores
=
e_2 (N < 1) + h_2 PQ 0,12 2 1249 + 1,645 2 0,5 0,5

Se ha utlizado P = 1/2 porque no se tiene informacin sobre P.


Para el caso de que se estime que la proporcin oscilar entre el 75% y el 85%, en la
frmula para obtener el tamao muestral se utilizar P = 0,75, pues es el que proporciona
mayor variabilidad entre los posibles. Ahora tenemos:
n=

1,645 2 1250 0,75 0,25


= 34,2954 5 35 profesores
0,12 2 1249 + 1,645 2 0,75 0,25

En el ltimo apartado, como el estimador puntual de la proporcin poblacional es la


proporcin muestral, tenemos:
1 n
P = Ai (Ai =1 si el profesor i-simo mantiene el libro y Ai = 0 en caso contrario)
n i =1

Como slo 35 profesores de los 100 deciden la no renovacin del libro de texto,
tenemos:
65
P =
= 0,65
100
El error de muestreo ser:
e p = h_

3.13.

N < n pq
1250 < 100 0,65 0,35
= 1,645
*
= 0,0753
N <1 n
1249
100

Una empresa industrial est interesada en el tiempo por semana que los cientficos emplean
para ciertas tareas triviales. Las hojas de control del tiempo de una muestra irrestricta
aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo empleado en
esas tareas es de 10,31 horas, con una varianza muestral de S2 = 2,25. La compaa emplea N
= 750 cientficos. Estimar el nmero total de horas-hombre que se pierden por semana en las
tareas insignificantes y establecer un lmite para el error de estimacin al 95% (h_ = 2).
Sea X el total de horas-hombre que se pierden por semana. Tenemos:
X = Nx = 750(10,31) = 7732,5 horas

Un lmite para el error de estimacin ser el radio del intervalo de confianza al 95%:
n S
50 2,25

h_ m ( X ) = 2 N 2 (1 < )
= 2 700 2 1 <
= 307,4 horas

N n
750 50
2

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

3.14.

139

Una muestra irrestricta aleatoria de n = 100 estudiantes del ltimo ao de un colegio fue
seleccionada para estimar: (1) la fraccin de entre los N = 300 estudiantes del ltimo ao que
asistirn a una universidad, y (2) la fraccin de estudiantes que han tenido trabajos de tiempo
parcial durante su estancia en el colegio. Sean Yi y Xi (i = 1, 2, , 100) las respuestas del isimo estudiante seleccionado. Estableceremos que Yi = 0 si el i-simo estudiante no
planifica asistir a una institucin superior, e Yi = 1 si lo planifica. Asimismo, sea Xi = 0 si el
estudiante i-simo no ha tenido trabajo durante su estancia en el colegio y sea Xi = 1 si lo ha
tenido. Usando los datos de la muestra presentados en la tabla adjunta, estime P1, la
proporcin de estudiantes del ltimo ao que planea asistir a una universidad y P2, la
proporcin de estudiantes del ltimo ao que ha tenido un trabajo de tiempo parcial durante
sus cursos en el colegio (incluyendo los veranos).
Estudiante
1
2
3
4
5
6
7
.
.
96
97
98
99
100
100

Y
i =1

Y
1
0
0
1
0
0
0
.
.
0
1
0
0
1

X
0
1
1
1
0
0
1
.
.
1
0
1
1
1

= 15

100
i =1

= 65

Las estimaciones de las respectivas proporciones estarn dadas por las proporciones
muestrales:
1 100
15
1 100
65
P1 =
Yi =
= 0,15
P2 =
Xi =
= 0,65

100 i =1
100
100 i =1
100
Los lmites para los respectivos errores de estimacin al 95% estarn dados por los
radios de los dos intervalos de confianza, que se calculan como sigue:

h_ m ( P1 ) = 2 (1 <

n P1Q 1
100 0,15 u 0,85
)
= 2 1 <
= 0,059

N n <1
99
300

h_ m ( P2 ) = 2 (1 <

n P2 Q 2
100 0,65 u 0,35
)
= 2 1 <
= 0,078

N n <1
99
300

Hemos obtenido que el 15% de los estudiantes de ltimo ao planifica asistir a la


universidad con un lmite del error de la estimacin del 5,9%, y el 65% de los estudiantes de
ltimo ao ha tenido un trabajo a tiempo parcial durante su estancia en el colegio con un
lmite para el error de la estimacin del 7,8%.

140 Muestreo estadstico. Conceptos y problemas resueltos

3.15.

Mediante muestreo irrestricto aleatorio se obtiene una muestra de 50 trabajadores procedente


de una poblacin de 750 empleados de una multinacional. Al medir el salario mensual X en
cientos de euros que perciben los trabajadores de la muestra se obtienen los siguientes datos:
50

X
i =1

= 454

50

X
i =1

2
i

= 4306

De esta muestra 20 trabajadores pertenecen al sector financiero de la multinacional, y al medir


los salarios mensuales X sobre estos 20 empleados se obtienen los siguientes resultados:
20

X
i =1

= 172

20

X
i =1

2
i

= 1536

1 Estimar el salario medio mensual por trabajador y el total mensual de pagos en salarios de
la multinacional para todos sus empleados y para los empleados del sector financiero, as
como sus errores absolutos y relativos de muestreo.
2 Responder a las preguntas del apartado anterior para muestreo aleatorio simple con
reposicin comentando resultados y comparndolos con los del apartado 1.
Consideramos como poblacin todos los empleados de la multinacional y como
subpoblacin todos los empleados del sector financiero de la multinacional.
Para estimar la media y el total de la poblacin con n = 50 y N = 750 se tiene:
50

x=

Xi
i =1

50

454
=
= 9,08 y X = Nx = 750
50

X
i =1

= 750 u 9,08 = 6810

Las estimaciones de los errores de muestreo sern:


2

1 50 2 50
X i < X i
49 1
i =1
i =1
23 1
23

4306
454

50

)
V ( x ) = (1 <
750
50

50

= 0,07 m ( x ) = 0,07 = 0,26

V ( X ) = N 2V ( x ) = 750 2 u 0,07 = 39375 m ( X ) = 39375 = 198,43


Las estimaciones de los errores relativos de muestreo (coeficientes de variacin de
los estimadores) sern las siguientes:

m ( X ) 198,43
m ( x ) 0,27
=
= 0,029 (2,9%)
C v( x ) =
=
= 0,029 (2,9%) y C v( X ) =
6810
x
9,08
X
Evidentemente, los errores relativos de muestreo coinciden al estimar la media y el
total para la poblacin.

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

141

Hemos estimado que el salario medio de todos los trabajadores de la multinacional


es de 908 euros mensuales y que los pagos totales mensuales de la multinacional en salarios
de todos sus empleados es 681000 euros. Estas estimaciones tiene un error inferior al 3%
(2,9%), lo que indica que son muy aceptables.
Para estimar la media y el total de la subpoblacin con n = 50, N = 750, n1 = 20 y N1
desconocido, se tiene:
20

x1 =

X
i =1

n1

20

x
172
=
= 8,6 y X 1 = N u 1 = 750. i =1
20
n
50

= 750 u

172
= 2580
50

1 20 2 20

1
X i < X i n1
1536 < 172 2 20
n1 < 1 i =1

i =1

50
n

19
)
V ( x1 ) = (1 < )
= (1 <
= 0,14
750
20
n1
N

1 20 2 20

1
X i < X i n
1536 < 172 2 50
n < 1 i =1
i =1

n
50

2
2
49

V ( X 1 ) = N (1 < )
= 750 (1 <
)
n
50
N
750
= 202354,28

Luego las estimaciones de los errores de muestreo para la subpoblacin sern:

m ( x1 ) = V ( x1 ) = 0,14 = 0,374 y m ( X 1 ) = V ( X 1 ) = 202354,28 = 450


Las estimaciones de los errores relativos de muestreo (coeficientes de variacin)
para la subpoblacin sern:
m ( X 1 ) 450
m ( x1 ) 0,374
=
= 0,1744 (17,44%)
C v( x1 ) =
=
= 0,043 ( 4,3%) y C v( X 1 ) =
x1
8,6
2580
X 1

Para la subpoblacin ya no coinciden los errores relativos de muestreo al estimar la


media y el total.
Hemos estimado que el salario medio de los trabajadores del sector financiero de la
multinacional es de 860 euros mensuales (algo inferior a los 908 euros mensuales de media
cuando se consideran todos los trabajadores) y que los pagos totales mensuales de la
multinacional en salarios de sus empleados del sector financiero es 258000 euros. Estas
estimaciones tienen unos errores del 4,3% y del 17,44%, respectivamente. Es mucho ms
precisa la estimacin del salario medio de los empleados del sector financiero que la
estimacin de los pagos totales a empleados de dicho sector.
En el caso de muestreo con reposicin los estimadores son los mismos (para la
poblacin y para la subpoblacin). Los errores de muestreo para la poblacin y la
subpoblacin sern:

142 Muestreo estadstico. Conceptos y problemas resueltos

m CR ( x ) = VCR ( x ) =
m CR ( X ) = VCR ( X ) =

m CR ( x1 ) = VCR ( x1 ) =
m CR ( X 1 ) = VCR ( X 1 ) =

0,07
V ( x )
=
= 0,289
1 < f 1 < 50 / 750
V ( X )
39375
=
= 212,28
1 < f 1 < 50 / 750

0,14
V ( x1 )
=
= 0,4
1 < f 1 < 50 / 750
202354,28
V ( X 1 )
=
= 482,14
1< f
1 < 50 / 750

Se observa que los errores de muestreo al estimar la media y el total, tanto


para la poblacin como para la subpoblacin, son mayores en el caso de muestreo con
reposicin que en el caso de muestreo sin reposicin.
Las estimaciones de los errores relativos de muestreo (coeficientes de
variacin) para la poblacin y la subpoblacin sern:
m ( x ) 0,289
C v( x ) = CR
=
= 0,031 (3,1%)
x
9,08

y C v( X ) = m CR ( X ) = 212,28 = 0,031 (3,1%)

6810
m ( x ) 0,4
m ( X ) 482,1
C v( x1 ) = CR 1 =
= 0,046 ( 4,6%) y C v( X 1 ) = CR 1 =
= 0,186 (18,6%)
x1
8,6
2580
X 1

Los errores relativos de muestreo al estimar la media y el total tambin son mayores
en el caso de muestreo con reposicin, tanto para la poblacin como para la subpoblacin.

3.16.

La tabla adjunta muestra la distribucin de frecuencias del nmero de residentes en cada una
de las 197 ciudades de Estados Unidos que tenan ms de 50000 habitantes en 1940.
N de residentes en miles
Frecuencias
N de residentes en miles
Frecuencias
de habitantes (clases)
absolutas
de habitantes (clases)
absolutas

50 - 100
105
650 -700
2
100 - 150
36
700 - 750
0
150 - 200
13
750 - 800
1
200 - 250
6
800 - 850
1
250 - 300
7
850 - 900
2
300 - 350
8
900 - 950
0
350 - 400
4
950 - 1000
0
400 - 450
1
1000 - 1050
0
450 - 500
3
1500 - 1550
1
500 - 550
0
1600 - 1650
1
550 - 600
2
1900 - 1950
1
600 - 650
1
3350 - 3400
1
7450 - 7500
1

Calcular los errores absoluto y relativo de muestreo del nmero total de habitantes estimado en
las 197 ciudades utilizando los siguientes mtodos de muestreo:
1) Muestro irrestricto aleatorio con tamao de muestra n = 50.
2) Muestreo que consiste en seleccionar las cinco ciudades ms grandes y posteriormente una
muestra irrestricta aleatoria de tamao 45 para las 192 ciudades restantes.

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

143

Comenzaremos calculando la cuasivarianza para la distribucin de frecuencias dada relativa


a los tamaos de las ciudades. Considerando las marcas de clase se tiene:
2

1 197
1
197

2
2
S =
85363125 < (46275) 197 = 380067,33
ni X i < n i X i N =
N < 1 i =1
i =1

197 < 1

El error de muestreo para una muestra aleatoria simple sin reposicin de tamao 50 es:

m ( X ) = V ( X ) = N 2 (1 <

n S2
50 380067,33
)
= 197 2 (1 <
)
= 14836,79 miles de personas
N n
197
50

14836,79
Como X = ni X i = 46275 Cv( X ) =
* 100 = 32% (error relativo).
46275
i =1
197

En el segundo apartado consideramos la subpoblacin de las cinco ciudades mayores


(ltimos cinco elementos de la tabla de frecuencias) que no presenta variabilidad porque se
eligen todos sus elementos para la muestra, y en la subpoblacin de las 192 ciudades restantes
elegimos una muestra de tamao 45. En esta ltima subpoblacin calcularemos el error de
muestreo (N1 = 192 n1 = 45).
S1

1 192
1
192

2
2
9425000 < (30350 ) 192 = 24227,68
=
n i X i < n i X i N 1 =
N 1 < 1 i =1
i =1

192 < 1

m ( X ) = V ( X ) = N 2 (1 <

n1 S12
45 24227,268
)
= 192 2 (1 <
)
= 3898,09 miles de personas
N 1 n1
192
45

3898,09
Como X 1 = ni X i = 30350 Cv( X ) =
* 100 = 12,84% (error relativo).
30350
i =1
192

3.17.

Dos dentistas A y B hicieron una encuesta para investigar el estado de los dientes de 200 nios. El
doctor A seleccion una muestra irrestricta aleatoria de 20 nios y cont el nmero de dientes con
caries de cada nio, con los siguientes resultados:

N de dientes con caries por nio


N de nios

0 1 2 3 4 5 6 7 8 9 10
8 4 2 2 1 1 0 0 0 1

El doctor B, utilizando las mismas tcnicas dentales, examin a los 200 nios y slo registr
aquellos que no tenan caries, encontrando que 60 nios no tenan dientes daados.
1) Estudiar qu doctor obtiene estimaciones ms precisas del nmero total de dientes con caries en
los nios cuantificando la ganancia en precisin.
2) Realizar las estimaciones anteriores mediante intervalos de confianza al 95%. Comentar los
resultados comparndolos con los del apartado anterior.

144 Muestreo estadstico. Conceptos y problemas resueltos

Para el doctor A, la estimacin del nmero de dientes con caries ser:

0 u 8 + 1 u 4 + L + 10 u 1
X = Nx = 200
= 200 u 2,1 = 420 dientes con caries.
20
El error de muestreo de esta estimacin es:

m ( X ) = V ( X ) = N 2 (1 <
S 2 =

n S 2
20 8,62
)
= 200 2 (1 <
)
= 123,04
N n
200 20

2
1
1 10
10

2
2
252 < (42 ) 20 = 8,62
n i X i < ni X i n =
20 < 1 i = 0
19
i =1

La estimacin por intervalos al 95% es IC ( X ) = X h_ m ( X ) = 420 1,96 u 123,04 .


Para el doctor B se considera la subpoblacin de los 140 nios con caries resultante de
eliminar de los 200 nios iniciales los 60 que no tenan caries. En cuanto a la muestra, hay que
eliminar de la distribucin inicial los ocho nios que tienen cero caries (20<8=12). La
distribucin muestral de frecuencias de esta subpoblacin queda como sigue:

N de dientes con caries por nio

1 2 3 4 5 6 7 8 9 10

N de nios

4 2 2 1 1 0 0 0 1

Tenemos entonces N1 = 140 y n1 = 12.


1 u 4 + L + 10 u 1
X 1 = N 1 x1 = 140
= 140 u 3,5 = 490 dientes con caries.
12

El error de muestreo de esta estimacin es:

m ( X 1 ) = V ( X 1 ) = N 12 (1 <

S12 =

n1 S1
12 9,545
)
= 140 2 (1 <
)
= 419,370
140 12
N 1 n1
2

2
1
1 10
10

2
2
252 < (42) 12 = 9,545
ni X i < ni X i n1 =
12 < 1 i =1
i =1

11

Se observa que la precisin del doctor B es bastante menor (error mayor).


La estimacin por intervalos al 95% es IC ( X 1 ) = X 1 h_ m ( X 1 ) = 490 1,96 u 419,37 .

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

145

EJERCICIOS PROPUESTOS
3.1.

Consideramos una poblacin finita de seis elementos sobre los que medimos una variable X,
obteniendo como resultados Xi = {8, 3, 1, 11, 4, 7}, i = 1, ..., 6. Mediante muestreo irrestricto
aleatorio se extraen muestras de tamao 2. Se pide:
1) Cuntos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las
probabilidades asociadas a las muestras. Hallar las distribuciones en el muestreo de los
estimadores de la media y del total de X, as como de los estimadores de sus varianzas.
S2
Comprobar la insesgadez de los estimadores y que se cumple V ( x ) = (1 < f ) ,
n
2
S
V ( X ) = N 2 (1 < f )
y E ( S 2 ) = S 2 , as como que el estimador T = Total muestral no es
n
insesgado del total poblacional X.
2) Hallar el tamao de muestra necesario para que el error de muestreo sea 2 al estimar la
media de la poblacin. Y al estimar el total poblacional? Hallar tambin el tamao de
muestra necesario para que el error relativo de muestreo sea 0.48 en las mismas
estimaciones. Calcular todos los tamaos de muestra anteriores en presencia de un
coeficiente de confianza adicional del 95%. Comentar los resultados.
3) Contestar a todas las preguntas del apartado anterior para muestreo con reposicin.
Comparar los resultados con los de muestreo sin reposicin. Comentar los resultados.
4) A partir de qu tamao poblacional N el aumento del tamao muestral n no interviene en
el error absoluto de muestreo para la estimacin de la media? Cunto valdr N con un
coeficiente de confianza del 95%? Hallar intervalos de confianza al 95% para la media y el
total basados en las muestras de elementos pares. Si al medir una variable X sobre los
elementos de la poblacin se obtienen los valores {1, 3, 4}, cul de todos los mtodos de
muestreo es ms preciso al estimar el total poblacional mediante un estimador lineal
insesgado apropiado?

3.2.

Mediante muestreo irrestricto aleatorio se trata de estimar la proporcin y el total de piezas


correctas producidas en un proceso industrial en el que se fabrican un total de 6000 unidades.
Una muestra piloto ha suministrado 1/3 de piezas defectuosas. Se pide:
1) Hallar el tamao de muestra necesario para que el error de muestreo sea de una dcima al
estimar la proporcin de piezas correctas producidas en el proceso industrial. Hallar tambin el
tamao de muestra necesario para que el error relativo de muestreo sea de 20% en la misma
estimacin.
2) Hallar el tamao de muestra necesario para que el error de muestreo sea de 600 unidades al
estimar el total de piezas correctas con un coeficiente de confianza del 99,7% y suponiendo
muestreo aleatorio simple con reposicin. Hallar dicho tamao en las condiciones anteriores pero
para un error relativo de muestreo del 10%.

146 Muestreo estadstico. Conceptos y problemas resueltos

3.3.

Con el objetivo del anlisis de la divisibilidad de un conjunto de nmeros consideramos la


poblacin virtual Xi = {2, 13, 17, 23, 6, 1}, i = 1, ..., 6. Mediante muestreo irrestricto aleatorio se
extraen muestras de tamao 2.
1) Se trata de estimar los parmetros poblacionales PROPORCIN DE NMEROS PRIMOS y
TOTAL DE NMEROS PRIMOS mediante estimadores insesgados basados en las muestras del
espacio muestral. Hallar la distribucin en el muestreo de dichos estimadores y de las
estimaciones insesgadas de sus varianzas. Comprobar todas las insesgadeces y que se cumplen
N
N
PQ
PQ
, V ( A ) = N 2 (1 < f ) N < 1
y E ( S 2 ) = S 2 , as como
las relaciones V ( P ) = (1 < f ) N < 1
n
n
que el estimador T = Total de nmeros primos en las muestras no es insesgado del total de clase
poblacional A.
3) Hallar el tamao de muestra necesario para que el error de muestreo sea 1/4 al estimar la
proporcin de nmeros primos de la poblacin. Hallar tambin el tamao de muestra necesario
para que el error relativo de muestreo sea del 2% en la misma estimacin.
4) Hallar intervalos de confianza al 99% (_ = 0,01) para el total y la proporcin de nmeros
primos en la poblacin basados en las muestras cuyos dos elementos son nmeros no primos.
Tenemos como dato conocido que F-1(0.995)= 2,57, siendo F la funcin de distribucin de la
normal (0,1). Comentar los resultados.
5) Hallar el tamao de muestra necesario para que el error de muestreo sea 6 al estimar el total de
nmeros primos de la poblacin con un coeficiente de confianza del 99% y suponiendo muestreo
aleatorio simple con reposicin. Hallar dicho tamao en las condiciones anteriores pero para un
error relativo de muestreo del 90%. Comentar los resultados.

3.4.

Un investigador est interesado en estimar la ganancia en peso total en 0 a 4 semanas de N =


1000 polluelos alimentados con una nueva racin. Obviamente, pesar cada ave sera tedioso
y lento. Por lo tanto, determinar el nmero de polluelos que sern seleccionados en este
estudio para estimar con un lmite para el error de estimacin igual a 1000 gramos. Muchos
estudios similares sobre nutricin de polluelos se han llevado a cabo en el pasado. Usando
los datos de esos estudios, el investigador encontr que 2, la varianza poblacional, fue
aproximadamente igual a 36,00 gramos. Determine el tamao de muestra requerido.

3.5.

Una muestra irrestricta aleatoria de n = 100 medidores de agua es controlada dentro de una
comunidad para estimar el promedio de consumo de agua diario por casa durante un periodo
estacional seco. La media y la varianza muestrales fueron y = 12,5 y s 2 = 1252 . Si
suponemos que hay N = 10000 casas dentro de la comunidad, estimar , el promedio de
consumo diario verdadero, y establezca un lmite para el error de estimacin.

CAPTULO
MUESTREO ESTRATIFICADO
SIN Y CON REPOSICIN

OBJETIVOS
1. Presentar el concepto de muestreo estratificado.
2. Comprender las especificaciones del muestreo estratificado.
3. Analizar los estimadores y sus errores en muestreo aleatorio estratificado
sin reposicin.
4. Estimar los errores en muestreo aleatorio estratificado sin reposicin.
5. Analizar los estimadores y sus errores en muestreo estratificado con
reposicin.
6. Estimar los errores en muestreo aleatorio estratificado sin reposicin.
7. Comprender el concepto de afijacin de la muestra.
8. Estudiar los distintos tipos de afijacin.
9. Especificar los errores de los estimadores en funcin de los distintos tipos
de afijacin.
10. Analizar el tamao de la muestra en general.
11. Estudiar el tamao de la muestra en funcin de los distintos tipos de
afijacin.
12. Comparar la eficiencia de los distintos tipos de afijacin.
13. Presentar el concepto de postestratificacin.
14. Analizar estimadores y errores en postestratifiaccin.

148 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Concepto de muestreo estratificado.
2. Muestreo estratificado sin reposicin. Estimadores y errores.
3. Muestreo estratificado con reposicin. Estimadores y errores.
4. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para
muestreo sin reposicin.
5. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para
muestreo con reposicin.
6. Tamao de la muestra para muestreo sin reposicin.
7. Tamao de la muestra para muestreo con reposicin.
8. Comparacin de eficiencias en muestreo estratificado.
9. Postestratificacin.
10. Problemas resueltos
11. Ejercicios propuestos

Muestreo estratificado sin y con reposicin

149

CONCEPTO DE MUESTREO ESTRATIFICADO


Supongamos que la poblacin objeto de estudio, formada por N unidades elementales, se
divide en L subpoblaciones o estratos, los cuales constituyen una particin, es decir, no se
solapan y la unin de todos ellos es el total. De forma ms precisa podemos decir que en el
muestreo estratificado, una poblacin heterognea con N unidades {ui} i = 1, 2, ..., N se subdivide
en L subpoblaciones disjuntas lo ms homogneas posible (que forman una particin) de tamaos
N1, N2, ..., NL., denominadas estratos {uhi } h =1,2 ,L, L .
i =1, 2 ,L N h

El muestreo estratificado es un tipo de muestreo de unidades elementales ya que la muestra


estratificada de tamao n se obtiene seleccionando nh elementos (h = 1, 2, ..., L) de cada uno de los L
estratos en los que se subdivide la poblacin de forma independiente. Si la seleccin en cada estrato
es aleatoria simple y de forma independiente, el muestreo se denomina muestreo aleatorio
estratificado, pero en general nada impide utilizar diferentes tipos de seleccin en cada estrato. Si
el muestreo aleatorio en cada estrato es sin reposicin, el muestreo estratificado es sin reposicin,
y si el muestreo aleatorio en cada estrato es con reposicin, el muestreo estratificado es con
reposicin. El grfico siguiente muestra la poblacin dividida en h estratos de tamao Nh, en
cada de los cuales elegimos de modo independiente nh unidades (por muestreo aleatorio
simple si no se especifica otra cosa) para la muestra estratificada de tamao n..

Nh
nh
N1
n1

N4
n4
N2
n2

N3
n3

POBLACIN
A continuacin se expresa de modo esquemtico la formacin de estratos en la
poblacin y la formacin de la muestra estratificada de la forma siguiente:
POBLACIN

u11 u12 Lu 1 N1

u 21 u 22 Lu 2 N 2 L
Se divide en L estratos
{u1 u 2 Lu N }
A
Nh = N
LLLLLL h =1
u u Lu

LN L
L1 L 2

MUESTRA

u11 u12 Lu 1n

u 21 u 22 Lu 2 n L
Se extrae en cada estrato
{u1 u 2 Lu n } A
nh = n
LLLLLL h =1

u u Lu
Ln

L1 L 2
1

150 Muestreo estadstico. Conceptos y problemas resueltos

El principal objetivo del muestreo estratificado es mejorar la precisin de las


estimaciones reduciendo los errores de muestreo. Intenta minimizar la varianza de los
estimadores mediante la creacin de estratos lo ms homogneos posible entre sus elementos
(para que los estimadores del estrato sean precisos) y lo ms heterogneos entre s (para
tener el mximo de informacin). Otros objetivos del muestreo estratificado son los
siguientes:
1. Obtener estimaciones separadas para cada uno de los estratos.
2. Hacer un uso ms racional de la organizacin administrativa.
3. Paliar los defectos del marco, aislando esos defectos en algunos estratos.
Es muy conveniente utilizar muestreo estratificado cuando existe una variable precisa para
la estratificacin cuyos valores permitan dividir convenientemente la poblacin en estratos
homogneos. Las variables utilizadas para la estratificacin debern estar correlacionadas con las
variables objeto de la investigacin. Por ejemplo, para realizar estadsticas sobre los ingresos de las
familias en una ciudad puede estratificarse segn los valores de la variable cualificacin profesional
de los cabezas de sus componentes (a ms cualificacin normalmente hay ms ingresos, con lo que
los estratos resultarn homogneos). Si se quiere estudiar el volumen de negocio de los
establecimientos de venta al pblico de una ciudad, se puede utilizar como variable de
estratificacin su nmero de empleados, y clasificar (estratificar) los establecimientos en grandes
superficies, supermercados, tiendas grandes, tiendas pequeas y otros, segn el nmero de
empleados; as resulta una divisin de los establecimientos en grupos homogneos. Si se quiere
estudiar caractersticas de hospitales se puede utilizar la variable de estratificacin nmero de
pacientes, para estratificarlos en grandes hospitales, clnicas medias y clnicas pequeas, resultando
as grupos de hospitales con problemtica similar. Para realizar estadsticas en el sector educativo
puede utilizarse la variable de estratificacin nivel de enseanza, tomando como estratos los niveles
de enseanza infantil, enseanza primaria, enseanza secundaria obligatoria, bachillerato y
enseanza universitaria (cada estrato tiene as unas caractersticas muy peculiares que lo hacen
homogneo).

MUESTREO ESTRATIFICADO SIN REPOSICIN: ESTIMADORES Y ERRORES


En muestreo estratificado un parmetro poblacional puede escribirse como e =

Nh

hi

El parmetro e puede ser estimado mediante la suma extendida a todos los estratos de los
estimadores lineales insesgados de Horvitz y Thompson en cada estrato, es decir, mediante:

e =

nh

Y hi

hi

donde / hi es la probabilidad de que la unidad u hi pertenezca a la muestra ( Xh ) de nh unidades,


obtenida de entre las Nh unidades del estrato h-simo. Para los diferentes estimadores tendremos las
siguientes expresiones:

Muestreo estratificado sin y con reposicin


L

nh

e = X Yhi = X hi X st =
h=1 i =1

X hi

/ hi

151

L
L
L
X hi
1 nh
= N h X hi = N h xh = X h
n =1
h=1 i =1 nh N h
h=1
h=1
1h4i2
4
3 h=1
L

nh

X h = xh

e = X Yhi =

L
L
L
L
X hi
N 1 nh
1 nh X
1 nh X
X st = xst = hi = hi = h X hi = Wh xh
N
N nh i=1
h=1 N i =1 / hi
h=1 N i =1 nh N h
h=1 {
h=1
Wh

nh

e = A Yhi = Ahi A st =
h=1 i =1

Ahi

/ hi

nh

=
h =1 i =1

L
L
L
Ahi
1 nh
= N h Ahi = N h Ph = A h
nh N h h=1 nh i =1
h =1
1424
3 h=1
Ph

e = P Yhi =

L
L
L
L
Ahi
N 1 nh
1 nh A
1 nh Ahi
Pst = hi =
= h
A
=
Wh Ph

hi
/
N
N
N
n
N
N
n
h =1
i =1
h =1
i =1 h
h =1 { h i =1
hi
h
1424
3 h=1
W
h

Ph

El estimador del total poblacional en muestreo estratificado aleatorio es la suma de


los estimadores del total en cada estrato y los factores de elevacin son Nh / nh. El estimador
de la media en muestreo estratificado aleatorio es la media ponderada de los estimadores de la
media en cada estrato, siendo los coeficientes de ponderacin Wh = Nh/N de suma unitaria, que a
su vez son los factores de elevacin. El estimador del total de clase en muestreo estratificado
aleatorio es la suma de los estimadores del total de clase en cada estrato. El estimador de la
proporcin en muestreo estratificado aleatorio es la media ponderada de los estimadores de la
proporcin en cada estrato, siendo los coeficientes de ponderacin Wh = Nh/N de suma
unitaria. Las varianzas de los estimadores y sus errores son (fh = nh / Nh):

( )

L
S2
S2
L
L
V X st = N h2 (1 < f h ) h , V (x st ) = V W h x h = W h2 (1 < f h ) h
nh
nh
h =1
h =1
h =1
L
L
N h Ph Q h
N h Ph Q h
V A st = N h2 (1 < f h )
, V Pst = Wh2 (1 < f h )
N h < 1 nh
N h < 1 nh
h =1
h =1

( )

( )

L
L
S h2
S h2
2
2

V X st = N h (1 < f h )
, V (X st ) = W h (1 < f h )
nh
nh
h =1
h =1
L
L
P Q
P Q
V A st = N h2 (1 < f h ) h h , V Pst = W h2 (1 < f h ) h h
nh < 1
nh < 1
h =1
h =1

( )

( )

( )

S h2 = cuasivarianza poblacional en el estrato h, Sh2 = cuasivarianza muestral en el estrato h.

MUESTREO ESTRATIFICADO CON REPOSICIN: ESTIMADORES Y ERRORES


Para el caso del muestreo estratificado con reposicin los estimadores son los
mismos, y sus varianzas son las siguientes:

( )

L
L
L
L
m2
m2
PQ
PQ
V X st = N h2 h , V ( x st ) = Wh2 h , V A st = N h2 h h , V Pst = Wh2 h h
nh
nh
nh
nh
h =1
h =1
h =1
h =1

( )

( )

152 Muestreo estadstico. Conceptos y problemas resueltos

Las estimaciones de los errores (estimaciones de varianzas) son las siguientes:


L
L
L
L
2
2
P Q
P Q
2 Sh
2 Sh

, V (X st ) = Wh
V X st = N h
, V A st = N h2 h h , V Pst = Wh2 h h
nh
nh
nh < 1
nh < 1
h =1
h =1
h =1
h =1

( )

( )

( )

AFIJACIN DE LA MUESTRA: TIPOS DE AFIJACIN Y ERRORES DE


LOS ESTIMADORES PARA MUESTREO SIN REPOSICIN
Se llama afijacin de la muestra al reparto, asignacin, adjudicacin, adscripcin o distribucin
del tamao muestral n entre los diferentes estratos; esto es, a la determinacin de los valores de nh
que verifiquen n1 + n2 + .... + nL = n. Pueden establecerse muchas afijaciones o maneras de
repartir la muestra entre los estratos, pero las ms importantes son: la afijacin uniforme, la
afijacin proporcional, la afijacin de varianza mnima y la afijacin ptima.

Afijacin uniforme
Consiste en asignar el mismo nmero de unidades muestrales a cada estrato, con lo que se
tomarn todos los nh iguales a n/L, aumentando o disminuyendo este tamao en una unidad
si n no fuese mltiplo de L, esto es, nh = E(n/L) + 1, donde E denota la parte entera.
L

h =1

h =1

n h = k h = 1LL n h = k n = Lk f h =

nh
k
=
Nh Nh

Para este tipo de afijacin, las varianzas de los estimadores y sus estimaciones se
hallan sustituyendo en las frmulas generales fh por k/Nh. Este tipo de afijacin da la misma
importancia a todos los estratos, en cuanto a tamao de la muestra, con lo cual favorecer a los
estratos de menor tamao y perjudicar a los grandes en cuanto a precisin. Slo es conveniente
en poblaciones con estratos de tamao similar.

Afijacin proporcional
Consiste en asignar a cada estrato un nmero de unidades muestrales proporcional a su tamao.
Las n unidades de la muestra se distribuyen proporcionalmente a los tamaos de los estratos
expresados en nmero de unidades. Tenemos:
L
L
L
n
n h = N h k n h = N h k = k N h n = kN k = = f
N
h =1
h =1
1
23 h =1
1
23
n

fh =

nh
N k
= h =k = f
N
Nh
{h

Wh =

N h nh k nh
=
=
N
nk
n

/ hi

Para este tipo de afijacin, las varianzas de los estimadores sern:

Muestreo estratificado sin y con reposicin

153

(1 < k ) L N u S 2 , V (x ) = (1 < k ) L W u S 2
V X st =
h h
h h
st
k h=1
n h=1
(
(
1 < k ) L Nh2
1 < k ) L Nh2 N

V Ast =
u PhQh , V Pst =
u PhQh

k h=1 Nh <1
k h=1 Nh <1

( )

( )

( )

En afijacin proporcional los estimadores de media y total pueden expresarse como


sigue:
L

L
L
n
1
X st = N h x h = h x h =
K
h =1
h =1 k

nh x h =

{
h =1

x
h =1

x h nh

Total muestral
x
=
f Fraccion demuestreo

n
1
X st = x st = Wh x h = h x h = nh x h =
n h =1 x{n
h =1
h =1 n
L

x
h =1

Total muestral
Tamao de muestra

A la vista de los resultados anteriores, en afijacin proporcional, podemos asegurar lo


siguiente:

Las fracciones de muestreo en los estratos son iguales y coinciden con la fraccin global
de muestreo, siendo su valor la constante de proporcionalidad.

Los coeficientes de ponderacin Wh se obtienen exclusivamente a partir de la muestra,


pues para su clculo slo son necesarios valores muestrales (nh y n).

El estimador insesgado para el total poblacional puede expresarse como el cociente entre
el total muestral y la fraccin de muestreo, o lo que es lo mismo, como el producto del
total muestral por la inversa de la fraccin de muestreo. Similar propiedad tiene el
estimador insesgado para el total de clase (producto del total de clase muestral por la
inversa de la fraccin de muestreo).

El estimador insesgado para la media poblacional puede expresarse como el cociente entre
el total muestral y el tamao de la muestra. Similar propiedad tiene el estimador insesgado
para la proporcin poblacional (cociente entre el total de clase muestral y el tamao de la
muestra).

Como / hi =

nh
= k = f, todas las unidades de la poblacin tienen la misma probabilidad
Nh

de figurar en la muestra de n unidades; es decir, estamos en el caso de muestras


autoponderadas.

Afijacin de mnima varianza (o afijacin de Neyman)


La afijacin de mnima varianza o afijacin de Neyman consiste en determinar los valores de
nn (nmero de unidades que se extraen del estrato h-simo para la muestra) de forma que para
un tamao de muestra fijo igual a n la varianza de los estimadores sea mnima.

154 Muestreo estadstico. Conceptos y problemas resueltos

Nh
Sh
W S
La expresin para nh es n h = n u L
=nu L N
=nu L h h .
Nh
NhSh
Sh
Wh S h

h =1
h =1 N
h =1
NhSh

Vemos que los valores de nh son proporcionales a los productos N h u S h y en el


supuesto de que Sh = S, h = 1, 2, ..., L esta afijacin de mnima varianza coincidira con la
proporcional, tal y como se ve a continuacin:

S h = S nh = n u

NhS
L

N
h =1

=
S

nN h
n
= kN h con k =
N
N

La utilidad de esta afijacin es mayor si hay grandes diferencias en la


variabilidad de los estratos. En otro caso, la mayor sencillez y autoponderacin de la
afijacin proporcional hacen preferible el empleo de sta.
Una vez calculados los nh para afijacin de mnima varianza, vamos a ver cunto
vale la varianza del estimador de la media y del total para este tipo de afijacin. Tenemos:
2

1 L
1

V ( x st ) = Wh S h <
n h =1
N

( )

Wh S , V X st
2
h

h =1

1 L
1

= Nh Sh <
n h =1
N

N
h =1

S h2

Si se quiere la afijacin y la expresin de la varianza mnima para el estimador de la


proporcin y el total de clase, basta sustituir en la frmula anterior Sh2 por PhQhNh/(Nh-1).

Afijacin ptima
La afijacin ptima consiste en determinar los valores de nh (nmero de unidades que se
extraen del estrato h-simo para la muestra) de forma que para un coste fijo C la varianza de
los estimadores sea mnima. El coste fijo C ser la suma de los costes derivados de la
seleccin de las unidades muestrales de los estratos; es decir, si ch es el coste por unidad de
muestreo en el estrato h, el coste total de seleccin de las nh unidades muestrales en ese
estrato ser chnh. Sumando los costes chnh para los L estratos tenemos el coste total de
seleccin de la muestra estratificada.
Podemos escribir que n h = n u

Nh Sh
L

N
h =1

Sh

ch
ch

= nu

Wh S h
L

W
h =1

Sh

ch
ch

Vemos que los valores de nh son proporcionales a los productos N h u S h

c h y en el

supuesto de que Ch = k h = 1, 2, ..., L (coste constante en todos los estratos) la afijacin


ptima coincide con la de mnima varianza, y si adems Sh = S, h = 1, 2, ..., L la afijacin
ptima coincidir con la de mnima varianza y con la proporcional.
Valor de la varianza mnima
Una vez calculados los nh para afijacin ptima, vamos a ver cunto vale la varianza del
estimador de la media y del total para este tipo de afijacin. Tenemos:

Muestreo estratificado sin y con reposicin

1 L
Wh S h
n h =1

L
1
c h Wh S h c h <
h =1
N

W S

1 L
V X st = N h S h
n h =1

L
1
c h N h S h c h <
h =1
N

V ( x st ) =

( )

h =1

h =1

155

2
h

S h2

Si se quiere la afijacin ptima y la expresin de la varianza mnima para el


estimador de la proporcin y el total de clase, basta sustituir en la frmula anterior Sh2 por
PhQhNh/(Nh-1).

AFIJACIN DE LA MUESTRA: TIPOS DE AFIJACIN Y ERRORES DE LOS


ESTIMADORES PARA MUESTREO CON REPOSICIN
Dada la forma en que estn definidos los clculos de los nh para las afijaciones uniforme y
proporcional, dichas afijaciones no van a verse afectadas por el hecho de que el muestreo sea
con o sin reposicin. Sin embargo, s variarn las varianzas de los estimadores. Las
afijaciones de mnima varianza y ptima s van a verse afectadas por la existencia de
reposicin o no, ya que el clculo de nh depende de las varianzas en los estratos.
Afijacin uniforme
Para este tipo de afijacin, las varianzas de los estimadores sern:

( )

( )

( )

m
m
PQ
PQ
V X st = Nh2 h , V (xst ) = Wh2 h , V Ast = Nh2 h h , V Pst = Wh2 h h
k
k
k
k
h=1
h=1
h=1
h=1
2

Afijacin proporcional
Para este tipo de afijacin las varianzas de los estimadores sern:

( )

( )

( )

PQ
1 L
1 L
1 L
1 L
V X st = N h m h2 , V A st = N h Ph Qh , V (xst ) = Whm h2 , V Pst = Wh h h
k h=1
k h=1
n h=1
n h=1
k
Afijacin de mnima varianza (o afijacin de Neyman)
Tenemos:

nh = n u

Whm h

= nu

W m
h =1

N hm h

N m
h =1

V ( x st ) =

1 L
1 L

,
(
)
W
m
V
x
=
h h
N hm h
st
n h =1
n h =1

Si se quiere la afijacin de mnima varianza y la expresin de la varianza mnima


para el estimador de la proporcin y el total de clase basta sustituir en la frmula anterior
mh2 por PhQh.

156 Muestreo estadstico. Conceptos y problemas resueltos

Afijacin ptima
Tenemos:

Wh m h
nh = n u

N hm h

ch
L

=nu

Wh m h
ch

h =1

ch
L

N hm h

h =1

V ( x st ) =

1 L
Wh m h
n h =1

c h Wh m h c h ,
h =1

ch

( )

1 L
V X st = N h m h
n h =1

c h N h m h c h
h =1

Si se quiere la afijacin ptima y la expresin de la varianza mnima para el estimador de


la proporcin y el total de clase basta sustituir en las fmulas anterioriores mh2 por PhQh.

TAMAO DE LA MUESTRA PARA MUESTREO SIN REPOSICIN


Vamos a analizar ahora el tamao de muestra estratificada necesario para cometer un
determinado error de muestreo conocido de antemano. Distinguiremos los casos de error de
muestreo dado con y sin coeficiente de confianza adicional y, adems, distinguiremos entre
los diferentes tipos de afijacin de la muestra.
Tipo de error A
Parmetro
?

Absoluto

Absoluto

proporcional

varianza mnima

e2 +

1
N

W S

N h Sh

h =1

N h Sh2

h =1
L

Total

N S

e2 +

2
h h

e2 +

h =1

Wh

Proporcin

h =1

1
e +
N
2

Nh
PhQh
Nh < 1

Nh
Wh
PhQh
Nh < 1
h =1

Total de clase

Nh
N Nh
PhQh
N
h <1
h =1

e2 +

N
h =1

Nh
PhQh
Nh < 1

varianza mnima

2
h h
2

Nh
Wh
PhQh
h =1

<
1
N
h

L
Nh
1
2
e +
Wh
PhQh
N h =1
Nh < 1
L

Nh
Nh
PhQh
h =1

<
1
N
h

L
Nh
PhQh
e2 +
Nh
Nh < 1
h =1

h_2

h =1

2
h h

h =1

Nh
PhQh
Nh < 1

Nh
PhQh
N Nh
N
h <1
h =1

h_2

N S

Nh
PhQh
Nh < 1

N
h =1

Nh
PhQh
Nh < 1

N h Sh

h =1

L
2
e
+
N h Sh2
2
L

N h Sh2

1
N

2
h h

h =1

h_

h =1

Wh

h =1

h_2

W S

N
2

1
N

h_2

N S
h =1

Wh Sh2

h =1

Wh Sh

h =1

L
2
e
1
+
Wh Sh2
h_2 N h =1

2
h h

h =1

proporcional

Wh Sh

h =1

L
1
2
e +
Wh Sh2
N h =1

Wh Sh2

h =1

Absoluto y coeficiente
de confianza adicional

Media

Absoluto y coeficiente
de confianza adicional

h =1

Nh
Wh
PhQh
h =1

<
1
N
h

L
2
Nh
1
e
+
Wh
PhQh
h_2 N h =1 N h < 1
L

Nh
Nh
PhQh
h =1

<
1
N
h

L
2
Nh
e
+
P
Q
N
h
h h
Nh < 1
h_2 h =1

TAMAO DE LA MUESTRA PARA MUESTREO CON REPOSICIN


Vamos a analizar ahora el tamao de muestra estratificada con reposicin necesario para
cometer un determinado error de muestreo conocido de antemano. Distinguiremos los casos
de error de muestreo dado con y sin coeficiente de confianza adicional y, adems,
distinguiremos entre los diferentes tipos de afijacin de la muestra.

Muestreo estratificado sin y con reposicin


Tipo de error A
Parmetro
?

Absoluto

proporcional

varianza mnima

W m
h =1

Media

h =1

Total

Whm h
h =1

e2

2
h

e2

L
N hm h

h =1
e2

N hm h2

h =1

Proporcin

N PQ
h =1

h h

W m
h =1
2

e2

varianza mnima
L

Whm h
h =1

e 2 / h_2

2
h

e / h_2

h =1
2

N h Ph Qh
h =1
e2

proporcional
L

L
Wh Ph Qh
h =1
e2
L

Absoluto y coeficiente

de confianza adicional de confianza adicional

Wh Ph Qh
e

Total de clase

Absoluto y coeficiente

Absoluto

157

L
N hm h

h =1
e 2 / h_2

N hm h2
2

e / h_
L

h =1

h =1
2

L
Wh Ph Qh
h =1
e 2 / h_2

L
N h Ph Qh
h =1
e 2 / h_2

N PQ
h h

Wh Ph Qh

e 2 / h_2

e / h_2

COMPARACIN DE EFICIENCIAS EN MUESTREO ESTRATIFICADO


Muestreo sin reposicin
Vamos a realizar ahora comparaciones de eficiencias a partir de la expresin de S2. Tenemos:
S2 =

W h S h2 + W h (X h < X )
L

h =1

h =1

2
S2
1 L
1 L
= W h S h2 + W h (X h < X )
n
n h =1
n h =1

2
S 2 1< f L
1< f L
2
W
S
(1 < f )
=
+
W h (X h < X ) V MAS ( x )
*
V MEP ( x )

h h
?
n
h =1
h =1
14243
La igualdad se da
1n442
44
3 1n4 4
4 24 4 4 3
si X = X h =1,L, L
V MAS ( x )
*0
V MEP ( x )
h

Hemos visto que el muestreo estratificado con afijacin proporcional es ms preciso que el
muestreo aleatorio simple, producindose la igualdad de precisiones cuando las medias de los
estratos son todas iguales. Por tanto, la ganancia en precisin del muestreo estratificado respecto del
aleatorio simple ser mayor cuanto ms distintas entre s sean las medias de los estratos; es decir,
para que el muestreo estratificado sea preciso es conveniente que los estratos sean heterogneos
entre s en media, afirmacin que ya conocamos desde el comienzo del tema y que constituye una
de las especificaciones clsicas en el muestreo estratificado.
2
1 L
1< f L
1

V MEP ( x ) < V MEMV ( x ) =


Wh S h <
Wh S h <

n3 h =1
N

12
n h =1
1 1
<
n N

1 L
L

2
W
S
<
Wh S h

h h
n h =1
h =1

1 L
= Wh S h < S
n h =1

?
La igualdad se da
si S h = S h =1,L, L

Luego VMEP ( x ) < VMEMV ( x ) * 0 VMEP ( x ) * VMEMV ( x )

W S
h

h =1

2
h

0 con S = Wh S h
h =1

158 Muestreo estadstico. Conceptos y problemas resueltos

El muestreo estratificado con afijacin de mnima varianza es ms preciso que el muestreo


estratificado con afijacin proporcional, producindose la igualdad de precisiones cuando las
cuasidesviaciones tpicas de los estratos son todas iguales. Por tanto, la ganancia en precisin del
muestreo estratificado con afijacin de mnima varianza respecto del muestreo estratificado con
afijacin proporcional ser mayor cuanto ms distintas entre s sean las cuasidesviaciones tpicas de
los estratos; es decir, para que el muestreo estratificado sea ms preciso es conveniente que los
estratos sean heterogneos entre s en desviacin tpica, afirmacin que ya conocamos desde el
comienzo del tema y que constituye una de las especificaciones clsicas en el muestreo
estratificado.

V MAS ( x ) * V MEP ( x ) * V MEMV ( x )


El muestreo estratificado con afijacin de mnima varianza es ms preciso que el muestreo
estratificado con afijacin proporcional y que el aleatorio simple, siendo adems el estratificado con
afijacin proporcional ms preciso que el aleatorio simple.

S 2 1< f L
1< f
W h S h2 +
=
(1 < f )

n
n
h =1
142 43
1n442
44
3
V MAS ( x )
V MEP ( x )
V MEMV ( x ) +

1
n

Wh Sh < S
h =1

W (X
h

h =1

1< f
n

<X

W (X
h =1

<X

El incremento de la eficiencia del muestreo estratificado con afijacin de mnima varianza


respecto del muestreo aleatorio simple recoge un trmino debido a la variabilidad de las medias de
los estratos y otro debido a la variabilidad de las desviaciones tpicas de los estratos. Se produce la
igualdad de eficiencias cuando las cuasivarianzas y las medias de los estratos son constantes, y se
produce la mxima diferencia de eficiencias cuanto ms distintas sean las cuasivarianzas y las
medias de los estratos, es decir, cuanto mayor sea la heterogeneidad entre los estratos, tal y como es
lgico en muestreo estratificado.
Muestreo con reposicin
Vamos a realizar ahora comparaciones de eficiencias a partir de la expresin de m2. Tenemos:

m 2 = Whm h2 + Wh (X h < X )
L

h =1

h =1

VMAS ( x )

?
La igualdad se da
si X h = X h =1,L, L

m2

2
1 L
1 L
Whm h2 + Wh (X h < X )

n
n4
n h4
h =1
=1
{
1
243 1
4
42444
3
VMAS ( x )
*0
VMEP ( x )

VMEP ( x )

Hemos visto que el muestreo estratificado con reposicin y afijacin proporcional es ms


preciso que el muestreo aleatorio simple con reposicin, producindose la igualdad de precisiones
cuando las medias de los estratos son todas iguales.
Ahora vamos a comparar la afijacin proporcional y de mnima varianza con reposicin.

Muestreo estratificado sin y con reposicin

VMEP ( x ) < VMEMV ( x ) =


=

1 L
2
Wh (m h < m )

n h =1

159

2
2
1 L
1 L
1 L

L

2
2
W
W
W
W
m
<
m
=
m
<
m

h h n
h h
h h
h h
n h =1
n h =1
h =1
h =1

?
La igualdad se da
si S h = S h =1,L, L

0 conm = Whm h VMEP ( x ) * VMEMV ( x )


h =1

El muestreo estratificado con reposicin y afijacin de mnima varianza es ms preciso


que el muestreo estratificado con reposicin y afijacin proporcional, producindose la igualdad de
precisiones cuando las cuasidesviaciones tpicas de los estratos son todas iguales.

VMAS ( x ) * VMEP ( x ) * VMEMV ( x )


En general el muestreo estratificado con reposicin y afijacin de mnima varianza es ms
preciso que el muestreo estratificado con reposicin y afijacin proporcional y que el aleatorio
simple con reposicin, siendo adems el estratificado con reposicin y afijacin proporcional ms
preciso que el aleatorio simple con reposicin.

m2
n
{
V MAS ( x )

1 L
1 L
2
2
m
+
Wh (X h < X ) =
W

h h
n4
h =1
1
243 n h =1
VMEP ( x )

VMEMV ( x ) +

1 L
Wh m h < m
n h =1

) + 1n W (X
2

h =1

<X)

El incremento de la eficiencia del muestreo estratificado con reposicin y afijacin de


mnima varianza respecto del muestreo aleatorio simple con reposicin recoge un trmino debido a
la variabilidad de las medias de los estratos y otro debido a la variabilidad de las desviaciones
tpicas de los estratos. Se produce la igualdad de eficiencias cuando las varianzas y las medias de
los estratos son constantes, y se produce la mxima diferencia de eficiencias cuanto ms distintas
sean las varianzas y las medias de los estratos, es decir, cuanto mayor sea la heterogeneidad entre
los estratos, tal y como es lgico en muestreo estratificado.

POSTESTRATIFICACIN
Cuando se manejan determinadas variables de estratificacin puede ocurrir que no se
conozca el estrato a que pertenece una unidad sino hasta despus de recoger los datos.
Ejemplos tpicos son las caractersticas personales como la edad, el sexo, la estatura,
etc., y el nivel de educacin.
Los tamaos de los estratos Nh se pueden obtener de manera bastante exacta a partir
de las estadsticas oficiales, pero las unidades se pueden clasificar en estratos solamente
despus de conocer los datos de la muestra. Por lo tanto, puede suponerse que los Wh y los
Nh son conocidos.

160 Muestreo estadstico. Conceptos y problemas resueltos

Este mtodo se utiliza cuando se desconocen a priori las unidades que pertenecen a
cada estrato. Obtenida la muestra, las unidades se asignan al estrato correspondiente. Si los
pesos de stos son conocidos, se puede utilizar el estimador insesgado.
L

x ' = Wh x h
h =1

cuya precisin es similar a la obtenida con la afijacin proporcional, siempre que todos los
nh sean grandes; por ejemplo, superiores a 20 unidades. Si de los Wh se conocen slo las
aproximaciones Wh, el estimador:
L

x ' ' = W 'h xh


h =1

ser sesgado y la cuanta del sesgo ser:


L

h =1

h =1

h =1

E [x ' '] < X = W ' h X h < Wh u X h = (W ' h Wh ) u X h

La acuracidad vendr dada por el error medio cuadrtico

S2
E.M .C.( x ' ' ] = W ' u h u (1 < f h ) + (W ' h <Wh )X h
nh
h =1

2
h

El estimador del total es: X ' ' = N ' h x h .


h =1

El mtodo de postestratificacin puede aplicarse tambin a una muestra ya


estratificada por otro factor, por ejemplo, en cinco regiones geogrficas a condicin de que los
Wh se conozcan separadamente en cada regin. Esta estratificacin doble se utiliza mucho en
las cuentas nacionales de Estados Unidos. Los errores se calculan y estiman mediante:
N <n L
N <n L 2
2
N
S
'
u
'
+
S ' h (1 < f ' h )
h h N n2
N 2 n h =1
h =1
N ( N < n) L 2
N <n L
2
V ( X ' ' ) =
'
u
'
+
S ' h (1 < f ' h )
N
S
h h

n2
n h =1
h =1
V (x' ' ) =

N <n L
N <n L 2
V ( x ' ' ) = 2 N ' h uS ' h2 +
S ' h (1 < f ' h )
N n h =1
N n 2 h =1
N ( N < n) L 2
N <n L
S ' h (1 < f ' h )
V ( X ' ' ) =
N ' h uS ' h2 +

n2
n h =1
h =1

Para totales y proporciones cambiamos S h2 por

n' h
P' h (1 < P ' h ) y S ' 2h por
n' h <1

N 'h
P ' h (1 < P' h ) . El apstrofe indica siempre valor de postestratificacin.
N ' h <1

Muestreo estratificado sin y con reposicin

161

PROBLEMAS RESUELTOS
4.1.

Una empresa publicitaria est interesada en medir la influencia de la publicidad televisiva en un


municipio y decide realizar una encuesta por muestreo para estimar el nmero promedio de horas
por semana que se ve la televisin en los hogares del municipio. ste comprende dos pueblos A y
B y un rea rural, y se sabe que existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el
rea rural. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar 30 hogares
(20 del pueblo A, 8 del pueblo B y 12 del rea rural) midiendo en cada uno el tiempo que se ve la
televisin en horas por semana. Se obtienen los datos siguientes:
Puebla A (estrato I) 35 28 26 41 43 29 32 37 36 25 29 31 39 38 40 45 28 27 35 34
Pueblo B (estrato II) 27 4 49 10 15 41 25 30
rea rural (estrato III) 8 15 21 7 14 30 20 11 12 32 34 24
Estimar el tiempo promedio que se ve la televisin, en horas por semana, en cada uno de los
estratos y en todo el municipio fijando lmites para el error de estimacin a travs de intervalos de
confianza al 95%.
Comenzamos introduciendo los datos como tres columnas, una por cada estrato, en
una hoja de clculo de Excel. A continuacin, para calcular los estadsticos necesarios en cada
estrato, en el men Herramientas de Excel elegimos Anlisis de datos, seleccionamos
Estadstica descriptiva y rellenamos la pantalla de entrada como se indica en la Figura 13-1.
Al pulsar Aceptar se obtienen los estadsticos muestrales por estrato de la Figura 13-2. Se
observa que el tiempo promedio que se ve la televisin en el pueblo A es 33,9 horas por
semana, en el pueblo es 20,33 y en la zona rural es 19. Las cuasivarianzas muestrales son
33,3578, 285 y 87,63 horas por semana, respectivamente, en cada estrato, y al dividirlas por el
tamao muestral seleccionado en cada estrato obtenemos los errores de los estimadores en
cada estrato suponiendo muestreo con reposicin (33,35/20 = 1,667, 285/8 = 35,62 y 87,63/12
= 7,3). Como los coeficientes de asimetra y curtosis en cada estrato estn en el intervalo
[<2,2], puede suponerse normalidad, con lo que los lmites para el error de estimacin en cada
estrato (suponiendo muestreo con reposicin) sern los radios de los intervalos de confianza al
95%, es decir, 2,7829, 12,97 y 5,94, respectivamente. Si el muestreo es sin reposicin, las
varianzas en cada estrato hay que multiplicarlas por (1< nh/Nh) h = 1, 2, 3.

Figura 13-1

162 Muestreo estadstico. Conceptos y problemas resueltos

Figura 13-2
Para hallar la estimacin del tiempo promedio que se ve la televisin en todo el
municipio en horas por semana y su error para muestreo sin reposicin, se tendrn en cuenta
las siguientes expresiones:
L
N 1
X st = x st = h
N nh
h =1 {

nh

i =1

h =1

X hi = Wh xh

Wh

L
S 2
V ( X st ) = Wh2 u (1 < f h ) u h
nh
h =1

La Figura 13-3 presenta las frmulas para el clculo del estimador de la media
estratificada para todo el municipio, su error de muestreo y el radio del intervalo de
confianza al 95%. La Figura 13-4 presenta los resultados.

Figura 13-3

Figura 13-4
La estimacin del tiempo promedio que se ve la televisin en todo el municipio en
horas por semana en muestreo con reposicin es la misma que sin reposicin y su error de
muestreo se calcula mediante la siguiente expresin:
L
2
2 Sh

(
)
V X st = Wh u
nh
h =1

La Figura 13-5 presenta las frmulas y la Figura 13-6 presenta los resultados.

Muestreo estratificado sin y con reposicin

Figura 13-5

4.2.

163

Figura 13-6

Consideramos los salarios anuales (variable X) en miles de euros de 500 trabajadores de una
empresa se obtiene la siguiente distribucin de frecuencias:
Xi
2
3

ni
100
80

5
10

200
30

20

30

50
100
200

30
20
10

Se estratifica la poblacin en grupos homogneos de ganancias salariales utilizando como


variable de estratificacin el propio salario anual mediante el criterio dado por 2 ) X < 10,
10 ) X < 100, 100 ) X ) 200. Realizar las afijaciones de mnima varianza sin y con
reposicin de una muestra de tamao 100 cuando se estima el salario anual medio. Analizar
las precisiones y justificar los resultados.
Comenzamos realizando los clculos por estratos necesarios para la resolucin del
problema. Tenemos:
Estratos
?
I

II
III

Sh

S h2

mh

m h2

Nh

1,32
1,75
1,32
1,74
380
17,1
292,13 16,99 288,88 90
47,95 2298,85 47,14 2222,22 30

Afijacin de mnima varianza sin reposicin

N 1 S1
15
n1 = 100 u
N 1 S1 + N 2 S 2 + N 3 S 3

N S
N2S2

44
n h = n u L h h n 2 = 100 u
N 1 S1 + N 2 S 2 + N 3 S 3

Nh Sh

h =1
N3 S3
41
n 3 = 100 u

N 1 S1 + N 2 S 2 + N 3 S 3

Se observa que el nmero de unidades a seleccionar para la muestra en el tercer


estrato es superior al nmero de unidades de dicho estrato.

164 Muestreo estadstico. Conceptos y problemas resueltos

Ante esta circunstancia seleccionamos para la muestra las 30 unidades del tercer
estrato; es decir, todas las unidades del tercer estrato van a ser autorrepresentadas. Pero
ahora las 70 unidades restantes de la muestra han de repartirse mediante afijacin de mnima
varianza entre los dos primeros estratos. Tendremos:
N 1 S1

n1 = 70 u N S + N S 17
N S

1 1
2 2
nh = n u L h h
N2S2
n = 70 u
Nh Sh
53

h =1
N 1 S1 + N 2 S 2

Por tanto, la nueva afijacin es n1 = 17, n2 = 53 y n3 = 30. Para hallar la varianza del
estimador de la media para esta afijacin sin reposicin hemos de tener en cuenta que los
estratos con sus unidades autorrepresentadas no intervienen en el clculo de las varianzas.
Como el tercer estrato no interviene en el valor de la varianza, calculamos
N 380
N
90
W '1 = 1 =
= 0,8085 y W '2 = 2 =
= 0,1915 . La varianza ser:
N'

N'

470

470

1 2
1 2

V X = W ' h S h < W ' h S h2 = 0,184064 .


n' h =1
N ' h =1

Afijacin de mnima varianza con reposicin


Realizaremos la afijacin de mnima varianza con reposicin como sigue:

N 1m 1
15
n1 = 100 u
N 1m 1 + N 2m 2 + N 3m 3

N m
N 2m 2
44
n h = n u L h h n 2 = 100 u
N 1m 1 + N 2m 2 + N 3m 3

N hm h

h =1
N 3m 3
41
n 3 = 100 u
N 1m 1 + N 2m 2 + N 3m 3

Se observa que la afijacin coincide exactamente con la obtenida para muestreo sin
reposicin. Ahora el nmero de unidades a seleccionar para la muestra en el tercer estrato
vuelve a ser superior al nmero de unidades de dicho estrato, pero como el muestreo es con
reposicin, es posible seguir haciendo extracciones porque las unidades se reponen a la
poblacin cuando se extrae y nunca se acabarn. El valor de la varianza mnima ser ahora:
2

1 3
1 380
90
30

V X = Whm h =
(
u 1,32 +
u 16,99 +
47,14) 2 = 0,47469344
n h =1
100
500
500
500

No obstante, si se exige que las unidades seleccionadas sean distintas, seleccionamos


para la muestra las 30 unidades del tercer estrato; es decir, todas las unidades del tercer estrato
van a ser autorrepresentadas. Pero ahora las 70 unidades restantes de la muestra han de
repartirse mediante afijacin de mnima varianza con reposicin entre los dos primeros
estratos. Tendremos:

Muestreo estratificado sin y con reposicin

165

N 1m 1

n1 = 70 u N m + N m 17
N m

1 1
2 2
nh = n u L h h
N 2m 2
n = 70 u
N hm h
53

h =1
N 1m 1 + N 2 m 2

Por tanto, la nueva afijacin es n1 = 17, n2 = 53 y n3=30. Para hallar la varianza del
estimador de la media para esta afijacin con reposicin hemos de tener en cuenta que los
estratos con sus unidades autorrepresentadas no intervienen en el clculo de las varianzas.
Como el tercer estrato no interviene en el valor de la varianza calculamos W '1 = N 1 = 380 = 0,8085
N'

N
90
W '2 = 2 =
= 0,1915 .
N ' 470

470

La varianza ser:
2

1 2
1

V X = W ' h m h =
(0,8085 u 1,32 + 0,1915 u 16,99) 2 = 0,266705.
n' h =1
70

Las afijaciones coinciden para muestreo con y sin reposicin, pero el muestreo sin
reposicin resulta ms preciso, ya que tiene menor varianza (tanto si se exigen unidades
distintas, como en caso contrario).
Se observa que, aunque haya estratos con todas sus unidades autorrepresentadas, el
muestreo sin reposicin sigue siendo ms preciso que el muestreo con reposicin.

4.3.

Las mil unidades de una poblacin se clasifican en tres estratos para los que se conocen los
datos de la tabla adjunta:
Estratos
?
I

II
III

mi

Wi

0,6

12 0,3
80 0,1

Se pide:
1) Determinar el tamao de muestra que con afijacin proporcional proporciona una
varianza del estimador de la media igual a 5, considerando muestreo con y sin
reposicin. Realizar las respectivas afijaciones proporcionales. Qu resultados se
obtendran con afijacin de mnima varianza? Realizar las respectivas afijaciones de
mnima varianza. Comentar todos los resultados y compararlos.
2) Determinar el tamao de muestra para afijacin ptima con costes C1=1000, C2=1200 y
C3=2000, considerando el muestreo con y sin reposicin. Realizar las respectivas
afijaciones ptimas. Comprobar que los resultados coinciden para costes unitarios con
los de afijacin de mnima varianza.
Como es habitual en los problemas de muestreo estratificado, comenzamos
recopilando los datos necesarios para el problema.

166 Muestreo estadstico. Conceptos y problemas resueltos

m12=16=(N1-1)S12/N1S12=6,02S1=4,003
m22=144=(N2-1)S22/N2S22=144,5S2=12,02
m32=6400=(N3-1)S32/N3S32=6464,6S3=80,4

W1=0,6=N1/NN1=600
W2=0,3=N2/NN2=300
W3=0,1=N3/NN3=100
Tenemos entonces:
Estratos

Sh

S h2

mh

m h2

Nh

II

4,003
12,02

6,02
144,5

4
12

16
144

600 0,6
300 0,3

III

80,4

6464,6 80

?
I

Wh

6400 100

0,1

Afijacin proporcional sin reposicin


L

W S

1 1
h =1
e 2 = V X = < Wh S h2 n =
1
n N h =1
2
e +
N
L

2
h

W S
h =1

122
2
h

Una vez hallado el tamao de muestra, realizamos la afijacin como sigue:


n1 = kN 1 = 0,122 u 600 73
n
122

n h = kN h con k = =
= 0,122 n 2 = kN 2 = 0,122 u 300 37
N 1000
n = kN = 0,122 u100 12
3
3
Afijacin proporcional con reposicin
L

1 L
e = V X = Wh m h2 n =
n h =1
2

W m
h =1

e2

2
h

139

Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Ello es debido a que el muestreo con reposicin es menos
preciso que el muestreo sin reposicin. Una vez hallado el tamao de muestra realizamos la
afijacin proporcional como sigue:
n1 = kN 1 = 0,139 u 600 83
n
139

nh = kN h con k = =
= 0,139 n 2 = kN 2 = 0,139 u 300 42
N 1000
n = kN = 0,139 u100 14
3
3

Afijacin de mnima varianza sin reposicin


2

Wh S h
2
L
L
1
1

h =1

e 2 = V X = Wh S h < Wh S h2 n =
= 35
L
1
n h =1
N h =1
2
2

e + Wh S h
N h =1

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza


como sigue:

Muestreo estratificado sin y con reposicin

167

N 1 S1
6
n1 = 35 u
N 1 S1 + N 2 S 2 + N 3 S 3

N S
N2S2
9
n h = n u L h h n 2 = 35 u
N 1 S1 + N 2 S 2 + N 3 S 3

Nh Sh

h =1
N3S3
20
n 3 = 35 u
N 1 S1 + N 2 S 2 + N 3 S 3

Afijacin de mnima varianza con reposicin


2

Whm h
2
L
1

h =1

e 2 = V X = Wh m h n =
40
2
n h =1
e

Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Una vez hallado el tamao de muestra realizamos la afijacin
de mnima varianza como sigue:

N 1m 1
7
n1 = 35 u
m
m
m
+
+
N
N
N
1
1
2
2
3
3

N hm h
N 2m 2
10
n 2 = 35 u
nh = n u L
N 1m 1 + N 2m 2 + N 3m 3

m
N

h
h

h =1
N 3m 3
23
n 3 = 35 u

N 1m 1 + N 2m 2 + N 3m 3

Afijacin ptima sin reposicin

1 L
V (xst ) = e 2 = Wh Sh
n h=1

L
1 L
ch Wh Sh ch < Wh Sh2 n =
h=1
N h=1

L
Wh Sh
h=1

ch Wh Sh ch
h=1

35
L
1
2
2
e + Wh Sh
N h=1

Una vez hallado el tamao de muestra, realizamos la afijacin ptima como sigue:

N 1 S 1 / C1
n1 = 35 u
7
N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3

N h S h / Ch
N2S2

nh = n u L
n 2 = 35 u
10
N
S
C
N
S
C
N
S
C
/
/
/
+
+

1
1
1
2
2
2
3
3
3
N h S h / Ch

h =1
N3S3
n 3 = 35 u
18

N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3

168 Muestreo estadstico. Conceptos y problemas resueltos

Afijacin ptima con reposicin


V ( x st ) = e 2 =

1 L
Wh m h
n h =1

L
c h Wh m h c h n =

h =1

L
Wh m h
h =1

c h Wh m h c h
h =1

= 40
2
e

Se observa que el tamao muestral necesario para cometer el mismo error que sin
reposicin es ahora superior. Una vez hallado el tamao de muestra realizamos la afijacin
ptima como sigue:

N 1m 1 / C1
n1 = 40 u
8
N 1m 1 / C1 + N 2m 2 / C 2 + N 3m 3 / C 3

N hm h / C h
N 2m 2

nh = n u L
n 2 = 40 u
12
N
C
N
C
N
C
m
m
m
+
+
/
/
/

1 1
1
2 2
2
3 3
3
N hm h / C h

h =1
N
m
3 3
n 3 = 40 u
20

/
/
/
+
+
N
m
C
N
m
C
N
m
C
1 1
1
2 2
2
3 3
3

Si utilizamos costes unitarios los clculos son exactamente los mismos que para la afijacin
de mnima varianza, luego los resultados tambin lo son. Se observa que tanto en muestreo con
reposicin como sin reposicin la afijacin que menos tamao muestral necesita para cometer un
determinado error de muestreo es la afijacin de mnima varianza, y en este caso tambin la ptima.

4.4.

Una empresa de publicidad quiere estimar la proporcin de hogares en un municipio donde


se ve cierto programa televisivo. El municipio tiene en total 310 hogares y es dividido en
tres estratos. Se selecciona una muestra estratificada de n = 40 hogares con afijacin
proporcional. Estimar la proporcin de hogares en el municipio donde se ve el programa
televisivo estimando los errores absoluto y relativo cometidos. Datos:

n2 = 8

N de hogares donde
se ve el pro gra ma
16
2

0,80
0,25

n 3 = 12

0,50

Estratos

Tamaos muestrales

1
2

n 1 = 20

Ph

Como la seleccin de la muestra se realiza con afijacin proporcional, se tiene:


n1

20
N 1 = k = 0,129 155

n
n
8
40
nh = kN h con k = =
= 0,129 N 2 = 2 =
62
k
N 310
0,129

n3
12
=
93
N1 =
k 0,129

Ya podemos estimar la proporcin de hogares en el municipio donde se ve el


programa televisivo de la siguiente forma:

Muestreo estratificado sin y con reposicin

169

3
3
N
155
62
93
Pst = W h Ph = h Ph =
0,80 +
0,25 +
0,50 = 0,60 (60%)
310
310
310
h =1
h =1 N

Resulta que en el 60% de los hogares del municipio se ve el programa televisivo.


Para calcular el error absoluto de esta estimacin hallamos la estimacin de la
varianza del estimador de la proporcin. Se tiene:
3
3
N2
N2
n P (1 < Ph )
V ( Pst ) = h2 V ( Ph ) = h2 (1 < h ) h
= 0,0045
Nh
nh < 1
h =1 N
h =1 N

V ( Pst )
0,0045
El error relativo sera C v( Pst ) =
u100 =
u100 = 11,18% .
0,60
Pst

4.5.

Una empresa publicitaria est interesada en determinar lo que debe enfatizar la publicidad
televisiva en un determinado municipio, y decide realizar una encuesta por muestreo para
estimar el nmero promedio de horas por semana que se ve la televisin en los hogares del
municipio. ste comprende dos pueblos, pueblo A y pueblo B, y un rea rural. El pueblo A
circunda una fbrica, y la mayora de los hogares son de trabajadores fabriles con nios en
edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta de
habitantes ms viejos con pocos nios en casa. Existen 155 hogares en el pueblo A, 62 en el
pueblo B y 93 en el rea rural. Se pide:
1. Analizar los mritos de usar muestreo aleatorio estratificado en esa situacin.
2. Supngase que se lleva a cabo la encuesta planificada. La empresa publicitaria tiene
tiempo y dinero suficientes para entrevistar n = 40 hogares, y decide seleccionar muestras
aleatorias de tamao n1 = 20 del pueblo A, n2 = 8 del pueblo B, y n3 = 12 del rea rural. Se
seleccionan las muestras irrestrictas aleatorias y se realizan las entrevistas. Los resultados,
con mediciones del tiempo que se ve la televisin en horas por semana, son los siguientes:
Estrato 1(pueblo A)
Estrato 2 (pueblo B)
Estrato 3 (pueblo C)

35 43 36 39 28
27 15 4 41 49
8 14 12 15 30

28
25
32

29
10
21

25
30
20

38 27

26 32

34

11 24

29 40 35 41 37 31

45

Estimar el tiempo promedio que se ve televisin, en horas por semana, para (a) todos los
hogares del municipio y (b) todos los hogares en el pueblo B. En ambos casos fijar un lmite
para el error de estimacin.
3. Estimar el nmero total de horas por semana que las familias del municipio dedican a ver
la televisin fijando un lmite para el error de estimacin.
Comenzamos recopilando la informacin necesaria para el problema en la tabla siguiente:
Estratos

?
1
2
3

nh

S h2

Sh

xh

Nh

20 35,358 5,946
33,9 155
8 232,411 15,245 25,125 62
12 87,636 9,361
19
93

170 Muestreo estadstico. Conceptos y problemas resueltos

En cuanto al primer apartado, podemos decir que la poblacin de hogares se ubica


en tres grupos naturales, dos pueblos y un rea rural, de acuerdo con su localizacin
geogrfica. Por lo tanto, la poblacin dividida en tres estratos es bastante natural, lo que
lleva a que los elementos de cada estrato deben de presentar tendencias similares de
comportamiento entre ellos mismos (homogeneidad dentro). Se espera relativamente poca
variabilidad en el nmero de horas que se ve la televisin en los hogares de cada grupo, lo
que hace aplicable el muestro estratificado. Por otro lado, los estratos son adecuados por
conveniencia administrativa para seleccionar las muestras y para ejecutar el trabajo de
campo. Adems, la empresa publicitaria puede obtener estimaciones por separado del
nmero promedio de horas que se ve la televisin en cada estrato.
Para estimar el promedio de horas por semana que se ve la televisin en todo el
municipio, utilizamos el estimador de la media estratificada:
3

x st = Wh x h =
h =1

155
62
93
33,9 +
25,125 +
19 = 27,7
310
310
310

El error de esta estimacin ser:


2
2
2
L
S 2 155 20 35,3 62 8 232,4 93 12 87,6
V (xst ) = Wh2 (1< f h ) h =
+
+
= 1,97
1<
1<

1<
nh 310 155 20 310 62 8
h=1
310 93 12

Un intervalo de confianza al 95% (h_ 2) ser el siguiente:


xst h_ V ( x st ) = 27,72 1,97 =27,72,8

Por lo tanto, estimamos que el nmero promedio de horas que se ve la televisin en


los hogares del municipio es de 27,7 horas, con un error de muestreo de 1,97 = 1,4 horas y
un lmite para el error de estimacin de 2,8 horas.
Las ocho observaciones del estrato relativo al pueblo B forman una muestra aleatoria
simple para la que podemos aplicar las frmulas del muestreo irrestricto aleatorio. Tenemos:
x2 =25,125

S 2 8 232,4
V (x2 ) = (1< f 2 ) 2 = 1<
= 25,5
n2 62 8
x 2 h_ V (x 2 ) = 25,12510,1

Por lo tanto, estimamos que el nmero promedio de horas que se ve la televisin en


el pueblo B es de 25,5 horas, con un error de muestreo de 25,5 = 5,05 horas y un lmite
para el error de estimacin de 10,1 horas. El lmite del error de estimacin es ms grande
en este caso porque la variabilidad del estrato es grande y su tamao es pequeo. Se observa
que la estimacin en todo el municipio es buena, pero en el estrato 2 es peor.

Muestreo estratificado sin y con reposicin

171

El nmero total de horas estimado que las familias del municipio dedican a ver la
televisin ser:
X st = Nx st = 300(27,7) = 8587 horas

El error de esta estimacin ser:

( )

V X st = N 2V (x st ) = 300 2 (1,97 ) = 189278 ,56

Un intervalo de confianza al 95% (h_ 2) ser el siguiente:

( )

X st h_ V X st = 85872 189278,56 =8587870

Por lo tanto, estimamos que el nmero total de horas que se ve la televisin en los
hogares del municipio es de 8587 horas, con un error de muestreo de 189278,56 = 435
horas y un lmite para el error de estimacin de 870 horas.
Cuando se estiman totales es conveniente relativizar los errores, para que sean ms
comprensibles. En nuestro caso, el error relativo ser:

( )

V X st
189278,56
100 =
100 = 5%
C v X st =
8587
X st

( )

Se trata de un error muy aceptable.

4.6.

La empresa publicitaria del ejercicio anterior comprob que cuesta ms obtener una
observacin del rea rural que una del pueblo A o del B. El incremento es debido a los
costos de traslado de un hogar rural a otro. El costo por observacin en cada pueblo se ha
estimado en 9 euros (esto es, c1 = c2 = 9), y los costos por observacin en el rea rural se han
estimado en 16 euros (esto es, c3 = 16). Las desviaciones estndar por estrato (aproximadas
por las varianzas muestrales de una encuesta previa) son m 1 5 5 , m 2 5 15 y m 3 5 10 . Halle
el tamao de muestra total n y los tamaos de muestra para los estratos n1, n2 y n3, que
permiten a la empresa estimar, al mnimo costo, el tiempo promedio que se ve televisin,
con un lmite para el error de estimacin igual a 2 horas.
Supongamos que la firma publicitaria decide utilizar entrevistas por telfono en lugar de
entrevistas personales, porque todos los hogares en el municipio tienen telfono y este
mtodo reduce los costos. El costo de obtener una observacin es entonces el mismo en los
tres estratos y la empresa desea estimar en este caso la media poblacional con un lmite
para el error de estimacin igual a 2 horas. Encuentre el tamao aproximado de la muestra n
y los tamaos de muestra para los estratos n1, n2 y n3.
Supongamos ahora que la empresa publicitaria considera que las varianzas aproximadas que se
usaron en los ejemplos previos son errneas y que las varianzas de los estratos son iguales. El
valor comn de i fue aproximado por 10 en un estudio preliminar. Se van a efectuar entrevistas
por telfono, por lo que los costos sern iguales en todos los estratos. La empresa desea estimar el
nmero promedio de horas por semana que se ve la televisin en los hogares del municipio, con
un lmite para el error de estimacin igual a 2 horas. Determine el tamao de muestra y los
tamaos de estratos necesarios para lograr esta exactitud.

172 Muestreo estadstico. Conceptos y problemas resueltos

En primer lugar observamos que, como el lmite del error de estimacin es 2, tenemos:
2 V (x st ) = 2 V (x st ) = 1

Como estamos en afijacin ptima sin reposicin, el tamao de muestra necesario


para cometer un error de muestreo unitario para estimar la media vendr dado por:

1 L
V (xst ) = Wh S h
n h=1

L
1 L
ch Wh S h ch < Wh S h2
h=1
N h=1

L
Wh S h
h =1
n=

ch Wh S h ch
h=1

1 L
2
V (x st ) + Wh S h
N h=1

Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos
(los Wh son los del problema anterior):

n=

L
Whm h
h =1

c h Whm h c h
h =1

= 57,42 5 58
1 L
2
V (x st ) + Whm h
N h =1

Ahora realizamos la afijacin ptima como sigue:

N 1m 1 / C1
18
n1 = 58 u
N 1m 1 / C1 + N 2m 2 / C 2 + N 3m 3 / C 3

N hm h / C h
N 2m 2

n 2 = 58 u
23
nh = n u L
+
+
N
m
C
N
m
C
N
m
C
/
/
/

1
1
1
2
2
2
3
3
3
N hm h / C h

h =1
N 3m 3
n3 = 58 u
17

N 1m 1 / C1 + N 2m 2 / C 2 + N 3m 3 / C 3

En caso de utilizar entrevista telefnica, los costes unitarios por estrato son iguales,
con lo que la afijacin ptima coincide con la afijacin de mnima varianza. En este caso, el
tamao de muestra para cometer un error de muestreo unitario ser:
2

Wh S h
2
L
L
1
1

h =1

e 2 = V (x st ) = Wh S h < Wh S h2 n =
L
1
n h =1
N
h =1

V (x st ) + Wh S h2
N h =1

Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos
(los Wh son los del problema anterior):

Muestreo estratificado sin y con reposicin

173

Whm h
h =1

= 56,34 5 57
n=
1 L
2
V (x st ) + Whm h
N h =1

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza


como sigue:

N 1m 1
17
n1 = 57 u
N 1m 1 + N 2m 2 + N 3m 3

N m
N 2m 2
n h = n u L h h n 2 = 57 u
20
N 1m 1 + N 2m 2 + N 3m 3

N hm h

h =1
N 3 S3
20
n3 = 57 u

N 1m 1 + N 2m 2 + N 3m 3
Aunque el tamao de muestra sigue siendo muy parecido al del apartado anterior, la
afijacin cambia, tomndose ms observaciones del rea rural ya que ahora no tienen un
coste ms alto.
Si, adems de utilizar costes unitarios, suponemos que la variabilidad en los estratos
es unitaria, podemos aproximar la afijacin ptima y la de mnima varianza por la
proporcional, ya que en este caso coinciden las tres. Entonces, el tamao de muestra para
cometer un error de muestreo unitario ser:
L

1 1
e 2 = V (x st ) = < Wh S h2 n =
n N h =1
V (x
L

W S
h =1

st ) +

1
N

2
h

W S
h =1

2
h

Aproximando las cuasivarianzas por las desviaciones estndar por estrato, que son
todas iguales a 10 en este caso, tenemos (los Wh son los del problema anterior):
L

n=

W m
h =1

1
V (x st ) +
N

2
h

W m
h =1

= 75,6 5 76
2
h

Una vez hallado el tamao de muestra, realizamos la afijacin proporcional como


sigue:
n1 = kN 1 = 0,245 u 155 38
n
76

nh = kN h con k = =
= 0,245 n 2 = kN 2 = 0,245 u 62 15
N 310
n = kN = 0,245 u 93 23
3
3

174 Muestreo estadstico. Conceptos y problemas resueltos

4.7.

Una empresa de publicidad quiere estimar la proporcin de hogares en un municipio donde


se ve cierto programa televisivo. El municipio tiene en total N = 310 hogares y es dividido
en tres estratos (pueblo A, pueblo B y un rea rural) de tamaos 155, 62 y 93 hogares,
respectivamente. Datos de un estudio anterior indican que las proporciones de hogares donde
se ve el programa pueden estimarse por 0,80, 0,25 y 0,30, respectivamente, en cada estrato.
Adems, el coste para obtener una observacin es de 9 unidades monetarias para cualquiera
de los pueblos y de 16 para el rea rural. Hallar el tamao de muestra n y su reparto entre los
estratos para estimar la proporcin poblacional de hogares donde se ve la televisin con un
lmite para el error de estimacin igual a 0,1 y con un coste mnimo.
Resolver el problema suponiendo que las entrevistas se realizan por telfono.
Resolver el problema suponiendo que las entrevistas se realizan por telfono y la proporcin
de hogares donde se ve el programa televisivo es similar en cada uno de los tres estratos.
Observamos que, como el lmite del error de estimacin es 0,1, tenemos:
2 Pst = 0,1 Pst = 0,0025

En la primera parte del problema se trata de buscar el tamao de muestra necesario


para estimar la proporcin de hogares donde se ve el programa televisivo con un error de 0,1
y afijacin ptima. Disponemos de los siguientes datos:
Estratos
1

Tamaos
N 1 = 155

ci
9

Ph
0.80

N 2 = 62

0.25

N 3 = 93

16

0,50

Como estamos en afijacin ptima sin reposicin, el tamao de muestra necesario


para cometer un error de muestreo unitario para estimar la proporcin vendr dado por:

1 L
V (xst ) = Wh S h
n h=1

L
1 L
ch Wh S h ch < Wh S h2
h=1
N h=1

L
Wh S h
h =1
n=

ch Wh S h ch
h=1

L
1
V (x st ) + Wh S h2
N h=1

Aproximando las cuasivarianzas por Ph Q h = Ph (1 < Ph ) por estrato tenemos:

n=

L Nh

h =1 N

L N

c h h Ph Q h c h
N
h =1

= 62,3 5 64
1 L Nh
V (x st ) +
Ph Qh
N h =1 N
Ph Q h

Ahora realizamos la afijacin ptima como sigue:

Muestreo estratificado sin y con reposicin

N1
n1 = 63 u
N1 P1Q1 / C1 + N 2

N h Ph Qh / Ch

n2 = 63 u
nh = n u L
N1 P1Q1 / C1 + N 2

N h Ph Qh / Ch

h =1
n3 = 63 u

N1 P1Q1 / C1 + N 2

P1Q1 / C1
P2 Q2 / C2 + N 3 P3Q3 / C3
N 2m 2
P2 Q2 / C2 + N 3 P3Q3 / C3
N 3m 3
P2 Q2 / C2 + N 3 P3 Q3 / C3

175

31
14
18

En caso de utilizar entrevista telefnica, los costes unitarios por estrato son iguales,
con lo que la afijacin ptima coincide con la afijacin de mnima varianza. En este caso, el
tamao de muestra para cometer un error de muestreo unitario ser:
2

Wh S h
2
L
L
1
1

h =1

e 2 = V ( x st ) = Wh S h < Wh S h2 n =
L
1
n h =1
N h =1

V (x st ) + Wh S h2
N h =1

Aproximando las cuasivarianzas por Ph Q h = Ph (1 < Ph ) por estrato tenemos:


2

L Nh
Ph Qh

h =1 N

= 61,08 5 62
n=
1 L Nh
V (x st ) +
Ph Qh
N h =1 N

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza


como sigue:

N1 P1Q1
n1 = 62u
29
N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3

N h Ph Qh
N 2m 2

nh = n u L
n2 = 62u
12
+
+
N
P
Q
N
P
Q
N
P
Q

1
1
1
2
2
2
3
3
3
N h Ph Qh

h =1
N 3m 3
n3 = 62u
21

N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3

Aunque el tamao de muestra sigue siendo muy parecido al del apartado anterior, la
afijacin cambia, tomndose ms observaciones del rea rural ya que ahora no tienen un
coste ms alto.
Si, adems de utilizar costes unitarios, suponemos que la variabilidad en los estratos
es constante (Ph 5 0,4 mh2 = PhQh = Ph(1<Ph) = 0,24), podemos aproximar la afijacin
ptima y la de mnima varianza por la proporcional, ya que en este caso coinciden las tres.
Entonces, el tamao de muestra para cometer un error de muestreo unitario ser:

176 Muestreo estadstico. Conceptos y problemas resueltos


L

1 1
e 2 = V (x st ) = < Wh S h2 n =
n N h =1
V (x

W S

h =1

st

)+

1
N

2
h

W S
h =1

2
h

Aproximando las cuasivarianzas por Ph Q h = Ph (1 < Ph ) por estrato tenemos:


Nh
Ph Qh
h =1 N
= 73,3 5 74
n=
1 L N
V (x st ) + h Ph Q h
N h =1 N
L

Una vez hallado el tamao de muestra, realizamos la afijacin proporcional como


sigue:
n1 = kN 1 = 0,238 u 155 37
n
74

nh = kN h con k = =
= 0,238 n 2 = kN 2 = 0,238 u 62 15
N 310
n = kN = 0,238 u 93 22
3
3

4.8.

Se trata de estimar el peso promedio de N = 90 conejos (N1 = 50 machos y N2 = 40 hembras)


que han sido alimentados en cierta dieta. Los conejos se separan por sexo, por lo que el uso
de muestreo aleatorio estratificado con dos estratos pareci apropiado. Para aproximar la
variabilidad dentro de cada estrato, se pes el conejo ms pequeo y el ms grande en cada
estrato, y se hall que la amplitud de variacin fue de 10 gramos para los machos y de 8 para
las hembras. Cul es el tamao de muestra necesario para estimar el peso promedio
poblacional con un lmite de 1 gramo para el error de estimacin suponiendo que el costo de
muestreo fue el mismo para ambos estratos?
Si suponemos los pesos con una distribucin normal, la desviacin estndar en cada estrato puede
aproximarse por un cuarto de la amplitud de variacin, es decir, m1 = 10/4 = 2,5 y m2 = 8/4 = 2.
Como los costes de muestreo son similares en los estratos, es lgico utilizar afijacin de
mnima varianza (que coincide con la ptima en este caso) y que siempre es ms eficiente que
la afijacin proporcional. En este caso, el tamao de muestra para cometer un error de
muestreo unitario ser:
2

Wh S h
2
L
L
1
1

h =1

e 2 = V (x st ) = Wh S h < Wh S h2 n =
L
1
n h =1
N
h =1

V (x st ) + Wh S h2
N h =1

Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos:
2

L Nh
mh

h =1 N
n=
= 16,83 5 17
1 L Nh 2
V (x st ) +
mh
N h =1 N

Muestreo estratificado sin y con reposicin

177

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza


como sigue:
N 1m 1

n1 = 17 u N m + N m + N m 10
N m

1 1
2 2
3 3
nh = n u L h h
N
m
2 2
n = 17 u
N hm h
7

2
h =1
N 1m 1 + N 2m 2 + N 3m 3

4.9.

Un mayorista del sector de la distribucin de comestibles en una gran ciudad desea saber si
la demanda es lo suficientemente grande para justificar la inclusin de un nuevo producto en
sus existencias. Para tomar la decisin, planifica aadir este producto a una muestra de los
almacenes a los que abastece para estimar el promedio de las ventas mensuales (variable X).
El distribuidor suministra nicamente a cuatro grandes cadenas en la ciudad y, por
conveniencia administrativa, decide utilizar muestreo aleatorio estratificado tomando cada
cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato
3 y 30 en el estrato 4 (N1 = 24, N2 = 36, N3 = 30, N4 = 30 y N = 120). El distribuidor tiene
suficiente tiempo y dinero para obtener datos sobre ventas mensuales en una muestra de
tamao n = 20 almacenes. Dado que no tiene informacin previa respecto a las varianzas de
los estratos y porque el coste del muestreo es el mismo en cada estrato, decide aplicar la
afijacin proporcional, con lo que el nuevo producto es introducido en cuatro almacenes
elegidos al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de
las cadenas 3 y 4. Despus de un mes, las ventas X presentan los resultados indicados en la
tabla siguiente:
Estrato 1
94
90
102
110

Estrato 2
91
99
93
105
111
101

Estrato 3
108
96
100
93
93

Estrato 4
92
110
94
91
113

Estimar las ventas promedio para el mes y fijar un lmite para el error de estimacin.
Realizar la misma estimacin y calcular el error suponiendo que se realiza muestreo
aleatorio simple. Comentar los resultados.
Evidentemente, la afijacin proporcional nos lleva a seleccionar cuatro almacenes elegidos
al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de las
cadenas 3 y 4, ya que:
30
36
30
N
24
n1 = n 1 = 20
=5
= 6 , n3 = 20
= 5 , n 4 = 20
= 4 , n2 = 20
N
120
120
130
130

De la tabla de ventas se deducen los siguientes valores:

178 Muestreo estadstico. Conceptos y problemas resueltos

Estratos A
Medias ( x h )

I
99

II
100

III
98

IV
100

Cuasivarianzas ( S h2 ) 78,67 55,6 39,5 112,5

El estimador de la media ser:


L

h =1

h =1

x st = Wh x h =

Nh
24
36
30
30
xh =
99 +
100 +
98 +
100 = 99,3
N
120
120
120
120

Como la afijacin es proporcional, tenemos:


2

1 L
1

V (x st ) = Wh S h <
n h =1
N

Wh S h2 =
h =1

1 L Nh
1

Sh <

n h =1 N
N

h =1

Nh 2
S h = 2,93
N

Un intervalo de confianza al 95% para esta estimacin ser:


x st 2 V (x st ) = 99,3 2 2,93 = 99,3 3,4

Si hubisemos considerado muestreo aleatorio simple, el estimador de la media sera:


x=

1 L
1
Xi =
(94 + 90 + L + 91 + 113) = 99,3

n h =1
20

Su error de muestreo estimado ser:


S 2
20 59,8
V ( x ) = (1 < f )
= (1 <
)
= 2,49
n
120 20

Se observa que el error es menor en muestreo aleatorio simple con una ganancia en
precisin dada por:
2,93
GP =
< 1100 = 17,67%
2,49

La razn de que el muestreo estratificado proporcional haya sido peor que el


aleatorio simple en un 17,67% radica en que las ventas varan fuertemente dentro de los
almacenes de las distintas cadenas que conforman los estratos. Si observamos los valores de
las cuasivarianzas en los distintos estratos vemos que varan mucho entre s. ste es un caso
tpico de mala aplicacin de la afijacin proporcional.
La posible solucin a este problema podra haber sido la estratificacin a partir de la
cantidad de ventas, esto es, ubicando los almacenes con ventas mensuales bajas en un estrato,
almacenes con ventas altas en otro, y as sucesivamente. De esta forma se conseguiran estratos
muy homogneos dentro de s y heterogneos entre s, lo que disminuira el error de estimacin y
aumentara la ganancia en precisin del muestreo estratificado respecto del aleatorio simple.

Muestreo estratificado sin y con reposicin

4.10.

179

La consejera de medio ambiente de una comunidad est realizando un estudio del nmero
de personas X que utiliza las instalaciones de campings pblicos. La comunidad tiene dos
reas para acampar, una localizada en las montaas y otra localizada a lo largo de la costa.
La consejera desea estimar el nmero promedio de personas por camping y la proporcin de
campings que albergan personas de fuera de la comunidad durante un particular fin de semana,
cuando se espera que todos los sitios estn ocupados. El nmero promedio de personas se va a
estimar con un lmite de 1 para el error de estimacin, y la proporcin de personas de fuera
de la comunidad con un lmite de 0,1. Las dos reas para acampar forman convenientemente
dos estratos, la localidad de la montaa como el estrato 1 y la localidad de la costa como el
estrato 2. Se sabe que N1 = 120 campings para acampar y N2 = 80. Encuentre el tamao de
muestra y la asignacin necesarios para lograr estos dos lmites. Se supone que la consejera
de medio ambiente conoce por experiencia que la mayora de los campings contienen de 1 a
9 personas y que los costes de muestreo son los mismos en cada estrato.
Como los costes de muestreo son constantes en los estratos, utlizaremos afijacin de mnima
varianza (equivalente a la ptima en este caso). Adems, como la desviacin tpica es
alrededor de 1/4 de la amplitud de variacin en una distribucin normal, podemos suponer
que su valor para el nmero de personas que ocupan los campings es constante en todos los
campings y con valor mi = (9 < 1)/4 = 2.
En primer lugar observamos que, como el lmite del error de estimacin es 1
tenemos:
2 V (x st ) = 1 V (x st ) = 0,25
En afijacin proporcional, el tamao de muestra necesario para cometer un error de
muestreo de 0,25 al estimar la media (promedio de personas por camping) podra estimarse
como sigue:
L

1 1 L
e = V (x st ) = < Wh S h2 n =
n N h =1
V (x
2

W S
h =1

st ) +

1
N

2
h

W S
h =1

2
h

Aproximando las cuasivarianzas por las desviaciones estndar por estrato, que son
todas iguales a 2 en este caso, tenemos:
Nh 2
mh
h =1 N
= 14,8 5 15
n=
1 L Nh 2
V (x st ) +
mh
N h =1 N
L

Una vez hallado el tamao de muestra (15 campings), realizamos la afijacin


proporcional como sigue:
nh = kN h con k =

n = kN 1 = 0,075 u 120 = 9
n
15
=
= 0,075 1
N 200
n 2 = kN 2 = 0,075 u 80 6

Se estudiarn entonces 9 campings localizados en las montaas y 6 en la costa.

180 Muestreo estadstico. Conceptos y problemas resueltos

En el caso de la estimacin de la proporcin de ocupantes de fuera de la comunidad,


no disponemos de estimaciones previas de las proporciones por estrato, lo que nos llevar a
considerar P1 = P2 = 0,5 para obtener el tamao de muestra mximo posible cuyo valor en
afijacin proporcional ser:
Nh
Ph Qh
h =1 N
= 67
n=
1 L Nh
V (x st ) +
Ph Qh
N h =1 N
L

Una vez hallado el tamao de muestra, realizamos la afijacin proporcional como


sigue:
nh = kN h con k =

n = kN 1 = 0,335 u 120 40
n
67
=
= 0,335 1
N 200
n 2 = kN 2 = 0,238 u 62 27

Se estudiarn entonces 40 campings localizados en las montaas y 27 en la costa.


Lgicamente se obtienen tamaos de muestra muy altos ya que nos hemos situado en el caso
ptimo de precisin mxima.

4.11.

Determinar el tamao n de la muestra estratificada que con afijacin de mnima varianza


produzca la misma precisin que una muestra aleatoria simple (no estratificada) de tamao n,
para estimar la proporcin P de una cierta clase en la poblacin. Suponer en ambos casos
muestreo con reposicin y aplicar el resultado a los datos de la tabla con n=1000.
Estratos
Wh
Ph

I
0,2
0,5

II
0,3
0,6

III
0,5
0,4

Resolver el mismo problema para afijacin proporcional y comparar resultados realizando los
comentarios pertinentes.
Se trata de igualar la varianza del estimador de la proporcin en muestreo
estratificado con afijacin de mnima varianza a la varianza del estimador de la proporcin
en el muestreo aleatorio simple en ambos casos con reposicin. Se tiene:
3

Wh Ph (1 < Ph )
P (1 < P)
h =1

y VSTMV ( P ) =
V AS ( P ) =
n
n'

Teniendo presente que P = WhPh, se tiene el siguiente cuadro de datos:

Muestreo estratificado sin y con reposicin

Estratos W h Ph 1 < Ph
I
0,2 0,5 0,5
II
III

0,3 0,6
0,5 0,4

0,4
0,6

W h Ph
0,10

0,18
0,20

W
h =1

Ph (1 < Ph )
0,5

181

Wh Ph (1 < Ph )
0,1

0,49
0,49

0,147
0,245

h Ph = 48

h =1

Ph (1 < Ph ) = 0,492

Igualando las precisiones tenemos:


2

Wh Ph (1 < Ph )
P
(
1
<
P
)
h =1

V AS (P ) = VSTMV (P )
=
n
n'
2

n' Wh Ph (1 < Ph )
2
1000 (0,492 )
h =1

=
= 970
n=
0,48(1 < 0,48)
P (1 < P )

Se obtiene un tamao de muestra n = 970 en el muestreo estratificado con afijacin


de mnima varianza, que es ligeramente inferior al tamao necesario en muestreo aleatorio
simple n = 1000. Existe entonces una ganancia en precisin por utilizar muestreo
estratificado, pero es pequea.
A continuacin se iguala la varianza del estimador de la proporcin en muestreo
estratificado con afijacin proporcional a la varianza del estimador de la proporcin en el
muestreo aleatorio simple, en ambos casos con reposicin. Se tiene:
3

P (1 < P)
y VSTP ( P ) =
V AS ( P ) =
n'

W P (1 < P )
h

h =1

Igualando las precisiones tenemos:


3

P(1 < P)
V AS (P ) = VSTP (P )
=
n'

W P (1 < P )
h =1

n' Wh Ph (1 < Ph )
h =1
= 1000 (0,242) = 970
n=
0,48(1 < 0,48)
P (1 < P )

Se obtiene un tamao de muestra n = 970 en el muestreo estratificado con afijacin


proporcional, que es ligeramente inferior al tamao necesario en muestreo aleatorio simple
n=1000. Existe entonces una ganancia en precisin por utilizar muestreo estratificado, pero
es pequea. Observamos que este tamao de muestra con afijacin proporcional coincide
con el tamao de muestra para afijacin de mnima varianza, con lo que en este caso la
precisin de ambos tipos de afijacin es similar. Esto es debido a que las variabilidades por
estrato Ph (1 < Ph ) son casi iguales (0,5, 0,49 y 0,49).

182 Muestreo estadstico. Conceptos y problemas resueltos

4.12.

Se trata de estudiar el consumo anual de leche en una ciudad de 110000 habitantes. La


poblacin se divide en tres estratos por edades y se toman muestras aleatorias simples en
cada uno de ellos. Se tienen los siguientes datos para el consumo anual de leche en litros:
Estratos
Menores de 25 aos
Entre 25 y 50 aos
Ms de 50 aos

Tamaos
poblacionales
48000
38000
24000

Tamaos
muestrales
1460
1160
1730

Media muestral
del consumo
102,7
71,4
73,2

Varianza
muestral
15876
48841
23409

Estimar la cantidad total de leche consumida al ao entre los menores de 25 aos, indicando
el error de muestreo cometido, y calcular el tamao muestral necesario para estimar el
consumo medio de leche al ao entre los mayores de 50 aos, con un error de muestreo de 5
litros al 95% de confianza. Realizar una estimacin por intervalos al 95% del consumo
medio anual de leche por habitante.
Supongamos ahora que se multiplica por tres el tamao de la muestra. Realizar la nueva
afijacin por los diferentes mtodos para elegir el mejor.
Si se quiere estimar la proporcin de personas entre 25 y 50 aos que estaran dispuestas a
comprar un producto lcteo de reciente aparicin, cul sera el tamao muestral necesario
para estimar la proporcin de personas entre 25 y 50 aos que estaran dispuestas a comprar
un producto lcteo de reciente aparicin con un error de muestreo inferior al 5%? Comparar
el resultado anterior con el obtenido cuando existe un estudio piloto que sugiere que dicha
proporcin ser al menos del 60%.
Consideramos como variable X la cantidad de leche consumida anualmente por una persona.
La primera pregunta del problema pide estimar un total poblacional dentro del primer
estrato; por tanto, su estimador es el correspondiente a un muestreo aleatorio simple:
X 1 = N 1 x1 = 48000(102,7) = 4929600 litros

El error de muestreo estimado ser:


S 2
1460 15876
)
V ( X 1 ) = (1 < f 1 ) 1 = (1 <
m ( X 1 ) = V ( X 1 ) = 155857,578 litros
48000 1460
n

Par calcular el tamao muestral necesario al estimar el consumo medio de leche en


el tercer estrato con un error de muestreo fijado de 5 litros, ser necesario un tamao
muestral igual a:
n3 =

h_2 N 3 S 32
1,96 2 (24000)(23409)
=
= 3128,25 5 3129
e_2 N 3 + h_2 S 32 5 2 (24000) + 1,96 2 (23409)

Para realizar la estimacin por intervalos al 95% del consumo medio anual de leche
por habitante en la ciudad, utilizaremos el estimador de la media global en el muestreo
estratificado y, por tanto, el intervalo de confianza ser:

Muestreo estratificado sin y con reposicin

183

x st h_ m ( x st )
L

x st = Wh x h =
h =1

1
N

N
h =1

xh =

1
(48000 102,7 + 38000 71,4 + 24000 73,2) = 85,451
110000

Wh2 (1 < f h )

m ( x st ) =

h =1

S h2 48000
1460 15876
=
+
1 <

n h 110000
48000 1460

1730 23409
1160 48841 24000
38000
+
= 2,73

1 <

1 <

24000 1730
110000 38000 1160 110000

Entonces:
x st h_ m ( x st ) = 85,451 1,96 * 2,73 = [80,101; 90,801]

Si triplicamos el tamao de la muestra, el nuevo valor ser 3(1460 + 1160 + 1730) =


13050 personas. A continuacin realizamos las distintas afijaciones entre los estratos de este
nuevo tamao muestral.
Afijacin uniforme
Wh = 1/L = 1/3, h = 1, 2, 3 n1 = n2 = n3 = (1/L)n =13050/3 = 4350
Por tanto, de cada estrato se tomara un muestra aleatoria simple de 4350 personas.
Afijacin proporcional
Wh =

Nh
, h = 1, 2, 3
N

n1 =

N1
48000
n=
13050 = 5694,5455 5 5695
N
110000

n2 =

N2
38000
n=
13050 = 4508,1818 5 4508
N
110000

n3 =

N3
24000
n=
13050 = 2847,2727 5 2847
N
110000

Afijacin de mnima varianza


nh =

Nh Sh
L

N i Si
i =1

n , h = 1, 2, 3

184 Muestreo estadstico. Conceptos y problemas resueltos


L

N
h =1

S h = 48000 15876 + 38000 48841 + 24000 23409 = 18118000

n1 =

48000 15876
13050 = 4356,2424 5 4356
18118000

n2 =

38000 48841
13050 = 6048,8961 5 6049
18118000

n3 =

24000 23409
13050 = 2644,8615 5 2645
18118000

Como la afijacin de mnima varianza siempre supera a las dems, esta ltima es la
afijacin ms eficiente entre los estratos.
Para resolver el ltimo apartado utilizaremos muestreo aleatorio simple en el
segundo estrato.
El tamao muestral necesario para conseguir un error inferior a 0,05 al estimar la
proporcin con un coeficiente de confianza del 95% ser una cantidad superior o igual a la
siguiente:
n=

h_2 N 2 p 2 q 2
1,96 2 (38000)(0,5)(0,5)
=
= 380,3251 5 381
e 2p (N 2 < 1) + h_2 p 2 q 2 0,05 2 (37999) + 1,96 2 (0,5)(0,5)
3

Hemos supuesto que si no se tiene informacin sobre p2 o q2 tomamos p2 = q2 = 0,5,


que es la situacin de mxima variabilidad:
n=

1,96 2 (38000)(0,5)(0,5)
= 380,3251 5 381
0,05 2 (37999) + 1,96 2 (0,5)(0,5)

Si de la encuesta piloto se conoce que p 2 * 0,6 , entonces tomaremos p2 = 0,6 y q2


= 1 0,6 = 0,4 con lo que:
n=

1,96 2 (38000)(0,6)(0,4)
= 365,2583 5 366
0,05 2 (37999) + 1,96 2 (0,6)(0,4)

Cuando no hay informacin sobe las proporciones poblaciones siempre nos situamos
en la peor de las situaciones para nosotros en trminos de coste, es decir, el caso en que ms
tamao muestral se va a necesitar; sin embargo sta es la situacin de ms precisin, es
decir, que lo que se pierde en trminos de coste se gana en trminos de precisin.
Cualquier otro tamao muestral obtenido para valores dados de la proporcin
poblacional distintos de 1/2 para cometer el mismo error de muestreo, ser siempre menor.

Muestreo estratificado sin y con reposicin

14.13.

185

Los 10000 trabajadores de una empresa fueron clasificados en tres grupos de edad,
seleccionndose una muestra aleatoria simple en cada uno de ellos. Se obtuvieron las
caractersticas siguientes para los tres grupos:
Gruposde Nmero total de
edad
trabajadores
18-35
36-50
51-65

2900
4700
2400

Nmero de Salario mensual Salario mensual


Nmero de
trabajadores Media muestral Desviacin tpica contratos inferiores
seleccionados
muestral
a 2 aos
666
120500
38000
375
754
163000
35000
150
580
195000
40000
90

Realizar una estimacin por intervalos al 99% de confianza para el salario total percibido por
los empleados ms jvenes. Hallar tambin la estimacin del salario mensual medio de los
diez mil trabajadores, as como su error de muestreo. Hallar el reparto muestral ms eficiente
en los distintos grupos de edad para estimar el salario mensual medio.
Realizar una estimacin puntual de la proporcin de trabajadores de la empresa cuyo
contrato tiene una duracin inferior a los dos aos, indicando el error de muestreo cometido.
Calcular el nmero de trabajadores que sera necesario seleccionar para que el error de
muestreo no superase el 6% si se deseara estimar la proporcin de trabajadores con ms de
50 aos que padecieron enfermedades por no cumplirse las normas de seguridad e higiene en
sus puestos de trabajo.
Sea X el salario mensual de un trabajador. Para estimar el salario total repartido entre los
trabajadores ms jvenes mediante un intervalo de confianza, utilizaremos la expresin
correspondiente al muestreo aleatorio simple aplicada al primer estrato:

n S2
n S2
I X = N 1 X 1 < h_ N 12 (1 < 1 ) 1 ; N 1 X 1 + h_ N 12 (1 < 1 ) 1
N 1 n1
N 1 n1

El intervalo de confianza ser entonces:


666 38000 2

2900 120500 2,575 2900 2 1 <


= [339799178,2; 359100821,8]

2900 66

Para estimar el salario medio de todos los trabajadores utilizamos el estimador del
muestreo aleatorio estratificado:
L

x st = Wh x h = 0,29 120500 + 0,47 163000 + 0,24 195000 = 158355


h =1

W1 =

N
N1
N
2900
4700
2400
=
= 0,29 , W2 = 2 =
= 0,47 , W3 = 3 =
= 0,24
N 10000
N 10000
N 10000

186 Muestreo estadstico. Conceptos y problemas resueltos

El error de muestreo de la estimacin anterior se calcular mediante:


L

Wh2 (1 < f h )

m ( x st ) =

h =1

S h2
nh

cuyo valor es:

666 380002
754 350002
580 400002

0,29 2 1 <
+ 0,47 2 1 <
+ 0,24 2 1 <
= 749,85

2900 666
4700 754
2400 580
La afijacin ms eficiente a realizar ser la de mnima varianza, que siempre supera
en precisin a las dems. Tenemos:
nh =

Nh Sh
L

Nh Sh

h =1

N
h =1

S h = 2900 38000 + 4700 35000 + 2400 40000 = 370700000

n1 =

2900 38000
2000 = 594,5508 5 595
370700000

n2 =

4700 35000
2000 = 887,5101 5 887
370700000

n3 =

2400 40000
2000 = 517,9390 5 518
370700000

Por tanto, el reparto muestral del enunciado no es el ms eficiente.


Para estimar la proporcin de trabajadores con contrato inferior a dos aos, debemos
obtener la estimacin de la proporcin poblacional en un muestreo aleatorio estratificado
como sigue:
L

Pst Wh Ph = 0,29 0,5631 + 0,47 0,1989 + 0,24 0,1552 = 0,2940


h =1

375
150
90
P1 =
= 0,5631 , P2 =
= 0,1989 , P3 =
= 0,1552
666
754
580

El error de muestreo de la estimacin anterior ser:

m ( Pst ) =

W
h =1

2
h

N h < n h Ph Q h
N h < 1 nh

Muestreo estratificado sin y con reposicin

187

cuyo valor es:

0,292

2900< 6660,56310,4369
4700< 7540,19890,8011
2400< 5800,15520,8448
+ 0,472
+ 0,242
= 0,008
2899
666
4699
754
2399
580

En el ltimo apartado hallamos el tamao muestral necesario para estimar la


proporcin de trabajadores en el tercer estrato con un error de muestreo del 6%, que vendr
dado por:
n3 =

h_2 N 3 p 3 q 3
2,575 2 2400 0,5 0,5
= 386,4730 5 387
=
e 2p (N 3 < 1) + h_2 p 3 q 3 0,06 2 (2399) + 2,575 2 0,5 0,5
3

Hemos supuesto que p3 = 0,5 puesto que no se tiene informacin anterior sobre la proporcin
de trabajadores de ms de 50 aos que padecieron enfermedades por motivos laborales.
Hemos llegado a que, para estimar esta proporcin con un error de muestreo no superior al 6%
habr que seleccionar al menos 387 trabajadores entre el grupo de los mayores de 50 aos.

4.14.

Para estudiar el terreno agrcola de una comarca se consideraron tres zonas segn su
localizacin geogrfica y en cada una de ellas, de forma independiente, se seleccion,
mediante un muestreo aleatorio simple, cierto nmero de fincas. Se tiene la siguiente
informacin:
Zonas Nmero total Nmero de fincas Superficie media Desviacin tpica Nmero de fincas
de fincas
seleccionadas
muestral (Ha)
muestral (Ha)
barbecho
A
3200
380
28
3,5
124
B
5600
800
15
6,7
250
C
1200
200
45
8
17

Estimar puntualmente la superficie total del terreno agrcola en cada una de las zonas, as
como su error de muestreo. Hallar los tamaos muestrales necesarios para realizar las
estimaciones anteriores con unos errores de muestreo estimados inferiores a 1000 Ha y un
coeficiente de confianza del 99%.
Realizar una estimacin por intervalos al 99% de confianza de la superficie media de las
fincas de la comarca y realizar la afijacin ms eficiente de la muestra anterior en las tres
zonas para realizar la estimacin de la superficie media.
Hallar tambin el tamao muestral y la afijacin que se debera haber realizado para estimar
del modo ms eficiente posible la superficie total del terreno agrcola de la comarca con un
error de muestreo no superior a 1000 Ha y una confianza del 99%.
Estimar puntualmente el porcentaje global de fincas en barbecho y su error de muestreo.
Sea X la variable superficie de una finca de la comarca. Los estimadores dentro de cada zona
podrn obtenerse a travs de las frmulas del muestreo aleatorio simple y los globales a
partir de las del muestreo estratificado ya que las fincas de la comarca han sido divididas en
tres zonas o estratos, y en cada una de ellas se ha realizado un muestreo aleatorio simple de
forma independiente entre ellas.

188 Muestreo estadstico. Conceptos y problemas resueltos

Los estimadores puntuales de la superficie total del terreno agrcola en cada una de
las zonas se calculan mediante X h = N h x h y su error de muestreo se calcula mediante:

n S

m ( X h ) = N h2 1 < h h , h = 1, 2, 3
N h nh

Tenemos los siguientes resultados:


X 1 = N 1 x1 = 3200 28 = 89600 Ha

m ( X 1 ) = 3200 2 1 <

380 3,5
= 539,35 Ha

3200 380

X 2 = N 2 x 2 = 5600 15 = 84000 Ha

m ( X 1 ) = 5600 2 1 <

800 6,7
= 1228,13 Ha

5600 800

X 3 = N 3 x 3 = 1200 45 = 54000 Ha

m ( X 1 ) = 1200 2 1 <

200

1200

8
200

= 619,67 Ha

Los tamaos muestrales necesarios para realizar las estimaciones anteriores con unos
errores de muestreo estimados inferiores a 1000 Ha y una confianza del 99% se calculan en
cada estrato mediante:
nh =

h_2 N h2 S h2
, h = 1, 2, 3
eT2 + N h h_2 S h2
h

Para los distintos estratos tendremos:


n1 =

n2 =

5600 2 2,575 2 3,5 2


= 660,1572 5 661
1000 2 + 3200 2,575 2 3,5 2

5600 2 2,575 2 6,7 2


= 3500,1310 5 3501
1000 2 + 5600 2,575 2 6,7 2

n3 =

1200 2 2,575 2 8 2
= 404,8936 5 405
1000 2 + 1200 2,575 2 8 2

Muestreo estratificado sin y con reposicin

189

Para realizar la estimacin por intervalos al 99% de la superficie media de las fincas
de la comarca, utilizaremos el estimador de la media global en el muestreo estratificado y,
por tanto, el intervalo de confianza ser:
x st h_ m ( x st )
L

x st = Wh x h = 0,32 28 + 0,56 15 + 0,12 45 = 22,76


h =1

N = N h = 3200 + 5600 + 1200 = 10000


h =1

m (xst ) =

W1 =

N1
n
3200
380
=
= 0,32 ; f 1 = 1 =
= 0,1188
N 10000
N 1 3200

W2 =

N2
n
800
5600
=
= 0,56 ; f 2 = 2 =
= 0,1429
N 2 5600
N 10000

W3 =

N3
n
200
1200
=
= 0,12 ; f 3 = 3 =
= 0,1667
N 3 1200
N 10000

Wh2 (1< f h )
h=1

Sh2
3,52
6,72
82
= 0,322 (1 < 0,1188)
+ 0,562 (1 < 0,1429)
+ 0,122 (1 <1667)
= 0,147
380
800
200
nh

Entonces:
x st h_ m ( x st ) = 22,76 2,575 * 0,147 = [22,76 + 0,3805; 22,76 + 0,3805] = [22,3795; 23,1405]

La afijacin ms eficiente de la muestra anterior en las tres zonas para realizar la


estimacin de la superficie media ser la afijacin de mnima varianza definida por:

nh =

Nh Sh
L

N
h =1

n , h = 1, ,L

Sh

Tenemos:
L

N
h =1

S h = 3200 3,5 + 5600 6,7 + 1200 8 = 58320

n = 380 + 800 + 200 = 1380


La afijacin ser la siguiente:

190 Muestreo estadstico. Conceptos y problemas resueltos

n1 =

3200 3,5
1380 = 265,0205 5 265
58320

n2 =

5600 6,7
1380 = 887,8189 5 888
58320

n3 =

1200 8
1380 = 227,1605 5 227
58320

En afijacin de mnima varianza puede expresarse el tamao muestral necesario para


estimar el total con un error de muestreo dado e_ (1000 Ha) y un coeficiente de confianza
adicional P_, (99% h_ = 2,575) mediante:
N h2 S h2

wh
h =1
L

n=

e_

h_2

+ NhS
h =1

wh =

2
h

Nh Sh
L

N
i =1

Sh

w1 =

3200 3,5
= 0,1920
58320

w2 =

5600 6,7
= 0,6433
58320

w3 =

, h = 1, .,L

1200 8
= 0,1646
58320

3200 2 3,5 2 5600 2 6,7 2 1200 2 8 2


+
+
0,1920
0,6433
0,1646
n=
= 6564,1970 5 6565
2
1000
2
2
2
+
3200

3
,
5
+
5600

6
,
7
+
1200

8
2,575 2

La afijacin de los 6565 elementos muestrales en cada zona puede realizarse


mediante:
nh = wh n , h = 1, ,L
n1 = 0,1920 6565 = 1260,48 5 1261
n2 = 0,6433 6565 = 4223,36 5 4223
n3 = 0,1646 6565 = 1080,599 5 1081

Muestreo estratificado sin y con reposicin

191

Para estimar la proporcin de fincas dedicadas al barbecho, definimos:


1 si la finca i del estrato h se destina a barbecho
h =1, 2, 3
Ahi =
0 en caso contrario

La proporcin poblacional de fincas dedicadas al barbecho se estima mediante:


N
N
Pst = Wh Ph = h Ph = h
h =1
h =1 N
h =1 N

1
P1 =
n1

1
P2 =
n2
1
P3 =
n3

Nh

ih

i =1

n1

i1

i =1

n2

i2

i =1

n3

A
i =1

i3

= 0,32

124
250
17
+ 0,56
+ 0,12
= 0,2896
380
800
200

124
= 0,3263
380

250
= 0,3125
800

17
= 0,085
200

El error de muestreo de este estimador se puede aproximar mediante:

m ( Pst ) =
m (Pst ) = 0,322

Wh2
h =1

N h < n h Ph Q h
N h < 1 nh

3200< 3800,3263 0,6737


5600< 8000,3125 0,6875
1200< 2000,085 0.915
+ 0,562
+ 0,122
= 0,0011
3200<1
380
5600<1
800
1200<1
200

Un 28,96% de las fincas de la regin estn en barbecho, siendo el error de muestreo


de esta estimacin 0,0011.

4.15.

En una ciudad turstica de temporada con 10000 viviendas se desea conocer la proporcin de
viviendas en alquiler al menos una vez al ao. Para realizar el estudio, se selecciona en cada
uno de los tres barrios existentes una muestra aleatoria de viviendas de tamao proporcional
al nmero total de viviendas en cada uno. En el barrio A se seleccionaron 1050 viviendas, de
las cuales haba 800 en alquiler al menos un mes al ao. En el barrio B se eligieron 900
viviendas, de las cuales haba 600 en alquiler al menos un mes al ao. En el barrio C se
seleccionaron 1700 viviendas, de las cuales 1300 estaban en alquiler al menos un mes al ao.
Estimar la proporcin de apartamentos que estaran dispuestos a ser alquilados al menos una
vez al ao y cuantificar el error de muestreo cometido.
Para estimar la proporcin de viviendas en alquiler al menos una vez al ao, definimos:
1 si la vivienda i del barrioo h se alquila al menos una vez al ao
h = 1, 2, 3
Ahi =
0 en caso contrario

192 Muestreo estadstico. Conceptos y problemas resueltos

La proporcin de viviendas en alquiler al menos una vez al ao se estima mediante:


N
Pst = Wh Ph = h Ph
h =1
h =1 N
L

1
P1 =
n1

n1

Ai1 =
i =1

=
{

h =1
?
Afijacin
proporcional

n h 1050 800
900 600 1700 1300
Ph =
+
+
= 0,7397
n
3650 1050 3650 900 3650 1700

800
1
= 0,7619, P2 =
1050
n2

n2

Ai 2 =
i =1

600
1
= 0,6667 , P3 =
n3
900

n3

A
i =1

i3

1300
= 0,7647
1700

n = n1 + n2 + n3 = 1050 + 900 + 1700 = 3650, N = 10000


Como la afijacin es proporcional:
N 1 n1 1050
1050
=
=
N1 =
10000 = 2877
N
n 3650
3650
N
n
900
900
W2 = 2 = 2 =
N2 =
10000 = 2466
N
n 3650
3650
N
n
1700
1700
W3 = 3 = 3 =
N3 =
10000 = 4658
N
n 3650
3650
W1 =

El error de muestreo de este estimador se puede aproximar mediante:

m ( Pst ) =
m (Pst ) = 0,322

W
h =1

2
h

N h < n h Ph Q h
N h < 1 nh

1200< 2000,085 0.915


5600< 8000,3125 0,6875
3200< 3800,3263 0,6737
+ 0,562
+ 0,122
= 0,0011
1200<1
200
5600<1
800
3200<1
380

Un 28,96% de las fincas de la regin est en barbecho, siendo el error de muestreo


de esta estimacin 0,0011.

4.16.

Una gran empresa sabe que el 40% de las cuentas que recibe es al por mayor y el 60% es al por
menor. Sin embargo, identificar las cuentas individuales sin consultar un archivo es complicado.
Un auditor desea muestrear n = 100 de sus cuentas para estimar la cantidad promedio de las
cuentas por cobrar de la empresa. Una muestra irrestricta aleatoria presenta 70% de cuentas al por
mayor y un 30% de cuentas al por menor. Los datos son separados en cuentas al por mayor y
cuentas al por menor despus del muestreo, con los siguientes resultados en unidades monetarias:
Por mayor

Por menor

n1 = 70

n2 = 30

S1 = 210

S 2 = 90

y1 = 520

y 2 = 280

Estimar la cantidad promedio de las cuentas que recibe la empresa y fijar un lmite para el error
de estimacin.

Muestreo estratificado sin y con reposicin

193

Como la proporcin observada de cuentas al por mayor (0,7) est muy alejada de la proporcin
verdadera (0,4), la estratificacin despus de seleccionar la muestra irrestricta aleatoria
(estratificacin a posteriori) puede ser adecuada, lo cual puede tambin ser justificado porque n1
y n2 exceden de 20.
La cantidad promedio de cuentas que recibe la empresa se estima mediante:
L

h =1

h =1

x st = Wh x h =

Nh
x h = 0,4 520 + 0,6 280 = 376
N

El error de muestreo de la estimacin anterior se calcular mediante:

m ( x st ) =

Wh2 (1 < f h )
h =1

S h2
nh

cuyo valor, omitiendo la correccin por poblacin finita, es:

0,4 2

2102
90 2
+ 0,6 2
= 14,07
70
30

El lmite para el error de estimacin al 95% ser 2m ( x st ) 5 28, con lo que un intervalo
de confianza al 95% para la estimacin de la cantidad promedio de cuentas que recibe la
empresa ser 376 28.

4.17.

Un farmacutico investiga el ingreso en caja obtenido por ventas a jubilados y al resto de sus
clientes. Observa que el ltimo mes ha vendido productos a 750 jubilados y 346 al resto de
sus clientes. Como los jubilados suelen tener tratamientos particulares propios de
enfermedades habituales en ellos, puede considerarse como un estrato homogneo respecto
de los productos que consumen. Lo mismo ocurre con el resto de los clientes. Como llevara
tiempo analizar cliente a cliente, se toma una muestra de 24 clientes y se estratifica a
posteriori en funcin de si se trata de jubilados o no. El ingreso neto en euros por cada
cliente de la muestra se presenta a continuacin:
Cliente Ingreso Cliente Ingreso Cliente Ingreso
Normal 173,69 Jubilado 277,67
Jubilado 271,3
Jubilado 301,29 Normal 133,24 Normal 171,89
Normal 165,22
Normal 163,17 Jubilado 275,8
Normal
Jubilado

141,72
367,94

Normal
Normal

246,48
176,7

Jubilado
Normal

235
181,2

Jubilado

328,63

Jubilado

292,09

Normal

177,37

Normal
Jubilado

179,7
337,77

Normal
Jubilado

187,52
349,79

Normal
Normal

161,37
215,76

Realizar una estimacin del ingreso neto del farmacutico y de su error de muestreo.

194 Muestreo estadstico. Conceptos y problemas resueltos

Como estamos ante un proceso de postestratificacin, el nmero de jubilados y personas


normales muestreadas son variables aleatorias con 24 valores. La cantidad ingresada por el
farmacutico se estima mediante:
L

X ' ' = N h' x h = 750 303728 + 346 176,8 = 288968,8 euros


h =1

La estimacin de la varianza se calcular mediante:


N ( N < n) L 2
N <n L
S ' h (1 < f h ) = 71689746,68
V ( X ' ' ) =
N ' h uS h2 +

n2
n h =1
h =1

El error relativo de muestreo ser:

71689746,68
C v( X ' ' ) =
= 0,03 A 3%
288968,8

Muestreo estratificado sin y con reposicin

195

EJERCICIOS PROPUESTOS
4.1.

Sea X la variable salario anual en millones de unidades monetarias. Al medir la variable X


sobre una poblacin de 870 personas se obtiene la siguiente distribucin de frecuencias:
Valores de X
2 3 4 7 10 12 16
20 25 30 35 50 60 100

8
4
Frecuencias (ni) 20 30 60 100 150 200 120 80 50 20 18 10

Con el objeto de establecer pautas para futuras encuestas de salarios se estratifica la poblacin
utilizando dos mtodos diferentes de estratificacin. El mtodo I consiste en realizar tres
estratos segn los criterios dados por 2 ) X ) 7, 10 ) X ) 25, 30 ) X ) 100. El mtodo II
consiste en realizar tres estratos segn los criterios dados por 2 ) X ) 10, 12 ) X ) 35,
50 ) X ) 100. Se pide lo siguiente:
1) Suponiendo muestreo con reposicin y para un tamao de muestra n = 100, realizar las
afijaciones uniforme, proporcional y de mnima varianza para los dos mtodos de
estratificacin. Comentar los resultados. Elegir el mejor mtodo de estratificacin y su tipo
de afijacin justificando la respuesta. Cuantificar la ganancia en precisin para el mtodo y
afijacin elegidos respecto del muestreo aleatorio simple con reposicin.
2) Responder a las mismas cuestiones del apartado anterior suponiendo muestreo sin
reposicin. Comentar los resultados comparndolos con los del apartado anterior.
3) Para la misma muestra de tamao 100 realizar la afijacin ptima para los dos mtodos de
estratificacin, siendo los costes por unidad en cada estrato los siguientes: C11 = 1, C21 = 16, C31 =
25, C12 = 4, C22 = 9 y C32 = 36, donde Cij = Coste por unidad en el estrato i segn el mtodo de
estratificacin j. Considerar muestreo sin reposicin y con reposicin y comparar los resultados.
Para este tipo de afijacin cul es el mejor mtodo de estratificacin? Razona la respuesta.
4) En una encuesta de salarios posterior, qu tamao de muestra sera necesario para
conseguir un error de muestreo de 0,5 al estimar la media salarial sin reposicin y afijacin
de mnima varianza? y si el muestreo es con reposicin? Comentar los resultados.
5) En una encuesta de salarios posterior qu tamao de muestra sera necesario para
conseguir un error relativo de muestreo del 15% al 95% de coeficiente de confianza ( hr_
=1,96) al estimar el total salarial con reposicin y afijacin proporcional. Y si el muestreo
es sin reposicin? Comentar los resultados.

4.2.

Se van a muestrear las familias de un pueblo para estimar la cantidad promedio de bienes por
familia que se pueden convertir en dinero efectivo rpidamente. Las familias se estratifican
en un estrato de renta alta y otro de renta baja. Se piensa que una casa en el estrato de renta
alta tiene cerca de nueve veces ms bienes que una casa en el estrato de renta baja, y se
espera que Sh sea proporcional a la raz cuadrada de la media del estrato. Se sabe que existen
4000 familias en el estrato de renta alta y 20000 familias en el estrato de renta baja. Se pide:
a) Cmo se distribuira de forma ptima entre los dos estratos una muestra de 1000 familias
extrada de la poblacin?
b) Si el objetivo es estimar la diferencia entre bienes por familia en ambos estratos cmo
debe distribuirse la muestra?

196 Muestreo estadstico. Conceptos y problemas resueltos

4.3.

Consideramos un proceso de muestreo estratificado con afijacin ptima en el que se define


la funcin de coste total C de la siguiente forma:
L

C = c0 + c h n h
h =1

donde c0 representa un coste fijo dado y los ch son tambin conocidos y representan el coste
unitario en el estrato h (h = 1, 2, ..., L). Se pide:
1 Realizar la afijacin de mnima varianza para un coste total C fijo al estimar la media
poblacional y hallar la expresin general que nos da la varianza mnima.
2 Responder a las preguntas del apartado anterior considerando la extraccin de una
muestra estratificada de tamao 1000 de una poblacin de tamao 10000 con los datos que
se dan a continuacin. Comparar los resultados con los que se obtendran para afijacin
ptima con funcin de coste lineal y cuantificar la ganancia en precisin. Comentar los
resultados.
Sh
ch
Estrato
Wh

1
0,4
4
1
2
0,3
5
2
3
0,3
6
3

4.4.

Supongamos conocidos los siguientes datos de una poblacin dividida en tres estratos: S12 = 9,
S22 = 225, S32 = 1600, N1 = 1000, N2 = 600, N3 = 200, C1 = 1000, C2 = 1200 y C3 = 2000. Se pide
lo siguiente:
a) Determinar el coste de una muestra estratificada que proporciona un error relativo de
muestreo de 5% para estimar la media considerando afijaciones proporcional, de mnima
varianza y ptima, respectivamente. Se sabe que X = 22 y que la funcin de coste es lineal.
Comentar los resultados obtenidos para cada tipo de afijacin y justificarlos.
b) Contestar a las mismas cuestiones del apartado anterior, pero con reposicin, y comparar
los resultados con los obtenidos en el apartado a). Justificar los resultados y comprobar que
la afijacin ptima y la de mnima varianza coinciden para costes unitarios.

CAPTULO
MUESTREO SISTEMTICO

OBJETIVOS
1. Presentar el concepto de muestreo sistemtico.
2. Comprender las especificaciones del muestreo sistemtico.
3. Analizar estimadores y errores en el muestreo sistemtico.
4. Comprender el concepto de coeficiente de correlacin intramuestral.
5. Analizar errores en funcin del coeficiente de correlacin intramuestral.
6. Relacionar el muestreo sistemtico con el muestreo aleatorio simple.
7. Relacionar el muestreo sistemtico con el muestreo estratificado.
8. Comprender el concepto de coeficiente de correlacin intraestratal.
9. Analizar errores en funcin del coeficiente de correlacin intraestratal.
10. Realizar la estimacin de varianzas.
11. Relacionar el muestreo sistemtico con el muestreo por conglomerados.

198 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo sistemtico. Especificaciones.
2. Estimadores y varianzas.
3. Relacin entre el muestreo sistemtico y el muestreo aleatorio simple.
4. Relacin entre el muestreo sistemtico y el muestreo estratificado.
5. Estimacin de varianzas.
6. Relacin entre el muestreo sistemtico y el muestreo por conglomerados.
7. Problemas resueltos.
8. Ejercicios propuestos

Muestreo sistemtico

199

MUESTREO SISTEMTICO. ESPECIFICACIONES


Partimos de una poblacin de tamao N, y agrupamos sus elementos en n zonas (filas) de
tamao k (N = nk). Podramos representar la poblacin como sigue:

i \ j
1
2

1
u 11

2
u 12

3
u 13

u 21

u 22

u 23

M
i

M
u i1

M
ui2

M
u i3

M
u n1

M
u n2

M
u n3

L
L
L
L

j
u1 j
u1 j
M
u1 j

L
L
L

u nj

u 2k

M
u ik

M
u nk

M
L

k
u 1k

A continuacin se numeran los elementos de la tabla anterior de izquierda a derecha


empezando por la primera unidad de la primera fila y pasando a la primera unidad de la fila
siguiente cuando se agota cualquier fila. Tendramos la siguiente estructura:

i\j

j
u
L j
L uk + j

u1

u2

u3

uk +1

uk +2

uk +3

u2 k +1

u2 k +2

u2 k +3

L u2 k + j

M
i

M
M
u(i<1) k +1 u(i<1) k +2

M
u(i<1) k +3

M
L u(i<1) k + j

u( n<1) k +1 u( n<1) k +2 u( n<1) k +3 L u(n<1) k + j L u(n<1) k +k


12
44
3
uN

L uk
L uk +k
u2 k +k
M
L u(i<1) k +k
M

Para extraer una muestra de tamao n se elige al azar una unidad en la primera zona, y
para seleccionar las n < 1 unidades restantes para la muestra se toma en cada zona la unidad que
ocupa el mismo lugar dentro de su zona que el que ocupaba la primera unidad seleccionada dentro
de la primera zona. Por ejemplo, si la unidad seleccionada para la muestra al azar en la primera
zona es la tercera, se elegirn las n < 1 unidades restantes para la muestra tomando la tercera unidad
de cada zona. Las muestras sistemticas as obtenidas (columnas de la tabla anterior) suelen
denominarse muestras 1 en k.
La probabilidad de seleccionar cualquier muestra ser la probabilidad de elegir la unidad
que la origina en la primera fila por muestreo aleatorio simple, es decir, 1/k. Por tanto, el muestreo
sistemtico proporciona muestras equiprobables. Por otro lado, la probabilidad que tiene cualquier
unidad de la poblacin (de N unidades) de pertenecer a la muestra (de tamao k) es k/N = k/nk =
1/n; por lo tanto, el muestreo sistemtico es un tipo de muestreo con probabilidades iguales. Las
muestras del espacio muestral pueden representarse como sigue:

200 Muestreo estadstico. Conceptos y problemas resueltos

( u~ ) = {u
1

, u 1+ k , L u 1+ ( n < 1 ) k

LLLLLLLLLLL

( u~ ) = {u
j

, u j + k , L u j + ( n < 1) k

LLLLLLLLLLL

( u~ ) = {u
k

, u k + k , L u k + ( n < 1) k

El muestreo sistemtico extiende la muestra a toda la poblacin, recoge el posible


efecto de estratificacin debido al orden en que figuran las unidades de la poblacin (cada
fila se puede considerar como un estrato), permite la consideracin de conglomerados en la
poblacin (cada columna se puede considerar como un conglomerado), es fcil de aplicar y
comprobar, no presenta problemas de clculo algebraico y no precisa distincin entre
reposicin y no reposicin. Adems, si la disposicin de los elementos en la poblacin es
aleatoria, la seleccin sistemtica equivale a un muestreo aleatorio simple. Por ltimo, el
error de muestreo suele ser menor que en muestreo aleatorio simple o incluso que en
estratificado.
Por otro lado, hay que tener presente la posibilidad de aumento de la varianza si
existe periodicidad en la poblacin y el problema terico que se presenta en la estimacin de
varianzas debido a que no hay independencia en la seleccin de unidades en las distintas
zonas, ya que la unidades extradas en cada zona dependen de la seleccionada en la primera
zona. En general slo hay seleccin aleatoria para la primera unidad de la muestra.

ESTIMADORES Y VARIANZAS
Se utilizar el estimador lineal insesgado de Horwitz y Thompson porque el muestreo
sistemtico es sin reposicin. En general sabemos que:
n

e$

HT

=
i

Yi

/i

estima insesgadamente el parmetro poblacional e =

En muestreo sistemtico la probabilidad /i de seleccin de un elemento poblacional


cualquiera para la muestra ser igual a la probabilidad de que resulte elegida la zona que lo
contiene, esto es, /i = 1/k = n/(nk) = n/N, luego podemos utilizar la forma general del
estimador de Horwitz y Thompson para asegurar lo siguiente:
n

e$ =

Yij
estima insesgadamente el parmetro poblacional e =
1
k

Y .
ij

Si aplicamos la expresin anterior a las estimaciones del total, media, proporcin y


total de clase poblacionales, se obtienen los siguientes estimadores:

Muestreo sistemtico

201

X ij n
1 n
= k X ij = N. X ij = Nx j
?
n i=1
i j =1 1
i =1 n
N
k
X ij
n
1
X ij
1 n
MediaA e = X Yij =
X = nk = X ij = x j
N
n i=1
i j =1 1
{
nk
k
Aij
n
1
Aij
1 n
ProporcinA e = P Yij =
P = nk = Aij = P j
nk
n i=1
i j =1 1
k
n 1 A
n
1 n
ij
Totaldeclase A e = X Yij = Aij A = = k Aij = N. Aij = NP j
?
n i=1
i j =1 1
i =1 n
N
k
n

Total A e = X Yij = X ij X =

Hemos demostrado que un estimador lineal insesgado para la media poblacional es


la media de la muestra sistemtica obtenida, para la proporcin poblacional es la
proporcin de la muestra sistemtica, para el total poblacional es N veces el total de la
muestra sistemtica, y para el total de clase es N veces el total de clase muestral. Es decir,
podemos escribir lo siguiente:

Total A X = Nx j

Media A X = x j
Proporcin A P = P

Total de clase A A = NP j

Varianzas de los estimadores


Definimos la cuasivarianza entre las k muestras posibles o cuasivarianza intermuestral como:
2

1 n k
S =
(x j < X )
k <1 i j
2
bs

y la cuasivarianza dentro de las muestras o cuasivarianza intramuestral como:


2

2
Sws
=

1 n k
(Xij < x j )
N <k i j

Con lo que la descomposicin de la suma de cuadrados para el anlisis de la varianza


poblacional permite escribir lo siguiente:
n

(X

2
2
2
( N < 1)S 2 = ( N < k )Sws
+ (k < 1)Sbs2
ij < X ) = ( X ij < x j ) + (x j < X )
i =1 j =1
i =1 j =1
i =1 j =1
1
442443
1
442443 1
442443
( N <1) S 2

2
( N < k ) S ws

2
( k <1) Sbs

202 Muestreo estadstico. Conceptos y problemas resueltos

A partir de la tabla del anlisis de la varianza para la poblacin que se presenta a


continuacin, pueden calcularse los errores de los estimadores.
Fuente de variacin

Grados de
libertad

Sumas de cuadrados

Entre muestas

k <1

Dentro de muestras

N <k

(x
i

i
n

j
k

(X
(X

k <1+ (N < k ) = N <1

Total

2
bs

S
,
V ( X ) = V (x j ) = (1 < f )
n

( )

S bs2

ij

<xj

ij

<Xj

2
S ws

S2
2

1
Pj < P =
nk

( )

<X

S
V ( X ) = V (Nx j ) = N 2V ( x j ) = N 2 (1 < f ) bs
n

( ) (

1
V ( P ) = V P j =
k

Cuadrados
medios

1
V ( A ) = V NPj = N 2V Pj = N 2
k

(
n

1
P j < P =
N
2

(
n

1
P j < P = PQ <
k
2

P Q
j

1
(P < P) = N (P < P) = N PQ < k P Q
k

n
i

Un concepto interesante en muestreo sistemtico es el coeficiente de correlacin


intramuestral lw, que mide la interrelacin entre las unidades dentro de las muestras. Lgicamente,
esta interrelacin debe ser lo ms pequea posible, ya que en el muestreo sistemtico interesa la
heterogeneidad intramuestral, con la finalidad de que una nica muestra sistemtica represente lo
mejor posible a toda la poblacin. Para que una muestra sistemtica aspire a ser fiel espejo de toda
la poblacin ha de ser heterognea, y la interrelacin entre sus unidades ha de ser baja. Por lo tanto,
inicialmente parece lgico que interesen valores muy pequeos del coeficiente de correlacin
intramuestral. La expresin matemtica de l w es la siguiente:

lw =

i< z

2 (X ij < X )(X zj < X )


N (n < 1)m 2

, m2 =

1 k n
(X ij < X ) = varianza poblacional
nk j i

La varianza de los estimadores puede expresarse en funcin de lw. Para la media


tenemos:
2
m2
[1 + (n < 1)l w ] = N < 1 S [1 + (n < 1)l w ]
V (x j ) =
n
N n
2
2
m
[1 + (n < 1)l w ] = N ( N < 1) S [1 + (n < 1)l w ]
V ( X ) = V Nx j = N 2V x j = N 2
n
n
PQ
PQ
[1 + (n < 1)l w ]
[1 + (n < 1)l w ]
V P j =
V A = N 2
n
n
Segn esta expresin, la precisin del muestreo sistemtico puede analizarse en funcin
del coeficiente de correlacin intramuestral, de tal modo que la precisin mxima se produce para
lt = < 1/(n-1), y la mnima para lt = 0, igualndose la precisin del muestreo sistemtico con la
del muestreo aleatorio simple para lt = 0. De esta forma, para valores de lt entre <1/(n-1) y 0,
el muestreo sistemtico es ms preciso que el aleatorio simple, y para valores de lt entre 0 y 1, el
muestreo sistemtico es menos preciso que el aleatorio simple. Por lo tanto, en cuanto a
precisin, convienen valores negativos del coeficiente de correlacin intraconglomerados lt .

( )

( )

()

Muestreo sistemtico

203

RELACIN ENTRE MUESTREO SISTEMTICO Y MUESTREO ALEATORIO SIMPLE


El muestreo sistemtico se ide con la finalidad de mejorar el muestreo aleatorio simple.
Pero habr ocasiones en que esta mejora es mxima. Se demuestra que mientras ms supera
2
a la cuasivarianza poblacional S2 el muestreo sistemtico
la cuasivarianza intramuestral S ws
ms gana en precisin al aleatorio simple.
El prrafo anterior puede interpretarse diciendo que el muestreo sistemtico es ms
preciso que el aleatorio simple cuando la variabilidad dentro de muestras es superior a la
variabilidad dentro de las unidades de la poblacin. La precisin del muestreo sistemtico
2
= S2, es decir, cuando la variabilidad dentro
coincide con la del aleatorio simple cuando S ws
de muestras es similar a la variabilidad dentro de las unidades de la poblacin, y esto se da
cuando la disposicin de los elementos en la poblacin es aleatoria.

RELACIN ENTRE MUESTREO SISTEMTICO Y MUESTREO ESTRATIFICADO


En el muestreo sistemtico puede considerarse cada zona de k elementos consecutivos a
partir del primero como un estrato; es decir, se puede dividir la poblacin en n estratos
constituidos cada uno de ellos por una fila de la tabla (k unidades) del cuadro en que hemos
representado los elementos de la poblacin numerados consecutivamente.

1
x1
x1+ k

j
xj
x j+k

k
xk
xk + k

1
2
M
M
M
M
i x1+ (i <1)kL x j + (i <1)k L xk + (i <1)k
M
M
M
M
n x1+ (n <1)k
x j + (n <1)k xk + (n <1)k
Obtener una muestra sistemtica sera entonces equivalente a obtener una muestra
estratificada con una unidad por estrato. Debe tenerse en cuenta, sin embargo, que en el
muestreo estratificado aleatorio la seleccin se efecta independientemente en cada estrato,
mientras que en el muestreo sistemtico todos los elementos seleccionados ocupan el mismo
lugar o nmero de orden dentro de cada zona de k elementos, con la que no hay aleatoriedad
de seleccin. Adems, sera conveniente que las n zonas sistemticas de k elementos cada
una (estratos) sean lo ms homogneas posible dentro de ellas y heterogneas entre ellas.
Esta clasificacin de los elementos de la poblacin en n filas de k unidades cada una origina
la siguiente tabla del anlisis de la varianza poblacional:
Fuente de variacin
Entre estratos

Grados de
libertad
n <1

Sumas de cuadrados

(X
n

Dentro de estratos

N <n

(X

Total

n < 1 + ( N < n) = N < 1

(X

n
i

<X)

j
k

ij

< Xi)
<X

medios
2
S bst

ij

Cuadrados

2
S wst

S2

204 Muestreo estadstico. Conceptos y problemas resueltos

Si definimos la cuasivarianza entre las n estratos posibles, o cuasivarianza interestratal


como:

1 n k
X i < X
n <1 i j

2
Sbss
=

y la cuasivarianza dentro de los estratos o cuasivarianza intraestratal como:


2
Swss
=

1 n k
Xij < Xi2

N <n i j

tenemos:
n

(X

2
2
2
ij < X ) = (X ij < X i ) + ( X i < X ) ( N <1)S = ( N < n)Swst + (n <1)Sbst
i=1 j =1
i=1 j =1
i=1 j =1
1
442443 1
442443 1
442443

( N <1) S 2

2
( N <n) Swst

2
( n<1) Sbst

Tenemos entonces que la varianza de la media puede expresarse como:

()

L
n
n
S2 1 1 n
1
V X = V (xst ) = Wh2V (xh ) = Wi 2V ( xi ) = 2 (1 < f i ) u i = 2 1 < Si2 =
ni n k i
h
i
i n
2

2
S wst
N <n 2
1 1 n 1 k
1 n k
(
)
(
)
X
X
X
X
S
f
<
<
=
<
=
=
(
1
<
)
1

ij i n2k
ij
i
wst
Nn
n
n 2 k i k <1 j
i
1
4j 42443
2
( N <n)Swst

Si definimos ahora el coeficiente de correlacin intraestratal ltst como el


coeficiente de correlacin lineal entre las desviaciones respecto de las medias de los estratos
de todos los pares de valores que estn en la misma muestra sistemtica, su expresin puede
calcularse de la siguiente forma:

ltst =

cov(X ij ; X zj )
1 k n
(X ij < X i )2

N j i=1

1 k n
(X ij < X i )(X zj < X z ) k n
n j i< z
k
2(X ij < X i )(X zj < X z )
2
j i< z

=
=
k n
2
1
2
n(n <1)(k <1)S wst
(
)
<
X
X
ij i
N j i=1
1442443
2
( N <n)Swst

Se demuestra que la varianza del estimador de la media en funcin de ltst y Stst tiene la
forma siguiente:
2

S
V ( X ) = V (x j ) = (1 < f ) wst (1 + (n < 1) ltst )
n
y lo mismo se calcularan las varianzas del resto de los estimadores en funcin del
coeficiente de correlacin intraestratal ltst.

Muestreo sistemtico

205

La precisin mxima, que evidentemente se da cuando el error de muestreo es cero


(V( x j ) = 0), se produce si (n<1)ltst = <1, luego se puede asegurar que la precisin mxima
si:
V( x j ) = 0 l tst = <

1
n <1

La precisin mnima, que evidentemente se da cuando la varianza es mxima, se


produce si ltst = 1 (valor mximo de ltst que ser el que efectivamente hace mxima V( x j )),
luego se puede asegurar que PRECISIN MNIMA ltst = 1. Por otra parte:

ltst = 0 V( x j ) = (1 < f )

2
S wst
n

con lo que el muestreo sistemtico coincide en precisin con el muestreo aleatorio estratificado
considerando seleccin aleatoria independiente en cada estrato. De esta forma, ltst es en cierta
forma una medida de la falta de aleatoriedad en la seleccin de unidades para la muestra en
las distintas zonas sistemticas (filas o estratos).

ESTIMACIN DE VARIANZAS
No podemos decir que en muestreo sistemtico haya un mtodo directo para la estimacin de
varianzas a partir de una muestra sistemtica. Tenemos las siguientes situaciones:
a) lt prximo a cero o S2ws = S2
Si el coeficiente de correlacin intramuestral se aproxima a cero puede suponerse la
poblacin aleatoria y si S2ws = S2 la precisin del aleatorio simple y el estratificado coinciden,
con lo que la estimacin de la varianza puede realizarse con la misma expresin que en
muestreo aleatorio simple, es decir:

S$ 2
$
V ( x ) = (1 < f ) u
n

siendo S$ 2 la cuasivarianza de la muestra sistemtica.


b) ltst prximo a cero

Si ltst se aproxima a cero se puede utilizar el muestreo sistemtico como muestreo


estratificado considerando cada zona sistemtica como un estrato y seleccionando una
muestra estratificada con una unidad por estrato. La razn de esta utilizacin es que la
precisin del muestreo sistemtico se iguala con la del muestreo aleatorio estratificado para
ltst = 0. En la prctica, lo que se hace es mezclar, antes de la seleccin, las 2k unidades de
dos zonas en una nica zona, con lo que se transforman las n zonas de k unidades cada una
en n/2 zonas de 2k unidades cada una (si n es impar, para la zona que queda suelta se repite
aleatoriamente un elemento de la muestra). Con este modelo se transforman las n zonas de k
unidades en n/2 zonas de 2k unidades. Con ello se dispone de dos unidades muestrales por
zona. Aplicando las frmulas de muestreo estratificado tendremos:

V$ ( x st )

n
2

2
2
( x h1 < x h 2 )
S$h2
2
2

(
= Wh ( 1 < f h ) u
=
1< f ) u
nh
2
h
h n

1< f
n2

n
2

( x
h

h1

< xh2 )

206 Muestreo estadstico. Conceptos y problemas resueltos

c) Ni lt ni ltst estn prximos a cero


En este caso utilizaremos alguno de los mtodos especiales generales para la estimacin de
varianzas. Concretamente podemos utilizar el mtodo de las muestras interpenetrantes, que
se utiliza cuando tenemos un conjunto de dos o ms muestras, elegidas con el mismo
esquema de muestreo (independientes o no) y tales que cada una proporcione una estimacin
vlida del parmetro que se pretenda estimar con el mismo error de muestreo. Si las
muestras son independientes es fcil obtener un estimador insesgado de la varianza del
estimador. Para aplicar el mtodo de las muestras interpenetrantes al muestreo sistemtico
supongamos que en vez de elegir una muestra sistemtica de tamao n para un solo valor j,
1 ) j ) k , es decir, con un solo arranque aleatorio, obtenemos t muestras de tamao n/t
utilizando t arranques aleatorios. Estas muestras pueden considerarse independientes, ya que
la eleccin del arranque es aleatoria en la primera zona sistemtica.
Podemos formar un estimador combinado de la media poblacional basado en las
medias de las t muestras (cada media muestral es un estimador insesgado de la misma media
poblacional) definido como:

xc =

1 t
x
t 1 t

siendo el estimador insesgado de su varianza mediante la aplicacin del mtodo de las


muestras interpenetrantes:

V$ ( x c ) =

t
t
t

1
1 t 2
1
xi < x c2 =
xi2 < tx c2 =
xi2 < x c2 )
(

t ( t < 1) i
t ( t < 1) i
t ( t < 1) i
i

La frmula puede multiplicarse tambin por (1-f). En particular para t = 2 tenemos:


2
2
( x1 < x2 )
x1 + x 2
x1 + x 2
x1 + x 2
2
2
$
+ x2 <
=
xc =
V ( x c ) = x1 <
2
2
2
4

Se observa que al aumentar el nmero de arranques aleatorios, manteniendo el mismo


tamao de muestra, la precisin obtenida se aproxima a la del muestreo aleatorio simple.

RELACIN ENTRE MUESTREO SISTEMTICO Y POR CONGLOMERADOS


En el muestreo sistemtico puede considerarse cada columna de n elementos como un
conglomerado; es decir, se puede dividir la poblacin en k conglomerados constituidos cada
uno de ellos por una columna de la tabla (n unidades). Obtener una muestra sistemtica sera
entonces equivalente a obtener una muestra por conglomerados de tamao 1.

1
x1
x1+ k

j
xj
x j +k

k
xk
xk +k

1
2
M
M
M
M
i x1+(i <1)k L x j +(i <1)k L x k +(i <1)k
M
M
M
M
n x1+(n <1)k
x j +(n <1)k
x k +(n <1) k

Muestreo sistemtico

207

PROBLEMAS RESUELTOS
5.1.

En un proceso de fabricacin de automviles se trata de analizar la produccin de piezas


en serie de trece robots. Para ello se controlaron las piezas producidas por los trece
robots en la primera hora de su funcionamiento y se obtuvo la siguiente distribucin:
N de robot
1 2 3 4 5 6 7 8 9 10 11 12 13
N de piezas producidas 5 5 4 2 5 4 5 4 3 4 4 3 2

Con la finalidad de estimar el nmero de piezas defectuosas en el proceso de


fabricacin, se realiza un muestreo sistemtico 1 en 5, es decir, se selecciona una de
cada cinco piezas empezando por la primera pieza del primer robot hasta que se agoten
sus piezas, para pasar a continuacin a la primera pieza del segundo robot hasta que se
agoten sus piezas, y as sucesivamente hasta que se agoten todas las piezas de todos los
robots. Suponiendo que la primera pieza producida por cada robot es defectuosa y que
todas las dems son correctas, se pide lo siguiente:
a) Calcular la varianza del estimador de la proporcin de piezas defectuosas producidas
por los robots y el valor del coeficiente de correlacin intramuestral. Existir ganancia
en precisin respecto de un muestreo irrestricto aleatorio con fraccin de muestreo del
20%? Por qu? Cuantificarla. Realizar la tabla del anlisis de la varianza para la
produccin total.
b) Estimar la varianza para cada muestra sistemtica posible segn nuestro
procedimiento de muestreo. Con qu muestra sistemtica nos quedaremos que
represente mejor a toda la produccin? Existir ganancia en precisin si se estiman las
varianzas utilizando estratificacin? Dar la estimacin de la proporcin de piezas
defectuosas producidas por los robots.
Si definimos una variable dicotmica A a la que asignamos el valor 1 para las piezas
defectuosas y el valor 0 para las piezas correctas, y clasificamos las 50 piezas en 10 filas de
5 piezas cada una (muestreo sistemtico 1 en 5) siguiendo el orden del enunciado del
problema, tendremos la tabla de la Figura 5-1.
A continuacin, se construye la tabla del anlisis de la varianza para la poblacin
(produccin total) utilizando Excel. Como estamos clasificando los datos en 5 grupos
(columnas), utilizaremos una variable G, que clasificar los valores de A (ceros o unos) por
grupos (por columnas). Introducimos los valores de G en columnas de la hoja de clculo de
Excel y elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del
men Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-2. La
Figura 5-3 presenta los resultados.

208 Muestreo estadstico. Conceptos y problemas resueltos


1

1/ 5

1
1

0
0

0
0

0
0

0
1

1/ 5
2/5

1/ 5

0
1

1
0

0
0

0
0

0
0

1/ 5
1/ 5

2/5

1/ 5

0
1
0
0
0
1/ 5
1
0
0
1
0
2/5
6 / 10 3 / 10 1 / 10 1 / 10 2 / 10 13 / 50

Figura 5-1

Figura 5-2

Figura 5-3
Con la notacin que utilizamos habitualmente, la tabla ANOVA ser:
Fuente

Grados de
libertad

Entre

k <1= 5 <1= 4

(x

N < k = 50 < 5 = 45

(X

Dentro
Total

N < 1 = 50 < 1 = 49

Sumas de cuadrados
n

i
n

(X

< X ) = 1,72
2

Cuadrados
medios
S bs2 = 1,72 / 4 = 0,43

ij

< x j ) = 7,9

2
S ws
= 7,9 / 45 = 0,1755

ij

<X

) = 9,62

S 2 = 9,62 / 49 = 0,1963

Muestreo sistemtico

209

Conocida esta tabla, pueden realizarse ya todos los clculos. La varianza del
estimador de la proporcin puede calcularse como:

( )

S2
n S2
1 0,43

V ( P ) = V P j = 1 < bs = (1 < f ) bs = (1 < )


= 0,0344
n
N n
5 10

La varianza para el estimador del total de clase ser:

( )

S
V ( A ) = V NP j = N 2V ( P j ) = N 2 (1 < f ) bs = 50 2 0,0344 = 86
n
Del valor de la varianza puede deducirse el valor del coeficiente de correlacin
intramuestral a travs de la frmula V ( x j ) =

m2
n

(1 + (n < 1) l t ) . Tendremos:

49
0 ,1963
50
0 , 0344 =
(1 + (10 < 1) l t ) l t = 0 , 0875
10

Se observa un valor de lt muy cercano a cero, lo que indica que el muestreo sistemtico
va a tener una precisin muy cercana a la del aleatorio simple en la estimacin de la proporcin de
piezas defectuosas. Esto concuerda con el hecho de que S2 y S2ws tambin tienen valores muy
cercanos. Concretamente S2 = 0,1963 > S2ws = 0,1755, lo que indica que es ms preciso el muestreo
aleatorio simple. La varianza del estimador de la proporcin en el muestreo aleatorio simple es
(1<1/5)0,1963/10 = 0,0157, lo que indica que la ganancia en precisin del aleatorio simple ser
(0,0344 < 0,0157)/0,0344 = 54,3%.
Dado el valor del coeficiente de correlacin intramuestral, muy cercano a cero, podemos
estimar varianzas mediante la frmula del muestreo aleatorio simple. Se tiene:
6 6
1 <
2

P1Q1 1 10 1 10
S1

= 0,0213
= (1 < f )
= 1 <
V P1 = (1 < f )
n < 1 5 10 < 1
n

( )

3 3
1 <
2
Q
P
S
1
10

1 10
2
2 2

= 0,0186
= (1 < f )
= 1 <
V P2 = (1 < f )
n < 1 5 10 < 1
n

( )

1 1
1 <
2

P3 Q3 1 10 1 10
S3

= 0,008
= (1 < f )
= 1 <
V P3 = (1 < f )
n < 1 5 10 < 1
n

( )

( ) ( )

V P4 = V P3 = 0,008
2
2
1 <
2
Q
S
P
1
10
10

V P5 = (1 < f ) 5 = (1 < f ) 5 5 = 1 <


= 0,0142
n
n < 1 5 10 < 1

( )

Segn estos resultados la muestras ms precisas son la tercera y la cuarta.

210 Muestreo estadstico. Conceptos y problemas resueltos

Tambin podemos estimar la varianza a partir del muestreo estratificado, agrupando


las 10 filas (estratos) de la poblacin en grupos de 2, y considerando cada dos filas como un
estrato del que seleccionamos dos unidades para la muestra. Tendremos:

( )

1< f
V P1 = 2
n

n
2

(x
h

< xh 2 ) =
2

h1

1 < 0,2
(1 < 1) 2 + (1 < 0) 2 + (0 < 1) 2 + (1 < 0) 2 + (0 < 1) 2 = 0,032
2
10

( )
( )

1< f 2
1 < 0,2
2
V P2 = 2 (xh1 < xh 2 ) =
(0 < 0) 2 + (0 < 1) 2 + (1 < 0) 2 + (0 < 0) 2 + (1 < 0) 2 = 0,024
2
n
10
h

V P = 0,008(0 < 1) 2 = 0,008 = V P


V P = 0,008 (1 < 0) 2 + (1 < 0) 2 = 0,016

( )

( )

Las mejores muestras segn el mtodo del muestreo estratificado tambin resultan ser
la tercera y la cuarta, y adems coinciden en varianza con el mtodo anterior. Para las restantes
muestras se observa ganancia en precisin del mtodo de estimacin utilizando la frmula del
muestreo aleatorio simple. La proporcin estimada de piezas defectuosas producidas ser la
derivada de la 3 o 4 muestra, esto es: P = P3 = P4 = 1 / 10 ; es decir que se estima un 10%
de produccin defectuosa.

5.2.

En una poblacin de 8 tipos de maletines de herramientas medimos el nmero de elementos


importantes que faltan para considerarse de primera calidad:
mi
Xi

m1
1

m2
3

m3
5

m4
2

m5
4

m6
6

m7
2

m8
7

Se realiza muestreo sistemtico 1 en 2 y se pide:


a) Calcular las varianzas de los estimadores insesgados del total y de la media de elementos
importantes ausentes en los maletines. Utilizar adicionalmente la relacin entre muestreo
sistemtico y estratificado.
b) Estimar dichas varianzas y comparar la precisin de este tipo de muestreo con la del muestreo
aleatorio simple. Seleccionar la muestra ms precisa.
Como se trata de un muestreo sistemtico 1 en 2 y N = 8, habr dos muestras
sistemticas posibles de tamao 4 (columnas). Dividiremos entonces la poblacin en 4 zonas
(filas) de 2 elementos cada una de la forma:
3

5
4

2
6

3,5
5

2
3

7
4 ,5

4 ,5
3,75

i =1 j =1
3

i =1 j =1

i =1 j =1

ij

< x j ) 2 =(1 < 3) + (5 < 3) + ... + (6 < 4,5) + (7 < 4,5) 2 = 27

ij

< X ) 2 =(1 < 3,75 ) + (5 < 3,75 ) + ... + (7 < 3,75) 2 = 31,5

(X

< X ) 2 = 4 (3 < 3,75 ) + (4,5 < 3,75 ) = 4,5

(X
3

(x

Hemos creado un cuadro con las muestras sistemticas como columnas, colocando
una fila adicional inferior con las medias de las columnas y una columna adicional a la derecha
con las medias de las filas.

Muestreo sistemtico

211

A continuacin, se construye la tabla del anlisis de la varianza para la poblacin


utilizando Excel. Como estamos clasificando los datos en 2 grupos (columnas), utilizaremos las
variables M1 y M2, que recogen los valores de las dos columnas. A continuacin elegimos Anlisis
de la varianza de un factor en la opcin Anlisis de datos del men Herramientas, rellenando su
pantalla de entrada como se indica en la Figura 5-4. La Figura 5-5 presenta los resultados.

Figura 5-4

Figura 5-5
Mediante Excel se ha hallado la siguiente tabla del anlisis de la varianza:
Fuente de variacin

Grados de
libertad

Entre muestras

k <1 = 2 <1 = 1

Sumas de cuadrados

(x
n

Dentro de muestras

N <k = 8<2 = 6

(X

Total

N <1 = 8 <1 = 7

(X

n
i

= 4,5

S bs2 = 4,5 / 1 = 4,5

< x j ) = 27

S ws2 = 27 / 6 = 4,5

S 2 = 31,5 / 7 = 4,5

<X

ij

ij

Cuadrados
medios

< X j = 31,5

Conocida esta tabla pueden realizarse ya todos los clculos.

212 Muestreo estadstico. Conceptos y problemas resueltos

1 k
1
2
V ( X ) = V ( x j ) = ( x j < X ) 2 = (3 < 3,75) + (3,5 < 3,75) 2 = 0,5625
k j
2

La varianza del estimador de la media tambin puede calcularse como:


2
S2
1 4,5
nS

= 0,5625
V ( X ) = V (x j ) = 1 < bs = (1 < f ) bs = (1 < )
n
2 4
N n

La varianza para el estimador del total ser:


V ( X ) = V (Nx j ) = N 2V ( x j ) = N 2 (1 < f )

S bs2
= 8 2 u 0,5625 = 36
n

El clculo de la varianza tambin puede realizarse a travs del valor del coeficiente de
correlacin intramuestral como V ( x j ) =
k

lw =

m2
n

)(

2 X ij < X X zj < X
j i<z

N (n < 1)m 2

(1 + (n < 1) l t ) . Tenemos:

) 2(X
=

i<z

ij

)(

< X X zj < X

( N < 1)(n < 1)S 2

= <0,14285

Tendremos entonces:

7
4,5
m
V (x j ) =
(1 + ( n < 1) l t ) = 8
(1 + 3(<0,14285)) = 0,5625
n
4
2

Ahora surge el problema de estimar las varianzas. Para ello observamos en primer
lugar que S2ws = 4,5 = S2, por lo que la precisin en muestreo aleatorio simple coincide con la
precisin del muestreo sistemtico, y podremos utilizar la frmula del muestreo aleatorio
simple para estimar varianzas. Por otra parte, el valor del coeficiente de correlacin
intramuestral lt indica que la precisin del muestreo sistemtico es buena, ya que ste es
muy bajo y adems es negativo. Al ser negativo vemos que no existe interrelacin dentro de
las muestras, esto es, que las muestras tienden a ser heterogneas dentro de s, lo cual es muy
conveniente en muestreo sistemtico a la vista de que la muestra ha de representar fielmente
a toda una poblacin que se supone heterognea.
Para estimar la varianza de la media podemos utilizar la frmula del muestreo
aleatorio simple, ya que en este problema coincide en precisin con el sistemtico.
Tendremos los siguientes resultados para cada una de las dos muestras:
2
S
1 1
2
2
2
V (x1 ) = (1 < f ) u 1 = 1 < (1 < 3) + (5 < 3) + (4 < 3) + (2 < 3) 2
n 2 3
2
S
1 1
2
2
2
V (x2 ) = (1 < f ) u 2 = 1 < (3 < 4,5) + (2 < 4,5) + (6 < 4,5) + (7 < 4,5) 2
n 2 3

] 4 = 0,41

] 4 = 0,71

La mejor muestra sistemtica resulta ser la primera, pues es la que presenta menor
varianza.
Tambin podemos tratar este problema desde el enfoque de la equivalencia entre
muestreo estratificado y muestreo sistemtico.

Muestreo sistemtico

213

Consideramos ahora cada una de las 4 zonas (filas) como un estrato de 2 unidades.
Tenemos entonces dividida la poblacin en 4 estratos de 2 unidades cada uno, de modo que
la muestra sistemtica consta de una unidad por estrato, que de forma general no es elegida
aleatoriamente dentro del mismo. Esta clasificacin de los elementos de la poblacin en 4
filas de 2 unidades cada una origina una tabla del anlisis de la varianza para la poblacin
que puede calcularse a travs de Excel. Como estamos clasificando los datos en 4 filas (estratos),
utilizaremos las variables M2 a M5, que recogen los valores de las cuatro filas. A continuacin
elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del men
Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-6. La Figura 5-7
presenta los resultados.

Figura 5-6

Figura 5-7

214 Muestreo estadstico. Conceptos y problemas resueltos

La tabla del anlisis de la varianza por estratos es entonces la siguiente:


Fuente de variacin

Grados de
libertad

Entre estratos

n <1= 4 <1= 3

Sumas de cuadrados

(X
n

Dentro de estratos

N <n=8<4=4

(X

Total

N <1= 8 <1= 7

(X

i
n
i

(X < X )
n
i

k
j

k
j

ij

< X i ) = 21

2
S wst
= 21 / 4 = 5,25

ij

< X j ) = 31,5

S 2 = 31,5 / 7 = 4,5

= k Xi < X = 2 (2 < 3,75)2 + (3,5 < 3,75)2 + (5 < 3,75)2 + (4,5 < 3,75)2 = 10,5

(X
n

2
= 10,5 / 3 = 3,5
< X ) = 10,5 S bst
2

j
k

Cuadrados
medios

ij

< Xi = (1< 2)2 + (3 < 2)2 + (5 < 3,5)2 + (2 < 3,5)2 + (4 < 5)2 + (6 < 5)2 + (2 < 4,5)2 + (7 < 4,5)2 = 21

A partir de esta equivalencia entre muestreo estratificado y muestreo sistemtico


podemos hallar la varianza del estimador de la media de la siguiente forma:
S2
1 5,25

V ( X ) = V ( x j ) = (1 < f ) wst = 1 <


= 0,65625
n
2 4

Se observa que ahora la varianza es ligeramente superior al caso en que no se


consideraba estratificacin. Ello es debido a que la seleccin de la unidad por estrato para la
muestra no es aleatoria salvo en el primer estrato. Una medida de esa falta de aleatoriedad la
proporciona el coeficiente de correlacin ltst, cuyo valor se calcula como:
k

ltst =

)(

2 Xij < Xi X zj < X z


j i<z

2
wst

n(n <1)(k <1)S

2
((1< 2)(5 < 3,5) + (1< 2)(4 < 5) + ...+ (6 < 5)(7 < 4,5)) = <0,047
4.3.1.5,25

El valor de ltst es negativo y muy pequeo, lo que indica que la falta de aleatoriedad
en la seleccin de una unidad por estrato no es muy elevada. Para calcular el valor correcto
de la varianza del estimador de la media considerando la falta de aleatoriedad se utiliza la
siguiente expresin en funcin de ltst:
2

S
5,25
V ( X st ) = V ( x jst ) = (1< f ) wst (1+ (n <1)ltst ) = (1< 0,5)
(1< (4 <1)0,047) = 0,56
n
4

Se observa que ahora ya coincide la varianza con la calculada sin estratificar.


Tambin podemos estimar la varianza a partir del muestreo estratificado, agrupando
las 4 filas (estratos) de la poblacin en grupos de 2, y considerando cada dos filas como un
estrato del que seleccionamos dos unidades para la muestra. Tendremos:

Muestreo sistemtico

215

3
Estrato 1
5 2
4 6
Estrato 2
2 7

1< f
V ( x1 ) = 2
n
1< f
V ( x 2 ) = 2
n

n
2

(x
h

n
2

(x
h

< xh2 ) =

1 < 0,5
(1 < 5) 2 + (4 < 2) 2 = 0,625
42

< xh2 ) =

1 < 0,5
(3 < 2) 2 + (6 < 7) 2 = 0,0625
42

h1

h1

Por esta va la menor varianza la presenta la segunda muestra.


La tabla del anlisis de la varianza en el caso de estratificacin es esencial en estos
problemas, ya que proporciona prcticamente toda la informacin para realizar clculos.

5.3.

Una manzana de casas de una ciudad contiene 36 hogares numerados del 1 al 36. Los
hogares con ingresos mensuales superiores a 1500 euros son los que tienen los nmeros 3,
5-7, 11-13, 15-16, 20- 22, 25-26, 28 y 30-34.
1) Se trata de estimar la proporcin de hogares con sueldo mensual superior a 1500 euros
utilizando muestreo sistemtico. Comparar la precisin de una muestra sistemtica 1 en 4
con una muestra aleatoria simple del mismo tamao para estimar la proporcin de hogares
con sueldo mensual superior a 1500 euros. Justificar la respuesta en funcin del valor del
coeficiente de correlacin intramuestral y en funcin de la cuasivarianza intramuestral.
2) Hallar el tamao de muestra necesario para estimar la proporcin de viviendas en las que los
ingresos mensuales son superiores a 1500 euros para un error de muestreo de 16 centsimas.
Hallar ese mismo tamao para muestreo aleatorio simple y comentar el resultado.
Si definimos una variable dicotmica A a la que asignamos el valor 1 para los hogares en
que los ingresos mensuales superan los 1500 euros y el valor 0 para el resto de los hogares, y
clasificamos los 36 hogares en 9 filas de 4 viviendas cada una (muestreo sistemtico 1 en 4)
siguiendo el orden del enunciado del problema, tendremos la siguiente tabla:
0

1/ 4

3/ 4

0
1

0
0

1
1

1
1

1/ 2
3/ 4

1/ 4

1/ 2

3/ 4

3/ 4

0 1/ 2
0
1
1
5/9 5/9 5/9 5/9 5/9

Para calcular la varianza del estimador sistemtico de la proporcin hacemos:

216 Muestreo estadstico. Conceptos y problemas resueltos

V ( P ) =

2
2
2
2
1 5 5 5 5 5 5 5 5
< + < + < + < = 0
4 9 9 9 9 9 9 9 9

Tambin podemos calcular la varianza del estimador de la proporcin como:


1 k
20 20 1 5 4 5 4 5 4 5 4
V ( P ) = PQ < P j Q j = 1 < <
+
+
+
=0
k j =1
36 36 4 9 9 9 9 9 9 9 9

A continuacin, se construye la tabla del anlisis de la varianza para la poblacin


(produccin total) utilizando Excel. Como estamos clasificando los datos en 4 grupos
(columnas), utilizaremos una variable G, que clasificar los valores de A (ceros o unos) por
grupos (por columnas). Introducimos los valores de G en columnas de la hoja de clculo de
Excel y elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del
men Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-8. La
Figura 5-9 presenta los resultados.

Figura 5-9

Figura 5-10

Muestreo sistemtico

217

Por lo tanto, la tabla del anlisis de la varianza para la poblacin es la siguiente:

Fuente

Grados de
libertad

Entre

k <1 = 4 <1 = 3

Sumas de cuadrados

(x
n

Dentro

N < k = 36 < 4 = 32

(X

Total

N < 1 = 36 < 1 = 35

(X

<X

j
k

=0

S bs2 = 0 / 3 = 0

ij

< x j ) = 8,88

S ws2 = 8,88 / 32 = 0,277

ij

<X

) = 8,88

S 2 = 8,88 / 35 = 0,254

i
n

Cuadrados
medios

Conocida esta tabla pueden realizarse ya todos los clculos. Por ejemplo, la varianza
del estimador de la proporcin tambin podra calcularse como:

( )

2
S2
nS
1 0

V ( P ) = V P j = 1 < bs = (1 < f ) bs = (1 < ) = 0


N
n
n
4 9

Del valor de la varianza puede deducirse el valor del coeficiente de correlacin


intramuestral a travs de la frmula V ( x j ) =

m2
n

(1 + (n < 1) l t ) . Tendremos:

35
0 , 254
1
1
0 = 36
(1 + ( 9 < 1) l t ) l t = < = <
= < 0 ,125
8
9
n <1

Estamos ante el caso de mxima precisin del muestreo sistemtico, ya que la varianza
1
es nula, o lo que es lo mismo, l t = <
.
n <1
Este hecho concuerda con los valores que toman S2 y S2ws. Concretamente S2 = 0,254 <
S2ws = 0,277, lo que indica que es ms preciso el muestreo sistemtico que el aleatorio simple.
La varianza del estimador de la proporcin en el muestreo aleatorio simple es (1<1/4)*0,254/9
= 0,021.
Para resolver el segundo apartado del problema consideramos ahora cada una de las
9 zonas (filas) como un estrato de 4 unidades. Tenemos entonces dividida la poblacin en 9
estratos de 4 unidades cada uno, de modo que la muestra sistemtica consta de una unidad por
estrato que de forma general no es elegida aleatoriamente dentro del mismo. Esta clasificacin
de los elementos de la poblacin en 9 filas de 4 unidades cada una origina una tabla del
anlisis de la varianza que se puede calcular con Excel.
Como estamos clasificando los datos en 9 filas (estratos), utilizaremos las variables G5 a
G13, que recogen los valores de las nueve filas. A continuacin elegimos Anlisis de la varianza de
un factor en la opcin Anlisis de datos del men Herramientas, rellenando su pantalla de entrada
como se indica en la Figura 5-11. La Figura 5-12 presenta los resultados.

218 Muestreo estadstico. Conceptos y problemas resueltos

Figura 5-11

Figura 5-12
El cuadro del anlisis de la varianza por estrato es entonces el siguiente:
Grados de

Fuente de variacin

libertad
n <1 = 9 <1 = 8

Entre estratos

Cuadrados

Sumas de cuadrados

(X
n

Dentro de estratos

N < n = 36 < 9 = 27

(X

Total

N < 1 = 36 < 1 = 35

(X

j
k

= 1,388

medios
2
bst

= 1,388 / 8 = 0,1735

<X

ij

< Xi

ij

< X j = 8,888 S 2 = 8,888 / 35 = 0,254

i
n

= 7,5

2
S wst
= 7,5 / 27 = 0,277

Calculamos ahora el valor del coeficiente de correlacin ltst como sigue:


k

ltst =

)(

2 Xij < Xi X zj < X z


j i<z

2
wst

n(n < 1)(k < 1)S

2
1
3
1
1
3
1

(0 < )(1 < ) + (0 < )(0 < ) + ... + (1 < )(0 < ) = <0,125
4
2
4
2
9.8.3.0,277
4
4

Para calcular el tamao de muestra necesario para cometer un error de muestreo


igual a 0,16 despejamos n en la expresin que define la varianza de la proporcin en funcin
de ltst. Tenemos:

Muestreo sistemtico

219

S2
n 0,277
V (Pst ) = (1 < f ) wst (1 + (n <1)ltst ) 0,162 = (1 < )
(1 + (n <1)(<0,125) n = 5
n
36 n
Para calcular el tamao de muestra anterior en muestreo aleatorio simple despejamos
n en la expresin que define la varianza de la proporcin en ese tipo de muestreo. Tenemos:

V (Pst ) = (1< f )

S2
n

0,162 = (1<

n 0,254
)
n =8
36 n

Obviamente el tamao de muestra necesario para cometer el mismo error de muestreo es


mayor en muestreo aleatorio simple que en muestreo sistemtico, ya que en este problema el
muestreo sistemtico es ms preciso que el muestreo aleatorio simple.

5.4.

Un investigador desea determinar la calidad del azcar contenida en la sabia de los rboles
de una finca, que se encuentran situados a lo largo de la misma de forma natural en 7 hileras.
El nmero total de rboles es desconocido, por lo que no puede realizarse una muestra
irrestricta aleatoria. Como procedimiento alternativo el investigador decide usar una muestra
sistemtica de 1 en 7. En la tabla adjunta se encuentran los datos del contenido de azcar en
la sabia de los rboles muestreados:
rbol

Contenido de azcar

muestreado
1

en la savia X
82

6724

76

5776

83

M
210

6889
M

84

7056

211

80

6400

212

79

212

X
i =1

X2

212

= 17066

i =1

6241
2
i

= 1486800

Estimar el contenido de azcar promedio en la sabia de los rboles de la finca estableciendo


los errores absoluto y relativo de la estimacin. Realizar la estimacin mediante un intervalo
de confianza al nivel del 5%.
La estimacin de la media vendr dada por:
212

X = xj =

X
i =1

212

= 80,5

Para calcular el error absoluto de muestreo consideramos la estimacin de la


varianza, que se basar en la frmula del muestreo aleatorio simple, ya que intuitivamente
podemos suponer que la poblacin de rboles en la finca es aleatoria en cuanto al contenido
de azcar en la sabia debido a que suponemos una distribucin natural de los mismos en la
finca. Previamente necesitamos estimar la cuasivarianza mediante:

220 Muestreo estadstico. Conceptos y problemas resueltos

212

S 2 = x j =

i =1

212
X < X i
i =1
212 < 1
2
i

212
= 535,48

Adems, al ser la muestra sistemtica 1 en 7 y n = 212 entonces N = nk = 212.7 =1484


rboles. La estimacin de la varianza del estimador de la media ser:
1 535,48

V ( X ) = V ( x j ) = 1 <
= 2,16 m ( X ) = 1,47
7 212

El error relativo de muestreo ser:


V ( x j ) 1,47 1,47

C v( X ) =
=
=
= 0,0182 (1,82%)

E(x j )
80,5
X

El error relativo es bajo, por lo que la estimacin puede ser buena. Por otra parte, un
intervalo de confianza para la media suponiendo normalidad en la poblacin ser:
X h_ m ( X ) = 80,5 1,96 u 1.47 = [77,6 83,4]

En caso de no poder suponer normalidad se toma el intervalo ms tosco dado por:


1.47
m ( X )
= 80,5
= [74, 87]
X
0,05
_

El intervalo para no normalidad es ms ancho (peor) que en el caso de normalidad,


pero no demasiado.

5.5.

Un hortelano tiene un huerto experimental con N = 1300 manzanos de una nueva variedad
en estudio. El investigador desea estimar la produccin total (en quintales) de la huerta, con
base en los manzanos de una muestra sistemtica de 1 en 10. La media y la varianza
muestrales para los rboles muestreados fueron x j = 3,52 quintales y S 2 = 0,48 quintales.
Utilizar estos datos para estimar la produccin total, y establecer un lmite para el error de
estimacin.
La estimacin de la produccin total estar dada por:
X = Nx j = 1300(3,52) = 4576 quintales

Para calcular el error absoluto de muestreo consideramos la estimacin de la


varianza, que se basar en la frmula del muestreo aleatorio simple, ya que intuitivamente
podemos suponer que la poblacin de manzanos en el huerto es aleatoria debido a que
suponemos una distribucin natural de los mismos en el huerto.
Adems, al ser la muestra sistemtica 1 en 10 y N = 1300 entonces N = nk 1300 = n.10
n = 130 manzanos rboles. La estimacin de la varianza del estimador de la media ser:

Muestreo sistemtico

221

130 0,48

V ( X ) = N 2V ( x j ) = 1300 2 1 <
= 5625 m ( X ) = 75

1300 130

El error relativo de muestreo ser:


V ( X )
75
1,47
C v( X ) =
=
=
= 0,016 (1,6%)

4576 80,5
X

El error relativo es bajo, por lo que la estimacin puede ser buena. Por otra parte, un
intervalo de confianza al 95% para la produccin total suponiendo normalidad en la
poblacin ser:
X h_ m ( X ) = 4576 2 u 75 = [4426 4726]

El lmite para el error de estimacin est dado por:


2m ( X ) = 150

5.6.

Una muestra sistemtica de 1 en 10 es obtenida de una lista de votantes registrados para


estimar la proporcin de votantes que estn a favor de la emisin de bonos propuesta. Se
utilizan diferentes puntos de inicio aleatorio para asegurar que los resultados de la muestra
no se ven afectados por variacin peridica en la poblacin. Los resultados codificados de
esta encuesta de eleccin previa se muestran en la tabla adjunta. Estimar p, la proporcin de
los 5775 votantes registrados que estn a favor de la emisin de bonos propuesta (N = 5775).
Establecer un lmite para el error de estimacin.
Votante

.
.
.

Respuesta
4
10
16

5760
5766
5772

1
0
1

.
.
.

0
0
1

962

y
i =1

= 652

Al ser la muestra sistemtica 1 en 6 y N = 5775 entonces N = nk 5775 = n*6 E(n) =


962 donde E(n) significa parte entera de n. Por tanto, el tamao muestral es 962.
Como n es grande y se han tomado varios puntos de inicio aleatorio en la extraccin
de la muestra sistemtica, podemos estimar la proporcin proporcional mediante la
proporcin muestral, y el error se estimar utilizando la frmula del muestreo aleatorio
simple. Tenemos:

222 Muestreo estadstico. Conceptos y problemas resueltos


212

P = P j =

X
i =1

962

652
= 0,678
962

962 0,678(1 < 0,678)


n P j (1 < P j )

= 0,000196 m ( X ) = 0,014
= 1 <
V ( P ) = V ( P j ) = 1 <

1
5775
962
<
1
<
N
n

El error relativo de muestreo cuando se asegura que el 67,8% de los votantes


registrados favorece la emisin de bonos propuesta, ser:
V ( P ) 0,014 1,47
=
=
= 0,0206 (2,06%)
C v( P ) =
0,678 80,5
P

Por otra parte, un intervalo de confianza para la proporcin, suponiendo normalidad


en la poblacin ser:
P h_ m ( P ) = 0,678 2 u 0,014

El lmite para el error de estimacin ser el radio del intervalo de confianza, o sea,
0,028 (2,8%).

5.7.

Un parque estatal cobra la admisin por automvil en lugar de por persona, y un funcionario
del parque quiere estimar el nmero promedio de personas por automvil para un da
concreto en particular durante el verano. El funcionario sabe por experiencia que entrarn al
parque alrededor de 400 automviles y quiere muestrear 80 de ellos. Para obtener una
estimacin de la varianza, utiliza el muestreo sistemtico replicado con 10 muestras de 8
automviles cada una. En la tabla siguiente se presentan los datos del nmero de personas
por automvil (entre parntesis):
Punto de inicio
aleatorio
2 (3)
5 (5)
7 (2)
13 (6)
26 (4)
31 (7)
35 (3)
40 (2)
45 (2)
46(6)

Segundo
elemento
52 (4)
55 (3)
57 (4)
63 (4)
76 (5)
81 (6)
85 (3)
90 (6)
95 (6)
96 (5)

Tercer
elemento
102 (5)
105 (4)
107 (6)
113 (6)
126 (7)
131 (4)
135 (2)
140 (2)
145 (3)
146 (4)

Cuarto
elemento
152 (3)
155 (2)
157 (2)
163 (7)
176 (4)
181 (4)
185 (3)
190 (5)
195 (6)
196 (6)

Quinto
elemento
202 (69
205 (4)
207 (3)
213 (2)
226 (2)
231 (3)
235 (6)
240 (5)
245 (4)
246 (3)

Sexto
elemento
252 (1)
255 (2)
257 (2)
263 (3)
276 (6)
281 (6)
285 (5)
290 (4)
295 (4)
296 (3)

Sptimo
elemento
302 (4)
305 (3)
307 (1)
313 (2)
326 (2)
331 (7)
335 (6)
340 (4)
345 (5)
346 (5)

yi
Octavo
elemento
352 (4)
3,75
355 (4)
3,38
357 (3)
2,88
363 (7)
4,62
376 (6)
4,5
381 (5)
5,25
385 (8)
4,5
390 (5)
4,12
395 (4)
4,25
396 (3)
4,38

Estimar el nmero promedio de personas por automvil y establezcer un lmite para el error
de estimacin.
Como tenemos varios arranques aleatorios, utilizaremos el mtodo de las muestras
interpenetrantes.

Muestreo sistemtico

223

Podemos formar un estimador combinado de la media poblacional basado en las


medias de las t muestras (cada media muestral es un estimador insesgado de la misma media
poblacional) promediando las medias de las 10 muestras sistemticas (filas de la tabla del
enunciado) de la siguiente forma:
xc =

1 t
1
x t = (3,75 + 3,38 + L + 4,38) = 4,16

t 1
10

El estimador insesgado de su varianza mediante la aplicacin del mtodo de las


muestras interpenetrantes es:

V (xc ) = (1 < n / N )

1 t 2
1 t 2 t 2
1 t 2
2
<
=
<
<
(
1
/
)
(
1
/
)
x
t
x
n
N
x
x
=
<
n
N

i c
i i c
(xi < xc2 )
t(t < 1) i
t(t < 1) i
t(t < 1) i

V (xc ) = (1< 80 / 400)

1
177410<10* 4,162 = 0,0365
10(9 <1)

El lmite para el error de estimacin al 95% es 2 V (x c ) = 2 0,0365 = 0,38 .

5.8.

Una empresa publicitaria est iniciando una campaa de promocin para un nuevo producto.
La empresa quiere muestrear clientes potenciales en una pequea comunidad para
determinar la aceptacin del producto. Para eliminar algo de los costos asociados con las
entrevistas personales, el investigador decide seleccionar una muestra sistemtica de entre N
= 5000 nombres listados en un registro de la comunidad y recolectar los datos mediante
entrevistas por telfono. Determinar el tamao de muestra requerido para estimar la
proporcin de personas que consideran <<aceptable>> el producto, con un lmite para el
error de estimacin de magnitud 0,03 (esto es, 3%).
Como el lmite para el error de la estimacin es 0,003, tenemos:

()

()

2 V P = 0,03 V P = 0,000225

Entonces, el tamao de muestra requerido es:


n=

5000(0,5)(0.5)
NP Q
=
= 909,240 5 910
( N < 1)V ( P ) + P Q 4999(0,000225) + (0,5)(0,5)

La empresa debe entrevistar a 910 personas para determinar la aceptacin del


producto, con un lmite para el error de estimacin del 3%.
Se ha supuesto que es correcta la aproximacin del error del muestreo sistemtico
por el error del muestreo aleatorio simple (poblacin grande de carcter tpicamente
aleatorio) y se ha tomado P = Q = 1 / 2 por desconocimiento de sus valores.

224 Muestreo estadstico. Conceptos y problemas resueltos

EJERCICIOS PROPUESTOS
5.1.

Dada la poblacin siguiente:

ui
Xi

u1
1

u2
3

u3
5

u4
2

u5
4

u6
6

u7
2

u8
7

u9
3

se desea obtener una muestra sistemtica de tamao 3 (1 en 3). Determinar el espacio


muestral y las probabilidades asociadas a las muestras posibles para este tipo de muestreo.
Calcular las varianzas de los estimadores insesgados del total y de la media. Estimar dichas
varianzas y comparar la precisin de este tipo de muestreo con la del muestreo aleatorio
simple. Seleccionar la muestra ms precisa.

5.2.

En un directorio de 13 casas de una calle las personas estn distribuidas hogar a hogar como
sigue:

1

M
F
f
f
m

M
F
m
f

M
F
m

10

11

12

13

M
F
f

M
F


M M
F F
f
f
m m
f
f

M
F
m
f

M
F

M
F
m
m
f

M
F
f
m

M
F
m
f

M
F
f
m

M=varn adulto,

F=mujer adulta,

m=hijo varn,

f=hija

Se realiza muestreo sistemtico de una de cada 5 personas (muestreo 1 en 5), numerando los
elementos de la poblacin por columnas hacia abajo y luego yendo a la parte superior de la
siguiente columna (se empieza por la primera columna de la izquierda). Se pide lo siguiente:
1) Calcular el valor del coeficiente de correlacin ltst y hallar la varianza del estimador de la
proporcin de varones adultos en la poblacin utilizando la relacin entre muestreo sistemtico
y muestreo estratificado.
2) Qu muestra sistemtica es la mejor? Cul es la proporcin estimada de varones
adultos en la poblacin?

5.3.

La administracin de una empresa de servicio pblico est interesada en la cantidad


promedio de tiempo que llevan vencidas las cuentas atrasadas. Una muestra sistemtica ser
extrada de una lista en orden alfabtico con N = 2500 cuentas de clientes que estn
vencidas. En una encuesta similar realizada el ao anterior, la varianza muestral fue s2 = 100
das. Determinar el tamao de muestra requerido para estimar , la cantidad promedio de
tiempo que tienen de estar vencidas las cuentas de la empresa de servicio pblico, con un
lmite para el error de estimacin de 2 das.

CAPTULO
MUESTREO POR MTODOS INDIRECTOS.
RAZN, REGRESIN Y DIFERENCIA

OBJETIVOS
1. Presentar el concepto de estimacin no lineal.
2. Presentar el concepto de estimacin por mtodos indirectos.
3. Analizar el estimador de razn, su sesgo y su varianza.
4. Estimar el sesgo y la varianza del estimador por razn.
5. Analizar los estimadores y sus errores en muestreo estratificado con
reposicin.
6. Comprender la formacin de estimadores de magnitudes poblacionales
basados en la razn.
7. Estudiar los errores y su estimacin para estimadores indirectos basados en
la razn.
8. Analizar el estimador de razn, su sesgo y su varianza.
9. Obtener la varianza mnima para el estimador de regresin y su estimacin.
10. Comparar la estimacin indirecta por regresin con otros tipos de muestreo.
11. Analizar el estimador por diferencia, sesgo, varianza y sus estimaciones.
12. Comprender los mtodos indirectos en muestreo estratificado.
13. Analizar la estimacin por razn en muestreo estratificado.
14. Analizar la estimacin por regresin en muestreo estratificado.
15. Diferenciar entre estimadores separados y estimadores combinados.
16. Comparar las precisiones de los mtodos de estimacin indirecta con
estratificacin.

226 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Estimadores no lineales.
2. Muestreo por mtodos indirectos. El estimador de razn.
3. Estimaciones de los parmetros poblacionales basadas en la razn y errores.
4. Estimaciones por regresin y errores.
5. Estimaciones por diferencia y errores.
6. Estimadores de razn en el muestreo estratificado.
7. Estimadores de regresin en el muestreo estratificado.
8. Problemas resueltos.
9. Ejercicios propuestos.

Muestreo por mtodos indirectos. Razn, regresin y diferencia

227

ESTIMADORES NO LINEALES
Al estimar un parmetro poblacional la dificultad principal suele estar en el clculo del error
de muestreo (raz cuadrada de la varianza del estimador). Por esta razn, son muchos los
procedimientos analizados para la estimacin de varianzas. Segn Wotter (1985), podemos
clasificar las situaciones que se pueden presentar atendiendo a la naturaleza del parmetro a
estimar (parmetros lineales o no lineales) y al diseo muestral utilizado (diseos simples o
complejos). Se pueden estimar parmetros lineales en diseos simples, parmetros no
lineales en diseos simples, parmetros lineales en diseos complejos o parmetros no
lineales en diseos complejos. Aunque la mayor parte de la teora bsica de muestreo se basa
en el clculo de estimadores de parmetros lineales en diseos simples, tambin se han
desarrollado procedimientos para aproximacin lineal de estimadores que estn basados en
un desarrollo en serie de Taylor para obtener una aproximacin lineal del estimador y as
poder aplicar posteriormente toda la teora desarrollada para estimadores lineales.
Otras tcnicas, como los mtodos de replicacin de muestras, se basan en la
generacin de diversas muestras, todas bajo el mismo diseo muestral, con el fin de obtener
informacin acerca de la distribucin del estimador.
Adems existen otras tcnicas, como los mtodos de exploracin intensiva de una
muestra, que consisten en la generacin de muestras a partir de la muestra inicial, obtenida
mediante un determinado diseo, usando tcnicas muy variadas.
Estimadores no lineales. Mtodo general de linealizacin para la estimacin de varianzas
Supongamos un parmetro poblacional e del cual hemos obtenido un estimador no lineal

e = f ( x1 ,..., x n ) basado en la muestra ( x1 ,..., x n ) . Se trata de expresar dicho estimador como

funcin de una serie de estimadores e1 ,...,ek , es decir, e = f ( x1 ,..., x n ) = e1 ,...,ek , de


modo que si se calculan las varianzas de los nuevos estimadores habremos conseguido resolver
nuestro problema.
Supongamos que e1 ,...,ek son estimadores insesgados de e 1 ,...,e k respectivamente

y que los valores tericos cumplen e = (e 1 ,...,e k ) . El desarrollo de Taylor de e1 ,...,ek

en un entorno del punto (e 1 ,...,e k ) es el siguiente:

e1 ,...,ek = (e 1 ,...,e k ) + d e1 ,...,ek

)(

e1 ,...,e k )

+ Tn

donde Tn es el trmino complementario o resto, el cual puede ser despreciado o no


dependiendo de las condiciones del entorno. Para un entorno suficientemente pequeo
supongamos que Tn s es despreciable, resultando:

e < e 5 d e1 ,...,ek

)(

e1 ,...,e k )

k
, e1 ,...,ek
=

,er
r =1

(e1 ,...,e k )

(e

<er

228 Muestreo estadstico. Conceptos y problemas resueltos

Elevando ambos trminos de esta igualdad al cuadrado y tomando esperanzas


obtenemos una expresin aproximada para la varianza de e , es decir,

() (

V e = E e < e

k , e ,...,e
1
k
5 E

r =1
,e r

<e
e
r
r

(e1 ,...,e k )

) (

k k , e ,...,e

1
k
< e , e 1 ,...,e k
= E
e
el < e l
r
r

r =1 l =1
,er
,
e
l
(e1 ,...,e k )

(e1 ,...,e k )

k
k
, e1 ,...,ek
, e1 ,...,ek

=
Cov er ,el

,er
,
e
r =1 l =1
l
(e1 ,...,e k )
(e1 ,...,e k )

Aplicacin al cociente de estimadores


Sea R =

_
_
un parmetro poblacional y R =
un estimador del mismo.
`
`

Observamos que R = (_ , ` ) y R = (_ , ` ) , por lo que estamos en condiciones


de aplicar el mtodo general de linealizacin de varianzas previamente explicado. Haciendo
un desarrollo en serie de Taylor de la funcin (_ , ` ) en el punto (_ , ` ) resulta:

( )

, _ , `
R < R 5
,_

(_ , ` )

(_ < _ ) + , (_, ` )

,`

(_ , ` )

(` < ` )

y elevando al cuadrado y tomando esperanzas tenemos:

() (

V R = E R < R

( )

, _ , `
5 E
,_
2

( ) (` < ` )

, _ , `
<_)+
(
_

,`
(_ , ` )

(_ , ` )

,R
,R
,R
+ 2 ,R

)+
(
=
V
_
V
`
Cov _ , `

,_
,`
,`

,
_

(_ , ` )

(_ , ` )

(_ , ` )
(_ , ` )
2

()

()

( )

( )

_
1 _
= 2 V (_ ) + < 2 V ` + 2 < 2 Cov _ , `
` `
`
`
1
= 2 V (_ ) + R 2V ` < 2 RCov _ , `
1

( )]

()

Otra expresin alternativa para la varianza de R = (_ , ` ) es:

()

( )

V (_ ) V `
Cov _ , `
V R 5 R 2 2 + 2 < 2

_`
`
_

()

Muestreo por mtodos indirectos. Razn, regresin y diferencia

229

MUESTREO POR MTODOS INDIRECTOS. EL ESTIMADOR DE RAZN


Los mtodos indirectos utilizan la informacin conocida relativa a una variable auxiliar Y
(variable de apoyo) correlacionada con la variable en estudio X para conseguir estimaciones
ms precisas para X que las calculadas nicamente a partir de la muestra de la variable que
se estudia.
Entre los mtodos clsicos de estimacin indirecta ms utilizados se encuentran el
mtodo de estimacin por razn (basado en la razn entre X e Y), el mtodo de estimacin
por regresin (basado en la regresin entre X e Y) y el mtodo de estimacin por diferencia
(basado en la diferencia entre X e Y). Estos tres mtodos sern desarrollados a lo largo de
este captulo.
La estimacin indirecta constituye el complemento de la estimacin directa. No se
trata por s solo de un mtodo eficiente de estimacin, pero junto con la estimacin directa
desarrolla casi totalmente la informacin muestral. Los mtodos de estimacin indirecta
aprovechan la informacin de variables auxiliares correlacionadas con la variable objeto de
estudio con el fin de conseguir una ganancia en precisin de los estimadores.
Sea X la variable objetivo y supongamos que se conoce Y =

Y
i =1

, donde

( X i , Yi ) se corresponden con los pares de valores de las variables X e Y respectivamente,


observados en la unidad i-sima de la poblacin o de la muestra. Nuestro objetivo es obtener
un estimador para X que sea ms preciso que el estimador directo basado nicamente en la
muestra. La expresin general de los estimadores indirectos es la siguiente:

( ) ( ) (

( ))

f X G = f X + b0 f (Y ) < f Y

siendo f una funcin, X G el estimador indirecto de X , X e Y los estimadores directos


de X e Y , respectivamente, y b0 un coeficiente de correccin que, dependiendo de su
valor, nos dar los diferentes tipos de estimadores indirectos. Como caso particular
supongamos f ( x) = x . Entonces X G = X + b0 Y < Y .

Los casos ms frecuentes de estimadores indirectos son los siguientes:


1. Si b0 = 0 , se tiene X G = X , es decir, el estimador obtenido es el directo.

2. Si b0 = 1 , entonces X G = X + Y < Y , denominado estimador de la diferencia o


diferencial.
3. Si b0 =

X
= R , se obtiene el estimador de razn.

Y
X
X
X G = X +
Y < Y = Y = R Y = X R
Y
Y

4. Si b0 = b , se obtiene el estimador de regresin.

X G = X + b Y < Y = X rg

230 Muestreo estadstico. Conceptos y problemas resueltos

Supongamos una poblacin formada por N unidades, {U 1 , ..., U N } , y nos fijamos


en dos caractersticas ( X , Y ) para cada unidad, siendo X la variable objeto de estudio e Y
una variable auxiliar correlacionada con X . Llamaremos razn a R =

X
y su estimador
Y

viene dado por la expresin:


n

R =

x
i =1
n

y
i =1

X x
=
y
Y

A partir de la razn podemos tambin estimar totales y medias mediante:

X R = R Y
X R = R Y
Estos estimadores no son insesgados pero tienen varianza muy pequea y otras
propiedades que los hacen deseables. Sin embargo, es preciso conocer Y o Y para poder
calcularlos.

R es consistente, pero en general es sesgado. Para muestras grandes, R A N ( R, V ( R ))


y el sesgo es despreciable. No se conoce la expresin exacta de la varianza de R , aunque bajo
ciertas condiciones se puede obtener una expresin aproximada de la misma. Podemos
expresar el sesgo en funcin del coeficiente de correlacin entre R e y del siguiente modo:

B ( R )

m R

lm R m y
Cov( R , y )
=<
B ( R ) = <
Y
Y
es una medida del sesgo por unidad de desviacin tpica, es decir, una medida

relativa del sesgo respecto del error de muestreo. Adems, si

B ( R )

m R

es del orden del 10%,

entonces el sesgo puede ser considerado despreciable en relacin al error estndar.


Se cumple que B( R$ )=0 R$ e y son variables incorreladas en el muestreo, con lo
que ya tenemos la primera de las condiciones para la insesgadez del estimador de la razn.
Adems se cumple que:

B( R$ ) = < l( R$ , y )m R$ Cv ( y )

B( R$ )

m R$

= l( R$ , y ) u Cv ( y ) ) Cv ( y )

con lo que el sesgo relativo (mdulo del cociente entre el sesgo del estimador de la razn y
su desviacin tpica) est acotado por el coeficiente de variacin de y .

Muestreo por mtodos indirectos. Razn, regresin y diferencia

231

Entonces, para que el sesgo del estimador de la razn sea despreciable bastar con
que el coeficiente de variacin de la media muestral de la variable auxiliar sea menor que
1/10, ya que en este caso:

B( R$ )

m R$

) Cv ( y ) <

1
10

Se observa que el sesgo relativo es tanto menor cuanto menor sea Cv( y ). Adems,
para intentar eliminar la influencia del sesgo se tomarn tamaos de muestra tales que el
sesgo sea despreciable, es decir, tamaos de muestra tales que Cv( y ) < 1/10. Para hallar este
tamao de muestra en el muestreo sin reposicin operamos como se indica a continuacin:

n S2
SY2
1 < Y
100
N
N n
V ( y)
100 NSY2
1
m( y)
y2
Cv ( y ) =
=
=
<
n>
=
10
E( y)
Y
Y
Ny 2 + 100SY2
SY2
N + 100 2
y
Para hallar el tamao de muestra para el que el sesgo es despreciable en el muestreo
con reposicin operamos como se indica a continuacin:

mY2

V ( y)
mY2
100mY2
1
n
Cv ( y ) =
=
=
<
n>
= 100 2
E( y)
Y
Y
10
Y2
Y

m( y)

La segunda condicin de insesgadez del estimador de la razn es que si la recta de


regresin de la variable auxiliar Y sobre la variable en estudio X (o la de X sobre Y) pasa
por el origen de coordenadas entonces el estimador de la razn R$ es insesgado para R.

Clculo aproximado del sesgo del estimador de razn y su estimacin


El sesgo del estimador de razn puede aproximarse como sigue:
Muestreo sin reposicin
(1 < f )
(RS Y2 < S XY )
B( R ) =
nY 2

Muestreo con reposicin


1
(Rm Y2 < m XY )
B( R ) =
2
nY

Estimacin del sesgo del estimador de la razn


La expresin obtenida para el sesgo del estimador de la razn va a permitir se estimacin a
partir de los valores muestrales:

232 Muestreo estadstico. Conceptos y problemas resueltos

Muestreo sin reposicin


Como en muestreo sin reposicin las cuasivarianzas poblacionales se estiman
insesgadamente por cuasivarianzas muestrales, tenemos:

(1 < f ) $ $ 2 $
B$ ( R$ ) =
( RSY < S XY )
nY 2
Muestreo con reposicin
Como en muestreo con reposicin las varianzas poblacionales se estiman insesgadamente
por cuasivarianzas muestrales, tenemos:

1 2
B ( R ) =
RS Y < S XY
nY 2

Varianza aproximada del estimador de la razn


Muestreo sin reposicin

()

N
N
1< f
1< f
N

V R = 2 u (S x2 + R 2 S y2 < 2 RS xy ) = 2
u X i2 + R 2 Yi 2 < 2 R X i Yi
Y n
Y n(N < 1) i
i
i

Muestreo con reposicin

()

1
1
V R = 2 u (m x2 + R 2m y2 < 2 Rm xy ) = 2
Y n
Y nN

N
N
N

u X i2 + R 2 Yi 2 < 2 R X i Yi
i
i
i

Estimacin de la varianza del estimador de la razn


Muestreo sin reposicin
Utilizaremos que las cuasivarianzas muestrales estiman insesgadamente las cuasivarianzas
2
estimador insesgado de S2y y S$ XY
poblacionales ( S$ x2 estimador insesgado de S2x, S$Yx
estimador insesgado de Sxy). A su vez, utilizaremos el estimador reciente obtenido para la
razn R. Tenemos:

()

n
n
1< f
1< f

n
V R = 2 u S x2 + R 2 S y2 < 2 R S xy = 2
u X i2 + R 2 Yi 2 < 2 R X i Yi
Y n(n < 1) i
Y n
i
i

Muestreo con reposicin


Utilizaremos el hecho de que las cuasivarianzas muestrales estiman insesgadamente las
2
varianzas poblacionales ( S$ x2 estimador insesgado de m2x, S$Yx
estimador insesgado de m2y y

S$ XY estimador insesgado de mxy). A su vez utilizaremos el estimador reciente obtenido para

la razn R. Tenemos:

()

n
n
1
1

n
V R = 2 u S x2 + R 2 S y2 < 2 R S xy = 2
u X i2 + R 2 Yi 2 < 2 R X i Yi
Y n
Y n(n < 1) i
i
i

Muestreo por mtodos indirectos. Razn, regresin y diferencia

233

ESTIMACIONES DE LOS PARMETROS POBLACIONALES BASADAS EN


LA RAZN Y ERRORES
Podemos utilizar el estimador de la razn para realizar estimaciones de los parmetros
poblacionales tpicos como sigue:
A
P
x
x
x
X R = Y = Y = R Y , X R = x R = Y = R Y , PRX = X PY = R PY , A RX = X PY = R AY
y
y
y
PY
A Y

Las varianzas pueden calcularse como sigue:


Muestreo sin reposicin

2 1< f
S x2 + R 2 S y2 < 2RS xy
V ( X R ) = V ( R Y ) = Y 2V ( R ) = N

1< f 2
S x + R 2 S y2 < 2 RS xy
V ( X R ) = V ( R Y ) = Y 2V ( R ) =
n

Muestreo con reposicin

N2
V(X R ) =V(RY) =Y 2V(R) = (m x2 + R2m y2 < 2Rm xy )
n

V(X R ) =V(RY ) = Y 2V(R) = (m x2 + R 2m y2 < 2Rm xy )


n

Las estimaciones de las varianzas pueden calcularse como sigue:


Muestreo sin reposicin
2
V ( X R ) = N

n
n
1< f 2 2 2

1< f n
2
2
2

S x + R S y < 2RS xy = N 2
+
<
X
R
Y
2
R
X i Yi
i
i

n
n ( n < 1) i
i
i

n
n
1< f 2 2 2
1< f n

2
2 Y 2 < 2 R X Y
S x + R S y < 2R S xy =
+
V ( X R ) =
X
R
i
i i
i i i
n
n(n < 1) i

Muestreo con reposicin

N
V$ ( X$ R ) =

( S$

2
x

$$ =
+ R$ 2 S$ y2 < 2 RS
xy

1
$$ =
V$ ( X$ R ) = S$ x2 + R$ 2 S$ y2 < 2 RS
xy

(
n

N2

n ( n < 1)

n(n < 1)

X i2 + R 2

X i2 + R 2

n
i

Y i 2 < 2 R

Yi 2 < 2 R

X Y
i

X Y
i

234 Muestreo estadstico. Conceptos y problemas resueltos

ESTIMACIONES POR REGRESIN Y ERRORES


Supongamos ( xi , y i ) i = 1,..., N pares de valores situados sobre una recta que no pasa por el
origen, es decir, xi = a + by i con a & 0 . Entonces, para los valores muestrales y poblacionales se

cumple, respectivamente x = a + by y X = a + bY por lo que x < X = b y < Y , o lo que es lo

mismo, X = x < b y < Y . Se tiene:


-

Si y = Y , entonces X = x y V ( x ) = 0

Si y & Y , entonces X & x , siendo b y < Y el ajuste.

Este razonamiento sugiere intentar una ganancia en precisin cuando la relacin


entre xi e y i sea lineal sin pasar por el origen, utilizando el estimador lineal de regresin
para la media:

X rg = x + b(Y < y )

Como casos particulares del estimador de regresin se tienen:


1.

2.

3.

Si b = 0 , el estimador de regresin coincide con el estimador directo o de

expansin X rg = x

(
Si b = 1 se obtiene el estimador de la diferencia (X

x
Si b = R = , se obtiene el estimador de razn X rg = R Y = X R
y

rg

)
)

= x + (Y < y )

Tenemos:
bo = 0 x rg = x (estimador simple)

x rg = x + bo ( Y < y ) b = x x = x + x (Y < y ) = x + x Y < x y = x Y = X (razn )


o
rg
R
y
y
y
y
y

b = 1x = ( x < y ) + Y (estimador por diferencia )


rg
o

Anlogamente, se puede definir el estimador de regresin para el total poblacional


como

X rg = X + b Y < Y

siendo X , Y los estimadores directos de X , Y respectivamente.


Podemos resumir las estimaciones por regresin como sigue:

x rg = x + bo (Y < y ) , X rg = Nx rg , Prg = PX + bo PY < PY y A rg = NPrg

Muestreo por mtodos indirectos. Razn, regresin y diferencia

235

Sesgo del estimador de regresin


El estimador de regresin es en general sesgado salvo que los puntos (Xi , Yi ) con i = 1,2, .... ,N,
donde Yi representa la variable auxiliar correlacionada con la variable en estudio Xi, estuviesen
situados sobre una lnea recta que no pasa por el origen de ecuacin Xi = a + b Yi .
Otro caso de insesgadez del estimador de regresin es cuando b = bo = constante.

Varianzas y estimacin de varianzas


Las varianzas y sus estimaciones toman los siguientes valores:
Muestreo sin reposicin
V (xrg ) =

1< f 2
(S x + bo2 S y2 < 2bo S xy ) , V (x rg ) = 1 < f S x2 + bo2 S y2 < 2bo S xy
n
n

( )

( )

2
N 2 (1 < f ) 2 2 2
(Sx + bo S y < 2bo Sxy ) , V X rg = N (1 < f ) S x2 + bo2 S y2 < 2bo S xy
V X rg =
n
n

1< f 2
N 2 (1 < f ) 2
Vmin (x rg ) =
S x (1 < l 2 ) , Vmin X rg =
S x (1 < l 2 )
n
n

( )

Muestreo con reposicin


V (xrg ) =

1 2
(m x + bo2m y2 < 2bom xy ), V (x rg ) = 1 S x2 + bo2 S y2 < 2bo S xy , Vmin (x rg ) = 1 S x2 (1 < l 2 )
n
n
n

( )

( )

2
2
N2 2
(m x + bo2m y2 < 2bom xy ) , V X rg = N S x2 + bo2 S y2 < 2bo S xy , Vmin X rg = N Sx2 (1 < l 2 )
V X rg =
n
n
n

( )

Hasta aqu hemos considerado el caso en que b0 es constante. Sin embargo, cuando
se desconoce b0 o es variable, suelen utilizarse los resultados anteriores, estimando b0
mediante la expresin:
n

S
b0 = ` = XY2 =
SY

(X
i

< x )(Yi < y )

(Y
i

< y)

Este resutado obtenido es aplicable para muestras grandes.

Comparacin con otros tipos de muestreo


Muestreo sin reposicin
Para comparar la precisin de la estimacin por regresin con la de otros tipos de muestreo
utilizamos el estimador de la media y las expresiones de su varianza en los distintos tipos de
muestreo. Tenemos:

236 Muestreo estadstico. Conceptos y problemas resueltos

( )
( )
( )

1< f 2
V X$ = V ( x ) =
Sx
n
1< f 2
V X$ R =
S x + R 2 S y2 < 2 RS x S y u l xy
n
1< f 2
Vmin X$ rg = Vmin xrg =
S x 1 < l xy2
n

( )

( )

Es evidente que Vmin x rg ) V ( x ) , ya que 1 < l xy2 ) 1, correspondiendo el signo

igual al caso l xy = 0 , es decir, al caso de correlacin nula entre X e Y. Por lo tanto, cuando la
variable auxiliar y la variable en estudio estn incorreladas no se gana en precisin por
considerar el mtodo indirecto de estimacin por regresin respecto de considerar el muestreo
aleatorio simple. En el resto de los casos la estimacin indirecta por regresin supera en
precisin a la estimacin aleatoria simple.
Por otra parte:

( )

( )

Vmin xrg < V ( x R ) V ( x R ) < Vmin xrg * 0

1< f 2
1< f 2
S x (1 < l 2 xy ) * 0
( S x + R 2 S y2 < 2 RS x S y l xy ) <
n
n
1< f
1< f
RS y < l xy S x
R 2 S y2 < 2 RS x S y l xy + S x2 l xy2 * 0
n
n

*0

La desigualdad es siempre cierta, y se produce la iguladad si:

RS y < l xy S x = 0 R = l

Sx
=`
Sy

es decir, la igualdad de precisiones en la estimacin por razn y por regresin se produce en el


caso en que la recta de regresin pase por el origen (si R = `, la ordenada en el origen de la
recta de regresin de X sobre Y, que en el caso de varianza mnima tiene de ecuacin
X=`Y+ X - `Y , valdr X - `Y = X - RY = X - X = 0). En cualquier otro caso, la estimacin
por regresin es ms precisa que la estimacin por razn.
Muestreo con reposicin
Para el caso de muestreo con reposicin tenemos:

( )
( ) (
( ) ( )

1
V X$ = V ( x ) = m x2
n
1
V X$ R = m x2 + R 2m y2 < 2 Rm xm y u l xy
n
1
Vmin X$ rg = Vmin xrg = m x2 1 < l xy2
n

Muestreo por mtodos indirectos. Razn, regresin y diferencia

237

( )

Es evidente que Vmin x rg ) V ( x ) , ya que 1 < l xy2 ) 1, correspondiendo el signo

igual al caso l xy = 0 , es decir, al caso de correlacin nula entre X e Y. Por lo tanto, cuando
la variable auxiliar y la variable en estudio estn incorreladas no se gana en precisin por
considerar el mtodo indirecto de estimacin por regresin respecto de considerar el
muestreo aleatorio simple. En el resto de los casos la estimacin indirecta por regresin
supera en precisin a la estimacin aleatoria simple.
Por otra parte:

( )

( )

Vmin xrg < V ( x R ) Vmin ( x R ) < V xrg * 0

1 2
1
(m x + R 2m y2 < 2 Rm xm y l xy ) < m x2 (1 < l 2 xy ) * 0
n
n
1 2 2
1
R m y < 2 Rm xm y l xy + m x2 l xy2 * 0 Rm y < l xym x
n
n

*0

La desigualdad es siempre cierta, y se produce la igualdad si:

Rm y < l xym x = 0 R = l

S
mx
=l x =`
Sy
my

es decir, la igualdad de precisiones en la estimacin por razn y por regresin se produce en el


caso en que la recta de regresin pase por el origen (si R = `, la ordenada en el origen de la
recta de regresin de X sobre Y, que en el caso de varianza mnima tiene de ecuacin X = `Y
+ X < `Y , valdr X < `Y = X < RY = X < X =0). En cualquier otro caso la estimacin por
regresin es ms precisa que la estimacin por razn.

ESTIMACIONES POR DIFERENCIA Y ERRORES


Dentro de los denominados mtodos indirectos de estimacin suele considerarse la
estimacin por diferencia, que se utiliza en caso de que la recta de regresin que ajusta los
puntos (Xi, Yi) tiene como pendiente la unidad. Por otra parte, ya vimos al estudiar la
estimacin por regresin que el mtodo de estimacin por diferencia era un caso particular
suyo (caso en que b = 1). Los estimadores de la media y el total basados en el estimador por
diferencia D = x < y pueden expresarse como sigue:
X = x < y + Y = D + Y

X = N ( x < y ) + Y = D T + Y = ND + Y

Las varianzas y sus estimaciones para los estimadores de la media y el total basados
en la diferencia, coinciden con las varianzas y sus estimaciones de los propios estimadores
diferencia. Para muestreo sin reposicin tenemos:

1< f 2
V ( X ) = V ( D + Y ) = V ( D ) =
S x + S y2 < 2S xy
n

( Y es una constante)

238 Muestreo estadstico. Conceptos y problemas resueltos

1< f 2
S x + S y2 < 2 S xy (Y es una constante)
V ( X ) = V ( D T + Y ) = V ( D T ) = N 2
n

()

1< f 2 2
1< f 2 2

V ( X ) = V D =
S x + S y < 2 S xy , V ( X ) = V ( D T ) = N 2
S x + S y < 2 S xy
n
n

Para muestreo con reposicin tenemos:

1
V ( X ) = m x2 + m y2 < 2m xy
n
1
V ( X ) = V D = S x2 + S y2 < 2 S xy
n

( ) (

1
V ( X ) = N 2 m x2 + m y2 < 2m xy
n
1
V ( X ) = V ( D T ) = N 2 S x2 + S y2 < 2 S xy
n

ESTIMADORES DE RAZN EN EL MUESTREO ESTRATIFICADO


Existen dos formas de plantear un estimador de razn para el total X , en el caso de muestreo
estratificado. En la primera de ellas se obtiene un estimador de razn para cada el total de cada
estrato y se suman todos ellos. El estimador obtenido se denomina estimador separado de razn.
La principal ventaja de este estimador es que permite que la razn de X a Y vare de un estrato a
otro. Sin embargo, necesitamos conocer el total de la variable auxiliar, Yh , en cada estrato por
separado. En la segunda de ellas se obtiene una nica razn con los totales de X e Y estimados
mediante muestreo estratificado, es decir,

X st
, y se multiplica este cociente por el total de la
Y
st

variable auxiliar Y , que se supone conocido. El estimador obtenido se denomina estimador


combinado de razn. Para construir este estimador no es preciso conocer el total de la variable
auxiliar en cada estrato; basta conocer el total de la poblacin. sta es una ventaja con respecto al
estimador separado de razn. Sin embargo, el estimador combinado supone, implcitamente, que la
razn permanece constante de un estrato a otro.
4.2.1 Estimador separado de razn

Estimador de razn simple o separado (para el total poblacional)


Se define el estimador separado de razn para el total poblacional X en un
muestreo estratificado como:

x
X RS = X Rh = R hYh = h Yh
h =1 y h
h =1
h =1
L

Se observa que es la suma de los estimadores de razn para el total en los diferentes
estratos. En general este estimador es sesgado, por serlo R h h = 1, ..., L .
Sesgo del estimador de razn simple o separado y su estimacin
Muestreo sin reposicin
L
L
L
L
X
B ( X RS ) = E ( X RS ) < X = E ( R hYh ) < X h = E ( R h )Yh < h Yh =
h
h
h
h Yh
L

E ( R h ) < Rh )Yh = B ( R h )Yh


E ( R h )Yh < RhYh = (1
4243
h
h
h
h
B ( R )
h

Muestreo por mtodos indirectos. Razn, regresin y diferencia

239

Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Yh. Para muestreo sin reposicin la expresin del sesgo ser:
L
L
L
(1 < f h )
N h2 (1 < f h )
2
<
=
B( X RS ) = Yh B ( R h ) = Yh
R
S
S
Rh S Yh2 < S XYh

h Yh
XYh
2
n h Yh
n hYh
h
h
h
{

Yh2 N h2

N h2 (1 < f h ) 2
n Y Rh SYh < S XYh
h h
h
L

que puede estimarse como: B ( X RS ) =

Muestreo con reposicin


Para muestreo con reposicin la expresin del sesgo ser:
L
L
L
N h2
1
2
(
)
(Rhm Yh2 < m XYh )
m
<
m
=
B ( X RS ) = Yh B ( R h ) = Yh
R

h Yh
XYh
2
n
Y
n
Y
h {
h
h
h
h h h
Yh2 N h2

L
N2
que puede estimarse como: B ( X RS ) = h R h SYh2 < S XYh
h nh Yh

Varianza del estimador de razn simple o separado y su estimacin


Muestreo sin reposicin
El valor de la varianza de este estimador para muestreo sin reposicin ser:
L
L
L
1< f
V ( X RS ) = V ( R h u Yh ) = Y h2uV ( R h ) = Y h2 u 2 h (S xh2 + Rh2 S yh2 < 2 Rh S xyh ) =
h ? Yh n h
h
h
N h2Yh2

N
N
L
N h2 (1 < f h ) N
N (1 < f h ) 2

2 2
2
2
2
(
)

+
<
=
+
<
2
X
R
Y
R
2
S
R
S
R
S
n
n ( N < 1) i hi h i hi
xh
h
yh
h xyh
h X hi Yhi

h
h h h
h
L

2
h

La estimacin de la varianza para muestreo sin reposicin ser:

L
N 2 (1 < f h ) 2
V ( X RS ) = h
S xh + R h2 S yh2 < 2 R h S xyh =
n
h
h
2
n
n
n
L
N (1 < f h )

X hi2 + R h2 Yhi2 < 2 R h X hi Yhi


= h
i
i

h n h (nh < 1) i
h

Muestreo con reposicin


El valor de la varianza del estimador separado del total para muestreo con reposicin ser:

240 Muestreo estadstico. Conceptos y problemas resueltos

1
V ( X RS ) = V ( R h u Yh ) = Y h2uV ( R h ) = Y h2 u 2 (m xh2 + Rh2m yh2 < 2 Rhm xyh ) =
h
h
h ? Yh n h
L

N h2Yh2

2
h

N
n (m

2
xh

2
h

N
N
L
N

N
X hi2 + Rh2 Yhi2 < 2 Rh X hi Yhi
+ Rh2m yh2 < 2 Rhm xyh ) =
i
i

h n h ( N h < 1) i
h

La estimacin de la varianza para muestreo con reposicin ser:


nh
nh
L
L

nh 2
N h2
N h2 $ 2
2 $2
$
$
$
$
$
S xh + Rh S yh < 2 Rh S xyh =
V ( X RS ) =
X hi + R$ h2 Yhi2 < 2 R$ h X hi Yhi

i
i
h nh (nh < 1) i
h nh

Estimador de razn simple o separado (para la media poblacional)


Se consideran estimaciones para la media basadas en la razn en cada estrato definidas como

x
X$ Rh = h u Yh = R$ h u Yh . Como en muestreo estratificado la estimacin del total se forma
yh

sumando las estimaciones de las medias en cada estrato ponderadas por los W h =Nh/N

( Xst =

W X$
h =1

), podemos definir el estimador simple o separado de la media como:


L

X$ RS = Wh X$ Rh = Wh R$ h u Yh
h
h
Este estimador para la media puede expresarse como:
L
L
L
N
Y
X$
1 L
X$ RS = Wh X$ Rh = Wh R$ h u Yh = h R$ h u h = R$ h Yh = RS
Nh N h
N
h
h
h N

Luego todas las frmulas para el estimador de la media pueden obtenerse a partir de
las frmulas correspondientes ya vistas para el estimador del total.
Muestreo sin reposicin
El valor de la varianza de este estimador para muestreo sin reposicin ser:
L
N h2 (1 < f h ) 2
1
2
< 2 R h S xyh =
V ( X$ RS ) = 2 V ( X$ RS ) = 2
S xh + R h2 S yh
n
N
N
h
h 123
Wh2

Nh
Nh

Wh2 (1 < f h ) N h 2
2
2
+
<
2
X
R
Y
R

n ( N < 1) hi h hi
h X hi Yhi

i
i
i
h h h
L

La estimacin de la varianza para muestreo sin reposicin ser:

L
W 2 (1 < f h ) 2
V ( X RS ) = h
S xh + R h2 S yh2 < 2 R h S xyh =
nh
h
2
n
n
L
W (1 < f h ) n
X hi2 + R h2 Y hi2 < 2 R h X hi Y hi
= h
i
i
h n h ( n h < 1) i
h

Muestreo por mtodos indirectos. Razn, regresin y diferencia

241

El valor del sesgo del estimador simple o separado es el siguiente:


L
Y
X
X 1
1
B ( X RS ) = E ( X RS ) < X = E ( RS ) < = ( E ( X RS ) < X ) = B ( X RS ) = B ( R h ) h
N
N
N N
N
h

Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Yh/N. Para muestreo sin reposicin la expresin del sesgo ser:
L
L
N 2 (1 < f h )
1
(Rh S Yh2 < S XYh ) = Wh (1 < f h ) (Rh SYh2 < S XYh )
B( X RS ) = B( X RS ) = h
N
n h Yh
h Nn h Yh
h

que puede estimarse como: B ( X RS ) =

Wh (1 < f h ) 2
Rh S Yh < S XYh
nhYh
h
L

Muestreo con reposicin


El valor de la varianza del estimador separado de la media para muestreo con reposicin
ser:
L
N2 1 2
1
m xh + Rh2m yh2 < 2 Rhm xyh =
V ( X RS ) = 2 V ( X RS ) = h2
n
N
h 1N
23 h
Wh2

Wh2
n N
h h h
L

Nh
Nh
Nh 2

X hi + Rh2 Yhi2 < 2 Rh X hi Yhi


i
i
i

La estimacin de la varianza para muestreo con reposicin ser:

n
n
L
L
W2
Wh2
n

X hi2 + R h2 Yhi2 < 2R h X hi Yhi


V ( X RS ) = h S xh2 + R h2 S yh2 < 2R h S xyh =
i
i

h nh
h nh (nh < 1) i
h

Para muestreo con reposicin la expresin del sesgo ser:


L
L
W
N h2
1

2
2

< m XYh = h R hm Yh
< m XYh
R h m Yh
B ( X RS ) = B ( X RS ) =
N
h Nn h Yh
h n h Yh

que puede estimarse como: B ( X RS ) =

Wh

n Y
h

h h

(R S
h

2
Yh

< S XYh

El mtodo de estimacin estratificada por razn simple o separada presenta como


principal ventaja la obtencin de estimaciones separadas por estratos, lo que permite ofrecer
informacin de la poblacin al subnivel de estratos. El principal inconveniente de este mtodo es
la acumulacin de los sesgos de las estimaciones en los estratos para el clculo del sesgo total. En
la prctica suele utilizarse este mtodo cuando los estratos son de tamao elevado (habr
pocos estratos en la poblacin, lo que implica pocos sumandos en la acumulacin de sesgos).
Tambin suele utilizarse cuando los Rh tienden a ser muy distintos.

242 Muestreo estadstico. Conceptos y problemas resueltos

Estimador de razn combinado (para el total poblacional)


$

xst X st
Se considera inicialmente la razn de los estimadores estratificados R$C =
= $ , y se
y

Yst
st

forma el estimador del total X RC = RC u Y (ya que el estimador del total basado en la razn
es X$ = R$ u Y ).
Muestreo sin reposicin
El valor de la varianza de este estimador para muestreo sin reposicin ser:
1
V ( X RC ) = V ( R C u Y ) =Y 2uV ( R C ) = Y 2 u 2 ( V ( x st ) + R 2 V ( y st ) < 2RCov( x st , y st ))
123
123
142
4 43
4
{ Y
S
S
S
N Y
W (1< f ) n
W (1< f ) n
W (1< f ) n
2

N2
h

2
h

2
h

2
Xh

2
h

2
h

2
Yh

2
h

XYh
h

N
L
W (1 < f h ) 2
(S xh + R 2 S yh2 < 2R S xyh ) = N 2 W (1 < f h ) X hi2 + R 2 Yhi2 < 2R X hiYhi
nh
i
i

h nh ( N h < 1) i
Nh

Nh

En el clculo de esta varianza se ha aplicado la frmula general de la varianza del


estimador de la razn ya estudiada anteriormente.
La estimacin de la varianza para muestreo sin reposicin ser:
nh
L
L

Wh2 (1< fh ) nh 2 2 nh 2
Wh2 (1< fh ) $2 $ 2 $2
2
2
$
$
$
$
V( XRC ) = N
Sxh + R Syh < 2R Sxyh = N
Xhi + R Yhi < 2RXhiYhi
nh

i
i
h
h nh (nh < 1) i

El valor del sesgo del estimador combinado para el total es el siguiente:

X
B ( X$ RC ) = E ( X$ RC ) < X = E ( R$ C Y ) < Y = E ( R$ C )Y < RY = ( E ( R$ C ) < R ) Y = B ( R$ C )Y
Y
Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para
muestreo sin reposicin la expresin del sesgo ser:
L

S2

Wh2 (1< f h ) nYhh Wh2 (1< f h ) nXYhh


h
h
67
4 48 6
447
448
2
L W (1 < f )
R V ( y st ) < Cov ( x st , y st )
h
h
2
2
$
$

B ( X RC ) = B ( RC )Y =
u
=
( RS Yh
<S XYh )
Y
N
h
nh Y
Y{2
Y2 / N2

L
Wh2 (1 < f h ) $ $ 2
2
$
$
que puede estimarse como: B ( X RC ) = N
( RSYh < S$ XYh )
n
Y
h
h

Muestreo con reposicin


El valor de la varianza del estimador combinado del total para muestreo con reposicin ser:

Muestreo por mtodos indirectos. Razn, regresin y diferencia

243

1
V ( X RC ) = V ( R C u Y ) =Y 2uV ( R C ) = Y 2 u 2 (V ( x st ) + R 2 V ( y st ) < 2 R Cov ( x st , y st ) )
123
142
4 43
4
{ Y 123
m
m
m
N Y
W n
W n
W n
2

2
h

2
h

2
Xh

2
h

2
h

2
Yh

2
h

XYh
h

N
N
N
L
L
W
(m xh2 + R 2m yh2 < 2 R m xyh ) = N 2 W X hi2 + R 2 Yhi2 < 2 R X hi Yhi
N2
i
i

h nh
h nh N h i
h

La estimacin de la varianza para muestreo con reposicin ser:


nh
L
L

Wh2 $ 2 $ 2 $ 2
Wh2 nh 2 $ 2 nh 2
2
2
$
$
$
$
V ( X RC ) = N
Sxh + R S yh < 2 RS xyh = N
X hi + R Yhi < 2 R$ X hiYhi

i
i
h nh
h nh (nh < 1) i

Para muestreo con reposicin la expresin del sesgo ser:


L

2
2 m Yh
h
h

2 m XYh
h
h

W n
W n
h
h
6
78 647
48
2
L W
<
(
)
(
R
V
y
Cov
x
2
st
st , y st )
h
u
=
( Rm Yh2 <m XYh )
Y
N
B( X RC ) = B( R C )Y =

h n Y
Y{2
h
Y2 / N2

Wh $ $ 2 $
que puede estimarse como: B$ ( X$ RC ) = N 2
( RSYh < S XYh )
h nhY
L

Estimador de razn combinado (para la media poblacional)

xst X$ st
$
Se considera inicialmente la razn de los estimadores estratificados RC =
, y se
=
yst Y$st
forma el estimador de la media X RC = R C u Y (ya que el estimador del total basado en la
$
razn es X = R$ u Y ).
Muestreo sin reposicin
El valor de la varianza de este estimador para muestreo sin reposicin ser:
1
V ( X RC ) = V ( R C u Y ) =Y 2uV ( R C ) = Y 2 u 2 ( V ( x st ) + R 2 V ( y st ) < 2 RCov( x st , y st ))
123
123
142
4 43
4
Y
S
S
S
W
f
W
f
(
1
)
(
1
)
<
<
W
f
(
1
)
<

n
n
n
L

2
h

2
h

2
h

2
Xh

2
h

2
Yh

2
h

XYh
h

W (1 < f h ) 2
(S xh + R 2 S yh2 < 2R S xyh ) = W (1 < f h ) X hi2 + R 2 Yhi2 < 2R X hi Yhi
nh
i
i

h
h n h ( N h < 1) i
L

Nh

Nh

Nh

En el clculo de esta varianza se ha aplicado la frmula general de la varianza del


estimador de la razn ya estudiada anteriormente.
La estimacin de la varianza para muestreo sin reposicin ser:

n
n
L
L

W 2 (1 < fh ) 2 2 2
W 2 (1 < fh ) n 2
X hi + R2 Yhi2 < 2R X hiYhi
V ( X RC ) = h
Sxh + R S yh < 2R Sxyh = h
nh
i
i

h
h nh (nh < 1) i
h

244 Muestreo estadstico. Conceptos y problemas resueltos

El valor del sesgo del estimador combinado para la media es el siguiente:

X
B( X$ RC ) = E ( X$ RC ) < X = E ( R$ C Y ) < Y = E ( R$ C )Y < RY = ( E ( R$ C ) < R) Y = B( R$ C )Y
Y
Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para
muestreo sin reposicin la expresin del sesgo ser:
L

2
SYh

S XYh

W (1< f ) n
W (1< f ) n
h
678
6h 47
4 48
4
2
L W (1 < f )
R
V
(
y
)
Cov
(
x
,
y
<

st
st
st )
h
h
B ( X RC ) = B ( R C )Y =
Y
( RS Yh2 <S XYh )
u
=

2
h
nhY
Y
2
h

2
h

L
Wh2 (1 < f h ) $ $ 2
$
$
que puede estimarse como: B ( X RC ) =
( RSYh < S$ XYh )
n
Y
h
h

Muestreo con reposicin


El valor de la varianza del estimador combinado de la media para muestreo con reposicin
ser:
1
V ( X RC ) = V ( R C u Y ) =Y 2uV ( R C ) = Y 2 u 2 (V ( x st ) + R 2 V ( y st ) < 2 RCov ( x st , y st ))
123
142
4 43
4
Y 123
m
m
m
W
W
W
n
n
n
L

2
h

2
h

2
h

W
(m xh2 + R 2m yh2 < 2 R m xyh ) = W
h nh
h nh N h
L

2
Xh

2
h

2
Yh

2
h

XYh
h

X hi2 + R 2 Yhi2 < 2 R X hi Yhi


i
i
i

Nh

Nh

Nh

La estimacin de la varianza para muestreo con reposicin ser:

n
n
L
L
W2
Wh2
n

X hi2 + R 2 Yhi2 < 2 R X hi Yhi


V ( X RC ) = h S xh2 + R 2 S yh2 < 2 R S xyh =
i
i

h nh
h n h (n h < 1) i
h

Para muestreo con reposicin la expresin del sesgo ser:


L

2
m Yh

m XYh

W n
W n
h
h
6
78 647
4
48
4
2
L W
R
V
(
y
)
Cov
(
x
,
y
<

st
st
st )
h
B( X RC ) = B( R C )Y =
u
Y
=
( Rm Yh2 <m XYh )

h n Y
Y2
h
2
h

2
h

Wh $ $ 2 $
$
que puede estimarse como: B$ ( X RC ) =
( RSYh < S XYh )
h nhY
L

El mtodo de estimacin estratificada por razn combinada presenta como principal


ventaja la no acumulacin de los sesgos de las estimaciones en los estratos para el clculo
del sesgo total, lo que reduce el sesgo del estimador final respecto de la estimacin separada.
El principal inconveniente de este mtodo es la imposibilidad de obtencin de estimaciones
separadas por estratos, lo que no permite disponer de informacin de la poblacin al
subnivel de estratos. En la prctica suele utilizarse este mtodo cuando los estratos son de tamao
pequeo (habr muchos estratos en la poblacin, lo que implica demasiado sesgo por estimacin
separada). En general suele utilizarse siempre que la estimacin separada presenta demasiado
sesgo. Tambin suele utilizarse cuando los Rh tienden a ser constantes.

Muestreo por mtodos indirectos. Razn, regresin y diferencia

245

ESTIMADORES DE REGRESIN EN EL MUESTREO ESTRATIFICADO


Tambin distinguiremos aqu entre el estimador simple o separado obtenido a partir de
L

estimaciones de regresin en cada estrato, cuya expresin ser

x rgst = Wh x rgh , y el
h

estimador combinado, obtenido directamente a partir de las medias estratificadas, que vale
x rgc = x st + b Y < y st .

Ambos estimadores son insesgados para un valor bo prefijado de b, ya que:


L

E ( xrgst ) = Wh E ( xrgh ) = Wh X h = X

E ( xrgc ) = E ( xst ) + b( Y < E ( yst )) = X + b(Y < Y ) = X


Como en el caso de los estimadores de la razn, el estimador combinado suele ser
ms apropiado que el simple cuando el sesgo de x rgh es aproximadamente constante en los
diversos estratos y esperamos regresiones lineales en ellos.

Estimador simple o separado


Muestreo sin reposicin
En el supuesto b = bo la varianza del estimador simple para la media es:

( )

( )

V xrgst = Wh2V xrgh = Wh2


h

1< fh 2
2
( S Xh + bo S Xh
< 2bo S XYh )
nh

( )

que ser mnima cuando lo sean las V x rgh , es decir, cuando bo = ` h =

S XYh
2
SYh

La varianza mnima ser entonces:


L

( )

( )

V xrgst = Wh2V xrgh = Wh2


h

L
1< f h 2
1< f h 2
2
( S Xh + ` h S Xh
< 2 ` h S XYh ) = Wh2
Sxh (1 < l 2 xyh )
nh
n
h
h

que puede estimarse mediante:


L
L
1< fh $2
1< fh $2
2
< 2 `$h S$ XYh ) = Wh2
V$ xrgst = Wh2
( S Xh + `$h S$ Xh
S xh (1 < l$ 2 xyh )
nh
nh
h
h

( )

Para la estimacin separada del total X$ rgst =

N
h

x rgh se tiene:

L
L
L
1< f h 2
1< f h 2
2
V X$ rgst = N h2V xrgh = N h2
S (1 < l 2 xyh )
( S Xh + ` h S Xh
< 2 ` h S XYh ) = N h2
nh
nh xh
h
h
h

( )

246 Muestreo estadstico. Conceptos y problemas resueltos

que puede estimarse mediante:


L
L
1< fh $2
1< fh $2
2
V$ X$ rgst = N h2
( S Xh + `$h S$ Xh
< 2 `$h S$ XYh ) = N h2
S xh (1 < l$ 2 xyh )
nh
nh
h
h

Muestreo con reposicin


En el supuesto b = bo la varianza del estimador simple es:

( )

( )

V xrgst = Wh2V xrgh = Wh2


h

1 2
(m + b m 2 < 2bom XYh )
nh Xh o Xh

( )

que ser mnima cuando lo sean las V xrgh , es decir, cuando bo = ` h =

S XYh m XYh
= 2
mYh
SYh2

La varianza mnima ser entonces:


L

( )

( )

Vmin xrgst = Wh2V xrgh = Wh2


h

L
1 2
1
2
(m Xh + ` hm Xh
< 2 ` hm XYh ) = Wh2 m xh2 (1 < l 2 xyh )
nh
nh
h

que puede estimarse mediante:


L
L
1 2
1
2
V$min xrgst = Wh2 ( S$ Xh
+ `$h S$ Xh
< 2 `$h S$ XYh ) = Wh2 S$xh2 (1 < l$ 2 xyh )
nh
nh
h
h

( )

Para el estimador del total se tendra:


L
L
L
1 2
1
2
Vmin X$ rgst = N h2V xrgh = N h2 (m Xh
+ ` hm Xh
< 2 ` hm XYh ) = N h2 m xh2 (1 < l 2 xyh )
nh
nh
h
h
h

( )

L
L
1 2
1
2
V$min X$ rgst = N h2 ( S$ Xh
+ `$h S$ Xh
< 2 `$h S$ XYh ) = N h2 S$xh2 (1 < l$ 2 xyh )
nh
nh
h
h

Estimador combinado
Muestreo sin reposicin
El estimador combinado para la media se forma como:

xrgc = xst + bo ( Y < yst ) con

x st = Wh xh
h

y st = Wh yh
h

Su varianza puede expresarse de la siguiente forma:

( )

V xrgc = V ( xst ) + bo2V ( Y < yst ) < 2bo cov( xst , Y < yst ) =
L

V ( xst ) + bo2V ( yst ) < 2bo cov( xst , yst ) =


h

Wh2 ( 1 < f h )
2
u S xh2 + bo2 S yh
< 2bo S xyh
nh

Muestreo por mtodos indirectos. Razn, regresin y diferencia

247

Para hallar el valor de bo que minimiza esta expresin, igualamos a cero su derivada
respecto de bo y tenemos:

Wh2 ( 1 < f h )
n u S xyh
h
h
L

L
Wh2 ( 1 < f h ) 2
Wh2 ( 1 < f h )
2b0
u S yh < 2
u S xyh = 0 bo =
nh
nh
h
h
L

Wh2 ( 1 < f h ) 2
n u S yh
h
h
L

Wh2 ( 1 < f h ) 2
n u S yh ` h
h
h
L

S xyh

Pero como ` h =

2
, se tiene bo =
S xyh = ` h S yh

2
S yh

Wh2 ( 1 < f h ) 2
n u S yh
h
h
L

El valor bo que minimiza la varianza del estimador combinado es entonces una medida
ponderada de los coeficientes de regresin `h, siendo las ponderaciones dadas por
L

th =

W (1 < f h ) 2
u S yh , de tal forma que se puede escribir bo =
nh
2
h

t `
h

t
h

= ` c , pudiendo

expresarse la varianza mnima como:


l

( )

Vmin xrgc = Wh2


h

1< fh
2
u S xh2 + ` c2 S yh
< 2 ` c S xyh
nh

que puede estimarse como:

1< fh $2
2
V$min xrgc = Wh2
u S xh + `$c2 S$yh
< 2 `$c S$xyh
n
h
h
l

( )

donde:
L

t$ `$

`$c =

t$
h

, t$h =

S$xyh
Wh2 ( 1 < f h ) 2
u S$ yh y `$h = $ 2 .
nh
S yh

Para estimar el total, el estimador combinado se forma como:

X rgc = X st + bo Y < Yst = Nx st + bo (NY < Ny st ) = Nx rgc


Su varianza puede entonces expresarse en funcin de la varianza para la estimacin
de la media de la siguiente forma:

) (

( )

Wh2 ( 1 < f h )

nh

V X$ rgc = V Nx rgc = N 2V x rgc = N 2

2
u S xh2 + bo2 S yh
< 2bo S xyh

248 Muestreo estadstico. Conceptos y problemas resueltos

pudiendo expresarse la varianza mnima como:

1< fh
2
Vmin X$ rgc = N 2 Wh2
u S xh2 + ` c2 S yh
< 2 ` c S xyh
nh
h

que puede estimarse como:


l
1< fh $2
2
V$min X$ rgc = N 2 Wh2
u S xh + `$c2 S$ yh
< 2 `$c S$ xyh
nh
h

Muestreo con reposicin


El valor bo que minimiza la varianza del estimador combinado para la media es una media
ponderada de los coeficientes de regresin `h, siendo las ponderaciones dadas por
L

W2
th = h u m yh2 , de tal forma que se puede escribir bo =
nh

t `
h

t
h

varianza mnima como:


l

( )

Vmin x rgc = Wh2


h

= ` c , pudiendo expresarse la

1
u m xh2 + ` c2m yh2 < 2 ` cm xyh
nh

que puede estimarse como:


l
1 $2
2
V$min x rgc = Wh2
u S xh + `$c2 S$ yh
< 2 `$c S$ xyh
nh
h

( )

donde:
L

`$c =

t$ `$
h

t$
h

, t$h =

S$xyh
Wh2 $ 2
u S yh y `$h = $ 2 .
nh
S yh

Para estimar el total, la varianza puede entonces expresarse en funcin de la


varianza para la estimacin de la media de la siguiente forma:
2

Wh
V X$ rgc = V Nx rgc = N 2V x rgc = N 2
u m xh2 + bo2m yh2 < 2bom xyh
h nh

) (

( )

pudiendo expresarse la varianza mnima como:


l
1
Vmin X$ rgc = N 2 Wh2
u m xh2 + ` c2m yh2 < 2 ` cm xyh
nh
h

que puede estimarse como:


l
1 $2
2
2
$
$
Vmin X rgc = N Wh2
u S xh + `$c2 S$ yh
< 2 `$c S$ xyh
nh
h

Muestreo por mtodos indirectos. Razn, regresin y diferencia

249

Comparacin de precisiones en los stimadores de regresin separado y combinado


Vamos a comparar las varianzas mnimas de los estimadores de regresin separado y
combinado. Tenemos:
L
(1 < f h ) 2
Vmin ( X rg ,c ) < Vmin ( X rg , s ) = Wh2
S Xh + ` c2 S Yh2 < 2 ` c S XYh
nh
h =1
L
L
2 (1 < f h )
2
2 2
< Wh
S Xh + ` h S Yh < 2 ` h S XYh = u h ` c2 < ` h2 < 2u h (` c < ` h )` h
nh
h =1
h =1

[ (

= u h (` c < ` h ) * 0
2

h =1

Luego el estimador separado de regresin es ms preciso que el combinado. Ambos


tendrn igual varianza cuando ` c = ` h h = 1, ..., L .

250 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
6.1.

En un estudio para estimar el contenido total de azcar de una carga de naranjas, se pes una
muestra de 10 naranjas, y se extrajo su jugo para pesar el contenido de azcar. Se obtuvieron los
siguientes resultados:
Naranja

Contenido de azcar

1
2
3
4
5
6
7
8
9
10

0,021
0,030
0,025
0,022
0,033
0,027
0,019
0,021
0,023
0,025

Peso de la naranja
0,40
0,48
0,43
0,42
0,50
0,46
0,39
0,41
0,42
0,44

1) Sabiendo que el peso de todas las naranjas es 1800, estimar el contenido total de azcar de las
naranjas y su error de muestreo.
2) Estimar dichas varianzas y comparar la precisin de este tipo de muestreo con la del muestreo
aleatorio simple. Seleccionar la muestra ms precisa.
Como disponemos de informacin de una variable adicional muy correlacionada con
la variable en estudio (l = 0,99), podemos realizar la estimacin del contenido total de
azcar de las naranjas utilizando el estimador del total basado en la razn. Mediante el
procedimiento Estadstica descriptiva de la opcin Anlisis de datos del men Herramientas
(Figura 6-1), podemos calcular los estadsticos ms relevantes relativos a la variable en
estudio y a la variable adicional. La Figura 6-2 muestra los resultados.
Las frmulas para los clculos del estimador del total y de su error en la estimacin
1< f 2 2 2
por razn, V$( X$ R ) = N 2
Sx + R Sy < 2RSxy , se muestran en la Figura 6-3, y los resultados
n
en la Figura 6-4.

Figura 6-1

Figura 6-2

Muestreo por mtodos indirectos. Razn, regresin y diferencia

251

Figura 6-3

Figura 6-4

6.2.

Consideramos una poblacin de 500 individuos en la que est definida la caracterstica


bidimensional (Xi,Yi) que mide las ganancias mensuales en miles de euros de los varones (X)
y las mujeres (Y) con ttulo universitario superior. Una muestra aleatoria simple de tamao
80 proporciona los siguientes datos:
80

X i = 420
i =1

80

Yi = 190
i =1

80

X i2 = 2284
i =1

80

Yi 2 = 512
i =1

80

X Y
i =1

i i

= 1045

1) Estimar la razn de las ganancias mensuales femeninas respecto de las masculinas, su


sesgo y su error de muestreo. Estudiar la posible influencia del sesgo.
2) Se trata de estimar con y sin reposicin la media y el total de las ganancias mensuales
femeninas en la poblacin utilizando la informacin adicional de la variable ganancia
mensual masculina mediante un mtodo de estimacin indirecta. Qu mtodo indirecto
sera el ms adecuado? Por qu? Realizar las estimaciones de las ganancias femeninas
media y total mensuales mediante los mtodos indirectos conocidos ordenndolos en
precisin y sabiendo que la ganancia total masculina es 10000.
c) Cuantificar la ganancia en precisin respecto del muestreo aleatorio simple.
Tenemos:
2
2
1 80 2 1 80
1 80 2 1 80

2

S x2 =
X
<
X
=
1
,
S
=
Y
<
Y
= 0,768
i n
i n
i
y
i
n < 1 i =1
n < 1 i =1
i =1
i =1


1 80
1 80
80
X i Yi < X i Yi = 0,6012
S xy =
n < 1 i =1
n i =1 i =1

x=

1 80
X i = 5,25
n i =1

y=

1 80
Yi = 2,375
n i =1

252 Muestreo estadstico. Conceptos y problemas resueltos

Estimar la razn de las ganancias mensuales femeninas respecto de las masculinas es


equivalente a estimar la razn de Y a X.

y y
La razn Y/X se estima mediante R = = = 0,452 .
x

El sesgo del estimador de la razn anterior se estima mediante:

(1 < f ) 2
(1 < 80 / 500)
(0,452 u 1 < 0,6012) = <0,0000568
B ( R ) =
RS x < S XY =
2
nx
80 u 5,25 2
El error de muestreo del estimador de la razn se estima mediante:

m (R ) =

(1 < f ) 2 2 2
(1 < 80/ 500)
(0,768+ 0,4522 u1 < 2 u 0,452u 0,6012) = 0,0128
S y + R Sx < 2R SXY =
2
2
nx
80 u 5,25
Para ver si el sesgo del estimador de la razn es influyente hallamos el valor del sesgo

relativo

B ( R ) 0,0000568
=
= 0,004 < 0,1 , por lo que el sesgo es despreciable.
0,0128
m ( R )

Estimar la media y el total de las ganancias mensuales femeninas en la poblacin es


equivalente a estimar la media y el total de Y.
Para estudiar qu mtodo de estimacin indirecta es el ms adecuado al estimar la
media y el total de Y utilizamos la recta de regresin de la variable en estudio Y sobre la
variable auxiliar X, cuya ecuacin es:

y<y =

S xy
( x < x ) y = 0,6012 x < 0,78
S 2
x

Observamos que la recta de regresin de Y sobre X tiene una ordenada en el origen


cercana a cero (comparada con los valores medios de X e Y), lo que indica que puede ser
razonable la estimacin indirecta de los parmetros poblacionales utilizando estimacin
basada en la razn. Adems, el sesgo del estimador de la razn ser pequeo (como ya
hemos visto) porque la recta de regresin est prxima a pasar por el origen. Evidentemente,
la estimacin indirecta basada en regresin ser la ms apropiada, como ocurre siempre.
Puede suceder que la estimacin indirecta basada en la diferencia sea la menos apropiada ya
que la pendiente de la recta de regresin no est claro que se aproxime a la unidad.
La utilizacin de mtodos indirectos de estimacin en todo el problema es
apropiada, ya que el coeficiente de correlacin l =

S xy
0,7 es alto.
S S
x

Muestreo sin reposicin


Comenzamos realizando estimaciones para la media y el total de la variable en estudio Y
basadas en la razn de Y a la variable auxiliar X y a su vez calculamos tambin las varianzas
de los estimadores.

Muestreo por mtodos indirectos. Razn, regresin y diferencia

253

y
10000
y
Y = R X = X = 0,452 u
= 9,04 Y = R X = X = 0,452 u 10000 = 4520
x
500
x

(1 < f ) 2 2 2
V (Y ) =
S y + R S x < 2R S XY =
n

80
)
500 0,768 + 0,4522 u1 < 2 u 0,452 u 0,6012 = 0,0073
80

(1 <

(1 < f ) 2 2 2
V (Y ) = N 2
S y + R S x < 2 R S XY = 500 2 u 0,0073 = 1825
n

Ahora calculamos estimadores y varianzas basados en la regresin.

S xy
0,6012 1000

< 5,25 = 11,2427


Yrg = y + b( X < x ) = y + 2 ( X < x ) = 2,375 +

1 500
Sx

Y = NY = 500 u 11,2427 = 5621,35


rg

rg

80
500 0,768(1 < 0,7 2 ) = 0,004
80

1<

(1 < f ) 2
Vmin (Yrg ) =
S y 1 < l 2 =
n
2
V (Y ) = N V (Y ) = 500 2 u 0,004 = 1000

min

rg

min

rg

Ahora calculamos estimadores y varianzas basados en la diferencia.

10000
Y = D + X = y < x + X = 2,375 < 5,25 +
= 17,125
500
Y = D + X = N ( y < x ) + NX = NY = 500 u 17,125 = 8562,5
T

(1 < f ) 2 2
V (Y ) = V ( D + X ) = V ( D ) =
S y + S x < S XY = 0,009
n
V (Y ) = V ( D T + X ) = V ( D T ) = N 2V ( D ) = 500 2 u 0,009 = 2250
Ahora calculamos estimadores y varianzas para muestreo aleatorio simple.

Yas = y = 2,375

Yas = NYas = 500 u 2,375 = 1187,5

80
500 0,768 = 0,008
80

1<

(1 < f ) 2
V (Yas ) =
Sy =
n
V (Y ) = N 2V (Y ) = 500 2 u 0,008 = 2000
as

as

Se observa que la menor varianza la presenta el estimador basado en la regresin,


seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados coinciden con los especificados al principio del
problema basados en la recta de regresin.

254 Muestreo estadstico. Conceptos y problemas resueltos

El estimador basado en la razn mejora al aleatorio simple si se cumple l >

0,7 = l >

1 C x
2 C y

1 C x S x
1
=
R=
0,452 = 0,5157
2 C y S y
0,678

Por lo tanto, el muestreo basado en la razn es ms preciso que el aleatorio simple. Ello
implica que el muestreo basado en la regresin tambin es ms preciso que el aleatorio simple.
Sin embargo, ya hemos visto que el muestreo por diferencia es ligeramente menos preciso que el
aleatorio simple.
La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G =
(0,008/0,004 < 1)100 = 100%.
La ganancia en precisin del estimador de razn sobre el aleatorio simple es G =
(0,008/0,0073< 1)100 = 9,5%.
La ganancia en precisin del estimador aleatorio simple sobre el de diferencia es G =
(0,009/0,008< 1)100 = 12,5%.
Muestreo con reposicin
Las estimaciones de la media y total valen lo mismo que en muestreo sin reposicin.
Calculamos las estimaciones de las varianzas de los estimadores para estimacin indirecta
por razn.

1
V (Y ) = S y2 + R 2 Sx2 < 2 R S XY = 0,00869
n
1
V (Y ) = N 2 S y2 + R 2 S x2 < 2 R S XY = 2172,5
n

Ahora estimamos varianzas basadas en la regresin.

1
1
Vmin (Yrg ) = S y2 1 < l 2 = 0,768(1 < 0,7 2 ) = 0,00476
n
80

2
V (Y ) = N V (Y ) = 500 2 u 0,00476 = 11900

min

rg

min

rg

Ahora estimamos varianzas basadas en la diferencia.

1
V (Y ) = V ( D + X ) = V ( D ) = S y2 + S x2 < S XY = 0,0107
n
V (Y ) = V ( D T + X ) = V ( D T ) = N 2V ( D ) = 500 2 u 0,0107 = 2675
Ahora estimamos varianzas para muestreo aleatorio simple.

1
1
V (Yas ) = S y2 = 0,768 = 0,0096
n
80

2
V (Y ) = N V (Y ) = 500 2 u 0,0096 = 2400
as

as

Muestreo por mtodos indirectos. Razn, regresin y diferencia

255

Se observa que la menor varianza la presenta el estimador basado en la regresin,


seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados presentan varianzas mayores que en el caso de sin
reposicin para todos los estimadores, ya que el muestreo con reposicin es menos preciso
que el muestreo sin reposicin.
La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G =
(0,0096/0,00476< 1)100 = 101,6%.
La ganancia en precisin del estimador de razn sobre el aleatorio simple es G =
(0,0096/0,00869< 1)100 = 10,47%.
La ganancia en precisin del estimador aleatorio simple sobre el de diferencia es G =
(0,0107/0,0096< 1)100 = 11,45%.
Se observa que la utilizacin del mtodo indirecto de estimacin basado en la
regresin mejora fuertemente la estimacin aleatoria simple, y que la utilizacin del mtodo
indirecto de estimacin basado en la razn mejora levemente la estimacin aleatoria simple.
Las ganancias en precisin se han acentuado levemente respecto del muestreo sin reposicin.
El mtodo indirecto de la diferencia es ligeramente peor que el aleatorio simple; sin
embargo, la ganancia en precisin del aleatorio simple sobre la estimacin por diferencia
disminuye al considerar reposicin.

6.3.

De los N = 750 trabajadores de una fbrica se conoce que el nmero medio de das anuales de
ausencia del trabajo sin justificar para las mujeres (variable X) es 10 y para los hombres
(variable Y) es 8. Se sabe que el error cometido al cuantificar la media de la variable X es 2500
y que la razn de la covarianza de X e Y a la varianza de X es 0,6. Determinar a partir de qu
tamao muestral el sesgo del estimador de la razn Y/X es despreciable utilizando muestreo sin
y con reposicin. Qu mtodo de estimacin indirecta sera el ms adecuado a utilizar sobre
muestras de esta poblacin?
Determinar a partir de qu tamao muestral el sesgo del estimador de la razn Y/X es
despreciable utilizando muestreo sin y con reposicin. Qu mtodo de estimacin indirecta
sera el ms adecuado a utilizar sobre muestras de esta poblacin?
El enunciado del problema nos da como datos:
X = 10 ,

Y = 8 , m x2 = 2500 y

De la condicin de que el sesgo relativo

N u 100 u S x2
obtiene que n *
=
NX 2 + 100S x2

m xy
= 0,6
m x2

B( R )
sea menor que un dcimo se
m ( R )

750
2500
749
= 577 .
750
2
750 u 10 + 100
2500
749
750 u 100 u

256 Muestreo estadstico. Conceptos y problemas resueltos

En caso de muestreo con reposicin la misma condicin de sesgo relativo menor que un
m2
2500
dcimo nos lleva a n * 100 x2 = 100
= 2500 , que sobrepasa el tamao poblacional (con
100
X
los datos del problema nunca podra ser el sesgo despreciable).
La recta de regresin de Y sobre X tiene de ecuacin y < y =

S xy
(x < x)
S 2
x

y < 8 = 0,6( x < 10) y = 0,6 x + 2 , lo que indica que la estimacin por razn podra
ser adecuada al no ser demasiado grande la ordenada en el origen. La estimacin por
regresin siempre es el mtodo ms adecuado. La pendiente de la recta no es unitaria, con lo
que no es muy apropiada la estimacin por diferencia.

6.4.

Para estudiar el grado medio de implantacin de un determinado cultivo en una regin se obtuvo
una muestra de 100 fincas para las que se midi la superficie dedicada al cultivo en estudio
(variable X) y su superficie total (variable Y), obtenindose los datos que se presentan en la tabla
adjunta. Se pide:
1) A la vista de la informacin, justificar si ser adecuado el uso de los mtodos indirectos de
muestreo respecto del muestreo aleatorio simple y estudiar qu mtodos sern los ms adecuados
expresndolos por orden de preferencia. Hallar los errores relativos de muestreo para los
diferentes mtodos cuantificando sesgos y ganancias en precisin y razonando adecuadamente
los resultados. Contrastar tambin los resultados obtenidos considerando muestreo con reposicin
y sin reposicin.
2) Dada la estructura de las fincas se consider conveniente realizar una estratificacin segn la
variable superficie total de la fincas. Se consideraron dos estratos relativos a fincas de superficie
total superior a una hectrea y a fincas de superficie total menor o igual que una hectrea. Los
datos obtenidos tambin se presentan en la tabla adjunta. A la vista de esta informacin, justificar
si sern adecuados los mtodos de estimacin indirecta con estratificacin y cul de entre ellos
puede resultar mejor. Hallar los errores relativos de muestreo para los diferentes mtodos de
estimacin con muestreo estratificado cuantificando sesgos y ganancias en precisin y razonando
adecuadamente los resultados. Contrastar tambin los resultados obtenidos considerando
muestreo con reposicin y sin reposicin.
Superficie
2
Nh
S yh
de las fincas
1
0< 1Ht
1580 2055
> 1Ht
2
430 7357
Poblacin
7619
Estratos

2
S xh

l xyh

yh

xh

nh

312 0.62 82.5 19.4 70


922 0.3 244.8 51.6 30
620 0.67

Se trata de estimar con y sin reposicin la media y el total de Y utilizando la informacin


adicional de la variable X mediante un mtodo de estimacin indirecta. Qu mtodo
indirecto sera el ms adecuado? Por qu? Realizar las estimaciones de media y total
mediante los mtodos indirectos conocidos ordenndolos en precisin y sabiendo que el total
de X es 10000.

Muestreo por mtodos indirectos. Razn, regresin y diferencia

Tenemos como dato que l =

257

S xy
= 0,67 , por lo que la utilizacin de mtodos
S S
x

indirectos de estimacin en todo el problema es apropiada, ya que el coeficiente de


correlacin estimado es alto.
Para estudiar qu mtodo de estimacin indirecta es el ms adecuado al estimar la
superficie dedicada al cultivo (variable X) en las fincas utilizamos la recta de regresin de la
variable en estudio X sobre la variable auxiliar Y superficie total de las fincas, cuya ecuacin
es:
x<x =

S xy
1453
( y < y ) x < 26,3 =
( y < 117,28) x = 0,19 y + 4
2

7619
Sy
2

x = Wh x h =
h =1
2

y = Wh y h =
h =1

N1
N
1580
430
x1 + 2 x 2 =
19,4 +
51,63 = 26,3
N
N
2010
2010
N1
N
1580
430
y1 + 2 y 2 =
82,56 +
244,85 = 117,28
N
N
2010
2010

S xy = l xy S x S y 0,67 620 7619 = 1453

x
26,30
R = =
= 0,224
y 117,28

Observamos que la recta de regresin de X sobre Y tiene una ordenada en el origen que
no se anula, pero es pequea (comparada con los valores medios de X e Y), lo que indica que
puede ser razonable la estimacin indirecta de los parmetros poblacionales utilizando estimacin
basada en la razn. Adems el sesgo del estimador de la razn ser pequeo porque la recta de
regresin est prxima a pasar por el origen. Evidentemente, la estimacin indirecta basada en
regresin ser la ms apropiada, como ocurre siempre. La estimacin indirecta basada en la
diferencia ser la menos apropiada, ya que la pendiente de la recta de regresin no se aproxima a
la unidad.
1 C y
El estimador basado en la razn mejora al aleatorio simple si se cumple l >
2 C
1 C y S y 1 7619 26,30
0,67 = l >
=
R=
= 0,393
2 C x S x
2 620 117,28

Por lo tanto, el muestreo basado en la razn es ms preciso que el aleatorio simple. Ello
implica que el muestreo basado en la regresin tambin es ms preciso que el aleatorio simple. Sin
embargo, ya hemos razonado que el muestreo por diferencia probablemente ser menos preciso
que el aleatorio simple, y, por tanto, tambin ser menos preciso que la estimacin por razn y
regresin. Vamos a realizar los clculos de varianzas.
Muestreo sin reposicin
Comenzamos hallando el error para la estimacin de la media (grado medio de implantacin
del cultivo medido a travs de la superficie dedicada al cultivo) de la variable en estudio X
basada en la razn de X a la variable auxiliar Y.

258 Muestreo estadstico. Conceptos y problemas resueltos

(1 < f ) 2 2 2
V ( X ) =
S x + R S y < 2R S XY =
n

100
)
2010 620 + 0,2242 u 7619 < 2 u 0,224 u1453 = 3,335
100

(1 <

Ahora estimamos el error del estimador de la media basado en la regresin.


(1 < f ) 2
Vmin ( X rg ) =
S x (1 < l 2 ) =
n

100
2010 620(1 < 0,67 2 ) = 3,24
100

1<

Ahora estimamos el error del estimador de la media basado en la diferencia.

(1 < f ) 2 2
S x + S y < S XY =
V ( X ) = V ( D + Y ) = V ( D ) =
n

100
2010 (620 + 7619 < 1453) = 64,4
100

1<

Ahora estimamos el error del estimador de la media en el aleatorio simple.


100
2010
100 620 = 5,89
100

1<
(1 < f ) 2
V ( X as ) =
Sx =
n

Se observa que la menor varianza la presenta el estimador basado en la regresin,


seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados coinciden con los especificados al principio del
problema basados en la recta de regresin.
La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G =
(5,89/3,24< 1)100 = 81,8%.
La ganancia en precisin del estimador de razn sobre el aleatorio simple es G =
(5,89/3,335< 1)100 = 76,6%.
La ganancia en precisin del estimador de regresin sobre el de razn es G =
(3,335/3,24< 1)100 = 2,9%.
En cuanto a la estimacin del sesgo de estimador de la razn tenemos:

(1 < f ) 2
B ( R ) =
RS y < S XY
ny 2

100
2010 (0,224 u 7619 < 1453) = 0,02
=
100 u 117,28
1<

Este sesgo resulta despreciable porque 0,02/3,335 = 0,006 < 1/10.


Muestreo con reposicin
Comenzamos estimando el error del estimador de la media de la variable en estudio
X basado en la razn de X a la variable auxiliar Y.

1
1
V ( X ) = Sx2 + R 2 S y2 < 2 R S XY =
620 + 0,2242 u 7619 < 2 u 0,224 u 1453 = 3,51
n
100

Ahora estimamos el error del estimador de la media basado en regresin.

Muestreo por mtodos indirectos. Razn, regresin y diferencia

259

1
1
Vmin ( X rg ) = S x2 1 < l 2 =
620(1 < 0,67 2 ) = 3,41
n
100

Ahora estimamos el error del estimador de la media basado en diferencia.

1
1
V ( X ) = V ( D + Y ) = V ( D ) = S x2 + S y2 < S XY =
(620 + 7619 < 1453) = 67,78
n
100

Ahora estimamos el error del estimador de la media en el aleatorio simple.

S 2 620
V ( X as ) = x =
= 6,2
n 100
Se observa que la menor varianza la presenta el estimador basado en la regresin,
seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados son superiores a los correspondientes a muestreo
sin reposicin debido a que el muestreo con reposicin es menos preciso.
El sesgo del estimador de la razn se estima mediante:

1
(1 < 600 / 1500)
(2 u 7 < 3,75) = 0,0005
B ( R ) = 2 R S y2 < S XY =
ny
600 u 5,58 2
Consideramos ahora la estratificacin en dos estratos segn la superficie total de las
fincas, y vamos a considerar las estimaciones separada y combinada para la media en razn
y regresin para calcular sus errores de muestreo y sus sesgos.
Comenzaremos determinando valores necesarios en todos los clculos posteriores, como
son: W1 = 1580/2010 = 0,786, W2 = 430/2010 = 0,214, f1 = 70/100 = 0,7, f2 = 30/100 = 0,3, R1 =
19,40/82,56 = 0,235, R 2 = 51,63/244,85 = 0,21, Sxy1 = l xy1Sx Sy = 496,4 y Sxy2 = l xy2Sx Sy = 781,3.

Estimador combinado de la razn


La estimacin combinada de la varianza del estimador de la media para muestreo sin

reposicin ser V ( X RC ) = Wh (1 < fh ) Sxh2 + R 2Syh2 < 2R Sxyh = 1,51593.


L

nh

El sesgo del estimador combinado para la media puede estimarse como:

L
W 2 (1 < f h ) 2
B ( X RC ) = h
RS Yh < S XYh =0,83/ Y . Las operaciones a realizar son:
nhY
h

Pero Y se estima por y = 117,2 B ( X RC ) = 0,83/117,2 = 0,007.


La estimacin de la varianza de la media para muestreo con reposicin ser:
2

W
V ( X RC ) = h S xh2 + R 2 S yh2 < 2 R S xyh = 3,1375 .
h nh
L

260 Muestreo estadstico. Conceptos y problemas resueltos

Para muestreo con reposicin el sesgo puede estimarse como:

W
B ( X RC ) = h R SYh2 < S XYh =1.00456/ Y
h nhY
L

Pero Y se estima por y = 117,2 B ( X RC ) = 1,00456/117,2 = 0,0085.


Estimador separado de la razn
La estimacin de la varianza del estimador de la media para muestreo sin reposicin ser:

L
W 2 (1 < f h ) 2
2
V ( X RS ) = h
S xh + R h2 S yh
< 2 R h S xyh = 1,49.
n
h
h

El valor del sesgo del estimador simple o separado sin reposicin puede estimarse
L
W (1 < f h ) 2
Rh S Yh < S XYh = 0,0029. Y 1 e Y 2 se estimarn mediante y 1
como: B ( X RS ) = h
nh Yh
h
e y 2 respectivamente. Los clculos a realizar seran:

La varianza del estimador separado de la media para muestreo con reposicin puede
2
L
estimarse como V ( X RS ) = Wh Sxh2 + Rh2 S yh2 < 2Rh Sxyh = 3,09792.
h nh

Para muestreo con reposicin la expresin del sesgo puede estimarse como:

L
W
B ( X RS ) = h R h SYh2 < S XYh = 0,0033.
h n hYh

Estimador combinado en regresin


La estimacin de la varianza mnima del estimador de la media viene expresada en muestreo
sin reposicin por la expresin:

1< fh $2
2
V$min xrgc = Wh2
u S xh + `$c2 S$yh
< 2 `$c S$xyh
nh
h

( )

donde:
L

` c =

t
h

` h

t
h

S$xyh
Wh2 ( 1 < f h ) 2
0,16155 con t$h =
u S$ yh y `$h = $ 2 .
nh
S yh

Calculado ` c ya podemos hallar el valor de la varianza mnima mediante:

1< fh $2
2
u S xh + `$c2 S$ yh
< 2 `$c S$xyh =1,46407.
V$min xrgc = Wh2
n
h
h

( )

La estimacin de la varianza mnima del estimador de la media viene expresada en


muestreo con reposicin por la expresin:

Muestreo por mtodos indirectos. Razn, regresin y diferencia

l
1 $2
2
$
Vmin x rgc = Wh2
u S xh + `$c2 S$ yh
< 2 `$c S$ xyh
nh
h

( )

261

donde:
L

` c =

t
h

` h

t
h

= 0,18977 con t$h =

S$xyh
Wh2 $ 2
u S yh y `$h = $ 2 .
nh
S yh

Calculado ` c ya podemos hallar el valor de la varianza mnima mediante:

l
1 $2
2
V$min x rgc = Wh2
u S xh + `$c2 S$ yh
< 2 `$c S$ xyh =3,10321.
n
h
h

( )

Estimador separado en regresin


La estimacin de la varianza mnima del estimador de la media viene expresada en muestreo
sin reposicin por la expresin:

1< fh 2
1< fh 2
2
( S Xh + ` h S Xh
< 2` h S XYh ) = Wh2
S xh (1 < l 2 xyh ) = 1,40509
Vmin (x rgst ) = Wh2
n
n
h
h
h
h
L

La estimacin de la varianza mnima del estimador de la media viene expresada en


muestreo con reposicin por la expresin:
L
L
1 2
1 2
2
Vmin (xrgst ) = Wh2 ( S Xh
+ ` h S Xh
< 2 ` h S XYh ) = Wh2
S xh (1 < l 2 xyh ) = 2,97591
nh
nh
h
h

Resumiendo resultados tenemos:

SIN REPOSICIN A 1,49

SEPARADA

CON REPOSICIN A 3,09792

RAZN
SIN REPOSICIN A 1,51593

COMBINADA
CON REPOSICIN A 3,1375

ESTRATIFICADO

SIN REPOSICIN A 1,40509

SEPARADA

CON REPOSICIN A 2,97591

REGRESIN

SIN REPOSICIN A 1,46407

COMBINADA

CON REPOSICIN A 3,10321

SIN REPOSICIN A 3,335

RAZN

CON REPOSICIN A 3,51


SIN ESTRATIFICAR

SIN REPOSICIN A 3,24

REGRESIN

CON REPOSICIN A 3,41

262 Muestreo estadstico. Conceptos y problemas resueltos

6.5.

En una determinada comunidad se intenta estudiar el cambio relativo en el valor catastral de


los bienes inmuebles en los dos ltimos aos. Se selecciona una muestra irrestricta aleatoria
de n = 20 inmuebles de entre los N = 1000 de la comunidad. De los registros fiscales se
obtiene el valor catastral para este ao (X) o valor actual y el valor correspondiente de hace
dos aos (Y) o valor calculado, de cada una de las n = 20 casas incluidas en la muestra. Se
desea estimar R, el cambio relativo en el valor catastral para los N = 1000 inmuebles de la
comunidad, usando la informacin contenida en la muestra.
Casa

Valor calculado Valor actual

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total

yi

xi

yi2

xi2

xiyi

6,7
8,2
7,9
6,4
8,3
7,2
6
7,4
8,1
9,3
8,2
6,8
7,4
7,5
8,3
9,1
8,6
7,9
6,3
8,9
154,5

7,1
8,4
8,2
6,9
8,4
7,9
6,5
7,6
8,9
9,9
9,1
7,3
7,8
8,3
8,9
9,6
8,7
8,8
7
9,4
164,7

44,89
67,24
62,41
40,96
68,89
51,84
36
54,76
65,61
86,49
67,24
46,24
54,76
56,25
68,89
82,81
73,96
62,41
39,69
79,21
1210,55

50,41
70,56
67,24
47,61
70,56
62,41
42,24
57,76
79,21
98,01
82,81
53,29
60,84
68,89
79,21
92,16
75,69
77,44
49
88,36
1373,71

47,57
68,88
74,78
44,16
69,72
56,88
39
56,24
72,09
92,07
74,62
49,64
57,72
62,25
73,87
87,36
74,82
69,52
44,1
83,66
1288,95

La estimacin del cambio relativo R en el valor catastral desde hace dos aos se
obtiene mediante el estimador de razn siguiente:
n

X x
R = = =
Y y

x
i =1
n

y
i =1

()

164,7
= 1,07
154,5

n
n
1< f
1< f
n

u X i2 + R 2 Yi 2 < 2 R X i Yi
V R = 2 u S x2 + R 2 S y2 < 2 R S xy = 2
Y n(n < 1) i
Y n
i
i

Como Y 2 no se conoce, se estima mediante y 2 . Tenemos:

()

V R =

1 < 20 / 100
u 1373,71 + 1,07 2 (1210,55) < 2(1,07)1288,95 = 0,0001 .
(154,5 / 20) 2 ( 20)(19)

Muestreo por mtodos indirectos. Razn, regresin y diferencia

()

263

()

Por tanto, el error de muestreo es m R = V R = 0,0001 = 0,01 .


El error relativo de muestreo ser:

() ()

m R 0,01
C v R =
=
= 0,0093 5 1%
1,07
R
Como el cambio relativo del valor catastral de los inmuebles se ha estimado en 1,07,
la subida en los dos ltimos aos se estima que es del 7%, con un error del 1%.

6.6.

Una compaa desea estimar la cantidad promedio de dinero +x pagado a los empleados por
gastos mdicos durante los tres primeros meses del ao en curso. Los resultados del
promedio por trimestres +y estn disponibles en los informes fiscales del ao anterior. Una
muestra aleatoria de 100 registros de empleados se seleccion de una poblacin de 1000
empleados. Los resultados de la muestra se resumen a continuacin:
n = 100, N = 1000
100

Total para el trimestre actual:

x
i =1

= 1750

100

Total para el trimestre correspondiente del ao anterior:

y
i =1

= 1200
1000

Total poblacional para el trimestre correspondiente del ao anterior

y
i =1

100

xi2 = 31650
i =1

100

yi2 = 15620
i =1

100

y x
i =1

= 12500

= 22059,35 .

Usar los datos para estimar +y y establecer un lmite para el error de estimacin.
Como tenemos informacin de una variable auxiliar Y, la utilizaremos para realizar una
estimacin indirecta de X basada en la razn de X a Y. Tenemos:
100

x
X R = x R = Y = R Y =
y

x
i =1
100

y
i =1

12500 1750 12500


=
= 18,23
1000 1200 1000

El error para la estimacin anterior se estima mediante:

n
n
1< f 2 2 2
n

S x + R S y < 2R S xy = 1 < f X i2 + R 2 Yi 2 < 2 R X i Yi


V ( X R ) =
n
n( n < 1) i
i
i

264 Muestreo estadstico. Conceptos y problemas resueltos

100
1000 31650 + 1750 15620 < 2 1750 22059,35 = 0,0441
V ( x R )=

100(100 < 1)
1200
1200

1<

Un lmite para el error de estimacin al 95% ser 2 V ( x R ) = 0,42.


Hemos estimado que la cantidad promedio de dinero pagado a los empleados por
gastos mdicos es 18,23 unidades monetarias y tenemos una confianza alta de que el error
cometido no supera las 0,42 unidades monetarias.

6.7.

Se trata de realizar un estudio sobre las granjas de cerdos en una determinada comarca
analizando una muestra obtenida en 10 municipios. Para ello se estratifica la comarca en dos
zonas, una de secano y otra de regado. En cada zona se mide el nmero de granjas existente
(variable X) y el nmero de cerdos (variable Y) por municipios muestrales. Se obtienen los
siguientes datos:

Zona

Secano

Regado

Fraccin de muestreo
Nmero de granjas

10%
71

20%
182

Municipio muestral

1 2 3 4

1 2 3 4 5 6

1 3 2 1

5 8 6 7 6 5

10 25 22 11 55 90 61 77 66 51

Se pide:
1) Estimar de la forma ms eficiente posible el nmero total de cerdos y el promedio de
cerdos por granja en el supuesto de que la seleccin de los municipios de la muestra haya
sido con reposicin. Razonar la eleccin de los estimadores.
2) Hallar el tamao muestral necesario para cometer un error del 10% al estimar el nmero
total de cerdos mediante muestreo estratificado con afijacin proporcional al nmero de
granjas existentes en cada municipio y realizar la afijacin.
Sean:
Xih= Nmero de granjas de cerdos existentes en el municipio muestral i-simo del estrato hsimo.
Yih= Nmero de cerdos existentes en el conjunto de explotaciones ganaderas del municipio
muestral i-simo del estrato h-simo.
Tenemos:

f1 =

n1
4
0,1 =
N 1 = 40
N1
N1

f2 =

n2
6
0,2 =
N 2 = 30
N2
N2

Muestreo por mtodos indirectos. Razn, regresin y diferencia

265

Vamos a estimar el nmero total de cerdos en las granjas y sus errores absoluto y
relativo de muestreo mediante muestreo estratificado como sigue:

10 + 25 + 22 + 11
55 + 90 + 61 + 77 + 66 + 51
Y = N h yh =N 1y1 + N 2y2 = 40
+ 30
= 2780
4
6
h =1
2

2
S yh

h =1

nh

V (Y ) = N h2
2
=
S yh

= 40

1 nh
Yhi < yh
nh < 1 i =1

S y21
4

+ 30

S y22
6

= 40 2

7.61
30,15
+ 30 2
= 7566,5
4
6

S y21 = 7,61
m (Y ) = V (Y ) = 7566,5 = 87

S y 2 = 30,15

m (Y )
87
C v(Y ) =
=
=
2780
Y

6357,67
= 0,0312 (3,12%)
2780

Para estimar el promedio de cerdos por explotacin ganadera utilizamos el estimador de


razn de Y a X (tambin puede usarse razn separada o combinada).
2

Y
=
R =
X

N
h =1
2

N
h =1

yh

xh

2780
2780
=
= 10,9
1+ 2 + 3 +1
5+8+6+7+6+5
255
+ 30
40
4
6

Tomaremos 11 cabezas de ganado en promedio por cada explotacin ganadera.

1
1
V (R ) = 2 (S y2 + R 2 S x2 < 2R S xy ) =
795,51+ 112 u 6,26 < 2 u11u 70,2 = 0,004426
2
nx
10(4,4)

m ( R )
=
C v( R ) =
R

0,004426
= 0,006 (0,6%)
11

El muestral para afijacin proporcional con reposicin para un error relativo del 5%
al estimar el total de cabezas de ganado se halla despejando n en la expresin:
2
N h2 S yh

N 2
253
2
h=1 n
N h S yh
(71u 7,61 + 182 u 30,15)
N

n h=1
m (Y )
n
N
=
=
=
n 20
0,1 = Cv(Y ) =
2780
2780
2780
Y
2

La afijacin ser n1 = (20/253)71 = 6 y n2 = (20/253)182 = 14 (6 municipios del


estrato 1 y 14 municipios el estrato 2).

266 Muestreo estadstico. Conceptos y problemas resueltos

6.8.

Se trata de estudiar el ganado ovino en una determinada comarca en la que existen seis
majadas. Para ello se estratifica la comarca en dos zonas, una de secano a la que corresponden
tres majadas y otra de regado a la que corresponden las otras tres majadas. En cada majada se
mide el nmero de ovejas (variable X) y su superficie en unidades cuadradas (variable Y), y se
obtienen los siguientes datos:

Estrato 1 Estrato 2
X 1i Y1i X 2i Y2i
2

12

A la vista de la informacin, analizar la precisin de todos los mtodos indirectos de


estimacin que se utilizan en estratificacin cuando se trata de estimar el nmero medio de
ovejas por majada utilizando la informacin adicional de la variable auxiliar Y. Razonar
adecuadamente los resultados. Contrastar tambin estos resultados con las precisiones
obtenidas considerando mtodos de estimacin indirecta sin estratificacin. Emplear tambin
mtodos directos de estimacin para la variable en estudio sin utilizar la variable de apoyo.
Los mtodos de estimacin indirecta son perfectamente aplicables en este caso porque el
coeficiente de correlacin entre la variable en estudio X y la variable auxiliar Y es muy alto (0,9).
A partir de los datos del problema se puede construir la siguiente tabla:

Estrato
1
2

2
N h Wh S xh2 S yh
X h Yh
3 1 / 2 7 / 3 1 11 / 3 2
3 1 / 2 13
1 8
5

S xyh
f h nh
3/ 2 2/3 2
7/2 2/3 2

A continuacin se calculan las varianzas del estimador de la media para los distintos
mtodos de estimacin directos e indirectos y estratificados y sin estratificar.
S x2
= 0,98
n
2
S2
Estratific ado A V2 ( x ) = Wh2 (1 < f h ) xh = 0,63
nh
h =1
Aleatorio simple A V1 ( x ) = (1 < f )

(1 < f ) 2
(S x + R 2 S y2 < 2 RS xy ) = 0,151296
n
2
(1 < f h ) 2
(S xh + Rh2 S yh2 < 2 Rh S xyh ) = 0,189
Razn separada A V4 ( x ) = Wh2
n
h =1
2
(1 < f h ) 2
(S xh + R 2 S yh2 < 2 RS xyh ) = 0,1759
Razn combinada A V5 ( x ) = Wh2
n
h =1
2
S
Regresin A V6 ( x ) = (1 < f ) x (1 < l 2 ) = 0,15119
n
Razn A V3 ( x ) =

Muestreo por mtodos indirectos. Razn, regresin y diferencia

267

(1 < f h ) 2
(S xh + ` h2 S yh2 < 2` h S xyh ) = 0,0347
n
h =1
2
(1 < f h ) 2
Regresin combinada A V8 ( x ) = Wh2
S xh + ` c2 S yh2 < 2 ` c S xyh = 0,118
n
h =1
(1 < f ) 2
(S x + S y2 < 2S xy ) = 0,28833
Diferencia A V9 ( x ) =
n
2

Regresin separada A V7 ( x ) = Wh2

En cuanto a los mtodos no estratificados, se observa que la estimacin ptima la


produce el mtodo indirecto basado en la regresin, resultado que siempre se cumple.
El siguiente mtodo en precisin es la estimacin indirecta por razn, que presenta
una precisin muy similar a la estimacin por regresin (apenas un 0,07% de ganancia en
precisin para regresin).
La estimacin indirecta por diferencia tambin es aceptable, aunque es el mtodo de
estimacin indirecta menos preciso en este caso. Por otra parte, el muestreo aleatorio simple
presenta una precisin muy inferior a cualquier mtodo indirecto.
Ello nos lleva a concluir que en este problema es importante la consideracin de los
mtodos indirectos de estimacin.
Si analizamos la recta de regresin de la variable en estudio X respecto de la variable
auxiliar Y, que tiene de ecuacin x = 1,6y < 0,06, vemos que prcticamente pasa por el
origen, razn por la cual el estimador por razn es muy preciso.
Adems, la pendiente de la recta no est lejos de la unidad, con lo que la estimacin
indirecta por diferencia puede resultar tambin apropiada.
Por otra parte se cumple:
1 S
0,9 = l > R y = 0,45
2 Sx

lo que indica que el muestreo aleatorio simple va a ser bastante menos preciso que el mtodo
de estimacin por razn.
Al introducir la estratificacin se obtiene buena mejora en la estimacin indirecta
por regresin separada y no tanto en la combinada (que ya sabemos que siempre es peor que
la separada).
En cuanto a la estratificacin por razn, se obtienen peores precisiones que cuando
se usa razn sin estratificar. Por lo tanto, la estimacin estratificada basada en la razn no es
conveniente. De todas formas, la estimacin por razn combinada resulta aqu ms precisa que
la estimacin por razn separada.

268 Muestreo estadstico. Conceptos y problemas resueltos

6.9.

Antes del ingreso en un centro educativo se hizo un examen de conocimientos matemticos a


486 estudiantes. Se seleccion una muestra irrestricta aleatoria de n = 10 estudiantes y se
observaron sus progresos en clculo mediante una prueba de conocimientos cuyas
calificaciones constituyen la variable Y. Ms adelante se observaron sus calificaciones
finales en clculo mediante la variable X. Los datos se recogen en la tabla siguiente:
Estudiante
1
2
3
4
5
6
7
8
9
10

39
43
21
64
57
47
28
75
34
52

65
78
52
82
92
89
73
98
56
75

Se sabe que la calificacin media de la prueba de conocimientos para los 486 estudiantes que
presentaron el examen es 52. Estimar la calificacin final media en clculo para esta
poblacin, y establecer un lmite para el error de estimacin.
A fin de aprovechar la informacin adicional de la variable Y, para estimar la media de X
utilizaremos el mtodo de estimacin indirecta ms preciso, que es el estimador por
regresin. Podemos resumir las estimaciones por regresin como sigue:

x rg = x + bo (Y < y )
Del enunciado del problema sabemos que Y = 52, y de los datos de la tabla se
deduce que x = 76 e y = 46. Para calcular el estimador por regresin slo nos faltara
estimar bo . Tenemos:
n

S
b0 = ` = XY2 =
SY

( X i < x )(Yi < y ) X iYi < nxy


i

(Y
i

< y)

Y
i

< ny 2

36,854 < 10(46)(76)


= 0,766
23,634 < 10(46) 2

El estimador por regresin ser entonces:

x rg = x + bo (Y < y ) = 76 + 0,766(52 < 46) = 80

(1 < f ) u S 2 1 < l 2 = 7,4 y el


La varianzas mnima estimada ser Vmin ( x rg ) =
x
n

lmite para el error de estimacin al 95% es 2 Vmin ( x rg ) = 5,4 .

Muestreo por mtodos indirectos. Razn, regresin y diferencia

6.10.

269

Los auditores frecuentemente estn interesados en comparar el valor intervenido de los


artculos con el valor asentado en los libros. Generalmente, los valores en los libros son
conocidos para cada artculo en la poblacin, y los valores intervenidos son obtenidos con
una muestra de esos artculos. Los valores en el libro entonces pueden utilizarse para obtener
una buena estimacin del valor intervenido total o promedio para la poblacin. Supngase
que una poblacin contiene 180 artculos inventariados con un valor establecido en el libro
de $13,320. Denotar por yi el valor en el libro y por xi el valor intervenido del i-simo
artculo. Una muestra irrestricta aleatoria de n = 10 artculos produce los resultados que se
muestran en la tabla adjunta. Estimar el valor intervenido medio por el mtodo de diferencia
as como el error cometido. Realizar las mismas estimaciones pero usando un estimador de
regresin y un estimador de razn.
Muestra

Valor intervenido Valor en el libro


xi
yi

1
2
3
4
5
6
7
8
9
10

9
14
7
29
45
109
40
238
60
170

10
12
8
26
47
112
36
240
59
167

di
-1
2
-1
3
-2
-3
4
-2
1
3

La estimacin por diferencia se realiza de la siguiente forma:


X = x < y + Y = D + Y = (72,1-71,7) + 74 = 74,4

La estimacin de la varianza viene dada por:

1< f 2 2
V ( X ) =
S x + S y < 2 S xy = 0,59
n
La estimacin por regresin se realiza de la siguiente forma:

x rg = x + bo (Y < y ) = 72,1 + 0,99(74 < 71,7) = 74,38


n

b0 =

(X
i

< x )(Yi < y )

(Y
i

< y)

X Y

i i

Y
i

< nx y

< ny 2

105,881 < 10(71,7)(72,1)


= 0,99
106,003 < 10(71,7) 2

270 Muestreo estadstico. Conceptos y problemas resueltos

La varianzas mnima estimada ser Vmin ( x rg ) =

(1 < f ) u S 2 (1 < l 2 ) = 2,24 .


n

La estimacin por regresin se realiza de la siguiente forma:


x
721
X R = x R = Y = R Y =
74 = 74,41
y
717

La varianza puede estimarse como sigue:

1< f 2 2 2
1< f

S x + R S y < 2R S xy =
V ( X R ) =
n

n
n 2 2 n 2
X Y = 0,66
X
+
R
Y
<
2
R

i
i
i i
n(n < 1) i
i
i

Muestreo por mtodos indirectos. Razn, regresin y diferencia

271

EJERCICIOS PROPUESTOS
6.1.

Sobre una poblacin de 500 unidades est definida un caracterstica bidimensional (Xi,Yi).
Una muestra aleatoria simple de tamao 80 proporciona los siguientes datos:
80

X i = 420
i =1

80

Yi = 190
i =1

80

X i2 = 2284
i =1

80

Yi 2 = 512
i =1

80

X Y
i =1

i i

= 1045

a) Estimar el sesgo y el error de muestreo de la razn de la variable Y a la variable X. Se


trata de un sesgo influyente para estimaciones indirectas basadas en la razn?
b) Se trata de estimar con y sin reposicin la media y el total de Y utilizando la informacin
adicional de la variable X mediante un mtodo de estimacin indirecta. Qu mtodo
indirecto sera el ms adecuado? Por qu? Realizar las estimaciones de media y total
mediante los mtodos indirectos conocidos ordenndolos en precisin y sabiendo que el total
de X es 10000.
c) Habr ganancia en precisin respecto del muestreo aleatorio simple? Cuantificarla.

6.2.

Una empresa est interesada en estimar el total de ganancias por las ventas de televisiones de
color al final de un perodo de tres meses (variable Y). Se tienen cifras del total de ganancias
de todas las sucursales de la empresa para el perodo de tres meses correspondiente del ao
anterior (variable X). Se selecciona una muestra irrestricta aleatoria de 13 sucursales de entre
las 123 de la empresa. Usando un estimador de razn, estimar el total de ganancias por las
ventas de televisiones de color al final de un perodo de tres meses y establecer un lmite
para el error de estimacin. Usar los datos de la tabla adjunta, y considerar que la media
poblacional de la variable X vale 128,200.
Oficina
1
2
3
4
5
6
7
8
9
10
11
12
13

Datos de tres meses


del ao anterior, Xi
550
720
1500
1020
620
980
928
1200
1350
1750
670
729
1530

Datos de tres meses


del ao actual, Yi
610
780
1600
1030
600
1050
977
1440
1570
2210
980
865
1710

Estimar tambin las ganancias medias para las oficinas de la empresa y establecer un lmite
para el error de estimacin.

272 Muestreo estadstico. Conceptos y problemas resueltos

6.3.

Una empresa industrial elabora un producto que es empaquetado, para propsitos de


mercado, en dos marcas comerciales. Estas dos marcas sirven como estratos para estimar el
volumen potencial de ventas para el trimestre siguiente. Una muestra irrestricta aleatoria de
clientes para cada marca es entrevistada para proporcionar una cantidad potencial Y de
ventas (en nmero de unidades) para el prximo trimestre. La cifra de las ventas verdaderas
del ao pasado, para el mismo trimestre, est disponible para cada uno de los clientes
muestreados y se denota por X. Los datos se presentan en la tabla anexa. La muestra para la
marca I fue tomada de una lista de 120 clientes, para quienes el total de ventas en el mismo
trimestre del ao pasado fue de 24500 unidades. La muestra de la marca II viene de 180
clientes, con un total trimestral de ventas para el ao pasado de 21000 unidades. Hallar una
estimacin de razn del total potencial de ventas para el prximo trimestre. Estime la
varianza de su estimador.
Marca I
Xi
204
143
82
256
275
198

6.4.

Yi
210
160
75
280
300
190

Marca II
Xi
137
189
119
63
103
107
159
63
87

Yi
150
200
125
60
110
100
180
75
90

Se estima el ingreso nacional para 1981 mediante una muestra de n = 10 industrias que
declaran sus ingresos de 1981 antes que las 35 restantes. Se dispone de los datos del ingreso
de 1980 para las 45 industrias y los totales son 2174,2 (en miles de millones). Los datos se
presentan en la tabla adjunta.
Industria
Productos de fbricas textiles
Productos qumicos y relacionados
Madera aserrada y lea
Equipo elctrico y electrnico
Vehculos automotores y equipo
Transporte y almacenaje
Banca
Bienes races
Servicios de salud
Servicios de educacin

1980
13,6
37,7
15,2
48,4
19,6
33,5
44,4
198,3
99,2
15,4

1981
14,5
42,7
15,1
53,6
25,4
35,9
48,5
221,2
114
17

a) Hallar un estimador de razn del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
b) Hallar un estimador de regresin del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
c) hallar un estimador de diferencia del ingreso total de 1981, y establecer un lmite para el
error de estimacin.
d) Cul de los tres mtodos es el ms apropiado en este caso? Por qu?

CAPTULO
MUESTREO UNIETPICO
DE CONGLOMERADOS

OBJETIVOS
1. Presentar el concepto de muestreo unietpico de conglomerados.
2. Analizar los estimadores y sus errores en muestreo unietpico de
conglomerados del mismo tamao y con probabilidades iguales.
3. Analizar los errores y su estimacin en funcin del coeficiente de
correlacin intraconglomerados.
4. Analizar los estimadores y sus errores cuando se considera muestreo
unietpico de conglomerados con reposicin.
5. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades iguales con y sin reposicin.
6. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades desiguales con y sin reposicin.
7. Estudiar el muestreo unietpico de conglomerados de distinto tamao y
probabilidades proporcionales al tamao con y sin reposicin.
8. Estudiar el problema del tamao de la muestra.

274 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo unietpico de conglomerados. Estimadores para conglomerados
del mismo tamao y probabilidades iguales.
2. Varianza de los estimadores. Coeficiente de correlacin intraconglomerados.
Estimacin de varianzas.
3. Muestreo de conglomerados del mismo tamao con reposicin. Varianzas
de los estimadores y estimacin de las varianzas.
4. Muestreo unietpico de conglomerados de distinto tamao.
5. Muestreo unietpico de conglomerados de distinto tamao con probabilidades
desiguales.
6. Tamao de la muestra.
7. Problemas resueltos.
8. Ejercicios propuestos.

Muestreo unietpico de conglomerados

275

MUESTREO UNIETPICO DE CONGLOMERADOS. ESTIMADORES PARA


CONGLOMERADOS DEL MISMO TAMAO Y PROBABILIDADES IGUALES
Tanto en el muestreo aleatorio simple con reposicin como sin reposicin, as como en el
muestreo estratificado, sistemtico y mtodos indirectos de estimacin, las unidades de
muestreo son las mismas que las unidades objeto de estudio (unidades simples o
elementales), pero en la prctica nos encontramos con situaciones ms generales en las que
las unidades de muestreo comprenden dos o ms unidades de estudio. En tal caso a las
unidades de muestreo se las denomina unidades primarias o compuestas.
En el muestreo por conglomerados no se necesita un marco muy especfico como en
el caso del muestreo aleatorio simple en el que era necesario disponer de un listado de
unidades de la poblacin, o como en el muestreo estratificado, donde era necesario disponer
de listados de unidades por estratos. Se divide previamente al muestreo la poblacin en
conglomerados o reas convenientes, de las cuales se selecciona un cierto nmero para la
muestra, con lo que slo es necesario un marco de conglomerados que ser ms fcil de
conseguir y ms barato. Se pueden utilizar como marco divisiones territoriales ya
establecidas por necesidades administrativas para las cuales existe ya informacin. Tambin
se pueden utilizar como marco reas geogrficas cuyas caractersticas estn ya muy
delimitadas. Est claro que se ahorra coste y tiempo al efectuar visitas a las unidades
seleccionadas. Adems, la concentracin de unidades disminuye la necesidad de
desplazamientos.
Por otro lado, en el muestreo por conglomerados solemos tener menor precisin en
las estimaciones, debido a que, aunque lo ideal es que haya heterogeneidad dentro, siempre
va a existir un cierto grado de homogeneidad inevitable dentro de los conglomerados que
disminuir la precisin. La eficiencia de este tipo de muestreo disminuye al aumentar el
tamao de los conglomerados, cuando en realidad este tipo de muestreo es ms til en caso
de poblaciones muy numerosas en las que se puedan construir conglomerados grandes.
Consideramos una poblacin finita con M unidades elementales o ltimas agrupadas en
N unidades mayores llamadas conglomerados o unidades primarias, de tal forma que no existan
solapamientos entre los conglomerados y que stos contengan en todo caso a la poblacin en
estudio. Consideramos como unidad de muestreo el conglomerado, y extraemos de la poblacin
una muestra de n conglomerados a partir de la cual estimaremos los parmetros poblacionales. El
nmero de unidades elementales de un conglomerado se denomina tamao del conglomerado.
Los conglomerados pueden ser de igual o de distinto tamao, y han de ser lo ms heterogneos
posible dentro de ellos y lo ms homogneos posible entre ellos, de tal forma que la situacin
ideal sera que un nico conglomerado pudiese representar fielmente a la poblacin (muestra de
tamao uno con mnimo coste). Se observa que la situacin ahora es la complementaria a la del
caso de los estratos estudiados anteriormente.
Vamos a suponer ahora probabilidades iguales y que todos los conglomerados son
del mismo tamao M , en cuyo caso utilizaremos la siguiente notacin:
N: Nmero de conglomerados en la poblacin
N: Nmero de conglomerados en la muestra
M : Nmero de unidades elementales por conglomerado (tamao del conglomerado)
N M : Nmero total de unidades elementales en la poblacin
n M : Nmero total de unidades elementales en la muestra

276 Muestreo estadstico. Conceptos y problemas resueltos


N

Consideraremos la caracterstica poblacional general e = Yi = Yij

que,

suponiendo muestreo sin reposicin y probabilidades iguales, puede ser estimada mediante
M

n/ N

Y
el estimador lineal insesgado de Horwitz y Thompson eHT = i =
n

/i

ij

N
n

ij

La aplicacin del estimador lineal insesgado de Horwitz y Thompson para


probabilidades iguales a las estimaciones del total, media, proporcin y total de clase
poblacionales, proporciona los siguientes estimadores:

N n M
NM n 1 M
1 n
X
X
=
N
M
=
ij n i M j ij
X i =NMx
n i j
n i
i
j
X ij
N n M X ij 1 n 1 M
1 N M
1 n

e=X =
= X ij = X i =x
X ij Yij = NM X = n
n i M j
n i
NM i j
i
j NM
Aij
N n M Aij 1 n 1 M
1 N M
1 n

A
Y
P
e =P=

=
=
A
=
ij ij NM

ij n i Pi
n i j NM n i M j
NM i j
N

e = X = X ij Yij = X ij X =

e = A = Aij Yij = Aij A =

N n M
NM
Aij =

n
n i j

1
i M
n

Aij = NM
j

1 n
Pi =NMP

n i

VARIANZAS DE LOS ESTIMADORES. COEFICIENTE DE CORRELACIN


INTRACONGLOMERADOS. ESTIMACIN DE LAS VARIANZAS
Las expresiones iniciales para las varianzas de los estimadores sin reposicin y probabilidades
iguales para conglomerados del mismo tamao son:
N

V (x ) = (1 < f ) u

2
b

S
nM

con S b2 =

(X
i

< X)

N <1

( )

S2
V X = V (NM u x ) = N 2 M 2 u V (x ) = N 2 M 2 u (1 < f ) u b
nM
N
M N
2
2
Pi < P )
Pi < P)
(
(

N <1 i
V ( P$ ) = ( 1 < f ) u
= (1 < f ) i
nM
n( N < 1)
N

V ( A$ ) = V ( NM u P$ ) = N 2 M 2V ( P$ ) = N 2 M 2 u (1 < f )

( P < P)
i

n( N < 1)

Las expresiones de las varianzas son similares a las obtenidas en el muestreo


aleatorio simple, sustituyendo S2 por S b2 y siendo nM el nmero total de unidades
elementales en la muestra.

Muestreo unietpico de conglomerados

277

Pero las varianzas anteriores pueden expresarse en funcin del coeficiente de correlacin
intraconglomerados, que se define como el coeficiente de correlacin lineal entre todos los pares
de valores de la variable en estudio medidos sobre las unidades de los conglomerados y
extendido a todos los conglomerados, de tal forma que dicho coeficiente ser una <<medida de la
homogeneidad>> en el interior de los conglomerados. Evidentemente interesar que el
coeficiente de homogeneidad intraconglomerados sea lo ms pequeo posible, ya que en
muestreo por conglomerados lo ideal es la heterogeneidad dentro de los conglomerados. La
expresin del coeficiente de correlacin intraconglomerados ser:

b=

Cov( X ij , X iz )

m ( X ij )m ( X iz )

]=

E ( X ij < E ( X ij ))( X iz < E ( X iz ))

m2
2

N M
1
( X ij < X )( X iz < X )
M i =1 j < z
N
2

m2

N M
1
(X ij < X ) y m 2 = 1
de donde al ser S =

NM
NM < 1 i j & l
2

j &l

(X

ij

< X ) se puede expresar

N u M <1 2
S , expresin que puede sustituirse en el denominador del
N uM
coeficiente de correlacin intraconglomerados:

la varianza como m 2 =

N M
1
( X ij < X )( X iz < X ) N M
M i =1 j < z
N
2 ( X ij < X )( X iz < X )
2
i =1 j < z

=
b=
(M < 1)(NM < 1)S 2
N u M <1 2
S
N uM

Este coeficiente se puede estimar mediante b$ =

S$b2 < S$ 2
( M < 1) S$

S$ 2 =

n M
n M
2
1
1
1 n M
2
2
$
X ij < x , S$w2 =
,
=
X
X
S
Xi < x )
<
(

ij
i
b
nM < 1 i j & l
nM < n i j
n <1 i j

N < 1 2 N (M < 1) 2
2
S 0 =
u Sw
u Sb +
NM < 1
NM < 1

n < 1 2 n(M < 1) 2


S 2 =
u Sw
u Sb +
nM < 1
nM < 1

Los errores de estos estimadores y sus estimaciones en funcin de l son:


2
S
S2
1 + (M < 1)b V (x ) = (1 < f ) 0 1 + (M < 1)b
nM
nM
2
2

S
S
V (x ) = (1 < f ) b V (x ) = (1 < f ) b
nM
nM
2
2

V ( X ) = V ( NMx ) = N M V ( x ) V ( X ) = N 2 M 2V ( x )

V (x ) = (1 < f )

278 Muestreo estadstico. Conceptos y problemas resueltos

El clculo de los trminos de las frmulas anteriores los facilitan los cuadros del
anlisis de la varianza para la poblacin y para la muestra siguientes:
Descomposicin de la varianza para la poblacin
Fuente de variacin

Grados de libertad

Sumas de cuadrados

(X
N

N<1

Entre conglomerados

Dentro de conglomerados

n M <1

(X

NM < 1

(X

Total

Sb2

ij

< Xi

ij

<X

<X

Cuadrados medios

S w2

Descomposicin de la varianza para la muestra


Fuente de variacin Grados de libertad Sumas de cuadrados Cuadrados medios Esperanzas
Entre conglomerados

n<1

(X
i

Dentro de conglom.

(X

n M <1

(X

nM < 1

<x

Total

ij

< Xi

ij

<x

Sb2

Sb2

S w2

S w2

S 2

Para el caso de proporciones y totales de clase las frmulas son las mismas, pero las
magnitudes se obtienen del cuadro del anlisis de la varianza siguiente:
Fuentede Gradosde
Variacin

Libertad

Sumade

Cuadrados

Estimadores

Cuadrados

Medios

Insesgados
1 n
M ( Pi < Pi ) 2

n i =1
S b2 = i =1
n <1
N

Entre

N <1

A = M ( Pi < P) 2
i =1

Dentro

N ( M < 1)

B = MPi (1 < Pi )
i =1

Total

NM < 1

C = NMP (1 < P)

S b2 =

A
N <1

B
S =
N ( M < 1)
C
2
S =
NM < 1
2
w

S w2 =

MP (1 < P )
i

i =1

n( M < 1)
S 2
0

Comparacin con el muestreo aleatorio simple


S2
[1 + ( M < 1) u b ] = V MAS ( x )[1 + ( M < 1) u b ] se deduce que
nM
para valores positivos de b existe un aumento en la varianza del muestreo por conglomerados con
relacin al muestreo aleatorio simple y muestras de tamao igual a n u M unidades
elementales.

De la expresin V ( x ) = ( 1 < f )

Muestreo unietpico de conglomerados

279

El caso ms desfavorable (varianza mxima) correspondera a b = + 1 y el ms favorable


(varianza mnima) a b = <

1
, en que la varianza sera igual a cero. Para b = 0 ambos
M <1

mtodos proporcionaran la misma precisin.


El trmino M < 1 expresa el aumento de la varianza debido a la seleccin de n
conglomerados de tamao M en lugar de n M unidades elementales obtenidas por muestreo
aleatorio simple. Ahora bien, si el coeficiente de correlacin intraconglomerados fuese
negativo, ello supondra mayor precisin en el muestreo por conglomerados que en el
aleatorio simple.
Pero en la prctica suele ocurrir que los elementos de cada conglomerado tienen
cierto parecido entre s aunque se intente que sean lo ms heterogneos posible, con lo cual
la correlacin es positiva y menor la precisin en el muestreo por conglomerados que en el
aleatorio simple. Este problema ya se haba citado al principio del captulo como una de las
desventajas del muestreo por conglomerados.
Segn lo visto, la comparacin entre muestreo monoetpico de conglomerados y
muestreo aleatorio simple podra resumirse como sigue:
Sib > 0 conglomera dos peor que aleatorio simple

V MC (x ) = V MAS ( x ) u 1 + (M < 1) u b Sib = 0 conglomera dos igual que aleatorio simple


Sib < 0 conglomera dos mejor que aleatorio simple

Evidentemente, cuando b D (0,1] la precisin del muestreo por conglomerados es


inferior a la del muestreo aleatorio simple, y a medida que el b se aproxima a 1, se acenta la
prdida de precisin en el muestreo por conglomerados respecto del aleatorio simple.

Cuando b = 0, las precisiones de ambos mtodos coinciden, y cuando b D <


,0 , la
M < 1
precisin del muestreo por conglomerados es superior a la del muestreo aleatorio simple y a
medida que el b se aproxima a <

1
, se acenta la ganancia en precisin del muestreo
M <1

por conglomerados respecto del aleatorio simple.


Por otra parte, si llamamos na al tamao de muestra necesario en muestreo aleatorio
simple para obtener una precisin dada, y si llamamos nc al tamao de muestra en muestreo
por conglomerados, resulta que si los dos tipos de muestreo tienen la misma precisin,
S2
S2
(1 < f )
= (1 < f ) (1 + ( M < 1)b ) nc = na (1 + ( M < 1)b ) .
na
nc
Precisamente la cantidad 1 + ( M < 1) u b por la que hay que multiplicar el tamao de
una muestra por conglomerados nc para que coincida con el tamao de muestra necesario en
muestreo aleatorio simple na para igual precisin en ambos tipos de muestreo, se denomina
efecto del diseo.

280 Muestreo estadstico. Conceptos y problemas resueltos

MUESTREO DE CONGLOMERADOS DEL MISMO TAMAO CON REPOSICIN.


VARIANZAS DE LOS ESTIMADORES Y ESTIMACIN DE LAS VARIANZAS
En caso de muestro con reposicin, probabilidades iguales y conglomerados del mismo
tamao, los estimadores son los mismos, y las varianzas tienen las siguientes expresiones:
1 N
i M Xi < X
N
Vx =
nM

()

1
m =
N
2
b

M( X
i

< X)

1
=
N

( X
i

mb2
nM

< X ) es la cuasivarianza entre conglomerados


2

y la expresin de la varianza de la media V ( x ) =

mb2
nM

es similar a la obtenida en el muestreo

aleatorio simple, sustituyendo m2 por mb2 y siendo nM el nmero total de unidades


elementales en la muestra.

mb2
V ( X$ ) = V ( NM u x ) = N 2 M 2 u V ( x ) = N 2 M 2
nM

m
V ( P$ ) =
=
nM
2
b

M
N

( P < P)
i

nM

( P < P)

nN
N

V ( A$ ) = V ( NM u P$ ) = N 2 M 2V ( P$ ) = N 2 M 2

( P < P)
i

nN

La varianzas de los estimadores y sus estimaciones en funcin del coeficiente de


correlacin intraconglomerados tienen las siguientes expresiones:

S b2
m b2
m ' 2

V (x ) =
1 + (M < 1)b V (x ) =
1 + (M < 1)b , V (x ) =
V (x ) =
nM
nM
nM
nM
2
2
2
2

V ( X ) = V ( NM x ) = N M V ( x ) V ( X ) = N M V ( x )

m2

El coeficiente de correlacin intraconglomerados y su estimacin son:

b=

m ' 2 = S12,w +

m b2 < m 2
(M < 1)m 2

2 S$b2
2
$
Sb < S$1w +

S$b2 < m$ ' 2


$
b =
=
2 S$b2 ( M < 1)m$ ' 2
$
( M < 1) S1w +
M

2
Sb2 2
1 N M
1 n M
2
2
1 n M
2
2
$
(
)
, S1,w =
,
,
X
<
X
S
Xi < x )
=
<
=
m
X
X
(

ij
i
w
ij
i
b
n <1 i j
NM i j
M
nM i j

Muestreo unietpico de conglomerados

281

Si estimamos proporciones y totales de clase utilizaremos lo siguiente:

m2 =

NM < 1 2 NM < 1 NMP (1 < P ) NMP (1 < P )


S =
=
= P (1 < P )
NM
NM
NM < 1
NM

m w2 =

1
NM

m b2 =

1
N

(X
N

(X
N

m b2 = S b2 =

< X) =
2

1
NM

< Xi ) =
2

ij

M
N

(X

M (P < P )
i

N
i

1
N

(P < P )
i

< X) .
2

M n
(Pi < P )2

n <1 i

m w2 = S12,w =

1
nM

m$ '2 = S$12,w +

S$b2 1 n
2
M n
(
Pi < P )
= Pi (1 < Pi ) +

M n i =1
n <1 i

(X
n

1
nM

< Xi ) =
2

ij

MP (1 < P ) = n P (1 < P )
i =1

i =1

MUESTREO UNIETPICO DE CONGLOMERADOS DE DISTINTO TAMAO


Probabilidades iguales
a) Los conglomerados no varan mucho en tamao (Mi similares)
Consideraramos M =

Mi

M
i =1

como la media de los tamaos Mi de los conglomerados y

utilizamos todas las frmulas estudiadas hasta ahora, tanto para muestreo con reposicin
como para muestreo sin reposicin. No obstante, suelen considerarse las siguientes
expresiones alternativas para los estimadores:
Muestreo sin reposicin
Para la media se tiene

(X
N

x=

X
1
1
1
Xi = i =

n i =1
n i =1 M nM
n

X
i =1

, V (x ) =

1< f
u
nM 2

i =1

< X)

N <1

1
Para el total se tiene el estimador X$ = NMx = NM
nM
depende de M .

(X
n

1< f
, V ( x ) =
nM 2

N
Xi = n
i =1
n

i =1

< x)

n <1

X
i =1

, que no

282 Muestreo estadstico. Conceptos y problemas resueltos

Su varianza y estimacin de varianza tampoco dependen de M . Tenemos:


V ( X ) = N 2

1< f
u
n

1< f
, V ( X ) = N 2
n

i =1

(X
n

(X < X )
N

N <1

i =1

< x)

n <1

Muestreo con reposicin


Para muestreo con reposicin la varianza y estimacin de varianza para el estimador de la
media pueden calcularse como sigue:

(X
N

V (x ) =

1
u
nM 2

i =1

<X)

(X
n

, V ( x ) =

1
nM 2

i =1

< x)

n <1

La varianza y estimacin de varianza para el estimador del total no dependern de

M y pueden calcularse como sigue:

(X
N

N
u
V ( X ) =
n

i =1

i < X

(X
n

N
, V ( X ) =
u
n

i =1

< x)

n <1

En caso de estimacin de totales y proporciones se utilizan las frmulas ya vistas


N

anteriormente para conglomerados del mismo tamao tomando M =


i =1

Mi
, tanto para
M

muestreo sin reposicin como para muestreo con reposicin.


b) Los conglomerados varan mucho en tamao (Mi no similares y M =

M
i =1

Si los tamaos de los conglomerados son significativamente distintos, un estimador sesgado


de la media es el estimador de razn:
n

X = x = R =

X
i
n

M
i

Muestreo sin reposicin


Por ser un estimador de la razn, su varianza aproximada es:

M (X
N

V ( x ) = (1 < f ) u

N
nM 2

2
i

< X)

N <1

M (X
n

()

N
V ( x ) = V R = (1 < f ) u
nM 2

2
i

< x)

n <1

Para el estimador del total tendremos:

M i2 (X i < X )
N

N (1 < f )
V X =
n

( )

N <1

M (X
(1 < f )
n

( )

N
V X =

Para el estimador de la proporcin y el total de clase tenemos:

2
i

< x)

n <1

Muestreo unietpico de conglomerados

M (P < P )

Mi2 (Pi < P)

N2
V ( P ) = (1 < f ) u
nM 2

N <1

()

N
V A =

M (P < P )
(1 < f )
2
i

N2
, V ( P ) = (1 < f ) u
nM 2

2
i

()

N
V A =

N <1

n <1

M (P < P )
(1 < f )
n

283

2
i

n <1

Muestreo con reposicin


Por ser un estimador de la razn, su varianza aproximada es:

M (X
N

N
V (x ) =
nM 2

2
i

< X)

M (X
n

N
, V ( x )
nM 2

2
i

<x

n <1

Para el estimador del total tendremos:

M i2 (X i < X )
N

( )

N
V X =
n

M (X
n

( )

N
, V X =
n

2
i

< x)

n <1

Para el estimador de la proporcin y el total de clase tenemos:

M (P < P )

M i2 (Pi < P)

N2
V ( P ) =
nM 2

N
N

()

N
V A =
n

M (P
i

2
i

< P)

N2
V ( P ) =
nM 2

()

N
, V A =
n

n <1

M (P < P )
n

2
i

2
i

n <1

MUESTREO UNIETPICO DE CONGLOMERADOS DE DISTINTO TAMAO


CON PROBABILIDADES DESIGUALES
En este caso se utilizan los estimadores generales de Horvitz Thompson y Hansen Hurweitz.
Muestreo sin reposicin
N

Consideramos una poblacin de N conglomerados de tamaos desiguales Mi con M =

M
i =1

En este caso se utilizar el estimador general de Horwitz y Thompson, que proporciona el


estimador lineal insesgado para el total definido por:
n
n
N
N
X2
X Xj
X
M X
X HT = i = i i , V ( X HT ) = i (1 < / i ) + i
(/ ij </ i / j )
i =1

/i

i =1

/i

i =1

/i

i& j

/i / j

n
n
X2
X X j / ij < / i / j
V ( X HT ) = 2i (1 < / i ) + i

/ ij
i =1 / i
i& j / i / j

284 Muestreo estadstico. Conceptos y problemas resueltos

Muestreo con reposicin


Consideramos una poblacin de N conglomerados de tamaos desiguales Mi con M =
N

M
i =1

. En este caso se utilizar el estimador general de Hansen y Hurwitz, que

proporciona el estimador lineal insesgado para el total definido por:


2

n
n
n

Xi

X
MX
1
1 N X

X HH = i = i i , V ( X HH ) = i < X Pi , V ( X HH ) =
< X HH

nPi
n i =1 Pi
n(n < 1) i =1 Pi
i =1 nPi
i =1

X
X
1
1
X HH = HH V ( X HH ) = V ( HH ) = 2 V ( X HH ) V ( X HH ) = 2 V ( X HH )
M
M
M
M

Probabilidades proporcionales a los tamaos


Muestreo sin reposicin
El estimador lineal insesgado de Horwitz y Thompson para el total ser:
n
n
n
X
M X
M X
1 n
X HT = i = i i = i i = M X i = Mx
M
/i
n i =1
i =1 / i
i =1
i =1
n i
M

El estimador lineal insesgado de Horwitz y Thompson para la media ser:

X
Mx
=x
X = HT =
M
M
Se observa que las expresiones de los estimadores lineales insesgados para la media
y el total en el caso de probabilidades desiguales proporcionales a los tamaos de los
conglomerados coinciden con sus expresiones para probabilidades iguales.
Muestreo con reposicin
Como siempre, los estimadores son los mismos que para el caso sin reposicin. Las
varianzas y su estimacin en el caso de probabilidades proporcionales a los tamaos con
reposicin valdrn:
2
n
2
M N
( X ) = M
V
Xi < x
(
)
M
X
<
X
,
V ( X HH ) =
HH

i
i
n(n <1) i =1
n i =1

V ( X HH ) =
nM

(
i =1

2
M i X i < X , V(X HH ) =

2
1 n
Xi < x
n(n <1) i=1

Las frmulas para proporciones y totales de clase se obtienen sustituyendo


X i = Pi , X = P, x = P . Esto es vlido tanto en general como en probabilidades
proporcionales a los tamaos, y tanto con reposicin como sin reposicin.

Muestreo unietpico de conglomerados

285

TAMAO DE LA MUESTRA
La peculiaridad en muestreo por conglomerados monoetpico es la forma de la funcin de
coste. Si consideramos la funcin de coste C = c o n + c1 n + c 2 u n u M , podemos
determinar los pares ( n, M ) que, para C prefijado, minimizan la varianza del estimador de la

media V ( x ) . Tambin podemos determinar los pares ( n, M ) que, para V ( x ) prefijada,


minimizan la funcin de coste C.
El primer trmino c o n de la funcin de coste representa el coste de viaje entre los
conglomerados, y se toma as porque se ha demostrado empricamente que el coste de viaje
entre n conglomerados vara aproximadamente proporcional a su raz cuadrada.
El segundo trmino c1 n de la funcin de coste representa el coste de seleccin de
los n conglomerados de la muestra, siendo c1 el coste unitario de seleccin de un
conglomerado muestral.
El tercer trmino c 2 u n u M representa el coste relativo a las n u M unidades
elementales de la muestra, siendo c2 el coste unitario de seleccin de una unidad elemental que
suele estar formado principalmente por el coste de entrevista y el coste de desplazamiento
entre las unidades elementales dentro del mismo conglomerado.
El trmino C = c o n + c 2 u n u M suele denominarse coste de campo.
La determinacin de n y M ptimos lleva al planteamiento del problema de
Lagrange con una restriccin:

S2
(1 < ( M < 1)b )
MinV ( x ) = Min (1 < f )
nM

C = co n + c1 n + c 2 u n u M
El problema alternativo es la determinacin de n y M ptimos mediante el
planteamiento del problema de Lagrange con una restriccin:

Min C = Min (co n + c1 n + c 2 u n u M )

S2
V
x
f
(
)
=
(
1
<
)
(1 < ( M < 1)b )

nM

S b2
Tambin se utiliza para la varianza la expresin V ( x ) = (1 < f )
.
nM

286 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
7.1.

Se trata de estudiar una poblacin de 1000 cajas de tornillos todas ellas con 40 unidades cada
una. Para ello se extrae una muestra sin reposicin de 20 cajas, dentro de la cual nueve cajas
no tienen tornillos defectuosos, ocho cajas tienen un tornillo defectuoso, y tres cajas tienen
dos tornillos defectuosos. Se pide:
1) Estimar el nmero total de tornillos defectuosos en la poblacin y sus errores absoluto y
relativo de muestreo. Realizar la estimacin por intervalos al 99% (F-1(0,995)=2,57).
2) Resolver el problema con reposicin y comparar los resultados con los del punto (a).
Tenemos como datos N = 1000, M = 40 y n = 20. El total de piezas defectuosas
puede estimarse como sigue:
1 0
1
2
1 n
A = NMP = NM Pi = 40 000 9 + 8 + 3 = 700
20 40
40
40
n i =1
14
44
424444
3
P = 0 , 0175

Para calcular la estimacin de la varianza, se realiza el cuadro del anlisis de la


varianza muestral considerando 20 variables, desde L1 a L20, una para cada caja en la
muestra. Cada variable tiene tantos unos como tornillos defectuosos hay en la caja. Se elige
Anlisis de la varianza de un factor en Anlisis de datos del men Herramientas, y se
rellena su pantalla de entrada como se indica en la Figura 7-1. Los resultados se ven en la
Figura 7-2. La varianza es:
2
2
S 2
20 0,0134
V ( A ) = NM V ( P ) = NM (1 < f ) b = 400002 (1 <
)
= 26305,26
nM
1000 800

Figura 7-1

Muestreo unietpico de conglomerados

Figura 7-2
El error relativo de muestreo para el estimador del total ser:

V ( A )
=
C v( A ) =
A

26305,26
= 0,2317 (23,17%)
700

La estimacin por intervalos suponiendo normalidad en la poblacin es:

A h_ m ( A ) = 700 2,57 26305,26 = [283,2, 1116,8]


La estimacin por intervalos sin normalidad en la poblacin es:

m ( A )
26305,26
= 700
= [< 921,9, 2321,9]
A
0,01
_
Si consideramos muestreo con reposicin, tenemos:

2
26305,26 26305,26
2
2 Sb

V ( A) = (NM ) V ( P) = (NM )
=
=
= 26842,1
20
1< f
nM
1<
1000
V ( A )
C v( A ) =
=
A

26842,1
= 0,234 (23,4%)
700

La estimacin por intervalos suponiendo normalidad en la poblacin es:

A h_ m ( A ) = 700 2,57 26842,1 = [279, 1121]


La estimacin por intervalos sin normalidad en la poblacin es:

287

288 Muestreo estadstico. Conceptos y problemas resueltos

m ( A )
26842,1
= 700
= [< 938,35, 2338,35]
A
0,01
_
Se observa que los errores de muestreo estimados son ligeramente superiores en
muestreo con reposicin. Adems, como es natural, los intervalos de confianza son ms
anchos (o sea, peores) en muestreo con reposicin. La ganancia en precisin es (26842,1 /
26305,26 < 1)100 = 2%, que es una cantidad pequea.

7.2.

En una regin hay 300 granjas de 50 animales diversos cada una. Se obtiene una muestra de n=5
granjas sin reposicin y probabilidades iguales. Las proporciones de animales enfermos en cada
una de las granjas son 0,14, 0,20, 0,18, 0,12, 0,16. Se pide:
Estimar la proporcin y el total de animales enfermos en la regin y sus errores absoluto y
relativo de muestreo. Realizar las mismas estimaciones para muestreo con reposicin.
Comentar los resultados.
Podemos realizar el esquema siguiente para el problema.
M =50

P5=0,16
SR

N=300

P2=0,2
P3=0,18

PI
M =50

P4=0,12

M =50

P1=0,14
n=5

SR significa sin reposicin y PI probabilidades iguales.


Estamos en un caso de muestreo monoetpico de conglomerados del mismo tamao.
Se tiene:
1 n
1
P = Pi = (0,14 + 0,20 + 0,18 + 0,12 + 0,16) = 0,16
n i =1
5

A = NMP = 300 u 50 u 0,16 = 2400


n
S 2
2
2
2
1
( Pi < P ) 2 =
V ( A ) = (NM ) V ( P ) = (NM ) (1 < f ) b = (NM ) (1 < f )

n(n < 1) i =1
nM

(300 u 50)2 1 <

5 (0,14 < 0,16) 2 + (0,20 < 0,16) 2 + (0,18 < 0,16) 2 + (0,12 < 0,16) 2 + (0,16 < 0,16) 2
= 45000

300
5(5 < 1)

V ( P ) =

1
45000
V ( A ) =
= 0,0002
2
300 2 50 2
N M
2

V ( A )
45000
C v( P ) = C v( A ) =
=
= 0,088 (8,8%)
A
2400

Muestreo unietpico de conglomerados

289

Se estima que en la regin hay un 16% de animales enfermos y un total de 2400


animales enfermos, con un error de muestreo del 8,8%.
Ahora estimaremos los errores absoluto y relativo de muestreo del total de clase y de
la proporcin considerando muestreo con reposicin. Tenemos:
n
2
2
2 S
2
1
V ( A ) = (NM ) V ( P ) = (NM ) b = (NM )
( Pi < P ) 2 = 45762,7

n(n < 1) i =1
nM

V ( P ) =

1
45762,7
V ( A ) =
= 0,000203389
2
300 2 50 2
N M
2

V ( A )
45762,7
=
= 0,089 (8,9%)
C v( P ) = C v( A ) =
2400
A

Se observa que los errores de muestreo son ligeramente mayores en el caso de


reposicin.

7.3.

En un proceso electoral se toma una muestra aleatoria de 10 urnas, el nmero de votantes y sus
papeletas favorables a un determinado partido son:
4 2 6 1 5 3 3 8 1 4
2 1 4 1 2 1 2 5 0 3

Nmero de votantes
Papeletas favorables

Suponiendo muestreo con reposicin, estimar la proporcin de votos favorables a ese partido
en toda la poblacin y su error de muestreo.
Vamos a considerar las urnas como conglomerados, siendo las unidades elementales las
papeletas introducidos en ellas. Por tanto, los nmeros de papeletas en las distintas urnas
sern los tamaos de los conglomerados Mi. Se considera la clase A de los votantes que
votan a favor del partido en cuestin. Por tanto, las papeletas favorables al partido en cada
urna sern los valores Ai.
Ya que los conglomerados son de distinto tamao, para estimar la proporcin del
total de votantes de la poblacin que votan al partido utilizaremos el estimador de la razn
de A a M siguiente:
10

P =

A
i =1
10

M
i =1

=
i

21
= 0,57
37

Para estimar la varianza de la proporcin con reposicin utilizamos el estimador de


la varianza del estimador de la razn:

290 Muestreo estadstico. Conceptos y problemas resueltos


10
10
10
1 2 2 2
1
(SA + R SM < 2RSAM ) =
( Ai2 + R 2 Mi2 < 2R Ai Mi )
V (P ) =
2
2
nM
nM (n <1) i =1
i =1
i =1
1
=
(65 + 0,572 u181< 2 u 0,57u106) = 0,00242
10u 3,72 u (10 <1)

El error de muestreo estimado ser m ( P ) = V ( P ) = 0,00242 = 0,049 .

7.4.

Se trata de estudiar la superficie de una regin montaosa dedicada a la plantacin de pinos.


La regin, que tiene un total de 25000 km2, se divide en 100 zonas disjuntas lo ms similares
entre s de tal forma que cada zona contiene plantas de todas las clases que crecen en la regin.
Se extrae una muestra de 10 zonas con reemplazamiento y con probabilidades proporcionales
a sus superficies. Las proporciones de superficie total dedicadas a la plantacin de pinos en
cada una de las zonas de la muestra son:
0,05, 0,25, 0,10, 0,30, 0,15, 0,25, 0,35, 0,25, 0,10 y 0,20
Se pide un estimador insesgado de la superficie total de la regin dedicada a la plantacin de
pinos, su error relativo y un intervalo de confianza al nivel _ = 0,05.
Sea Mi = Superficie de la zona i-sima
Sea Xi = Superficie dedicada a la plantacin de pinos
n
n
X
Xi
M
X HH = i =
=
M
n
i =1 nPi
i =1
n i
M
2

Xi
< X HH

i =1 Pi
=
V ( X HH ) =
n(n < 1)
n

Xi

M
i =1

2500
(0,05 + 0,25 + L + 0,20) = 5000
10

Xi

< X HH

i =1 M i M
=
n(n < 1)
n

Xi
M

M < X HH
i =1
i
=
n(n < 1)
n

(25000u 0,05 < 5000)2 + (25000u 0,25 < 5000)2 + L + (25000u 0,20 < 5000)2
= 590278
10(10 < 1)

V ( X )
590278
C v( X ) =
=
= 0,15 (15%)

5000
X

La estimacin por intervalos suponiendo normalidad en la poblacin es:


X h_ m ( X ) = 5000 2 590278 = [3464, 6536]

La estimacin por intervalos sin normalidad en la poblacin es:

m ( X )
590278
X
= 5000
= [1564, 8346]
0,05
_

Muestreo unietpico de conglomerados

7.5.

291

Una gran empresa tiene sus inventarios de equipo listados separadamente en 15 departamentos.
Se selecciona una muestra de tres departamentos con reposicin y probabilidades
proporcionales al nmero de artculos de equipo en cada departamento. La tabla siguiente
presenta el nmero de artculos de equipo NA en cada departamento D.
D

NA D

NA D

NA

NA

NA

12

40

18

10

22 13

16

35

10

11

22 14

33

27

15

31 12

19

15

1) Suponiendo que los tres departamentos seleccionados (que sern los de mayor probabilidad)
tienen cada uno 2 artculos impropiamente identificados, estimar el nmero total de artculos
impropiamente identificados en la empresa y su error relativo de muestreo.
2) Estimar por intervalos al 95% la media de artculos propiamente identificados, sabiendo que
los tres departamentos seleccionados tienen respectivamente 4, 5 y 6 artculos impropiamente
identificados.
Como se selecciona la muestra de tres departamentos con probabilidades proporcionales al
nmero de artculos de equipo en cada departamento, los tres departamentos seleccionados
para la muestra sern el 4, el 5 y el 14, ya que son los que van a tener mayor probabilidad de
seleccin (por tener el mayor nmero de artculos).
Al ser la seleccin con probabilidades proporcionales a los tamaos se tiene que:
Pi =

40
35
33
Mi
P1 =
, P2 =
y P3 =
M
315
315
315

Como el muestreo es con reposicin, el estimador insesgado del total de la clase de los
artculos impropiamene clasificados vendr dado por la frmula de Hansen y Hurwitz.

1 n M P 1 n M P
M

A HH = MPHH = i i = i i =
n i Pi
n i Mi M
n

P =
i

315 2
2
2
+ + 18
3 40 35 33

Pi = proporcin muestral en el conglomerado i-simo


Como estamos en muestreo monoetpico con reposicin y probabilidades desiguales
proporcionales a los tamaos, utilizamos para estimar la varianza el estimador:
2

i Pi < A
i
=
V A =
n (n < 1)
n

()

315 2
3u2

n
M P

i Pi i < M P M 2 Pi < P
i

=
i
n (n < 1)
n (n < 1)
n

2
2
2
2
18
18
18
2
2
<
<
<
= 1,04209
+
+

33 315
35 315
40 315

292 Muestreo estadstico. Conceptos y problemas resueltos

Para estimar la proporcin de artculos propiamente identificados observamos que


los tres departamentos seleccionados para la muestra (el 4, el 5 y el 14) tienen 36, 30 y 27
artculos propiamente identificados, respectivamente. El estimador ser el siguiente:
1
P =
n i
n

Mi
Mi
Pi
Pi
n
1
1 n
1 36 30 27
M
= M
= Pi =
+
+
= 0,858
3 40 35 33
Pi
n i Mi M n i

(P < P )
n

2
2
2
1
1 36
30
27

V P = 2V A =
=
< 0,858 + < 0,858 + < 0,858 = 0,000558
M
n(n < 1)
3 u 2 40
35
33

()

()

El intervalo de confianza al 95%, suponiendo normalidad, ser:


P h_ V ( P ) = 0,858 1,96 0,000558 = [0.8117, 0.9043]

7.6.

Un fabricante de sierras quiere estimar el costo de reparacin promedio mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de
reparacin por sierra, pero puede obtener la cantidad total gastada en reparacin y el nmero
de sierras que tiene cada industria. El fabricante decide seleccionar una muestra aleatoria
simple sin reposicin de 20 industrias de entre las 96 a las que ofrece servicio. Los datos de gasto
total mensual en reparaciones por industria y el nmero de sierras por industria se presentan en
la tabla siguiente:
Indus.

N de

Costo total de

N de

Costo total de

reparaciones

Indus.

mensual
50

11

mensual
140

110

12

130

11

230

13

70

140

14

50

5
6

2
12

60
280

15
16

1
4

10
60

14

240

17

12

280

45

18

150

60

19

110

10

230

20

120

sierras

sierras

reparaciones

1) Estimar el costo promedio de reparacin mensual por sierra y su error de muestreo.


2) Estimar la cantidad gastada por las 96 industrias en la reparacin de sierras y su error de
muestreo.
3) Despus de verificar sus registros de ventas, el fabricante se percata de que ha vendido un
total de 710 sierras a esas industrias. Usando esta informacin adicional, estimar la
cantidad total gastada en reparacin de sierras para estas industrias y su error de muestreo.
4) El mismo fabricante quiere estimar el coste de reparacin promedio por sierra para el mes
siguiente: cuntos conglomerados debe seleccionar en la muestra si quiere que su error de
muestreo sea inferior a una unidad?

Muestreo unietpico de conglomerados

293

Consideramos las industrias como conglomerados (N = 96). Se extrae una muestra de 20


conglomerados (n = 20) siendo las unidades elementales el nmero de sierras Mi de cada
industria. El coste promedio de reparacin de sierra se estimar como la razn entre el coste
total de reparacin por industria y el nmero de sierras por industria. Como los
conglomerados son de tamaos desiguales tenemos:
n

x=

X
i =1
n

M
i =1

50 + 110 + L + 120 2565


=
= 19,73
3 + 7 +L+ 8
130

10
10
10
1< f 2 2 2
S ) = 1 < f ( X 2 + R 2 M 2 < 2R X M ) =
V ( x ) =
(
S
+
R
S
<
2
R
x
M
xm
i
i
i
i
nM 2
nM 2 (n < 1) i =1
i =1
i =1
20
1<
96
(460225+ 19,732 u1188< 2 u19,73u 22285) = 0,7905 m ( x ) = 0,89
2
130
20 u
u (20 < 1)
20
Para estimar el coste total en reparacin de sierras en las industrias tomamos:

N
X =
n
n

(X

X
i =1

< x)

96
2565 = 12312
20
2

X i
i =1

<
)=
n

N 2 (1 < f ) n
1 < f i =1 i
2
=
V ( X ) = N 2
( X i
n(n < 1) i =1
n
n <1
20
96 2 (1 < )
2
96 (460225 < (2565) ) = 25200516 m ( X ) = 1587,467
20
20(20 < 1)

Ahora conocemos M = 710 y queremos estimar la cantidad total gastada para


reparacin de sierras en las industrias. Utilizaremos el estimador del total basado en la razn
definido como:
n

X =

X
i =1
n

M
i =1

uM =

2565
u 710 = 14008,846
130

10
N 2 (1 < f ) 10 2 2 10 2
1< f 2 2 2
V ( X ) = N 2
( Xi + R Mi < 2R Xi Mi )
(Sx + R SM < 2RSxm ) =
n(n <1) i =1
n
i =1
i =1

20
962 1 <
96 (460225+ 19,732 u1188< 2 u19,73u 22285) = 308467,24 m ( X ) = 555,4
=
20u (20 <1)
El nmero n de conglomerados a seleccionar en la muestra si se quiere un error de
muestreo inferior a una unidad al estimar el coste de reparacin promedio por sierra para el
mes siguiente se obtiene despejando n en la expresin:

294 Muestreo estadstico. Conceptos y problemas resueltos

n
96 16066,002 < 1 n > 14
V (x ) =
2
19
710
nu

96
1<

7.7.

Un socilogo quiere estimar el ingreso promedio por persona en una ciudad pequea en la que
no est disponible una lista de residentes. Par ello, se divide la ciudad en 415 bloques
rectangulares de residentes sobre un mapa y se realizan entrevistas en 25 bloques. Se pregunta
a los residentes de cada bloque por su ingreso total. Se obtienen los siguientes resultados:
Conglomerado
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
SUMAA

Nmero de
Ingreso total por
residentes (Mi ) conglomerado (Xi )
8
96000
12
121000
4
42000
5
65000
6
52000
6
40000
7
75000
5
65000
8
45000
3
50000
2
85000
6
43000
5
54000
10
49000
9
53000
3
50000
6
32000
5
22000
5
45000
4
37000
6
51000
8
30000
7
39000
3
47000
8
41000
151
1329000

1) Estimar el ingreso promedio por persona en la ciudad y establecer un lmite para el error de
estimacin.
2) Estimar el ingreso total de todos los residentes de la ciudad y establecer un lmite para el
error de estimacin sabiendo que hay 2500 residentes en la ciudad.
3) Estimar el ingreso total de todos los residentes de la ciudad y establecer un lmite para el
error de estimacin si se desconoce el nmero de residentes en la ciudad.
Consideramos los bloques rectangulares de residentes como conglomerados (N = 415). Se
extrae una muestra de 25 conglomerados (n = 25), siendo las unidades elementales el
nmero de residentes Mi de cada bloque.

Muestreo unietpico de conglomerados

295

El ingreso promedio por persona en la ciudad se estimar como la razn entre el


ingreso total de los bloques y el nmero de residentes en los bloques. Como los
conglomerados son de tamaos desiguales tenemos:
n

x=

X
i =1
n

M
i =1

1329000
= 8801
151

10
10
10
1< f 2 2 2
1< f
V ( x ) =
( S x + R S M < 2 R S xm ) =
( X i2 + R 2 M i2 < 2 R X i M i ) = 653785
2
2
nM
nM (n < 1) i =1
i =1
i =1

El lmite para el error de estimacin al 95% ser:


x 2 V ( x ) = 8801 2 653785 = 8801 1617

Para estimar el ingreso total de todos los residentes de la ciudad hacemos lo siguiente:
X = Mx = 2500(8801) = 22002500

El error de estimacin se estima mediante:


V ( X ) = M 2V ( x ) = 2500 2 (653785)

El lmite para el error de estimacin al 95% ser:


X 2 V ( X ) = 22002500 4042848

Si no se conocen los residentes en la ciudad M, para estimar el ingreso total de todos


los residentes de la ciudad utilizamos el estimador:
N
X =
n
n

X
i =1

415
1329000 = 22061400
25
2

X i
i =1
)=
<
n

(X i < x ) N 2 (1 < f ) n
1< f
2
i =1
V ( X ) = N 2
=
( X i
n
n <1
n( n < 1) i =1
25
)
415 2 (1 <
2
415 (82039000000 < (1329000) ) m ( X ) = 1752960
25
25(25 < 1)
2

El lmite para el error de estimacin al 95% ser:


X 2 V ( X ) = 22061400 3505920

296 Muestreo estadstico. Conceptos y problemas resueltos

7.8.

Un auditor desea muestrear los registros de ausencias por enfermedad de una gran empresa,
para estimar el nmero promedio de das de ausencia por enfermedad por empleado en el
cuatrimestre pasado. La empresa tiene ocho divisiones, con diferentes nmeros de empleados
por divisin. Ya que el nmero de das de ausencia por enfermedad dentro de cada divisin
debe estar altamente correlacionado con el nmero de empleados, el auditor decide muestrear
n = 3 divisiones con probabilidad proporcional al nmero de empleados. Mostrar cmo
seleccionar la muestra si los respectivos nmeros de empleados son 1200, 450, 2100, 860,
2840, 1910, 390, 3200.
Supngase que el nmero total de das de ausencia por enfermedad registrados en las tres
divisiones muestreadas durante el cuatrimestre pasado son, respectivamente, X1 = 4320, X2 =
4160, X3 = 5790. Estimar el nmero promedio de das de ausencia por enfermedad requeridos
por persona, de toda la empresa, y establecer un lmite para el error de estimacin.
Comenzamos listando el nmero de empleados y el intervalo acumulado para cada divisin.
Divisin
1
2
3
4
5
6
7
8

Nmero de
empleados
1200
450
2100
860
2840
1910
390
3200
12950

Intervalo acumulado
1-1200
1201-1650
1651-3750
3751-4610
4611-7450
7451-9360
9361-9750
9751-12950

Como se van a muestrear n = 3 divisiones, debemos seleccionar tres nmeros


aleatorios entre 00001 y 12500. Los nmeros obtenidos mediante una funcin generadora de
nmeros aleatorios automatizada resultan ser 02011, 07972 y 10281. El primero pertenece al
intervalo acumulado de la divisin 3, el segundo al de la divisin 6 y el tercero al de la
divisin 8. Por lo tanto, la muestra estar formada por las divisiones 3, 6 y 8.
X HH

1
=
M

Xi
n
n
Xi
X i 1 4220 4160 5790
M =1
=
=
+
+
= 2,02

M i n i =1 M i 3 3100 1910 3200


i =1 nPi
i =1
n
M
n

2
n

Xi
X i < X HH

<
X

HH

M
i =1 MPi
1 i =1 Pi

=
V ( X HH ) = 2
n(n < 1)
n(n < 1)
M
n

n
X

i

<
X

HH

Mi
i =1

M
M

=
=
n(n < 1)

2
2
2
Xi
4220
4160
5790

<
X
<
+
<
+
<
2
,
02
2
,
02
2
,
02

HH

i =1 M i

3100
1910
3200

=
= 0,0119
n(n < 1)
3(3 < 1)
n

El lmite para el error de estimacin ser 2 0,0119 = 0,22 .

Muestreo unietpico de conglomerados

297

EJERCICIOS PROPUESTOS
7.1.

7.2.

De una poblacin formada por N conglomerados se selecciona una muestra de tamao n con
un procedimiento mediante el cual se elige la primera unidad para la muestra con
probabilidades desiguales Pi, y los n < 1 conglomerados restantes de la muestra se eligen con
probabilidades iguales, realizndose todas las extracciones sin reposicin. Se pide una
estimacin insesgada del total poblacional X y sus errores absoluto y relativo de muestreo
siendo N = 50, n = 4, Xi el total del conglomerado i-simo y conociendo los siguientes datos
de los conglomerados de la muestra:
Pi

0,026 0,017 0,022 0,013

Xi

100

80

120

60

En una poblacin compuesta por 10 conglomerados de 100 elementos se toma una muestra
monoetpica de n conglomerados. Por experiencias anteriores se sabe que el modelo de
Smith S2b = S2 M t se ajusta bien en la proximidad de M =100 y se conoce el valor de S2b
=1173. Se pide:
Calcular el valor de t y S2w en el supuesto de que S2b/ S2 =13,8.
Formar la tabla poblacional del anlisis de la varianza y hallar el coeficiente de correlacin
intraconglomerados.

7.3.

Una industria est considerando la revisin de su poltica de jubilacin y quiere estimar la


proporcin de empleados que apoyan la nueva poltica. La industria consiste de 87 plantas
separadas localizadas en todo Estados Unidos. Ya que los resultados deben ser obtenidos
rpidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con
cada planta como un conglomerado. Se selecciona una muestra irrestricta aleatoria de 15
plantas y se obtienen las opiniones de los empleados en estas plantas a travs de un
cuestionario. Los resultados se presentan en la tabla anexa. Estimar la proporcin de
empleados en la industria que apoyan la nueva poltica de jubilacin y establecer un lmite
para el error de estimacin.
Planta

Nmero de
empleados

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

51
62
49
73
101
48
65
49
73
61
58
52
65
49
55

Nmero de empleados
que apoyan la nueva
poltica
42
53
40
45
63
31
38
30
57
45
51
29
46
37
42

298 Muestreo estadstico. Conceptos y problemas resueltos

7.4.

El gerente de circulacin de un peridico desea estimar el nmero promedio de ejemplares


comprados por familia en determinada comunidad. Los costos de transporte de un hogar a
otro son sustanciales. Es por eso por lo que se listan los 4000 hogares de la comunidad en
400 conglomerados geogrficos de 10 hogares cada uno, y se selecciona una muestra
irrestricta aleatoria de 4 conglomerados. Se realizan las entrevistas con los resultados que se
muestran en la tabla anexa. Estimar el nmero promedio de peridicos por hogar en la
comunidad y establecer un lmite para el error de estimacin.
Conglomerado
1
2
3
4

7.5.

1
1
2
1

Nmero de peridicos
2
1
3
3
2
2
1
1
1
1
3
2

3
3
1
1

2
1
3
5

1
4
2
1

4
1
1
2

1
1
3
3

1
2
1
1

Total
19
20
16
20

Se disea una encuesta econmica para estimar la cantidad promedio gastada en servicios
para el hogar en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa
muestreo por conglomerados, con divisiones (barrios) formando los conglomerados. Se
selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los
entrevistadores obtienen el costo de los servicios de cada hogar dentro de los barrios
seleccionados; los costos totales se muestran en la tala anexa. Estimar la cantidad promedio
de gastos en servicios por hogar en la ciudad y establecer un lmite para el error de
estimacin.
Barrio
muestreado
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Nmero de
hogares
55
60
63
58
71
78
69
58
52
71
73
64
69
58
63
75
78
51
67
70

Cantidad total
gastada en servicios
2210
2390
2430
2380
2760
3110
2780
2370
1990
2810
2930
2470
2830
2370
2390
2870
3210
2430
2730
2880

CAPTULO
MUESTREO BIETPICO
DE CONGLOMERADOS

OBJETIVOS
1. Presentar el concepto de muestreo de conglomerados en dos etapas.
2. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
del mismo tamao con probabilidades iguales.
3. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
del mismo tamao con probabilidades iguales considerando todas las opciones
posibles de reposicin o no en ambas etapas.
4. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
de distinto tamao con probabilidades iguales.
5. Analizar los estimadores y sus errores en muestreo bietpico de
conglomerados de distinto tamao con probabilidades iguales considerando
todas las opciones posibles de reposicin o no en ambas etapas.
6. Estudiar el tamao de la muestra en muestreo bietpico.
7. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
con probabilidades desiguales y con reposicin en primera etapa.
8. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados
con probabilidades desiguales y sin reposicin en primera etapa.
9. Presentar el concepto de muestreo polietpico.
10. Analizar los estimadores y sus errores en muestreo polietpico.
11. Estudiar diseos polietpicos complejos.
12. Estudiar el muestreo bietpico con estratificacin en primera etapa.

300 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo bietpico de conglomerados. Estimadores para probabilidades
iguales y conglomerados del mismo tamao.
2. Varianzas y su estimacin en muestreo bietpico con probabilidades iguales
y conglomerados del mismo tamao.
3. Muestreo bietpico de conglomerados de distinto tamao y probabilidades
iguales.
4. Tamao de la muestra en muestreo bietpico.
5. Muestreo bietpico con probabilidades desiguales y con reposicin en 1
etapa. Estimadores, varianzas y su estimacin.
6. Muestreo bietpico con probabilidades desiguales y sin reposicin en 1
etapa. Estimadores, varianzas y su estimacin.
7. Muestreo polietpico.
8. Diseos complejos: Muestreo bietpico con estratificacin en primera
etapa.
9. Problemas resueltos.
10. Ejercicios propuestos.

Muestreo bietpico de conglomerados

301

MUESTREO BIETPICO DE CONGLOMERADOS. ESTIMADORES PARA


PROBABILIDADES IGUALES Y CONGLOMERADOS DEL MISMO TAMAO
El muestreo bietpico de conglomerados es un tipo de muestreo en el que en una primera etapa se
selecciona una muestra de n conglomerados de tamaos Mi, i = 1, 2, ..., n y en una segunda etapa
se selecciona, independientemente en cada conglomerado de la primera etapa, una submuestra de
mi unidades elementales de entre las Mi del conglomerado. En ambas etapas la seleccin puede
ser con o sin reposicin, pero en la segunda etapa suele usarse muestreo sin reposicin. En la
segunda etapa se puede utilizar cualquier tipo de muestreo de los ya estudiados, pero
generalmente sin reposicin y probabilidades iguales.
En el muestreo bietpico no es necesario utilizar todas las unidades elementales de
los conglomerados seleccionados en primera etapa. Tampoco es necesario un marco de
unidades elementales completo; basta con un marco ms basto para conglomerados, y dentro
de cada conglomerado basta con un submarco para el submuestreo en segunda etapa. De esta
forma, a medida que se consideran etapas de submuestreo se utilizan submarcos ms bastos,
y por lo tanto ms fciles de conseguir y manejar, que los marcos completos de unidades
elementales. Cuando hay un cierto grado de homogeneidad dentro de los conglomerados
muestrales es absurdo seleccionar todas sus unidades elementales para la muestra. Bastar
con elegir slo algunas de ellas originndose el submuestreo. En el muestreo bietpico se
necesitan menos recursos y el coste es menor, ya que slo se visitan algunas de las unidades
elementales de los conglomerados elegidos en primera etapa para la muestra. No obstante, en
el muestreo bietpico la precisin es menor; los submarcos dentro de cada conglomerado
pueden originar complicaciones al aumentar el nmero de etapas de submuestreo y aparecen
fuentes de variacin que complican los clculos algebraicos (tantas fuentes como etapas
tenga el muestreo). La primera fuente es debida a la seleccin de las unidades primarias y la
fuente 2 es debida al submuestreo dentro de cada unidad primaria.
El muestreo bietpico tambin se denomina muestreo en dos etapas o muestreo con
submuestreo (el submuestreo es la segunda etapa).
Un estimador insesgado de la media ser, lgicamente, la media muestral de las
medias muestrales derivadas del submuestreo dentro de cada conglomerado:
x=

1
nm

X ij =

1 n
xi
n i

Para el total poblacional, proporcin y total de clase, los estimadores insesgados son
los siguientes:

NM
X = N M x =
n

xi ,
i

1 n
NM
P = Pi , A = NMP =
n i
n

P
i

VARIANZAS Y SU ESTIMACIN EN MUESTREO BIETPICO CON


PROBABILIDADES IGUALES Y CONGLOMERADOS DEL MISMO TAMAO
Las expresiones para la varianzas de los estimadores en el muestreo bietpico dependern de
las fracciones de muestreo en ambas etapas y de la reposicin. Tenemos:

302 Muestreo estadstico. Conceptos y problemas resueltos

Muestreo sin reposicin en las dos etapas


V (x ) = (1 < f 1 ) u

S b2
S2
+ (1 < f 2 ) u w
nM
nm
N

( X

n
m
f1 = , f 2 =
, S b2 = M
N
M

<X

N <1

(X
M

, S w2 =

< Xi )

ij

(M < 1) u N

N 2 MS b2
N 2 M 2 S w2
+ (1 < f 2 ) u
V ( X ) = N 2V (x ) = (1 < f 1 ) u
n
nm
N
1
1 N
2
MPi ( 1 < Pi )
M ( Pi < P )

N ( M < 1) i =1
N <1 i
+ (1 < f 2 )
=
nM
nm

V ( P$ ) = ( 1 < f 1 )

(1 < f )

( P < P)
i

+ (1 < f 2 )

n( N < 1)

V ( A$ ) = N 2 M 2V ( P$ ) = ( 1 < f 1 )

MP (1 < P )

N M

i =1

nm N ( M < 1)

( P < P)
i

n( N < 1)

+ (1 < f 2 )

NM

P (1 < P )
i =1

nm ( M < 1)

A partir de la tabla de descomposicin del anlisis de la varianza muestral, pueden


realizarse las estimaciones de las varianzas. La citada tabla es la siguiente:
Fuente

Grados libertad

n <1

Entre

Sumas de cuadrados

(x
i

Dentro
Total

n(m < 1)

<x

( X
i

(X

nm < 1

ij

ij

Cuadrados medios Valores esperados

< xi
<x

m 2
S b + (1 < f 2 )S w2
M

Sb2

S w2

S w2

S 2

S2

Las estimaciones de las varianzas para las dos etapas sin reposicin son las siguientes:
S 2
S 2
V (x ) = (1 < f 1 ) b + f 1 (1 < f 2 ) w , y V ( X ) = N 2 M 2V ( x )
nm
nm
n

()

V P = (1 < f1 ) u

(P < P )
i

n(n < 1)

+ f1 (1 < f 2 ) u

PQ
i
2

n (m < 1)

Muestreo bietpico de conglomerados

V$ ( X$ ) = N 2 M 2V$ ( x )

303

y V$ ( A$ ) = N 2 M 2V$ ( P$ )

S$b2
$
Si f1 es muy pequea, se toma V ( x ) = ( 1 < f 1 ) u
.
nm
Muestreo con reposicin en las dos etapas
V (x ) =

m b2

nM

m w2
nm

N 2 Mmb2 N 2 M 2m w2
$
(
)
V ( X ) = V NMx =
+
n
nm

V ( P$ ) =

1
N

M ( P < P)
i

nM

1
NM

MP (1 < P ) ( P < P)
i

i =1

nm
N

V ( A$ ) = N 2 M 2V ( P$ ) =

NM 2 ( Pi < P )

nN

P (1 < P )
i

i =1

nm N

NM 2 Pi ( 1 < Pi )
i =1

nm

Las estimaciones de varianzas son:


S 2
V (x ) = b ,
nm

2
m n
i (Pi < P )
n
1
<
V P =
=
nm

()

y V ( X ) = N 2 M 2V ( x )

(P < P )
n
i

(P < P )
n

()

y V A = N 2 M 2

n(n < 1)

n(n < 1)

Primera etapa con reposicin y segunda sin reposicin


V (x ) =

m b2
nM

+ (1 < f 2 )

S w2
nm

N 2 Mmb2
N 2 M 2 S w2
$
(
)
V ( X ) = V NMx =
+ (1 < f 2 )
n
nm
N
N
N
1
1 N
2
2
MPi ( 1< Pi ) ( Pi < P)
M( Pi < P)
MPi ( 1< Pi )

N ( M < 1) i =1
N i
V ( P$) =
+ (1< f2 )
= i
+ (1< f2 ) i =1
nM
nm
nN
nmN ( M < 1)

V ( A$ ) = N 2 M 2V ( P$ ) =

NM 2 ( Pi < P)
i

+ (1 < f 2 )

NM 3 Pi ( 1 < Pi )
i =1

nm ( M < 1)

304 Muestreo estadstico. Conceptos y problemas resueltos

Las estimaciones de varianzas son iguales que para reposicin en las dos etapas:
S 2
V (x ) = b ,
nm

m n
(Pi < P )2

n <1 i
V P =
=
nm

()

y V ( X ) = N 2 M 2V ( x )

(P < P )
n

()

(P < P )
n

y V A = N 2 M 2

n(n < 1)

n(n < 1)

Primera etapa sin reposicin y segunda con reposicin


V (x ) = (1 < f1 )

S b2 m w2
+
nM nm

N 2 MSb2 N 2 M 2m w2
$
V ( X ) = V ( NMx ) = (1 < f 1 )
+
n
nm
N
N
1 N
1 N
2
(Pi < P)2 Pi (1 < Pi )
M (Pi < P)
MPi (1 < Pi )

+ NM i =1
= (1 < f1) i
+ i =1
V P = (1 < f1) N <1 i
nM
nm
n(N <1)
nmN

()

V ( A$ ) = N 2 M 2V ( P$ ) = (1 < f 1 )

N 2 M 2 ( Pi < P)

n( N < 1)

NM 2 Pi ( 1 < Pi )
i =1

nm

Cuando la primera etapa es sin reposicin y la segunda con reposicin, las


estimaciones de varianzas son:
S 2
S 2
V (x ) = (1 < f 1 ) b + f 1 w , y V ( X ) = N 2 M 2V ( x )
nm
nm
N

()

V P = (1 < f1)

(P < P) P(1< P)
2

n(N <1)

i =1

nmN

y V ( A ) = N 2 M 2V ( P )
n

m n
(Pi < P )2 y S w2 =
Para proporciones y totales de clase: S b2 =

n <1 i

m P (1 < P )
i =1

n(m < 1)

MUESTREO BIETPICO DE CONGLOMERADOS DE DISTINTO TAMAO


Y PROBABILIDADES IGUALES
1 n
N
Para probabilidades iguales se tiene: X = N M i x i =
n i
n

M
i

xi .

Las dos etapas sin reposicin


Las varianzas y sus estimaciones para las dos etapas sin reposicin son las siguientes:

Muestreo bietpico de conglomerados

( )

V X = N 2 u (1 < f 1 )

(X
i

< X)

Mi

(X

n(N < 1)

N
n

M u (1 < f ) u (M
j

2
i

2i

X < X
2

i
(
)
<
1
N
f
N
i

1
u i
V X =
+
n
n <1
n

( )

< 1)mi

mi

< Xi )

ij

M (1 < f 2i
mi
2
i

(X
)
u
j

< xi )

ij

mi < 1

X i = X i , X i = M i x
n i

i
n

Primera etapa sin reposicin y segunda etapa con reposicin


En este caso, las varianzas y sus estimaciones son las siguientes:
N

( )

V X = N 2 u (1 < f 1 )

(X
i

< X)

n(N < 1)

N
n

M
i mi
i

Mi

(X
j

mi

X < X
2

i
(
)
<
N
1
f
N
i

1
u i
V X =
+
n
n <1
n

( )

1

X i = X i ,
n i

< Xi )

ij

2
i

M
u
mi

(X
j

< xi )

ij

mi < 1

X i = M i x i

Las dos etapas con reposicin


En este caso, las varianzas y sus estimaciones son las siguientes:

( )

2
N N
N
V X = u (X i < X ) +
n i
n
i

i X i < X i
2
N
u
V X =
n
n <1

M
i mi
i
N

Mi

(X
j

< Xi )

ij

( )

1 n

X i = X i y X i = M i x i
n i

Primera etapa con reposicin y segunda sin reposicin


En este caso, las varianzas y sus estimaciones son las siguientes:
Mi

( )

N
V X =
n

(X
i

< X) +
2

N
n

i X i < X i
2
N
u
V X =
n
n <1

( )

(X

M u (1 < f ) u (M
i

2
i

2i

< Xi )

ij

< 1)mi

1 n

X i = X i y X i = M i xi
n i

305

306 Muestreo estadstico. Conceptos y problemas resueltos

1 n
Para proporciones y totales de clase: X i = M i Pi y X i = M i Pi
n i

Los estimadores para medias, proporciones y totales de clase en el muestreo


bietpico con probabilidades iguales y conglomerados de distinto tamao son inmediatos:

X N n M i
1
1
X =
=
xi , V ( X ) = 2 V ( X ) , V ( X ) = 2 V ( X )
M n i M
M
M
N
P =
n

N n
Mi
Pi , A = MP = Mi Pi

M
i

Pi = proporcin muestral en el conglomerado i-simo


Las frmulas para la varianza del total de clase y su estimacin en el caso de
muestreo sin reposicin en ambas etapas son las siguientes:

()

N 3 PQ N
V A = (1 < f 1 )
+
n(N < 1) n

PQ
M u (1 < f ) u (M < 1)m
N
i

3
i

2i

1 n

M i Pi < M i Pi

2
N (1 < f 1 ) i
n i =1
+N
u
V A =
n
n <1
n
n

()

PQ
M (1 < f ) u m < 1
n

2
i

2i

Las frmulas para la varianza del total de clase y su estimacin en el caso de


muestreo sin reposicin en primera etapa y con reposicin en segunda son las siguientes:

()

N 3 PQ
N
+
V A = (1 < f 1 )
n(N < 1) n

M i2
i m Pi Qi
i
N

1 n

<
M
P
M i Pi

i i
2
N (1 < f 1 ) i
n i =1
+N
u
V A =
n
n <1
n
n

()

M i2 u
i

Pi Q i
mi < 1

Las frmulas para la varianza del total de clase y su estimacin en el caso de


muestreo con reposicin en ambas etapas son las siguientes:

()

N2
N
V A =
PQ +
n
n

M i2
Pi Qi
mi

< 1 M P
M
P

i
i
i i
N2 i
n i =1

u
V A =
n
n <1
n

()

Muestreo bietpico de conglomerados

307

Las frmulas para la varianza del total de clase y su estimacin en el caso de


muestreo con reposicin en primera etapa y sin reposicin en segunda son las siguientes:

()

N2
N
V A =
PQ +
n
n

PQ
M u (1 < f ) u (M < 1)m
N
i

3
i

2i

< 1 M P
M
P

i
i
i i
N2 i
n i =1

V A =
u
n
n <1
n

()

1
1
Para proporciones aplicamos V ( P ) = 2 V ( A ) y V ( P ) = 2 V ( A ) .
M
M

TAMAO DE LA MUESTRA EN MUESTREO BIETPICO


Suele expresarse el coste total C mediante la funcin general de costes f ( n, M , m ) definida
como:

C = co + c1n a1 + c2 ( nM )

a2

+ c3 ( nM )

a3

en donde c0 representa un coste fijo que suele incluir, dependiendo de las encuestas, gastos
de preparacin tcnica, gastos administrativos previos, cartografa, etc. Puede empezarse
por suponer deducido el coste co del total C, para no preocuparse ms que de la distribucin
de los costes variables.
Por otra parte, c1 , c2 y c3 son los costes unitarios por unidad primaria, por unidad
secundaria listada y por unidad secundaria que sea objeto de entrevista o medida,
respectivamente.
Como casos particulares tpicos de nuestra funcin de costes tenemos:
1) a1 = a2 = a3 = 1, C = c1n + c2 nM + c3 nm
2) Adems de verificarse la condicin anterior, suponemos c2 = 0, con lo cual no se
cuenta el coste del listado de unidades de segunda etapa. Ahora tenemos: C = c1n + c3 nm ,
que suele denominarse funcin de coste de campo, y que es la ms utilizada habitualmente.
3) Adems de las dos condiciones anteriores suponemos que c 1 = 0, lo que equivale
a considerar el coste total directamente proporcional al tamao de la muestra. Tendremos
C = cnm = cm .
Una expresin matemtica de la funcin de coste no deducible de la funcin general
anterior es la funcin de coste de Hansen, Hurwitz y Madow, cuya expresin es
C = co n + c1n + c2 nm , donde el primer trmino expresa los gastos de viaje entre las
unidades primarias. Hansen, Hurwitz y Madow obtienen el par
varianza para una funcin de coste dada.

( n, m )

que minimiza la

308 Muestreo estadstico. Conceptos y problemas resueltos

Nosotros vamos a suponer en los clculos una funcin de coste de campo definida
como C = n u c1 + n u m u c2 , y evaluaremos la varianza de la media a optimizar mediante la
S2
(1 + (m < 1) u b ) . Para obtener los valores de n y m que
expresin aproximada V (x ) =
nm
hagan mnima V ( x ) con la restriccin dada por la funcin de coste de campo construiremos
la funcin de Lagrange:

S2
q=
u ( 1 + ( m < 1) , ) + h ( C < n u c1 < n u m c2 )
nm
Igualaremos a cero sus derivadas parciales respecto de n, m y h y eliminando
parmetros adecuadamente se tiene:
c 1<b
mop = 1 u
c2
b

MUESTREO BIETPICO CON PROBABILIDADES DESIGUALES Y CON


REPOSICIN EN 1 ETAPA. ESTIMADORES, VARIANZAS Y SU ESTIMACIN
Si consideramos la unidad muestral primaria i-sima de muestreo como una poblacin,
siendo X$ i una estimacin de su total al considerar el submuestreo, y representamos por xi
un estimador insesgado de su media, podemos aplicar la expresin del estimador general de
Hansen y Hurwitz X$ HH (estudiado en el Captulo 2) al muestreo bietpico, siendo la primera
etapa con reposicin (la segunda etapa puede ser con o sin reposicin). As, un estimador
insesgado del total ser:
n
X
1 n X
1 n M x

Un estimador insesgado del total ser: X HH = i = i = i i .


n i Pi
n i Pi
i nPi

N
Mi
Para probabilidades proporcionales al tamao A Pi =
con M = M i , luego:
M
i =1

1 n M x
1 n M i xi
M

X HH = i i =
=
n i Pi
n i Mi M
n

x
i

Los estimadores para medias, proporciones y totales de clase en el muestreo


bietpico con probabilidades desiguales son inmediatos:

1
1
X =
X HH =
M
M

Mi
Mi
x
Pi
n
X i 1 n M i
1
1 n M P

M
A
M
P
M
=
,
=
=
= i i
i nP n i P

n i
Pi
n i Pi
i
i
Mi
P
1 n M i
P=
n i
Pi
n

Pi = proporcin muestral en el conglomerado i-simo.

Muestreo bietpico de conglomerados

309

Varianzas
Como la primera etapa es siempre con reposicin, distinguiremos entre si la segunda etapa
es con reposicin o sin reposicin.
Sin reposicin en segunda etapa
2

M 2 (1 < f 2i ) 2
1 N X
1

V ( X HH ) = i < X Pi + i
u S i , V ( X HH ) = 2 V ( X HH )
M
n i =1 Pi
nPi mi
i

N M2 (1< f2i ) Mi PiQi


1 N A

V( AHH) = i < A2 + i
u
n i=1 Pri
Mi <1
i nPrimi

V ( PHH ) = 2 V ( A )
M

Para el caso particular de probabilidades proporcionales a los tamaos Pi =


con M =

Mi
M

M , se tiene:
i =1

2
2

Mi N Mi2 (1< f2i ) 2 M N Xi2 X 2 N Mi


1 N Xi

< X
+
u Si = < + (1< f2i ) u Si2
V ( XHH) =
n i =1 Mi M i mi
n i =1 Mi / M

M i nmi Mi / M

Con reposicin en segunda etapa


2

M i2
1 N X
1

V ( X HH ) = i < X Pi +
u m i2 , V ( X HH ) = 2 V ( X HH )
M
n i =1 Pi
i nPi mi

M i2
1 N A

V ( A HH ) = i < A Pri +
u Pi Qi
n i =1 Pri
i nPri mi

V ( PHH ) = 2 V ( A )
M

Para el caso particular de probabilidades proporcionales a los tamaos Pi =


con M =

Mi
M

M , se tiene:
i =1

2
2
2

N
Mi N
M i2
M
1 N Xi
M N Xi
X2

2
+ i u m i2

V ( X HH ) =
< X
+
um i =
<
n i =1 M i / M
n i =1 M i M
mi

i nmi M i / M
i
M

310 Muestreo estadstico. Conceptos y problemas resueltos

Estimacin de varianzas (obtenidas por el mtodo de los conglomerados ltimos)


Los estimadores insesgados para las varianzas de los estimadores cuando la primera etapa es con
reposicin, no dependen de si la segunda etapa es o no con reposicin.
Independientemente de que la segunda etapa sea o no con reposicin, si la primera
etapa es con reposicin, los estimadores insesgados para las varianzas de los estimadores son
los siguientes:
2
n

i P < X HH

i
1

V X =
, V ( X ) = 2 V ( X HH )
n(n < 1)
M

2

A i
i P < A
i

=
V A =
n(n < 1)

n

M i Pi

i P < MP

i
n(n < 1)
n

V ( P ) = 2 V ( A )
M

MUESTREO BIETPICO CON PROBABILIDADES DESIGUALES Y SIN


REPOSICIN EN 1 ETAPA. ESTIMADORES, VARIANZAS Y SU ESTIMACIN
Si consideramos la unidad muestral primaria i-sima de muestreo como una poblacin,
siendo X$ i una estimacin de su total al considerar el submuestreo, y representamos por xi
un estimador insesgado de su media, podemos aplicar la expresin del estimador general de
Hoewitz y Thompson X HT al muestreo bietpico, siendo la primera etapa sin reposicin (la
segunda etapa puede ser con o sin reposicin). As, un estimador insesgado del total ser:
n
n
X
M x

X HT = i = i i
i

/i

/i

Como casos particulares de este estimador tenemos:


Conglomerados del mismo tamao M
n
n
Mxi
x

X HT =
= M i
i

/i

Probabilidades proporcionales al tamao A / i =

/i

N
nM i
con M = M i
M
i =1

n
n
M x
M i xi
M

X HT = i i =
=
/i
n
i
i nM i M

x
i

Muestreo bietpico de conglomerados

Probabilidades iguales A / i =

311

n
N

n
n
M x
M x
N

X HT = i i = i i =
/i
n
i
i n N

M x
i

Vemos que las expresiones de los estimadores coinciden en muestreo con y sin
reposicin.
Los estimadores para medias, proporciones y totales de clase en el muestreo
bietpico con probabilidades desiguales son inmediatos:

1
1
X =
X HT =
M
M
n

P =
i

Mi
Pi
M

/i

X i

/ =

Mi
xi
M

/i

Pi = proporcin muestral en el conglomerado i-simo

A = MP = M
i

Varianzas

Mi
Pi
n
M P
M
= i i

/i

/i

Como la primera etapa es siempre sin reposicin, distinguiremos entre si la segunda etapa es
con reposicin o sin reposicin.
Sin reposicin en segunda etapa
N
N
N
(1 < f 2i ) M i2 S i2
X2
X Xj

,
(/ ij </ i / j ) +
V ( X HT ) = i (1 </ i ) + i
mi / i
i =1 / i
i& j / i / j
i

V ( X HH ) = 2 V ( X HH )
M

Con reposicin en segunda etapa


N
N
N

X2
X Xj
M 2m 2
1

(/ ij </ i / j ) + i i , V ( X HH ) = 2 V ( X HH )
V ( X HT ) = i (1 </ i ) + i
mi / i
M
i =1 / i
i& j / i / j
i

Para el caso particular de totales de clase y proporciones se hacen las siguintes


sustituciones en las frmulas anteriores:
S i2 =

Mi
Pi Qi , m i2 = Pi Qi
Mi <1

312 Muestreo estadstico. Conceptos y problemas resueltos

Estimacin de varianzas (obtenidas mediante los teoremas I y II de Durbin)


Sin reposicin en segunda etapa
n
n
n
X i2
X i X j
(1 < f 2i ) M i2 S i2

V ( X HT ) =
(1 </ i ) +
(/ ij </ i/ j ) +
mi / i
i& j / i / j
i =1 / i
i

Con reposicin en segunda etapa


N
N
N
X 2
X X j
M 2 S 2

V ( X HT ) = i (1 </ i ) + i
(/ ij </ i / j ) + i i
mi / i
i& j / i / j
i
i =1 / i

Para las medias se hace V ( X HH ) = 2 V ( X HH ) .


M

mi
Para el caso particular de totales de clase y proporciones se hace S i2 =
Pi Qi .
mi < 1

MUESTREO POLIETPICO
En el muestreo polietpico se realizan submuestreos consecutivos hasta un nmero de etapas
determinado. Por ejemplo, en el muestreo trietpico se selecciona en una primera etapa una
muestra de unidades primarias, en una segunda etapa se realiza submuestreo en cada una de
las unidades de la muestra de primera etapa y en una tercera etapa se realiza submuestreo en
cada una de las unidades de la muestra de segunda etapa. De forma similar se generalizara
para un nmero elevado de etapas, dando lugar al muestreo polietpico.

Muestreo con reposicin de unidades primarias y sin reposicin en las restantes etapas
Considerando la unidad muestral i-sima como una poblacin y representando por x i un
estimador insesgado de X i , podemos extender el estimador insesgado de Hansen y Hurwitz
a cualquier nmero de etapas. Tenemos entonces que un estimador insesgado del total ser:
n
X
1 n X
1 n M x

X HH = i = i = i i
n i Pi n i Pi
i nPi

La varianza de este estimador y su estimacin son las siguientes:

X

i Pi < X HH
i

V X =
n(n < 1)

n

1 N X

V ( X HH ) = i < X Pi + nPi u m i2
n i =1 Pi
i

Muestreo sin reposicin en todas las etapas


Considerando la unidad muestral i-sima como una poblacin y representando por X i un
estimador insesgado de X i , podemos extender el estimador insesgado de Horvitz y Thompson a
cualquier nmero de etapas. Tenemos entonces que un estimador insesgado del total ser:

Muestreo bietpico de conglomerados


n
n
n
X
M x
M x
N

X HT = i = i i = i i =
n N
n
/i
i /i
i
i

M
i

313

xi

La varianza de este estimador es:


N
N
N
X2
X Xj

V ( X HT ) = 2i / i + 2 i
/ ij < X 2 + m i2 / i
i =1

/i

i< j

/i / j

Un estimador insesgado para la varianza es:


n
n
n
X i2
X i X j
(1 < f 2i ) M i2 S i2

V ( X HT ) =
(1 </ i ) +
(/ ij </ i/ j ) +
mi / i
i =1 / i
i& j / i / j
i

DISEOS COMPLEJOS: MUESTREO BIETPICO CON ESTRATIFICACIN


EN PRIMERA ETAPA
En la prctica es habitual utilizar diseos polietpicos con distintos tipos de muestreo en
cada etapa. Es muy comn utilizar estratificacin de unidades primarias para seleccionar las
unidades primarias de la muestra de primera etapa mediante muestreo estratificado. Despus
se realiza la seleccin de las unidades de segunda etapa dentro de cada unidad de primera
etapa. Para este tipo de muestreo bietpico con estratificacin en primera etapa las frmulas de
los estimadores, varianzas y estimaciones de varianzas se presentarn a continuacin.
Sean los pesos de los estratos y las fracciones de muestreo.
Wh =

NhM h
n m
f h = h h = f 1h u f 2 h
NM
NhM h
L

Un estimador insesgado de la media es x st = Wh x h = Wh u


L

E (x st ) = Wh E1 E 2 x h = Wh E1

1
nh

nh

x
i

ih

pues

L
L
1 n
E 2 xih = Wh E1 x h = Wh X h =X

nh i
h
h

La varianza del estimador de la media viene dada por:


L
L

S2
S2
V (x st ) = Wh2 u V (x h ) = Wh2 (1 < f 1h ) u bh + (1 < f 2 h ) u wh
nh mh
nh M h
h
i

La muestra es autoponderada si f h = f 1h u f 2 h = f y la estimacin de la varianza


vendr dada por la siguiente expresin:
L
L

S 2
S2
V (x st ) = Wh2 u V (x h ) = Wh2 (1 < f 1h ) u bh + f 1h (1 < f 2 h ) u wh
nh mh
nh mh
h
i

De forma similar se realizan otros diseos complejos de encuestas. En cada etapa se


aplicarn los clculos relativos al tipo de muestreo definido en ella.

314 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
8.1.

En un barrio de una ciudad se obtiene una muestra de 6 manzanas de 30 casas cada una con
probabilidades iguales. Dentro de cada manzana de la muestra se realiza submuestreo sin
reposicin con fraccin de muestreo igual a 1/6, y se obtienen los siguientes valores para el
nmero de casas en las que viven jubilados:
Manzana

1 2 3 4 5 6

N de casas con jubilados

4 3 5 2 1 5

Se pide:
1) Suponiendo muestreo con reposicin de unidades primarias, estimar la proporcin P de
casas del barrio en las que viven jubilados y su error relativo de muestreo. Estimar por
intervalos al 95% el total A de casas del barrio en las que viven jubilados.
2) Suponiendo muestreo sin reposicin de unidades primarias y fraccin de muestreo en
primera etapa igual a 1/2, estimar la proporcin de casas del barrio en las que viven
jubilados y su error relativo de muestreo. Construir la tabla del anlisis de la varianza para la
muestra y estimar el valor del coeficiente de correlacin intraconglomerados. Estimar por
intervalos al 95% el total de casas del barrio en las que viven jubilados.
Consideramos las manzanas como conglomerados de igual tamao (30 casas cada manzana).
Tenemos como datos n = 6, M = 30, f 2i =

mi
1
mi = f 2i M = 30 = 5 = m .
M
6

Estamos entonces en muestreo bietpico de conglomerados del mismo tamao con


submuestreo tambin del mismo tamao y con reposicin en primera etapa sin existir
reposicin en segunda etapa. El estimador de la proporcin es:

1 n
1 4 3 5 2 1 5 2
P = Pi = + + + + + =
n i =1
6 5 5 5 5 5 5 3
Para calcular la varianza del estimador realizamos la tabla muestral del anlisis de la
varianza. Para ello utilizamos seis variables de clasificacin de, C1 a C6, una por cada
conglomerado muestral, de modo que cada variable tiene un nmero de unos igual al total de
clase del conglomerado muestral correspondiente, y ceros para el resto de las unidades del
conglomerado muestral. Se elige Anlisis de la varianza de un factor en Anlisis de datos
del men Herramientas, y se rellena su pantalla de entrada como se indica en la Figura 8-1.
Los resultados se ven en la Figura 8-2.

S 2 0,53333
= 0,018 . El error relativo de muestreo es:
La varianza es V ( P ) = b =
nm

Cv ( P$ ) =

6,5

V$ ( P$ )
0,018 0,134164
=
=
= 0,2 (20%)
2/3
2/3
P$

Muestreo bietpico de conglomerados

315

Figura 8-1

Figura 8-2
Al ser la fraccin de muestreo en primera etapa 1/2, tenemos 1/2 = 6/N, de donde el
nmero de conglomerados en la poblacin es N = 13. Para hacer una estimacin por
intervalos del total de la caracterstica A en la poblacin, necesitamos la varianza del
estimador del total. Pero:

V ( A ) = N 2 M 2V ( P ) = 12 2 30 2 0,018 = 2332,8 m ( A ) = 48,3


El intervalo de confianza para el total al 95% suponiendo normalidad ser:

(A < h m ( A ), A < h m ( A )) = [240 < 1,96 48,3,


_

240 + 1,96 48,3] = [145,33, 334,66 ]

2
A = NMP = 12 30 = 240
3

En el caso de que ambas etapas sean sin reposicin, los estimadores de la proporcin
y el total de clase no varan, pero s cambian los errores de muestreo. La varianza del
estimador de la proporcin ser ahora:
S2
S2 1 0,5333 1 1 0,1666
+ 1<
= 0,0112
V P = (1< f1) b + f1(1< f2 ) w = 1<
nm
nm 2 6,5 2 6 6,5

()

V$ ( P$ )
0,0112 0,10583
El error relativo es Cv ( P$ ) =
=
=
= 0,1587 (15,87%) y se
$
2/3
2/3
P
observa que en muestreo sin reposicin el error resulta ser menor.

316 Muestreo estadstico. Conceptos y problemas resueltos

8.2.

Una regin tiene 1000 hogares agrupados en 50 pequeos municipios de tamaos desiguales
Mi (i = 1, 2, ..., 50). Se trata de estimar la proporcin de hogares que estn al corriente de
sus obligaciones fiscales mediante muestreo de conglomerados con submuestreo con
probabilidades iguales y sin reposicin en las dos etapas. En la primera etapa se obtienen 5
municipios muestrales de tamaos 6, 10, 8, 20 y 60 hogares. En la segunda etapa, realizada
con fracciones de muestreo f2i = 4/Mi, se obtiene en los 5 municipios de la muestra de
primera etapa los valores 1, 3, 2, 2 y 3 para el nmero de hogares que estn al corriente de
sus obligaciones fiscales. Se pide:
1) Hallar el estimador insesgado de la proporcin de hogares que estn al corriente de sus
obligaciones fiscales y su error absoluto y relativo de muestreo.
2) Construir la tabla del anlisis de la varianza para la muestra y comprobar la igualdad
fundamental.
Consideramos los municipios como conglomerados de distinto tamao. Las unidades elementales
son los hogares de los municipios. Tenemos:
f 2i =

mi
4
=
mi = 4 i
Mi Mi

El estimador insesgado para la proporcin en muestreo bietpico para conglomerados de


distinto tamao es:
N
P =
n

M i 50 1 5
1 1
3
2
2
3
i M Pi = 5 u 1000 i M i Pi = 100 6 4 + 10 4 + 8 4 + 20 4 + 60 4 = 0,68
n

Para estimar la varianza de la proporcin utilizamos la frmula adecuada al


muestreo bietpico sin reposicin en las dos etapas con probabilidades iguales para
conglomerados de distinto tamao. Tenemos:
2
n

1 n

Mi Pi < Mi Pi

n
1 N (1 < f1 ) i
n i =1
+ N M 2 (1 < f ) u PiQi = 0,1458
V P = 2
u
i 2i m <1
M
n
n <1
n i
i

()

El error relativo de muestreo viene dado por el coeficiente de variacin del


estimador. Tenemos:
V ( P )
0,1458 0,38
Cv( P ) =
=
=
= 0,5588 (55,88%)
0,68
0,68
P

Como mi = 4 = m i , la tabla del anlisis de la varianza para la muestra en este


caso del muestreo bietpico es la siguiente:

Muestreo bietpico de conglomerados

Fuente

Grados libertad

Sumas de cuadrados
n
i

dentro
Total

m Pi < P

n <1

entre

Cuadrados medios

Sb2

P (1 < P )
n

n(m < 1)

nm < 1

nm P Q

i =1

317

S w2

S 2

La relacin fundamental del anlisis de la varianza ser: (nm <1)S 2 = (nm < n)S w2 + (n <1)Sb2 .
Todos los elementos del cuadro son calculables con nuestros datos, con lo que ya pueden
realizarse las operaciones para obtener los siguientes resultados:
Fuente
entre
dentro
Total

8.3.

Grados libertad
5 <1 = 4

Sumas de cuadrados

0,7

5( 4 < 1) = 15
5 u 4 < 1 = 19

Cuadrados medios

0,175
0,2833
0,26

4,25

4,95

Consideremos una provincia con 400 municipios. Para estimar el total de hogares con
automvil en la provincia se selecciona una muestra de 10 municipios con igual
probabilidad, y dentro de cada municipio de la muestra se seleccionan aleatoriamente
hogares utilizando una fraccin de muestreo f = 1/5. Se obtienen los siguientes datos:

Distritos
muestrales
1
2

Total de hogares en
los distritos ( M i )
200
180

N de hogares en
la muestra ( m i )
40
35

Hogares con
coche ( Ai )
6
7

35

4
5

220
80

44
16

7
1

6
7

140
125

28
25

3
2

8
9

65
140

13
28

2
2

10

55

11

Se pide:
1) Estimar el total de hogares con automvil en la provincia y sus errores absoluto y relativo
de muestreo.
2) Realizar la estimacin anterior por intervalos al 95% de confianza.
Consideramos los municipios como conglomerados de distinto tamao. Las unidades
elementales son los hogares dentro de los municipios.

318 Muestreo estadstico. Conceptos y problemas resueltos

El estimador insesgado para la proporcin en muestreo bietpico para conglomerados


de distinto tamao con probabilidades iguales es:
N
A =
n

M P
i

400
6
7
1
200 + 180 + L + 53 = 6440
10
40
35
11

Para estimar la varianza del total de clase utilizamos la frmula adecuada al


muestreo bietpico sin reposicin en las dos etapas (no se especifica otra cosa) con
probabilidades iguales para conglomerados de distinto tamao. Tenemos:
2

1 n

Mi Pi < Mi Pi

2
n
N (1 < f1 ) i
n i =1
+ N M 2 (1 < f ) u PiQi = 628237
u
V A =

i
2i
n
n <1
n i
mi <1
n

()

El error relativo de muestreo viene dado por el coeficiente de variacin del estimador.
Tenemos:
V ( A )
628237 792,614
Cv ( P ) =
=
=
=0,123 (12,3%)
6440
6440
A
Para hacer una estimacin por intervalos del total de la caracterstica suponiendo
normalidad tendremos:

(A < h m ( A ), A < h m ( A )) = [6440 < 1.96 u 792,61, 6440 + 1.96 u 792,61] = [4886.4, 7993.5]
_

8.4.

De una via formada por 1000 lneos de 50 cepas cada uno, se extrae una muestra de 30
lneos. Dentro de cada lneo de la muestra se analizan cinco cepas, utilizando muestreo con
probabilidades iguales y con reemplazamiento en primera etapa. El anlisis de la varianza de
la muestra para una variable medida sobre las cepas presenta los siguientes resultados:
Fuente de variacin
Entre lneos
Dentro de lneos

Grados de libertad
29
120

Cuadrados medios
600
400

1) Estimar el error de muestreo del estimador de la media de la variable medida sobre las
cepas. Hallar la amplitud de las estimaciones por intervalos al 95% de confianza.
2) Realizar los mismos clculos para muestreo sin reposicin en ambas etapas, comparando
los resultados con los del apartado anterior.
Consideramos cada lneo como conglomerado de 50 cepas (tamaos iguales). Cuando existe
reposicin en primera etapa, la frmula de la estimacin de la varianza de la media,
independientemente de que haya o no reposicin en segunda etapa, es la siguiente:
S 2
V (x ) = b
nm

La tabla del anlisis de la varianza para la muestra en el caso del muestreo bietpico
es la siguiente:

Muestreo bietpico de conglomerados

Fuente

Grados libertad

m ( xi < x )

n <1

entre
dentro
Total

Sumas de cuadrados

Cuadrados medios

S$b2

n( m < 1)

( X

ij

< xi

nm < 1

( X

ij

<x

i
n
i

j
m
j

319

S w2

S$ 2

Si consideramos los datos de nuestro problema tenemos S$b2 = 600 y S w2 = 400. Por tanto:
S 2
600
=4
V (x ) = b =
nm 29 u 5
La amplitud del intervalo de confianza al 95% es 2 V (x ) , que puede considerarse
como un lmite para el error de muestreo, y que en nuestro caso vale 4.
Si las dos etapas son sin reposicin se tiene:
S 2
S 2
30 600
30
5 400
V x = (1 < f1 ) b + f1 (1 < f2 ) u w = 1 <
+
= 3,95

1 < u
nm
nm 1000 30 u 5 1000 50 30 u 5

()

La amplitud del intervalo de confianza al 95% es 2 V (x ) , que en este caso vale 7,9.
Como es natural, tiene menos varianza el muestreo sin reposicin, ya que siempre es ms
preciso. Este hecho tambin se refleja en la anchura de los intervalos de confianza.

8.5.

Un fabricante de prendas de vestir tiene 90 plantas localizadas en todo Estados Unidos y


quiere estimar el nmero promedio de horas que las mquinas de coser estuvieron sin
funcionar por reparacin en los meses pasados. Debido a que las plantas estn muy
dispersas, el fabricante decide utilizar un muestreo por conglomerados, especificando cada
planta como un conglomerado de mquinas. Cada planta contiene muchas mquinas, y el
verificar los registros de reparacin de cada mquina implicara consumir tiempo. Por tanto
el fabricante usa un muestreo en dos etapas. Se dispone de tiempo y dinero suficientes para
muestrear 10 plantas y aproximadamente un 20% de las mquinas de cada planta. Dados los
siguientes datos sobre el tiempo sin funcionar para las mquinas de coser por plantas
Planta

Mi

1
2
3
4
5
6
7
8
9
10

so
65
45
48
52
58
42
66
40
56

mi
10
13
9
10
10
12
8
13
8
11

Tiempo sin funcionar (en horas)


5, 7, 9, 0, 11, 2, 8, 4, 3, 5
4, 3, 7, 2, 11, 0, 1, 9, 4, 3, 2, 1, 5
5, 6, 4, 11, 12, 0, 1, 8, 4
6, 4, 0, 1, 0, 9, 8, 4, 6, 10
11, 4, 3, 1, 0, 2, 8, 6, 5, 3
12, 11, 3, 4, 2, 0, 0, 1, 4, 3, 2, 4
3, 7, 6, 7, 8, 4, 3, 2
3, 6, 4, 3, 2, 2, 8, 4, 0, 4, 5, 6, 3
6, 4, 7, 3, 9, 1, 4, 5
6, 7, 5, 10, 11, 2, 1, 4, 0, 5, 4

xi

S2i
5,40
4,00
5,67
4,80
4,30
3,83
5,00
3,85
4,88
5,00

11,38
10,67
16,75
13,29
11,12
14,88
5,14
4,31
6,13
11,80

Estimar el tiempo sin funcionar promedio por mquina y establecer un lmite para el error de
estimacin. El fabricante sabe que tiene un total de 4.500 mquinas en todas las plantas.
Estimar tambin la cantidad total de tiempo sin funcionar durante el mes pasado para todas
las mquinas. Estimar el tiempo sin funcionar promedio por mquina en caso de que no se
conozca el nmero total de mquinas.

320 Muestreo estadstico. Conceptos y problemas resueltos

Para estimar el tiempo promedio sin funcionar por mquina tenemos:


x=

N
n

Mi

Mx
i =1

N 2 (1 < f 1 )
u
V x =
nM 2

()

90
(50 u 5,4 + 65 u 4 + L + 56 u 5) = 4,8
4500 u 10
mi

X < X
i
i

N
+
n <1
nM 2

M i2 (1 < f 2i
mi

(X
)u
j

ij

< xi

mi < 1

10
90 2 1 <
90
90 u 768,38 +
u 21990,96 = 0,037094
2
10 u 4500
10 u 4500 2

Un lmite para el error de estimacin puede calcularse a travs del intervalo de


confianza para el estimador x 2 0,037094 = 4,8 0,38 .
Para la estimacin de la cantidad total de tiempo sin funcionar para todas las mquinas
tenemos el estimador X = Mx = 4500 u 4,8 = 21600 , siendo la estimacin de su varianza
V ( X ) = M 2V ( x ) = 4500 2 u 0,037094 = 751153,5 .
Si no se conoce M se estima la media mediante el estimador de razn:
n

x=

M x
i =1
n

M
i =1

(50 u 5,4 + 65 u 4 + L + 56 u 5)
= 4,6
50 + 65 + L56

10
10
10
1< f 2 2 2
2
2
2
S ) = 1< f
(
)
(
M
x
+
x
M
<
2
x
M i xi M i ) = 0,049
(
S
+
R
S
<
2
R
V ( x ) =
x
M
xm
i
i
i
nM 2 (n <1) i =1
nM 2
i =1
i =1

Se observa que la estimacin por razn, provocada por el desconocimiento de M,


origina un error superior, pero no en demasiada cuanta.

8.6.

Para estimar el total de una magnitud en una poblacin de 100 conglomerados se estratifica la misma
en dos zonas, rural y urbana, con 60 y 40 conglomerados respectivamente. En la zona rural se
selecciona una muestra de cinco conglomerados con probabilidades proporcionales a su tamao Mi y
con reemplazamiento, mientras que en la zona urbana se selecciona una muestra sistemtica de
cuatro conglomerados con coeficiente de correlacin intramuestral igual a una milsima. Se tiene:
ZONA RURAL

Unidad
muestral
Mi
Total

1
7
13
2
6
11
3
8
18
4
4
10
5
5
11

ZONA URBANA

Unidad
muestral
Total

1
21
2
15
3
24
4
20

1) Estimar la media por conglomerado en cada zona y sus errores absoluto y relativo de
muestreo. Hallar tambin un intervalo de confianza del 95% para la media por conglomerado
en cada zona.
2) Estimar el total en la poblacin y sus errores absoluto y relativo de muestreo.

Muestreo bietpico de conglomerados

321

Comenzaremos por la zona rural, en la cual tenemos definido muestreo unietpico de


conglomerados con probabilidades proporcionales a los tamaos y muestreo con reposicin, lo
que nos lleva a utilizar el estimador de Hansen y Hurwitz. Tenemos:
1 n Xi
1 1 n
1 n Xi 1 13 11 18 10 11
Xi
X HHR =
=
u
=

= + + + + = 2,128
MR i nPi MR n i MiR MR n i MiR 5 7 6 8 4 5

Para estimar la varianza del estimador de la media utilizamos:


2

Xi
< X HHR

i =1 Pi
1
1

= 1

V ( X HHR) = 2 V ( X HHR) = 2
MR
MR
n(n < 1)
M R2
n

Xi

< M R X HHR

i =1 MiR M R
=
n(n < 1)
n

2
2
2
2
2
Xi
13
11
18
10
11

<
X
<
+
<
+
<
2
,
128
2
,
128
+
<
2
,
128
+
<
2
,
128
2
,
128

HHR

i =1 MiR
=7
6
8
4
5
= 0,016
20
n(n < 1)
n

El error relativo de muestreo en la zona rural ser:


V ( X HHR )
0,016

=
= 0,059 6%
Cv( X HHR ) =
2,128
X HHR

Un intervalo de confianza al 95% para el gasto medio por hogar en zona rural es:
X HHR h_ V ( X HHR ) = 2,128 1,96 0,016 = [1,880, 2,376]

Nos ocupamos ahora de la zona urbana, en la cual tenemos definido muestreo


sistemtico con un coeficiente de correlacin intramuestral muy pequeo, lo que nos va a
permitir estimar la varianza mediante la frmula del muestreo aleatorio simple. Tenemos
entonces los siguientes estimadores:

21 + 15 + 24 + 20
X U =
= 20
4
1
(21< 20)2 + (15 < 20)2 + (24 < 20)2 + (20 < 20)2
2

S
4 3

V ( XU ) = (1 < f ) = 1 <
= 3,15
n 40
4

El error relativo de muestreo en la zona urbana ser:


V ( X U )
3,15

Cv ( X U ) =
=
= 0,0887 8,87%
20
X U

Un intervalo de confianza al 95% para el gasto medio por hogar en zona urbana es:

322 Muestreo estadstico. Conceptos y problemas resueltos

X U h_ V ( X U ) = 20 1,96 3,15 = [16,5214, 23,4786]

Para estimar el total de la poblacin utilizamos el muestreo estratificado, que es el


definido en primera etapa, teniendo en cuenta que en segunda etapa estn definidos muestreo
unietpico de conglomerados en la zona rural, y muestreo sistemtico en la zona urbana.
Tenemos:
n

X st = N h x h = 60 X HHR + 40 X U = 60 u 2,128 + 40 u 20 = 927,68


h =1

V ( X st ) = Nh2V ( xh ) = 602V ( X HHR) + 402V ( X U ) = 602 u 0,016+ 402 u 3,15 = 5097,6


h =1

V ( X st )
5097,6
C v( X st ) =
=
= 0,077 7,7%
927,68
X st

8.7.

En las 10 regiones de un pas se efecta muestreo en dos etapas (1 etapa con reposicin). En
la primera etapa se obtienen tres regiones de 50, 60 y 80 distritos. En la segunda etapa se
seleccionan cinco distritos de cada regin de la primera etapa en los que se mide el nmero
de habitantes condenados a cadena perpetua, y se obtienen los siguientes datos:
Unidades primarias Tamaos Valores observados X ij
(M i )
de la muestra (n = 3)
mi = m = 5
REGIN 1
8, 6, 12, 14, 10
50
REGIN 2
REGIN 3

8, 10, 14, 14, 16


8, 10, 10, 16, 12

60
80

Sabiendo que el total de distritos es M = 600, se pide formar un estimador insesgado del total
X de condenados a cadena perpetua y calcular el valor particular correspondiente a los datos
del problema en los siguientes casos:
1) Muestreo con probabilidades iguales en las dos etapas.
2) Muestreo con probabilidades proporcionales al tamao en primera etapa.
3) Estimar el error de muestreo en ambos casos.
Para probabilidades iguales en ambas etapas el estimador del total es:
N
X =
n

M
i

xi =

10
(50 u 10 + 60 u 12,4 + 80 u 11,2) = 7133,33 5 7134 condenados
3

La estimacin de la varianza es:


2

X
n
n
i 1 / Ni < X NX i < N 1 M i xi
n i
N2
i

=
V X =
=
n(n < 1)
n(n < 1)
n
n

( )

1 n

i M i xi < n i M i xi N 2
=
n <1
n
n

< X i

n <1

X
i

100 (50u10 < 713,33) 2 + (60u12,4 < 713,33) 2 + (80u11,2 < 713,33) 2

= 2.19385u107
3
2

Muestreo bietpico de conglomerados

323

Para probabilidades proporcionales a los tamaos en primera etapa se tiene:


1 n M x
1 n M i xi
M

X HH = i i =
=
n i Pi
n i Mi M
n

x
i

600
(10 + 12,4 + 11,2) = 6720 condenados
3

La estimacin de la varianza es:


2

i M /iM < X
i
=
V X =
n(n < 1)
n

( )

M
M
i M M i xi < n
i
n(n < 1)
n

2
n
n

i xi M 2 xi < 1n xi
i
i
=
=
n(n < 1)
n

6002 (10 < 11,2) + (12,4 < 11,2) + (11,2 < 11,2)
= 172800
6
2

Se observa que el error de muestreo es mucho menor en el caso de utilizar


probabilidades proporcionales a los tamaos.

8.8.

Consideramos las 1100 granjas de cerdos de una comarca que se estratifican formando 2
estratos. El primero de ellos (granjas en zona rural) tiene 1.000 granjas de 50 cerdos con 4
meses de edad del que se extrae una muestra de 5 granjas, en cada una de las cuales se obtiene
a su vez una submuestra de 6 cerdos. Los pesos promedios (en arrobas) de los 6 cerdos con 4
meses de las 5 granjas anteriores extradas del primer estrato son los siguientes:
2
x i1 = {3, 5, 2, 4, 6} i = 1, 2, ..., 5 y S1w
=1,5. El segundo estrato (granjas en permetro
urbano) tiene 100 granjas de 40 cerdos con 4 meses cada una del que se extrae una muestra de
6 granjas, en cada una de las cuales se obtiene a su vez una submuestra de 4 cerdos. Los pesos
promedios (en arrobas) de los 4 cerdos con 4 meses de las 6 granjas anteriores extradas del
2
segundo estrato son los siguientes: x i 2 = {3, 4, 3, 5, 3, 3} i = 1, 2, ..., 6 y S 2w
= 1,33. A partir
de esta informacin, estimar el peso promedio de los cerdos a los 4 meses en las granjas de la
comarca y sus errores absoluto y relativo de muestreo considerando muestreo sin reposicin y
probabilidades iguales en todas las etapas. Hallar tambin un intervalo de confianza para el
peso promedio de los cerdos a los 4 meses en las granjas de la comarca al 95%.
Estamos ante el tpico diseo complejo de muestreo bietpico de conglomerados (granjas de
cerdos) con estratificacin de las unidades de primera etapa (las granjas) en dos estratos. Las
unidades elementales de segunda etapa son los cerdos con 4 meses de las granjas.
Inicialmente estimamos la media y su varianza en el primer estrato. Tenemos:
5

x1 =

1
n1

x
i

i1

20
=4
5

S b2 =

m1 (xi1 < x1 )

n1 < 1

= 15

5 15
5
6 1,5
S 2
S 2

V (x1 ) = (1 < f11 ) 1b + f11(1 < f12 ) u 1w = 1 <


+
1 < u = 0,5
n1m1
n1m1 1000 30 1000 50 30

324 Muestreo estadstico. Conceptos y problemas resueltos

Ahora estimamos la media y su varianza en el segundo estrato. Tenemos:


6

1
x2 =
n2

21
i xi 2 = 6 = 3,5

S 22b =

m 2 (xi 2 < x 2 )

n2 < 1

= 2,8

6 2,8 6 4 1,33
S 2
S 2

= 0,113
V x2 = (1 < f21) 2b + f21(1 < f22 ) u 2w = 1 <
+
1 < u
n2m2
n2m2 100 24 100 40 24

( )

El estimador de la media estratificado ser:


2

x st = W h x h = W1 x1 + W 2 x 2 =
h =1

100
1000
u4+
u 3,5 = 3,685 arrobas
1100
1100

La estimacin de la varianza del estimador de la media valdr:


2

2
1000
100
2
2
2
V (xst ) = Wh V (xh ) = W1 V (x )1 + W2 V (x2 ) =
u 0,5 +
u 0,113 = 0,415
h =1
1100
1100

El error relativo de muestreo se estimar mediante:


V ( x st )
0,415
C v( x st ) =
=
= 0,1748 (17,48%)
x st
3,685

El intervalo de confianza al 95%, suponiendo normalidad, ser:


x st h_ V ( x st ) = 3,685 1,96 0,415 = [2,42, 4,95]

8.9.

Una empresa tiene que realizar una encuesta en la que las unidades primarias de muestreo
son las secciones censales y las unidades de segunda etapa son las familias pertenecientes a
las secciones censales. La empresa dispone de agentes entrevistadores que residen en la
capital de cada provincia en la que tiene sucursales. Se supone que el coste de enviar un
agente a una seccin censal es de 500 euros y el de realizar una entrevista a una familia es de
50 euros.
Si existe un presupuesto de 3000000 de euros para realizar la encuesta siendo la
caracterstica a estimar la proporcin de poblacin activa respecto del total, y por encuestas
anteriores se tiene una estimacin de dicha proporcin del 38% y una estimacin del
coeficiente de correlacin intraconglomerados de 0,05, se pide:
1) Considerando muestreo con reposicin, plantear el problema de Lagrange que permite
calcular el nmero ptimo de secciones censales y el de familias a entrevistar dentro de cada
una.
2) Hallar el valor de los nmeros ptimos citados para el coste total dado.

Muestreo bietpico de conglomerados

325

Para plantear el problema de Lagrange adecuado, consideramos la funcin de coste de


campo C = c1n + c2 nm donde c1 = 500 es el coste de enviar un agente a una seccin censal
y c2 = 50 es el coste de realizar una entrevista a una familia en segunda etapa. Como el
presupuesto total para realizar la encuesta es de 3000000 de euros, la funcin de coste ser:

3000000 = 500n + 50nm


Como la caracterstica a estimar es el porcentaje de poblacin activa respecto del
total, utilizaremos la varianza de la proporcin para denotar el error, es decir:

V ( P$ ) = (1 < f )

$$
PQ
(1 + (m < 1)b )
nm

El problema se resuelve minimizando la varianza para el coste dada a travs del


problema de optimizacin de Lagrange:
0,38(1.0,38)

(1 + (m < 1)0,05)
c1 1 < b
500 1 < 0,05
u
=
u
14 familias
nm
m =
c2 b
50 0,05

3000000 = 500n + 50nm

MinV ( P ) = (1 < f )

3000000 = 500n + 50nm n =

8.10.

3000000
3000000
=
= 2500 secciones censales
500 + 50m 500 + 50 u 14

Una empresa quiere estimar la proporcin de mquinas que han sido retiradas del proceso de
produccin debido a reparaciones mayores. Para ello utiliza muestreo en dos etapas
considerando unidades de primera etapa las plantas de que dispone y unidades de segunda
etapa las mquinas de las plantas. Se dispone de tiempo y dinero para muestrear 10 plantas y
se obtiene que los tamaos de las plantas Mi, las mquinas muestreadas en cada planta en
segunda etapa mi y las proporciones muestrales de mquinas que requieren reparaciones
mayores son los que se exponen en la siguiente tabla:

Porcentaje de mquinas
Planta
1

Mi
50

mi
10

con reparacion es mayores ( Pi )


0, 40

2
3

65
45

13
9

0,38
0, 22

4
5

48
52

10
10

0,30
0,50

6
7

58
42

12
8

0, 25
0,38

8
9

66
40

13
8

0,31
0, 25

10

56

11

0,36

Estimar la proporcin de mquinas que han sido retiradas del proceso de produccin debido
a reparaciones mayores para todas las plantas y establecer un lmite para el error de
estimacin al 95%.

326 Muestreo estadstico. Conceptos y problemas resueltos

Al no conocerse el valor M se utilizar el estimador de la proporcin por razn al tamao


siguiente:
n

P =

i =1
n

M
i =1

Pi

= 0,34

cuyo error de muestreo puede estimarse mediante:


n

(1 < f 1
V P =
nM

()

) M
u
i

2
i

(P < P )

n <1

1
nNM 2

PQ
M (1 < f ) u m < 1 = 0,0081
n
i

2
i

2i

Un lmite para el error de estimacin al 95% ser:

()

P 2 V P = 0,34 0,056

Se estima entonces que la proporcin de mquinas involucradas en reparaciones


mayores es de 0,34, con un lmite para el error de estimacin de 0,056.

Muestreo bietpico de conglomerados

327

EJERCICIOS PROPUESTOS
8.1.

Se desea estimar el consumo de los hogares espaoles a travs de una muestra bietpica
formada por conglomerados de 500 hogares cuya unidad primaria de muestreo es la seccin
censal. El coeficiente de correlacin intraconglomerados es 0,1. El coste de preparacin de
listados y planimetra de cada seccin censal a incluir en la muestra es de 5.000 unidades
monetarias, y el coste de entrevista por hogar es de 1000 unidades monetarias, no
considerndose ms componentes en la funcin de coste total. Si se dispone de un
presupuesto global de 10000000 de unidades monetarias, se pide:
1) Especificar la funcin de coste total y plantear el problema de optimizacin con
restricciones asociado.
2) Cules seran los tamaos de muestra en cada etapa que optimizasen el diseo? Se
entiende por diseo ptimo aquel que logra la mxima precisin dentro del presupuesto
fijado.
3) Si se estratifican las secciones censales en dos estratos del mismo tamao correspondientes
a zona rural y zona urbana, de modo que la variabilidad del consumo de los hogares medida a
travs de la varianza es tres veces superior en la zona urbana que en la rural, cmo se distribuira
la muestra en cada estrato y en cada etapa para optimizar el diseo?

8.2.

Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propsito de estimar la proporcin de pacientes que han estado (o estarn) en el
hospital por ms de dos das consecutivos. Puesto que los hospitales varan en tamao, stos
sern muestreados con probabilidades proporcionales al nmero de sus pacientes. En los tres
hospitales muestreados se examinar un 10% de los registros de los pacientes actuales para
determinar cuntos pacientes permanecern por ms de dos das en el hospital. Con la
informacin sobre los tamaos de los hospitales dada en la tabla adjunta se selecciona una
muestra de tres hospitales con probabilidades proporcionales al tamao.
Hosp. Pacien. Interv.
1
328
1-328
4
220 870-1089

Hosp.
2
5

Pacien.
109
280

Interv. Hosp.
329-437 3
1090-1369 6

Pacien.
432
190

Interv
438-869
1370-1559

Puesto que sern seleccionados tres hospitales, tres nmeros aleatorios entre el 0001 y el
1559 deben ser seleccionados de la tabla de nmeros aleatorios. Nuestros nmeros elegidos
son 1505, 1256 y 0827. Qu hospitales sern elegidos para la muestra? Supngase que los
hospitales muestreados dieron los siguientes datos sobre el nmero de pacientes con
permanencia de ms de dos das:
Hospital N de pacientes muestreados
a
43
b
28
c
19

N con ms de dos das de permanencia


25
15
8

Estimar la proporcin de pacientes con permanencia superior a dos das para los seis
hospitales y establecer un lmite para el error de estimacin.

328 Muestreo estadstico. Conceptos y problemas resueltos

8.3.

8.4.

Supongamos que cinco investigadores toman muestras independientes de igual tamao


constituidas por pequeas parcelas de un campo de cultivo y obtienen estimaciones del
rendimiento del campo e. Sean estas estimaciones: 97, 96, 100, 98, 94. Si tomamos como
estimador de e la media de las cinco estimaciones, calcular el error de muestreo relativo.
Realizar el mismo clculo suponiendo que las muestras son de distintos tamaos, de 3, 1,
10, 10 y 1, respectivamente
Realizamos muestreo bietpico en una poblacin de 10 conglomerados de tamaos
desiguales. En la primera etapa se toman tres unidades primarias y en la segunda etapa se
toman cinco unidades dentro de cada unidad primaria. Hallar el estimador lineal insesgado
del total poblacional en el caso de muestreo sin reposicin con probabilidades iguales en las
dos etapas. Probar que si se aplica el teorema de Durbin para la estimacin de la varianza del
estimador del total se tiene:
14 3
2 3 2
7
2 2
V ( X ) =
M
x
<
s i M i ( M i < 5) < M i M j xi x j

i i
45 i & j
45 i =1
3 i =1
siendo xi el total muestral y si2 = Si2 la cuasivarianza dentro de la unidad primaria i-sima de
la muestra. Si consideramos muestreo con reposicin en la segunda etapa, cul es el
estimador del total? Qu expresin toma el estimador de su varianza?

8.5.

Una cadena de supermercados tiene tiendas en 32 ciudades. Un director de la compaa


quiere estimar la proporcin de tiendas en la cadena que no satisfacen un criterio de limpieza
especfico. Las tiendas dentro de cada ciudad poseen caractersticas similares, por lo que el
director selecciona una muestra por conglomerados en dos etapas que conmtiene la mitad de
las tiendas dentro de cada una de las cuatro ciudades. La tabla siguiente muestra los datos
recogidos.

Ciudad
1
2

N de tiendas
en la ciudad
25
10

N de tiendas
muestreada s
13
5

N de tiendas que no
satisfacen el criterio de limp ieza
3
1

3
4

18
16

9
8

4
2

Estimar la proporcin de tiendas que no satisfacen el criterio de limpieza y establecer un


lmite para el error de estimacin al 95% de confianza.

CAPTULO
MUESTREO BIFSICO Y
MUESTREO EN OCASIONES SUCESIVAS

OBJETIVOS
1. Presentar el concepto de muestreo bifsico.
2. Analizar los estimadores y sus errores en muestreo bifsico con estratificacin.
3. Analizar los estimadores y sus errores en muestreo bifsico para estimaciones de razn.
4. Analizar los estimadores y sus errores en muestreo bifsico para estimaciones de regresin.
5. Analizar los estimadores y sus errores en muestreo bifsico para estimaciones de diferencia.
6. Estudiar los estimadores de mnima varianza en el muestreo en ocasiones
sucesivas.

330 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo bifsico.
2. Muestreo bifsico para estratificacin. Estimadores, varianzas y estimacin
de varianzas.
3. Muestreo bifsico para estimadores de razn.
4. Muestreo bifsico para estimadores de regresin.
5. Muestreo bifsico para estimadores de diferencia.
6. Mestreo en ocasiones sucesivas.
7. Estimadores de mnima varianza en el muestreo en ocasiones sucesivas.
8. Problemas resueltos.
9. Ejercicios propuestos.

Muestreo bifsico y muestreo en ocasiones sucesivas

331

MUESTREO BIFSICO
El muestreo doble o bifsico se utiliza cuando queremos obtener estimadores de alguna variable
X y disponemos de informacin adicional de otra variable de modo similar a lo que ocurra en los
mtodos de estimacin indirecta. En la prctica, el muestreo doble se lleva a cabo seleccionando
en una primera fase una muestra, relativamente grande, en la que a bajo coste pueden observarse
una o varias caractersticas generales de las unidades que nos proporcionan la informacin que
necesitamos para el estudio de nuestra caracterstica objetivo. En una segunda fase seleccionamos
una submuestra de la primera en la que observamos ya la caracterstica objeto de estimacin. Esta
tcnica se conoce con el nombre de muestreo en dos fases, muestreo doble o muestreo bifsico.
Para fijar notacin consideramos:
1 fase. Se toma una muestra grande de tamao n relativa a la variable auxiliar Yi
para estimar por ejemplo Y u otras caractersticas relativas a la variable Yi con bajo coste.
2 fase. Se toma una muestra relativa a la variable en estudio Xi de tamao n
(generalmente submuestra de la muestra preliminar n< n) con coste mucho ms alto.
El uso de esta tcnica de muestreo depende de los costes. Si la observacin de la
caracterstica Xi que nos interesa no tiene coste, o es muy bajo, sencillamente tomaramos
una muestra del tamao no necesario para la precisin deseada y con ella haramos las
estimaciones relativas a Xi. Supongamos que disponemos de un presuspuesto total C, que el
coste por unidad de la primera muestra, de tamao n, es c y que el coste por unidad de la
segunda muestra, de tamao n < n, es c. Frecuentemente c es mucho ms pequeo que c,
bien sea porque la primera muestra se utiliza para obtener unos pocos datos generales de las
unidades (en campo o en oficina, si se dispone de un fichero o registro) o bien porque la
observacin de la caracterstica objetivo implica un proceso de observacin ms costoso. En
estas condiciones, si tomamos una sola muestra, tendremos C = cno, y si hacemos muestreo
en dos fases C = cn + cn. Supongamos que los costes totales por el procedimiento bifsico
y por el normal (aleatorio) son los mismos, esto es, cno = cn + cn. Igualando los dos costes
totales, se obtiene: no = n +

c'
n' , lo que nos dice que con la tcnica de dos fases la
c

observacin efectiva (la referida a la variable Xi) se hace en una muestra de tamao n, menor
que el tamao no de la muestra aleatoria simple correspondiente en una sola fase con el
mismo coste total. Luego al introducir las dos fases el tamao de muestra necesario es ms
pequeo que si hubiese una sola fase (muestreo aleatorio normal) y hay una prdida en la
precisin de los estimadores (al disminuir el tamao de la muestra).
Se trata de decidir si compensa la disminucin del tamao efectivo de la muestra, con
el incremento de informacin adquirido en la primera fase (lo que provocar prdida de
precisin en las estimaciones relativas a Xi). Para ello debe calcularse la varianza
correspondiente a muestreo doble y compararla con la del muestreo en una sola fase

m2
no

en

caso de estimacin de la media. Es obvio que cuanto menor sea la relacin c/c ms favorable
es el muestreo doble. Ello es debido a que no < n = (c / c ) n mientras menor sea c / c ms
cerca estar n de no y menos disminucin habr del tamao de muestra comparado el bifsico y
el aleatorio simple, siendo la prdida en precisin de los estimadores menor al introducir el
bifsico.

332 Muestreo estadstico. Conceptos y problemas resueltos

La adecuacin del muestreo bifsico depende de si lo que se gana en precisin de los


estimadores al introducir la ayuda de la muestra grande compensa la prdida en precisin
debida a la reduccin del tamao de la muestra para estimar Xi, esto es, la ayuda de la
variable auxiliar Yi. La primera muestra de tamao n proporciona ciertos datos buenos
basados en la variable auxiliar Yi para que las estimaciones finales (las estimaciones de Xi )
sean precisas. Si no hubiese variable auxiliar Yi el tamao de la muestra para estimar Xi ser no, y
al introducir la variable auxiliar el tamao de la muestra sera n < no .

MUESTREO BIFSICO PARA ESTRATIFICACIN. ESTIMADORES,


VARIANZAS Y ESTIMACIN DE VARIANZAS
Partimos de una poblacin estratificacada en L clases (estratos). La primera muestra
(primera fase) es aleatoria de tamao n seleccionada de entre las n unidades de la
poblacin. Sea Wh = Proporcin de elementos de la poblacin que caen en el estrato h, que
es desconocida inicialmente.

Wh =

N h Nmero de elementos poblacionales en el estrato h


=
N
Nmero total de elementos de la poblacin

Consideremos ahora la proporcin de elementos de la primera muestra que cae en el


estrato h:

n'
Nmero de elementos de la primera muestra que caen en el estrato h
W h = h =
n'
Nmero total de elementos de la primera muestra
Hay que tener presente que si consideramos selecciones diferentes de la primera
muestra (con n prefijado) obtenemos diferentes valores de nh y W$h resulta ser un estimador
insesgado de Wh (porque la proporcin muestral en muestreo aleatorio simple es un
estimador insesgado de la proporcin poblacional, lo mismo que la media muestral es un
estimador insesgado de la media poblacional). Tenemos entonces que E W$h = Wh estando
la esperanza referida a las muestras posibles de n unidades de entre las N de la poblacin. A
efectos de clarificar la notacin especificamos lo siguiente:

( )

nh = n de unidades de entre las n de la muestra de primera fase que caen en el estrato h


para h = 1, 2, ..., L
L

h =1

h =1

n' = n' h y n = nh
La segunda muestra (segunda fase) es una muestra aleatoria estratificada de tamao
n. Consiste en tomar una submuestra aleatoria de tamao nh ) n' h en cada estrato
independientemente (o sea, las nh las elegimos de entre las nh para valores de h = 1, ..., L).
L

Tendremos

n = nh . Ahora n es dado y n1 ....nh ....nL son fijos y W$1 LW$h LW$ L


h =1

tambin sern fijos (por serlo nh y n) y lo que se hace es considerar todas las submuestras
aleatorias de nh unidades que pueden extraerse de entre las nh unidades dadas.

Muestreo bifsico y muestreo en ocasiones sucesivas

333

Estimadores y varianzas
El estimador usual de la media en muestreo estratificado es X =

W x
h

con Wh =

Nh
.
N

En muestreo doble los Wh se estiman por los W$h obtenidos de la primera muestra, y con la
xh
; de esta forma resulta el estimador para la
segunda muestra estimamos las medias x h =
nh
media:

X$ = W$h x h
h

n' h
; W$h =
n'

Utilizaremos la notacin EW ' (T ) para expresar la esperanza matemtica de un estadstico


T, condicionada al conjunto de muestras de primera fase en las cuales n1, ....,nh , ..., n son fijos, o
lo que es lo mismo, para un n dado, W$1 , L , W$h , L , W$ L son fijos. Anlogamente VW ' ( T )
expresar la varianza condicionada.
La varianza del estimador de la media sin reposicin en las dos fases es:
S2
g 'Wh (1 < Wh ) g '
2
V X = (1 < f h ) h Wh2 +
+ Wh ( X h < X )
h
nh
n'
n' h

donde g es el factor de finitud g = (N < n)/(N <1). Por otro lado, Rao expres esta varianza
de la media de la siguiente forma:
1

S2
N < n' S 2
V X =
u
+ < 1 u Wh h

N
n'
n'
h i h

; ih =

nh
n h'

Para muestreo es con reposicin en primera fase tendremos:


S2
W (1 < Wh ) 1
2
V X = (1 < f h ) h Wh2 + h
+ Wh ( X h < X )
h
nh
n'
n' h

frmula aproximada para n pequeo respecto de N en caso sin reposicin en segunda fase.
Para muestreo con reposicin en las dos fases tendremos:

m h2 2 Wh (1 < Wh ) 1
2

V X = Wh +
+ Wh ( X h < X )
h nh
n'
n' h
frmula aproximada para nh pequeo respecto de Nh, en todo h, y n pequeo respecto de N.

Para el total X = NX , el estimador insesgado es X$ = NX y su varianza es

( )

V ( X$ ) = N 2V X$ .

334 Muestreo estadstico. Conceptos y problemas resueltos

Si la muestra de primera fase es de tamao n=N, esto es, se observan todas las
unidades de la poblacin para efectuar la estratificacin, la frmula general de la varianza
del estimador en muestreo doble se convierte en:

S h2
$
2
V X = ( 1 < f h )Wh
nh
h

( )

; g' = 0

que coincide con la del muestreo estratificado habitual (una sola fase). Adems se observa
que n aparece dividiendo, y en consecuencia, cuanto mayor es n (n < N ) la prdida de
precisin por el uso de muestreo doble disminuye. Obviamente el coste aumenta, razn por
la cual conviene estudiar los tamaos y la afijacin ptimos en funcin del coste.
Para proporciones y totales de clase tenemos:
Si se desea estimar una porporcin P en la poblacin, siendo Ph la correspondiente
al h-simo estrato, el estimador insesgado en muestreo doble es:

P$ = W$h ph
h

ph = proporcin muestral en segunda fase.

La varianza (sin reposicin en las dos fases), aplicando el resultado anterior, ser:

g ' Wh ( 1 < Wh ) g '


PQ
2
+ Wh ( Ph < P)
V ( P$ ) = ( 1 < f h ) h h Wh2 +
nh
n'
h
n' h
con la aproximacin S h2 =

Nh
Ph Qh 5 Ph Qh .
Nh <1

En muestreo con reposicin en las dos fases, o sin reposicin y tamaos muestrales
pequeos respecto de los correspondientes poblacionales ( f h 5 1; g ' 5 1) , se tiene:

Wh ( 1 < Wh ) 1
PQ
2
+ Wh ( Ph < P )
V ( P$ ) = h h Wh2 +
nh
n'
h
n' h

Para el total de clase, A = NP , el estimador es A$ = NP$ y su varianza


V A$ = N 2V P$ .

( )

( )

Para afijacin proporcional, si en la muestra de segunda fase asignamos a cada


estrato un tamao muestral nh proporcional al tamao del estrato, se tiene nh = Wh n ,
resultando para la varianza del estimador la frmula:

g ' ( 1 < Wh ) g '


1
2
+ Wh ( X h < X )
V X$ = ( 1 < f h ) S h2 Wh +
n h
n'

n' h

( )

En la prctica, para efectuar la afijacin a los estratos utilizaremos nh = W$h n .

Muestreo bifsico y muestreo en ocasiones sucesivas

335

En muestreo con reposicin se tiene:

( )

1
1
1
2
V X$ = m h2Wh +
m h2 ( 1 < Wh ) + Wh ( X h < X )

n h
nn' h
n' h
que puede aproximarse por:

( )

1
1
2
V X$ = Whm h2 + Wh ( X h < X )
n h
n' h
Para afijacin ptima tenemos:
2

2
1
1

V X = Whm h + Wh (X h < X )
n h
n' h

Adems, para determinar los tamaos ptimos n y n correspondientes a un coste

( $)

total dado tales que V X

sea mnima, escribimos la funcin de Lagrange:


2

1
1

2
q = A + B + h ( c' n'+cn < C ) con A = Whm h y B = Wh ( X h < X )
n
n'
h
h

Derivando respecto de n y n y h se tiene:

,q
A
A
= < 2 + h c = 0 h = 2 n =

,n
n
cn

,q
B
B
= < 2 + h c' = 0 h =
n ' =
,n '
n'
c ' n' 2
,q

= c' n'+ cn < C = 0
V
,h
pt .

c'

()

X =

C A
Ac + Bc'

C B
Ac + Bc'

Ac + Bc'
C

Estimacin de varianzas
Tenemos:
n' sh2
V X =

n'<1
h nh

El factor

2 W h 1
W h <
+ W h (xn < X )2

n' n' h

n'
prcticamente es prximo a la unidad si n no es pequeo. Tambin
( n'<1)

el trmino que aparece en segundo lugar en la frmula de la estimacin de la varianza puede


ser despreciable respecto de los otros dos, ya que aparece el producto nh u n' en el
denominador. Entonces resulta la aproximacin:

336 Muestreo estadstico. Conceptos y problemas resueltos

()

s2 1
V X 5 W h2 h + W h x h < X
n h n'
h

Y, por ltimo, tambin en esta expresin el segundo sumando ser pequeo


respecto del primero para valores grandes de n, resultando como frmula aproximada ms
sencilla:

()

2 sh

V X 5 Wh
nh
h

que es la correspondiente a muestreo estratificado en una sola fase, sustituyendo W h por su


estimacin W h .
En caso de estimar la varianza de la proporcin P$ o del total de clase A ,
sustituimos en la frmula para la varianza, o en sus aproximaciones, cuando sean vlidas, los
siguientes valores:

sh2
ph q h
=
;
nh nh < 1

(x

< X$

2
= ( ph < P$ )

MUESTREO BIFSICO PARA ESTIMADORES DE RAZN


El estimador usual de razn para la media X utiliza como informacin conocida previamente
la media Y (o el total) de una caracterstica Y, definida en todas las unidades de la
poblacin, elegida convenientemente de modo que su relacin con X sea lineal al menos
aproximadamente. El muestreo doble utiliza la primera muestra de tamao n para obtener una
buena estimacin de Y , o de Y, y la segunda muestra de tamao n para estimar x e y . De esta
forma , el estimador de razn para la media en muestreo doble es:

x
X$ R = u y ' ;
y

y ' = Media de la primera muestra.

En el caso de que las muestras de las dos fases sean independientes, se tiene:

1
1
V X R = {m x2 + R2m y2 < 2Rm xy }+ R2m y2
n
n'
frmula vlida para muestreo con reposicin. En el caso sin reposicin sustituimos varianzas
y covarianzas por cuasivarianzas y cuasicovarianzas, multiplicando el primer sumando por el
factor de finitud en segunda fase y el segundo sumando por el de primera fase.
Para el caso en que la segunda muestra de tamao n es una submuestra aleatoria de
la primera (n ) n), resulta:
1
1
V X R = {m x2 + R 2m y2 < 2 Rm xy }+ {2 Rm xy < R 2m y2 }
n

n'

Muestreo bifsico y muestreo en ocasiones sucesivas

337

Para estimar el total en muestreo doble, tendremos:

X$ R = NX$ R

( )

; V ( X$ R ) = N 2V X$ R

Para estimar la varianza, dado que en la segunda muestra de tamao n obtenemos


observaciones de la variable conjunta (X,Y), podemos calcular estimaciones de m y2 y Cov(X,Y)
como s x2 =

n
1 n
( X i < x )2 y s xy = 1 ( X i < x )(Yi < y ) , y puesto que la primera

n <1 1
n <1 1

muestra es de tamao n > n, nos permite una buena estimacin de m y2


s y2 =

mediante

1 n'
2
(Yi < y ') . Para la razn R, tomaremos la estimacin R$ .
n'<1 1

MUESTREO BIFSICO PARA ESTIMADORES DE REGRESIN


El estimador usual para la media en muestreo indirecto (en una fase) por regresin lineal es

X$ = x + K ( Y < y ) , donde K es una constante prefijada e Y es la media poblacional de la


variable auxiliar. Los estimadores x , y se obtienen de las observaciones de una muestra
( X i , Yi ) de tamao n. En muestreo doble, al suponer desconocida Y , utilizamos la primera
muestra de tamao n para estimar Y , estimacin dada por y' . Con la muestra de tamao n
en segunda fase estimamos x , y , formando entonces el estimador en muestreo doble por
regresin para la media poblacional:

X rg = x + K ( y '< y )
En esta situacin, la segunda muestra puede ser independiente de la primera o la
segunda muestra puede ser una submuestra aleatoria n < n de la primera.
Si las muestras de las dos fases son independientes, se tiene:
K 2m y2
1 2

2 2

V X rg = (m x + K m y < 2 Km xy ) +

n
n'

Para el caso en que la segunda muestra de tamao n es una submuestra aleatoria de


la primera (n ) n), resulta:

1
1
V X rg = (m x2 + K 2m y2 < 2 Km xy ) + (2 Km xy < K 2m y2 )

n
n'
n

m xy
Sea el valor ptimo de K = b = 2 estimado por b =
my

(X
1

(X
1

< x )(Yi < y )

.
< x ) (Yi < y )
2

338 Muestreo estadstico. Conceptos y problemas resueltos

Se obtiene en ambos casos (muestras independientes y segunda muestra submuestra


de la primera) la expresin para la varianza ptima del estimador bifsico por regresin:

(1 < l 2 )m x2 + l 2m x2 < m x2
V X rl =

n
n'
N
Una estimacin para la varianza ptima es la siguiente:
S x2, y S x2 < S x2, y S x2
V X rl =
+
<

n
n'
N
S x2, y =

n
1 n

2
2
(
X
<
x
)
<
b
(Yi < y ) 2

n < 2 i =1
i =1

1 n

S x2 =
( X i < x)2

n < 1 i =1

MUESTREO BIFSICO PARA ESTIMADORES DE DIFERENCIA


El estimador por diferencia en muestreo doble resulta del estimador de regresin haciendo K = 1,
por lo que toda la teora anterior es vlida haciendo K=1, resultando el estimador

X$ d = x + ( y '< y ) . Anlogamente, las frmulas de las varianzas se obtienen aplicando a K el

valor 1 en las varianzas del estimador por regresin.

MUESTREO EN OCASIONES SUCESIVAS


El muestreo en ocasiones sucesivas es adecuado cuando estamos interesados en estudiar la
evolucin de una determinada caracterstica de la poblacin a lo largo del tiempo (como, por
ejemplo, la produccin industrial, los salarios, la poblacin activa, etc.), para lo que se toman
peridicamente muestras del mismo colectivo. En esta situacin es habitual que un objetivo
sea estimar el cambio producido en la variable estudiada desde la ocasin anterior, otro
objetivo puede ser estimar el valor promedio de la media sobre las dos ocasiones, e incluso
otro objetivo puede ser estimar la media para la ocasin ms reciente.
Inicialmente puede disearse una muestra que permanece fija de una ocasin a otra,
pero, aunque metodolgicamente sta es la situacin ms ventajosa, tiene el inconveniente de
que las personas o entidades encuestadas son reacias a permanecer por un tiempo indefinido en
dicha muestra. Para tratar de resolver este problema se utiliza un procedimiento que consiste en
sustituir, en cada perodo de encuesta, una parte de la muestra, lo que da lugar a la denominada
rotacin de la muestra. Conviene observar de pasada que esto no siempre puede practicarse, ya
que, cuando se trata de unidades muy grandes (grandes almacenes, siderrgicas, astilleros, etc.), a
veces una o unas pocas contribuyen al total estimado en una cantidad superior a todas las dems
juntas. En este caso prescindiramos del muestreo incluyendo estas unidades crticas en un estrato
de unidades autorrepresentadas (de probabilidad 1). Adicionalmente surge la pregunta: Con qu
frecuencia y de qu manera debera cambiarse la muestra conforme progresa el tiempo?
Otro problema que puede plantearse es el de la estimacin ptima de la segunda
ocasin, utilizando las informaciones disponibles, tanto de la ocasin presente como de la
anterior. En cualquier caso el valor X, que toma la variable en la unidad A, puede cambiar de
una ocasin a la siguiente, desempeando un papel importante en esta teora el coeficiente
de correlacin lineal entre los valores de la variable en una y otra ocasin. De todas formas,
las unidades de la muestra en una ocasin pueden ser las mismas que en la ocasin anterior,
algunas nuevas y otras permanecientes y seleccionadas independientemente de nuevo todas.

Muestreo bifsico y muestreo en ocasiones sucesivas

339

Estimacin del cambio entre ocasiones sucesivas


Supongamos que se pretende estimar el cambio de la media entre dos ocasiones, que
designaremos por t1 y por t2, con una muestra de n unidades. Si utilizamos el estimador
simple del cambio:

,$ = x 2 < x1 =

1 n
( x < x1i )
n i 2i

podemos optar entre las siguientes alternativas:


a) Utilizar la misma muestra, denominada panel, en ambas ocasiones.
b) Mantener en la segunda ocasin c unidades de la primera muestra, eliminar n<c y
aadir n<c nuevas unidades.
c) Utilizar en la segunda ocasin una muestra independiente de la primera.
La posibilidad a) nos permitira conocer los cambios individuales entre las dos
ocasiones. Este esquema presenta serias dificultades cuando hemos de medir un carcter en
ocasiones sucesivas. Prescindiendo del caso en que las mediciones fuesen destructivas, sera muy
difcil mantener indefinidamente las mismas unidades, y aun en el caso de que fuese posible no
sera deseable por los sesgos que una exposicin continuada a los mtodos de encuesta pueden
originar en la conducta de los entrevistados. En este sentido puede decirse que la muestra se
contamina con el tiempo.
Para la posibilidad b), si representamos por c el nmero de unidades comunes, por

n < c = c el nmero de las no comunes, y con los subndices 1 y 2 las correspondientes

ocasiones, se puede hacer la representacin grfica siguiente sobre los solapamientos en los
totales muestrales en ambas ocasiones.

Ocasin t1

@ x1c A @ x1c A

Ocasin t 2

@ x2c A @ x2c A

Las medias en ambas ocasiones son:

x1c + x1c x1c x1c n < c


c
=
+
=
x1c + x1c
n
n
n
n
n
x2c + x2c x2c x2c n < c
c
x2 =
=
+
=
x2c + x2c
n
n
n
n
n
x1 =

y prescindiendo del factor de correccin para poblaciones finitas 1 < f y suponiendo por
comodidad que la cuasivarianza poblacional en las dos ocasiones es la misma, tendremos
para las varianzas y covarianzas las expresiones:

S2
S2
, V (x2 ) =
n
n
2
c
S S c2
S2 c
S2
cov( x1 , x 2 ) = 2 u cov( x1c , x 2 c ) = l12 u
u
u 2 = l12 u
u = l12 u
u/ c
n n
n
n
c c n

V ( x1 ) =

340 Muestreo estadstico. Conceptos y problemas resueltos

Sustituyendo estos valores en la varianza de ,$ tenemos:

()

S2 S2
S2
S2
+
<2
l12/ c = 2 [1 < l12/ c ]
V , = V ( x1 ) + V ( x 2 ) < 2 cov( x1 x 2 ) =
n
n
n
n
siendo l12 el coeficiente de correlacin entre los valores comunes a ambas ocasiones y

/ c la proporcin de unidades comunes. De esta expresin deducimos que para l12 > 0 la
ganancia en precisin es proporcional a / c l12 correspondiendo la mxima ganancia a los
valores

l12 = +1 y / c = 1 . Por lo tanto, la situacin ideal es aquella en la que la

proporcin de unidades comunes en la muestra en las dos ocasiones es del 100% ( / c = 1 ),


lo que significa que la muestra es comn en su totalidad en las dos ocasiones. La situacin
tambin es ideal cuando el coeficiente de correlacin entre los valores comunes en ambas
ocasiones es mximo ( l12 = +1 ), que en trminos prcticos significa que las unidades
muestrales en las dos ocasiones han de estar muy estrechamente relacionadas de forma
positiva (lo mejor es que sean iguales las muestras en las dos ocasiones).

Estimacin de la media extendida a dos ocasiones


Uno de los objetivos clsicos en el muestreo en ocasiones sucesivas es estimar el valor
promedio de la media sobre las dos ocasiones. Para ello, consideremos el estimador
siguiente:

x=

1
( x + x2 )
2 1

definido como la media de las medias en ambas ocasiones. Su varianza es:

V ( x) =

1
V ( x1 ) + V ( x 2 ) + 2 cov( x1 , x 2 )
4

y sustituyendo en la frmula los valores obtenidos en la seccin anterior ( V ( x1 ) =

V (x2 ) =

S2
S2
y cov( x1 , x 2 ) =
l12/ c ), tenemos:
n
n

V (x ) =

S2
,
n

S2
1 2S 2 2S 2
+
l
/
u [1 + l12/ c ]
12 c =

n
4 n
2n

Como este valor es mnimo cuando / c = 0 , vemos que, en el caso l12 < 0 , para
estimar la media sobre dos ocasiones es preferible utilizar muestras independientes.

Muestreo bifsico y muestreo en ocasiones sucesivas

341

ESTIMADORES DE MNIMA VARIANZA EN EL MUESTREO EN OCASIONES


SUCESIVAS
Estimador del cambio entre dos ocasiones
Consideraremos el estimador lineal de mnima varianza del cambio combinado:

6$ = W ( x 2 c < x1c ) + ( 1 < W ) u ( x 2 c < x1c )


y determinamos el valor de W que haga efectivamente mnima la varianza de 6$ .

()

= W 2V ( x < x ) + (1 < W )2 V u ( x < x ) .


Tenemos V 6
2c
1c
2c
1c
Obteniendo la primera derivada respecto de W e igualando a cero se tiene:

2W u V ( x2c < x1c ) < 2 u (1 < W ) u V ( x2c < x1c ) = 0 W =


y sustituyendo las varianzas V ( x2c < x1c ) =

V ( x2c < x1c )


V ( x2c < x1c ) + V ( x2c < x1c )

2S 2
2S 2
(1 < l12 )
y V ( x2c < x1c ) =
n<c
c

1
(1 < l12 )(1 < / c )
/c
c
n<c
=
=
1<W =
W=
1 < l12 c + (n < c)(1 < l12 ) 1 < l12 (1 < / c )
1
1 < l12 (1 < / c )
+
n<c
c
Sustituyendo estos valores en la expresin de la varianza del estimador lineal de
mnima varianza se obtiene:

(1 < / c ) u (1 < l12 ) 2S 2


/ c 2S 2 (1 < l12 )
2
2

=
V 6 = W V (x2c < x1c ) + (1 < W ) V u (x2c < x1c )
[1 < l12 (1 < / c )]2 u n [1 < l12 (1 < / c )]2 u n
2

()

2S 2 (1 < l12 )

u [/ c + (1 < / c ) u (1 < l12 )] =

2S 2 (1 < l12 )

[1 < l (1 < / )] u n
[1 < l (1 < / )]
2S (1 < l )
2S (1 < l )
=
u (1 < l (1 < / )) =
[1 < l (1 < / )] u n
[1 < l (1 < / )] u n
2

12

12

12

12

12

12

un

u (1 < l12 + / c l12 )

12
c

Hemos obtenido una expresin para la varianza mnima del estimador lineal:

()

V 6 =

2 S 2 (1 < l12 )
[1 < l12 (1 < / c )] u n

Vemos que, en este caso, el estimador lineal de mnima varianza combinado 6$


proporciona igual precisin que el estimador simple ,$ cuando / c = 1, es decir, cuando se
mantiene la misma muestra para la segunda ocasin.

342 Muestreo estadstico. Conceptos y problemas resueltos

Estimador de la media en la segunda ocasin


Vamos a trabajar en la suposicin de que en la primera ocasin el tamao de la muestra es lo
suficientemente grande para poder considerar la estimacin x1 como aproximacin al valor

X 1 en el estimador de regresin x 2' c = x 2 c + b( x1 < x1c ) cuya varianza viene dada por la
varianza de sus componentes x 2 c < bx1c y bx1 :

V ( x 2 c < bx1c ) = V ( x 2 c ) + b 2V ( x1c ) < 2 cov( x 2 c ; x1c ) =


S2
S2
S S
S2
+ l122
< 2 l12 u l12 u
u
=
1 < l122
c
c
c
c c

2
S
S2
2 S
V (bx1 ) = b u V ( x1 ) = b u
= l12
, (S1 = S 2 b = 1 u l12 = l12 )
n
n
S2
2

( )

Sumando ambas componentes se obtiene: V x

'
2c

1 < l122
l122
=S
+

n
c
2

Utilizaremos el estimador lineal de mnima varianza de la media para la segunda


ocasin combinado definido por:

x 2 = Wx 2' c + ( 1 < W ) x 2 c

( )

( )
V(x )
W=
V( x ) +V( x )

( )

cuya varianza V x 2 = W 2V x 2' c + ( 1 < W ) V x 2 c es mnima para:


2c

'
2c

1< W =

2c

V ( x 2' c )

V ( x 2' c ) + V ( x 2 c )

de donde se deduce que el estimador combinado de varianza mnima para estimar la media
en la segunda ocasin toma la forma:

x2 =

V ( x 2' c )

V ( x2c )

u x 2' c +

V ( x 2' c )

V ( x2c )

V ( x2c )

x 2' c

V ( x 2' c )

es una media ponderada con los coeficientes de ponderacin basados en los valores
recprocos de las varianzas. Sustituyendo los valores de W y 1 < W en V x 2 , calculamos el
valor de la varianza mnima para el estimador de la media en segunda ocasin. Tenemos

( )

V (x2 ) =

V 2 ( x2c )

(V (x ) + V (x ))

( )

'
2c

( )

V 2 x 2' c +
2

2c

( )

V 2 x 2' c

V 2 (x2c ) =
2

(V (x ) + V (x ))
'
2c

2c

1 < l122 l122


S2
S2
y V ( x 2 c ) =
=
+
tenemos:
n
n<c
c
c

y como V x 2' c = S 2

( )
( )

V ( x 2 c )V x 2' c
V ( x 2 c )V x 2' c

Muestreo bifsico y muestreo en ocasiones sucesivas

343

1 < l122 n + cl122 S 2


u
S 2 u
cn
1 < l122 u n + cl122
S2

c =
V (x2 ) =
u
cn c
1 < l122 n + cl122 S 2
1 < l122 u n + cl122 +
+
S 2 u
c
cn

c
=

S2
u
c

n < l122 (n < c )


S 2 u n < l122 (n < c ) S 2 u n < l122 (n < 1)
=
=
2 2
cn
c
n
c
cn
n 2 < l122 c 2
<
l
+
2
12
n < l12 (n < c ) +
c

Por lo tanto, ya tenemos el valor de la varianza mnima para el estimador lineal de


mnima varianza de la media en segunda ocasin:

V (x2 ) = S 2

n < l122 c 2
n 2 < l122 c 2

S 2 u n u (1 < l122 ) S 2
S2
y c = n V (x 2 ) =
En particular , c = 0 V (x 2 ) =
=
n
n
n 2 (1 < l122 )

Luego podemos decir que para estimar el valor actual de X 2 se obtiene la misma
precisin manteniendo la muestra que cambindola por completo en cada ocasin.

344 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
9.1.

Se trata de estudiar las casas en alquiler en una poblacin. Para ello se extrae una muestra
aleatoria simple extensa y barata de tamao 374 de las casas de un distrito y se halla que 272
casas estaban ocupadas por familias de raza blanca y 82 por otras razas. Se extrae una
segunda muestra de aproximadamente una de cada cuatro casas y se obtienen los siguientes
resultados respecto de la proporcin de casas en alquiler:
En alquiler
Blancos
Otras razas

Total

31
4

74
18

Estimar la proporcin de casas en alquiler en la poblacin y su error de muestreo.


Se trata de un problema de muestreo bifsico en el que la muestra de primera fase tiene de
tamao n = 374 distribuyndose entre los dos estratos con n1 = 272 y n2 = 82.
En segunda fase tenemos los siguientes datos por estratos:
Estrato I A Raza blanca
Estrato II A Otras razas

n1 = 74
n2 = 18

n=92

W$ 1 = 272/374 P$ 1 =31/74
W$ 2 = 82/374 P$ 2 = 4/18

2
272 31 82 4
$
Tenemos entonces P = W$h P$h =
u
+
u = 0,376 .
374 74 374 18
h =1

Para hallar el error de muestreo calculamos la estimacin de la varianza de la


proporcin a partir de la frmula aproximada:
2
n' Ph Q h 2 W h 1
+ W h Pn < P =
Wh <
V P =

n'<1 h nh < 1
n' n' h

()

31 43
82
272 4 14
2
2
u
u

374 74 74 272
82
374
18
18
374

<
+
<

374
17 374
374
373 73 374

2
2
1 272 31
82 4

< 0,376 +
< 0,376 0,0025

374 374 74
374 18

El error relativo de muestreo ser

0,0025
= 0,133 (13,3%) .
0,375

Muestreo bifsico y muestreo en ocasiones sucesivas

9.2.

345

Se trata de estimar una proporcin a travs de una encuesta para la que se dispone de un
presupuesto de 300000 unidades monetarias utilizando muestreo bifsico con estratificacin.
La encuesta principal cuesta 1000 unidades monetarias por unidad de muestreo y se dispone
de informacin adicional en registros a un coste de 25 unidades monetarias por unidad de
muestreo que permite clasificar las unidades en dos estratos de tamaos casi iguales.
Sabiendo que la proporcin verdadera es 0,2 en el primer estrato y 0,8 segundo estrato, se
quiere estimar los tamaos de las muestras en ambas fases n y n ptimos y el
correspondiente valor de la varianza del estimador de la proporcin. Cuantificar la ganancia
en precisin respecto del muestreo aleatorio simple.
Hallaremos los tamaos ptimos n y n correspondientes a un coste total dado tales que
V P sea mnima, escribiendo la funcin de Lagrange:

()

2
1
1

(
)
q = A + B + h c' n'+cn < C con A = Wh Ph Qh y B = Wh (Ph < P)2
n
n'
h
h

Derivando respecto de n y n y h se tiene:

A
A
,q
= < 2 + hc = 0 h= 2
,n
n
cn

B
B
,q
= < 2 + h c' = 0 h =

,n '
n'
c' n' 2
,q

= c ' n '+ cn < C = 0

,h

n =

n ' =

V
pt .

c'

()

X =

C A
Ac +

Bc '

C B
Ac +

Bc '

Ac + Bc '
C

Tenemos como datos que C = 300000, c = 1000, c = 25, P1 = Q2 = 0,2, Q1 = P2 = 0,8,


2

W P

W1 = W2 = 0,5 y P =

h =1

= 0,5(0,2 + 0,8) = 0,5 . Ya podemos calcular:


2

A = Wh Ph Qh = 0,5 0,2 u 0,8 + 0,5 0,8 u 0,2


h

= 0,16

B = Wh (Ph < P ) = 0,5 u (0,2 < 0,5) 2 + 0,5 u (0,8 < 0,5) 2 = 0,09
2

y tenemos:

n=
n' =
V pt .

c'

()

X =

C A
Ac +

Bc '

C B
Ac +

Bc '

1000
=

Ac + Bc '
C

25

) =(
2

300000 0,16
0,16 u 1000 + 0,09 u 25
300000 0,09
0,16 u 1000 + 0,09 u 25

0,16 u 1000 + 0,09 u 25


300000

) = 268

) = 1272

= 0,0006673

346 Muestreo estadstico. Conceptos y problemas resueltos

En muestreo aleatorio simple la varianza de la proporcin, considerando reposicin (no


olvidemos que para poblaciones grandes en muestreo bifsico pueden aproximarse todas las
frmulas por su expresin para reposicin en las dos fases) ser la siguiente:

V ( P ) =

PQ
0,5(1 < 0,5)
=
= 0,0008333
n
300000 / 1000

Se observa que hay ganancia en precisin al utilizar muestreo bifsico cuantificada por
(0,0008333/0,0006673-1) = 0,248, esto es, el 24,8%.

9.3.

Consideremos un proceso de muestreo bifsico con estratificacin. Supongamos que en la


primera fase se extrae una muestra de tamao n = 400, y que en la segunda fase se ha
tomado, una vez formados tres estratos, n1 = 20, n2 = 10 y n3 = 10. Se conocen los siguientes
resultados:
W h x h
S h2
0,55 2,8
15
0,32 8,2 200
0,13 26 1000
Obtener una estimacin del error relativo de muestreo del estimador de la media as como
una estimacin de la media por intervalos al 95% de confianza.
Se considera que para poblaciones grandes, en muestreo bifsico pueden aproximarse todas las
frmulas por su expresin para reposicin en las dos fases. Para estimar la varianza del
estimador de la media tenemos:

()

400 15
n' s h2 2 W h 1
0,55
2
2
+ W h (xn < X ) =
V X =
Wh <
0,55 <

n'<1 h nh
n' n' h
400
400 < 1 20
200
0,32 1000
0,13 1
2
2
+
0,55(2,8 < 7,54) 2 + 0,32(8,2 < 7,54) 2
0,32 <
+
0,13 <
+
10
400 10
400 400

)]

+ 0,13(26 < 7,54) 2 = 3,96


3

X = W h x h = 0,55 u 2,8 + 0,32 u 8,2 + 0,13 u 26 = 7,544


h =1

El error relativo ser C v( X ) =

V ( X )
3,96
=
= 0,264 (26,4%)

7
,
544
X

Un lmite para el error de estimacin al 95% vendr dado por la anchura del intervalo de
confianza, que vale 1,96 3,96 = 3,9.
Hemos visto en este captulo que para valores grandes de n (caso habitual) el
estimador de la varianza del estimador de la media puede aproximarse por la frmula
correspondiente al estimador de la varianza del estimador de la media en muestreo
estratificado en una sola fase (seguimos suponiendo reposicin) sustituyendo Wh por su
estimacin. En nuestro caso tendramos:

()

S 2
15
200
1000
+ 0,322
+ 0,132
V X = W h2 h = 0,552
= 4,12
20
10
10
nh
h

Muestreo bifsico y muestreo en ocasiones sucesivas

El error relativo ser C v( X ) =

347

V ( X )
4,12
=
= 0,269 (26,9%)

7
,
544
X

Observamos que la prdida en precisin es mnima por haber utilizado la aproximacin


citada.

9.4.

Consideremos dos caractersticas X e Y medidas sobre los elementos de una poblacin para
las que conocemos los datos mx = 2 my = 4 mxy = 10 y X = 10. Se lleva a cabo un muestreo
bifsico obteniendo en primera fase una muestra de tamao n = 100 con y ' = 40,6. En la
segunda fase n = 25, x = 9,8 e y = 40,1. Se trata de estimar la media poblacional utilizando
muestreo bifsico por regresin ptimo calculando el error relativo de muestreo y el coste
total para c = 0 y c = 600
Se tiene l =

m xy
m xy
6
6
6
6
=
= = 0,75 y b = 2 = 2 =
4
16
m xm y 2 u 4 8
my

El estimador por regresin para la media en el muestreo doble se halla mediante:


6
X rg = x + b( y '< y ) = 9,8 + (40,6 < 40,1) = 9,998
16

La varianza del estimador ptimo de la media se calcula mediante la expresin:

( )

1 < l 2 m x2 l 2m x2
1 < 0,75 2 2 2 0,75 2 u 2 2
V X rg =
+
=
+
= 0,0955
n
n'
25
100
V ( X rg )
0,0955

El error relativo ser C v( X rg ) =


=
= 0,0309 (3,09%)

9
,
998
X rg
El coste total ser C = cn + cn = 600(25)+10(100) = 16000.

9.5.

Se utiliza una muestra aleatoria simple de tamao 60 extrada de una poblacin sin
reposicin y probabilidades iguales, para repetir una encuesta sobre sus elementos en dos
ocasiones distintas. Se supone que no existe falta de respuesta y que los resultados obtenidos
son los que representa la tabla adjunta. Adems, se sabe que m2 = 20, l = 0,7 y / = 0,6.

1)
2)
3)
4)

Primera ocasin

Segunda ocasin

x' ' = 150


x' = 152

y' ' = 160


y' = 158

Hallar la estimacin de cambio y < x y su error de muestreo.


Hallar la estimacin del cambio de mnima varianza y su error de muestreo.
Hallar la estimacin de la media en segunda ocasin y y su error de muestreo.
Hallar la estimacin de la media en segunda ocasin de mnima varianza y su error.

348 Muestreo estadstico. Conceptos y problemas resueltos

El nmero c de unidades muestrales comunes en las dos ocasiones se puede calcular a partir de la
proporcin de unidades muestrales comunes /c y del tamao muestral total n.

/c =

c
c = / c u n = 0,6 u 60 = 36
n

n<c
c
60 < 36
36
x ' '+ x ' =
150 + 152 = 0,4 u 150 + 0,6 u 152 = 151,2
n
n
60
60
n<c
c
60 < 36
36
y=
y ' '+ y ' =
160 + 158 = 0,4 u 160 + 0,6 u 158 = 158,8
n
n
60
60

x=

Para la estimacin del cambio y su error tenemos entonces:

, = y < x = 158,8 < 151,2 = 7,6

()

20
S2
V , = 2 [1 < l12/ c ] 2 [1 < 0,7 u 0,6] = 0,38666
60
n
El estimador del cambio de mnima varianza y su error vienen dados por:

6 = W ( y '< x ') + (1 < W ) u ( y ' '< x ' ') con W =

/c

1 < l12 (1 < / c )

0,6
= 0,8333
1 < 0,7 u 0,4

= 0,8333(158 < 152 ) + (1 < 0,8333) u (160 < 150 ) = 6,66666


luego ya tenemos 6

()

V 6 =

2 S 2 (1 < l12 )
2 u 20(1 < 0,7 )

= 0,277
[1 < l12 (1 < / c )] u n [1 < 0,7(1 < 0,6)] u 60

El estimador de la media en segunda ocasin y su error se calculan como:

y=

n<c
c
60 < 36
36
y ' '+ y ' =
160 + 158 = 0,4 u 160 + 0,6 u 158 = 158,8
n
n
60
60

V (y) =

S 2 20

= 0,333
n
60

Utilizaremos el estimador estimador lineal de mnima varianza de la media para la


segunda ocasin combinado definido por:

y = W [ y'+ l ( x < x ')] + (1 < W ) y' ' = 0,65[158 + 0,7(151,2 < 152)] + (1 < 0,65)160 = 159
Los clculos necesarios son los siguientes:

W =

V (x2c )
0,833
=
= 0,65
V x + V ( x 2 c ) 0,446 + 0,833

( )
'
2c

1 < l122 l122


1 < 0,72 0,72
S2
20
= 20
= 0,446 V ( x2c ) =
=
= 0,833
+
V x2' c = S 2
+
n < c 60< 36
60
n
32
c

( )

Muestreo bifsico y muestreo en ocasiones sucesivas

349

El error de muestreo del estimador de varianza mnima viene dado por:

V (y) =

9.6.

S 2 u n < l122 (n < 1) 20 u 60 < 0,7 2 (60 < 1)


=
= 0,29
n 2 < l122 c 2
60 2 < 0,7 2 (60 < 36) 2

Se utiliza una muestra aleatoria simple de tamao 100 de una poblacin de 1000 personas
sin reposicin y probabilidades iguales para repetir una encuesta sobre sus elementos en dos
ocasiones sucesivas preguntando sobre un carcter dicotmico. Se obtienen los resultados de
la tabla adjunta.

O1 A
O2
?

S
No

Total

S
80
10

No Total
5
5

85
15

90 10

100

Hallar l y calcular el error de muestreo del estimador diferencia de proporciones con


contestacin afirmativa entre la segunda y la primera ocasin.
P (1 < P2 )
D = P2 < P1 V ( D ) = V ( P2 ) + V ( P1 ) < 2Cov( P1 , P2 ) = (1 < f ) 2
+
n <1
n
85
85
X 1i u X 2i < nP1 P2
)
(1 <

P1 (1 < P1 )
10 100

100
i =1
+
< 2(1 < f )
= 1 <
(1 < f )

n(n < 1)
n <1
100 100 < 1
90 85
90
90
80 < 100
)
(1 <
10
10 100

100 100 = 0,00134


100 + 21 <
1 <

n(n < 1)
100 100 < 1
100
n

Con los datos de la tabla se comprueba fcilmente que

X
i =1

1i

u X 2i = 80 .

El coeficiente de correlacin se calcular de la siguiente forma:

l=

Cov( P1 , P2 )
=
V ( P1 ) V ( P2 )

0,00032
0,00082 0,00116

= 0,3

350 Muestreo estadstico. Conceptos y problemas resueltos

EJERCICIOS PROPUESTOS
9.1.

Se destinan 3000 unidades monetarias a una encuesta para estimar una proporcin. La
encuesta principal costar 10 unidades monetarias por unidad de muestreo. Se dispone de
informacin en registros, a un coste de 0,25 unidades monetarias por unidad de muestreo,
que permite la clasificacin de las unidades en dos estratos de tamaos casi iguales. Si la
proporcin verdadera es 0,2 en el estrato 1 y 0,8 en el estrato 2, estimar n y n ptimas y el
valor resultante de V(pst). Produce el muestreo bifsico alguna ganancia en precisin sobre
el muestreo aleatorio simple?

9.2.

Si l = 0,8 en muestreo doble para regresin, cmo debe ser n con relacin a n, si la prdida
en precisin debida a errores de muestreo en la media de la muestra grande se desea que sea
menor del 10%?

9.3.

En una aplicacin de muestreo bifsico por regresin la muestra pequea es de tamao 87 y


la grande de tamao 300. Para la muestra pequea conocemos los siguientes datos:

(X
i

< x ) = 17283
2

(X
i

< x )(Yi < y ) = 5114

(Y
i

< y ) = 3248
2

Calcular el error estndar de la estimacin de la regresin de X .

9.4.

En un muestreo en dos ocasiones se supone que S1=S2=S y que las muestras son grandes de
modo que los coeficientes de regresin de X2i respecto de X1i y de X1i respecto de X2i en la
parte apareada de las muestras en las dos ocasiones son ambas efectivamente iguales a l.
Demostrar que si las estimaciones x1 y x2 se construyen usando la regresin de X1i respecto
de X2i se tiene:
v( x 2 < x1 ) =

2S 2 (1 < l )
(n < lu )

v( x2 + x1 ) =

2 S 2 (1 + l )
(n + lu )

CAPTULO
MUESTREO ESTADSTICO
MEDIANTE SPSS

OBJETIVOS
1. Presentar mtodos automatizados de tratamiento del muestreo estadstico.
2. Analizar las posibilidades en muestreo del software SPSS a partir de la
versin 12.
3. Utilizar el asistente de muestreo de SPSS para la creacin de planes de
muestreo en diseos complejos.
4. Utilizar el asistente de muestreo de SPSS para la modificacin y ejecucin
de planes de muestreo en diseos complejos.
5. Estudiar las posibilidades del asistente de preparacin de anlisis de SPSS
para la creacin de un plan de anlisis en una muestra compleja.
6. Estudiar las posibilidades del asistente de preparacin de anlisis de SPSS
para la modificacin de un plan de anlisis en una muestra compleja.
7. Realizar clculos en muestra complejas con SPSS.
8. Obtener frecuencias, descriptivos, tablas de contingencia, razones y otros
estimadores y sus errores en muestras complejas con SPSS.

352 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. SPSS y el muestreo estadstico.
2. Diseos complejos y el asistente de muestreo. Creacin de un nuevo plan
de muestreo.
3. Asistente de muestreo: Modificar un plan existente.
4. Asistente de muestreo: ejecutar un plan de muestreo dado.
5. Preparacin de una muestra compleja para su anlisis: Creacin de un
nuevo plan de anlisis.
6. Preparacin de una muestra compleja para su anlisis: Modificar un plan de
anlisis existente.
7. Clculos en muestras complejas: frecuencias, descriptivos, tablas de
contingencia y razones.

Muestreo estadstico mediante SPSS

353

SPSS Y EL MUESTREO ESTADSTICO


Un supuesto inherente a los procedimientos de anlisis en los paquetes de software
tradicionales es que las observaciones del archivo de datos de trabajo representan una
muestra aleatoria simple de la poblacin de inters. Este supuesto es insostenible para un
nmero cada vez mayor de empresas e investigadores que consideran ms econmico y
cmodo obtener las muestras de una forma ms estructurada. La opcin Muestras complejas
de SPSS (opcin presente en el programa a partir de la versin 12) permite seleccionar una
muestra de acuerdo con un diseo complejo e incorporar las especificaciones del diseo al
anlisis de los datos para asegurar la validez de los resultados.
En SPSS, una muestra compleja puede ser distinta de una muestra aleatoria simple en
muchos aspectos. En una muestra aleatoria simple, las unidades de muestreo individuales se
seleccionan aleatoriamente con la misma probabilidad y sin reposicin (SR) directamente a
partir de la totalidad de la poblacin. Por el contrario, una muestra compleja determinada
puede tener en SPSS alguna o todas las caractersticas siguientes:
Estratificacin: El muestreo estratificado implica seleccionar muestras independientemente
dentro de los subgrupos de la poblacin que no se solapen o estratos. Por ejemplo, los
estratos pueden ser grupos socioeconmicos, categoras laborales, grupos de edad o grupos
tnicos. Con la estratificacin, puede asegurar que los tamaos muestrales de los subgrupos
de inters son adecuados, mejorar la precisin de las estimaciones globales y utilizar
distintos mtodos de muestreo entre los diferentes estratos.
Conglomerados: El muestreo por conglomerados implica la seleccin de grupos de unidades
muestrales o conglomerados. Por ejemplo, los conglomerados pueden ser escuelas, hospitales
o zonas geogrficas y las unidades muestrales pueden ser alumnos, pacientes o ciudadanos. El
conglomerado es comn en los diseos polietpicos y en las muestras de zona (geogrfica).
Mltiples etapas: En el muestreo polietpico, se selecciona una muestra de primera etapa
basada en conglomerados. A continuacin, se crea una muestra de segunda etapa extrayendo
submuestras a partir de los conglomerados seleccionados. Si la muestra de segunda etapa
est basada en subconglomerados, entonces puede aadir una tercera etapa a la muestra. Por
ejemplo, en la primera etapa de una encuesta, se podra extraer una muestra de ciudades. A
continuacin, y a partir de las ciudades seleccionadas, se podran muestrear unidades
familiares. Finalmente, a partir de las unidades familiares seleccionadas, se podra encuestar
a individuos. Los Asistentes de muestreo y preparacin del anlisis permiten especificar tres
etapas en un diseo.
Muestreo no aleatorio: Cuando es difcil obtener la muestra aleatoriamente, las unidades se
pueden muestrear sistemticamente (con un intervalo fijo) o secuencialmente.
Probabilidades de seleccin desiguales: Cuando se muestrean conglomerados que contienen
nmeros de unidades desiguales, puede utilizar el muestreo probabilstico proporcional al tamao
(PPS) para que la probabilidad de seleccin del conglomerado sea igual a la proporcin de unidades
que contiene. El muestreo PPS tambin puede utilizar esquemas de ponderacin ms generales para
seleccionar unidades.
Muestreo no restringido: El muestreo no restringido selecciona las unidades con reposicin
(CR), por lo que se puede seleccionar ms de una vez una unidad individual para la muestra.

354 Muestreo estadstico. Conceptos y problemas resueltos

Ponderaciones muestrales: Las ponderaciones muestrales se calculan automti-camente al extraer


una muestra compleja y de forma ideal se corresponden con la <<frecuencia>> que cada unidad
muestral representa en la poblacin objetivo. Por lo tanto, la suma de las ponderaciones muestrales
debe estimar el tamao de la poblacin. Los procedimientos de anlisis de muestras complejas
requieren las ponderaciones muestrales para poder analizar correctamente una muestra compleja.

DISEOS COMPLEJOS Y EL ASISTENTE DE MUESTREO. CREACIN DE


UN NUEVO PLAN DE MUESTREO
El Asistente de muestreo le gua a travs de los pasos para crear, modificar o ejecutar un
archivo de plan de muestreo. Antes de utilizar el Asistente, debe tener en mente una poblacin
objetivo bien definida, una lista de las unidades muestrales y un diseo muestral adecuado.
Para crear un nuevo plan de muestreo (por ejemplo, muestreo estratificado del 10% por
barrios en el fichero Venta de casas [por barrios].sav), elija en los mens AnalizarA Muestras
complejas A Seleccionar una muestra...(Figura 10-1). En el Asistente de muestreo seleccione
Disear una muestra y elija un nombre de archivo de plan (PLAN1.CSPLAN) para guardar el plan
de muestreo (Figura 10-2). Pulse Siguiente para ir al paso Variables en el diseo (Figura 10-3),
donde puede definir estratos, conglomerados e introducir ponderaciones muestrales.

Figura 10-1

Figura 10-2

Muestreo estadstico mediante SPSS

355

Figura 10-3
Este paso permite seleccionar las variables de estratificacin y conglomeracin en el
campo Variables arrastrndolas a los campos Estratificar por y Conglomerados respectivamente,
y definir ponderaciones muestrales de entrada en el campo Introducir ponderacin muestral (si
el diseo muestral actual forma parte de un diseo muestral mayor, puede disponer de
ponderaciones muestrales de una etapa anterior del diseo mayor, en cuyo caso puede
especificar una variable numrica que contenga estas ponderaciones en la primera etapa del
diseo actual calculndose las ponderaciones muestrales automticamente para las etapas
posteriores del diseo actual). Tambin puede especificar una etiqueta para la etapa en el
campo Etiqueta de etapa (se utiliza en los resultados para facilitar la identificacin de la
informacin por etapas).
En la parte izquierda de cada paso del Asistente de muestreo se muestra un esquema
de los titulares de todos los pasos. Puede navegar por el Asistente al pulsar el nombre de uno
de los pasos activados en el esquema. Los pasos estn activados cuando todos los pasos
anteriores sean vlidos, es decir, si cada uno de los pasos anteriores dispone de las
especificaciones mnimas necesarias para ese paso. Consulte la ayuda de los pasos
individuales para obtener ms informacin sobre los motivos por los que un paso
determinado puede no ser vlido.
A continuacin, para ir al paso Mtodo, pulsamos en Mtodo en la parte izquierda de la
pantalla del Asistente para obtener la Figura 10-4, en cuyo campo Mtodo elegimos el tipo de
muestreo (aleatorio, sistemtico, con o sin reposicin, etc.).
Algunos tipos de muestreo permiten elegir entre realizar un muestreo con reposicin (CR)
o sin reposicin (SR). Si desea obtener ms informacin, consulte las descripciones de los tipos.
Tenga en cuenta que algunos tipos de probabilidad proporcional al tamao (PPS) estn
disponibles slo cuando se han definido conglomerados y todos los tipos de PPS estn
disponibles slo en la primera etapa de un diseo. Adems, los mtodos SR estn disponibles
slo en la ltima etapa de un diseo.

356 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-4
En el Muestreo aleatorio simple las unidades se seleccionan con probabilidad igual. Se
pueden seleccionar con o sin reposicin. En el Muestreo sistemtico simple las unidades se
seleccionan con un intervalo fijo en todo el marco muestral (o en los estratos, si se han especificado)
y se extraen sin reposicin. Se selecciona una unidad aleatoriamente dentro del primer intervalo
como el punto inicial. En el Muestreo secuencial simple las unidades se seleccionan de forma
secuencial con probabilidad igual y sin reposicin. El Muestreo con probabilidad proporcional al
tamao es un mtodo de primera etapa que selecciona unidades de forma aleatoria con probabilidad
proporcional al tamao. Se puede seleccionar cualquier unidad con reposicin; slo se puede realizar
muestreo sin reposicin de los conglomerados. El Muestreo sistemtico proporcional al tamao es
un mtodo de primera etapa que selecciona unidades de forma sistemtica con probabilidad
proporcional al tamao. Se seleccionan sin reposicin. El Muestreo secuencial proporcional al
tamao es un mtodo de primera etapa que selecciona unidades de forma secuencial con
probabilidad proporcional al tamao del conglomerado y sin reposicin.
El Muestreo de Brewer proporcional al tamao es un mtodo de primera etapa que
selecciona dos conglomerados de cada estrato con probabilidad proporcional al tamao del
conglomerado y sin reposicin. Se debe especificar una variable de conglomeracin para utilizar
este mtodo. El Muestreo de Murthy proporcional al tamao es un mtodo de primera etapa
que selecciona dos conglomerados de cada estrato con probabilidad proporcional al tamao del
conglomerado y sin reposicin. Se debe especificar una variable de conglomeracin para utilizar
este mtodo. El Muestreo de Sampford proporcional al tamao es un mtodo de primera etapa
que selecciona ms de dos conglomerados de cada estrato con probabilidad proporcional al
tamao del conglomerado y sin reposicin. Es una extensin del mtodo de Brewer. Se debe
especificar una variable de conglomeracin para utilizar este mtodo. Por defecto, el mtodo de
estimacin se especifica en el archivo de plan de manera coherente con el mtodo de muestreo
seleccionado, pero la opcin Usar estimacin CR para el anlisis permite utilizar la estimacin
con reposicin incluso si el mtodo de muestreo implica la estimacin SR. Esta opcin solamente
est disponible en la etapa 1. Si se selecciona un mtodo PPS, se deber especificar una medida
del tamao que defina el tamao de cada unidad en el campo Medida del tamao (MDT).

Muestreo estadstico mediante SPSS

357

Estos tamaos pueden definirse explcitamente en una variable o se pueden calcular a


partir de los datos. Opcionalmente, se pueden establecer los lmites inferior y superior de la
MDT, anulando cualquier valor encontrado en la variable MDT o calculado a partir de los datos.
Estas opciones solamente estn disponibles en la etapa 1.
A continuacin, para ir al paso Tamao muestral, pulsamos en Tamao muestral en la parte
izquierda de la pantalla del Asistente para obtener la Figura 10-5 .

Figura 10-5
Este paso permite especificar el nmero o la proporcin de unidades que se van a
muestrear dentro de la etapa actual. El tamao muestral puede ser fijo o variar entre estratos.
Para el propsito de especificar el tamao muestral, se pueden utilizar los conglomerados
elegidos en etapas anteriores para definir estratos. En el campo Unidades puede especificar un
tamao muestral exacto o una proporcin de unidades a muestrear. En el campo Valor se
aplica un valor particular a todos los estratos. Si se selecciona Recuentos como la unidad
mtrica, se deber introducir un entero positivo. Si se selecciona Proporciones, se deber
introducir un valor no negativo (a no ser que se realice una muestra con reposicin, los valores
de proporcin no debern ser mayores que 1). El campo Valores desiguales para estratos
permite introducir distintos valores de tamao para cada estrato a travs del cuadro de dilogo
Definir tamaos desiguales. El campo Leer valores de la variable permite seleccionar una
variable numrica que contenga los valores de tamao para los estratos. Si se selecciona
Proporciones, se tiene la opcin de establecer los lmites inferior y superior para el nmero de
unidades muestreadas.
A continuacin, para ir al paso Variables de resultado, pulsamos en Variables de resultado en
la parte izquierda de la pantalla del Asistente. Se obtiene la Figura 10-6.

358 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-6
Este paso permite elegir las variables que desea guardar cuando se extraiga la muestra.
Tamao poblacional recoge el nmero estimado de unidades en la poblacin de una etapa dada.
El nombre raz de la variable guardada es TamaoPoblacin_. Proporcin muestral recoge la
tasa de la muestra en una etapa dada. El nombre raz de la variable guardada es TasaMuestreo_.
Tamao muestral recoge el nmero de unidades extradas en una etapa dada. El nombre raz de la
variable guardada es TamaoMuestra_. Ponderacin muestral recoge la inversa de las
probabilidades de inclusin.
El nombre raz de la variable guardada es PonderacinMuestra_. Algunas variables por
etapa se generan automticamente. Entre stas se incluyen Probabilidades de inclusin
(proporcin de unidades extradas en una etapa dada con nombre raz de la variable guardada
ProbabilidadInclusin_), Ponderacin acumulada (ponderacin de la muestra acumulada a lo
largo de las etapas anteriores a la actual e incluyendo esta ltima con nombre raz de la variable
guardada), PonderacinMuestraAcumulada_, ndice (identifica las unidades seleccionadas varias
veces dentro de una etapa dada con nombre raz de la variable guardada ndice_), etc.. Los
nombres raz de la variable guardada incluyen un sufijo entero que refleja el nmero de la etapa,
por ejemplo, TamaoPoblacin_1_ para el tamao de la poblacin guardada de la etapa 1.
A continuacin, para ir al paso Resumen, pulsamos en Resumen en la parte izquierda
de la pantalla del Asistente. Se obtiene la Figura 10-7. Se trata del ltimo paso de cada etapa
que proporciona un resumen de las especificaciones del diseo muestral hasta la etapa
actual. A partir de aqu, puede pasar a la siguiente etapa (crendola si es necesario en Aadir
etapa 2) o definir las opciones para extraer la muestra.

Muestreo estadstico mediante SPSS

359

Figura 10-7
Ya estamos en condiciones de extraer la muestra segn el diseo definido en los pasos
anteriores. Para ello elegimos Extraer muestra A Opciones de seleccin en la parte izquierda de
la pantalla del Asistente de muestreo. Tambin puede controlar otras opciones del muestreo,
como la semilla aleatoria y el tratamiento de los valores perdidos (Figura 10-8). Extraer muestra,
adems de elegir si desea extraer una muestra, tambin puede elegir ejecutar parte del diseo
muestral. Las etapas se deben extraer en orden; es decir, la etapa 2 no se puede extraer a menos
que ya se haya extrado la etapa 1. Al editar o ejecutar un plan, no puede volver a muestrear
etapas bloqueadas. El campo Semilla permite elegir un valor de semilla para la generacin de
nmeros aleatorios. El campo Incluye los valores perdidos definidos por el usuario determina si
los valores perdidos definidos por el usuario son tratados como vlidos. Si es as, los valores
perdidos definidos por el usuario se tratan como una categora diferente. El campo Los datos ya
estn ordenados permite acelerar el proceso de seleccin si el marco muestral est clasificado
previamente por los valores de las variables de estratificacin.

Figura 10-8

360 Muestreo estadstico. Conceptos y problemas resueltos

Realizado el diseo y extrada la muestra, slo resta guardar los resultados


adecuadamente. Para ello se selecciona Extraer muestra A Archivos de resultados en la parte
izquierda de la pantalla del Asistente de muestreo (Figura 10-9). Este paso permite elegir dnde
dirigir los casos muestreados, las variables de ponderacin, las probabilidades conjuntas y las
reglas de seleccin de casos.
Las opciones de Dnde desea almacenar los datos de la muestra? permiten determinar
dnde se escribe el resultado de la muestra. Se puede aadir al archivo de datos de trabajo o
guardar en un archivo externo. Si se especifica un archivo externo, se guardan en el archivo las
variables de los resultados del muestreo y las variables del archivo de datos de trabajo para los
casos seleccionados. Las opciones de Dnde desea guardar las probabilidades conjuntas?
permiten determinar dnde se escriben las probabilidades conjuntas. Las probabilidades
conjuntas se producen si se seleccionan la probabilidad proporcional al tamao sin reposicin,
el muestreo de Brewer proporcional al tamao, el muestreo de Sampford proporcional al
tamao o el mtodo de Murthy proporcional al tamao y la estimacin con reposicin no se
especifica. En cuanto al campo Guardar reglas de seleccin de casos, si est construyendo la
muestra por etapas, es posible que quiera guardar las reglas de seleccin de casos en un
archivo de texto. Son tiles para construir el submarco de las etapas posteriores.

Figura 10-9
Ya slo resta finalizar el proceso adecuadamente. Para ello se selecciona Extraer
muestra A Finalizacin en la parte izquierda de la pantalla del Asistente de muestreo (Figura 10-10).
Puede guardar el archivo de plan y extraer la muestra ahora o pegar las selecciones en una
ventana de sintaxis. Al editar un plan, puede guardar el plan editado en un archivo nuevo o
sobrescribir el archivo de plan existente.

Muestreo estadstico mediante SPSS

361

Figura 10-10
Al pulsar en Finalizar en la Figura 10-10 se obtiene la salida del procedimiento con la
sintaxis (Figura 10-11) y un resumen para las etapas (Figura 10-12).

Figura 10-11

Figura 10-12

Tambin se obtiene un resumen sobre las distintas etapas de seleccin de la muestra,


que se presenta a continuacin.
Resumen

Etapa 1
Variables
Informacin de
la muestra

Informacin
sobre el anlisis

Estratificacin
Mtodo de seleccin

Proporcin de unidades muestreadas


Variables creadas Probabilidad de inclusin
o modificadas
(seleccin) segn etapa
Ponderacin de muestreo
acumulada segn etapa
Tamao de la poblacin segn etapa
Tamao de la muestra segn etapa
Tasa de muestreo segn etapa
Ponderacin de muestreo segn etapa
Supuestos del estimador
Probabilidad de inclusin

Barrio
Muestreo aleatorio simple sin
reposicin
,1
ProbabilidadInclusin_1_
PonderacinMuestralAcumulada_1
_
TamaoPoblacin_1_
TamaoMuestral_1_
TasaMuestreo_1_
PonderacinMuestral1_
Muestreo de probabilidad igual
sin reposicin
A partir de la variable
ProbabilidadInclusin_1_

Archivo del plan: C:\Archivos de programa\SPSS12\PLAN1Variable de ponderacin: PonderacinMuestral_Final_

362 Muestreo estadstico. Conceptos y problemas resueltos

ASISTENTE DE MUESTREO: MODIFICAR UN PLAN EXISTENTE


Para modificar un plan de muestreo existente, por ejemplo para guardar la muestra estratificada
anterior en una archivo nuevo de nombre PLAN2.SAV, elija en los mens: Analizar A Muestras
complejas A Seleccionar una muestra..., seleccione Editar un diseo muestral y elija el archivo de
plan anterior PLAN1.CSPLAN para editar (Figura 10-13). Pulse Siguiente para continuar usando el
Asistente. Revise el plan de muestreo del paso Resumen del plan (Figura 10-14), y a continuacin
pulse Siguiente. En Extraer muestra A Archivos de resultados especifique el archivo para guardar la
muestra (Figura 10-15). Vaya al paso final y especifique un nombre nuevo para el archivo de plan
editado (Figura 10-16). Si lo desea, tiene la posibilidad de Especificar las etapas que ya se han
muestreado y Eliminar etapas del plan.

Figura 10-13

Figura 10-14

Muestreo estadstico mediante SPSS

363

Figura 10-15
Puede ocurrir que al pulsar Finalizar en la Figura 10-16, algunas variables a guardar
coincidan en nombre con las ya existentes. En ese caso, en la pantalla de la Figura 10-17 se hace clic en
Cambiar nombre y SPSS realiza los cambios adecuados. La Figura 10-18 muestra el nuevo archivo
PLAN2.SAV que contiene la muestra aleatoria.

Figura 10-16

364 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-17

Figura 10-18

ASISTENTE DE MUESTREO: EJECUTAR UN PLAN DE MUESTREO DADO


Elija en los mens Analizar A Muestras complejas A Seleccionar una muestra...(Figura 10-1).
En el Asistente de muestreo seleccione Extraer una muestra (Figura 10-13) y elija un
archivo de plan para ejecutar. Pulse Siguiente para continuar usando el Asistente. Revise el
plan de muestreo del paso Resumen del plan, y a continuacin pulse Siguiente. Cuando se
ejecuta un plan de muestreo se omiten los pasos individuales que contienen informacin de
la etapa. Ya puede pasar al paso de finalizacin. Si lo desea, tiene la posibilidad de
especificar las etapas que ya se han muestreado.

PREPARACIN DE UNA MUESTRA COMPLEJA PARA SU ANLISIS:


CREACIN DE UN NUEVO PLAN DE ANLISIS
El Asistente de preparacin del anlisis le gua a travs de los pasos para crear o modificar un
plan de anlisis y utilizarlo con los distintos procedimientos de anlisis de muestras complejas.
Antes de utilizar el Asistente, debe haber extrado la muestra para el anlisis de acuerdo con un
diseo complejo. Es ms til crear un plan nuevo cuando no se tiene acceso al archivo del plan
de muestreo utilizado para extraer la muestra (recuerde que el plan de muestreo contiene un
plan de anlisis por defecto). Si no tiene acceso al archivo del plan de muestreo utilizado para
extraer la muestra, puede utilizar el plan de anlisis contenido por defecto en el archivo del
plan de muestreo u omitir las especificaciones del anlisis por defecto y guardar los cambios
en un archivo nuevo.
Para crear un nuevo plan de anlisis, elija en los mens Analizar muestras complejas A
Preparar para el anlisis... (Figura 10-19), seleccione Crear un archivo de plan en la Figura
10-20 y elija un nombre de archivo de plan para guardar el plan del anlisis. Crearemos un
plan de anlisis de nombre PLANA.CSAPLAN para la muestra obtenida anteriormente y guardada
en el fichero PLAN2.SAV. Pulse Siguiente para continuar usando el Asistente. Especifique la
variable que contiene las ponderaciones muestrales en el paso Variables del diseo y, si lo desea,
puede definir estratos y conglomerados (Figura 10-21). Es posible seleccionar el mtodo de
estimacin de los errores tpicos en el paso Mtodo de estimacin (Figura 10-22). Tambin
puede especificar el nmero de unidades muestrales o la probabilidad de inclusin por unidad
en el paso Tamao (Figuras 10-23 y 10-24).

Muestreo estadstico mediante SPSS

365

El paso Resumen (Figura 10-25) recoge las especificaciones de nuestro anlisis.


Tambin es posible aadir una segunda o tercera etapa al diseo en el paso Aadir etapa. El
paso Finalizacin permite guardar el archivo del plan ahora o pegar las selecciones en una
ventana de sintaxis (Figura 10-26). Ahora puede pulsar Finalizar para guardar el plan. Se
obtiene la salida del procedimiento (Figura 10-27).

Figura 10-19

Figura 10-20

Figura 10-21

366 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-22

Figura 10-23

Figura 10-24

Muestreo estadstico mediante SPSS

Figura 10-25

Figura 10-26

Figura 10-27

Figura 10-28

367

368 Muestreo estadstico. Conceptos y problemas resueltos

PREPARACIN DE UNA MUESTRA COMPLEJA PARA SU ANLISIS:


MODIFICAR UN PLAN DE ANLISIS EXISTENTE
Para modificar un plan de anlisis existente elija en los mens Analizar A Muestras
complejas A Preparar para el anlisis... (Figura 10-19), seleccione Editar un archivo de plan y
elija un nombre de archivo de plan en el que se guardar el plan del anlisis (Figura 10-28). Pulse
Siguiente para continuar usando el Asistente. Revise el plan de anlisis en el paso Resumen del
plan y, a continuacin, pulse Siguiente. Los pasos posteriores son prcticamente iguales que los
de un diseo nuevo. Desplcese al paso de finalizacin y especifique un nombre nuevo para el
archivo de plan editado o sobrescriba el archivo de plan existente. Si lo desea, tiene la posibilidad
de eliminar etapas del plan.

CLCULOS EN MUESTRAS COMPLEJAS: FRECUENCIAS, DESCRIPTIVOS,


TABLAS DE CONTINGENCIA Y RAZONES
Una vez seleccionada una muestra mediante el Asistente de muestreo que se activa con
AnalizarA Muestras complejas A Seleccionar una muestra... (Figura 10-1), y preparada la
muestra para su anlisis mediante el Asistente de preparacin del anlisis que se activa con
AnalizarA Muestras complejas A Preparar para el anlisis... (Figura 10-19), ya estamos
en disposicin de calcular frecuencias, estadsticos, tablas de contingencia y razones a partir
de los datos de nuestra muestra.

Frecuencias de Muestras complejas


El procedimiento Frecuencias de Muestras complejas genera tablas de frecuencias para las
variables seleccionadas en un archivo de plan de anlisis existente (*.CSAPLAN) y muestra
estadsticos univariantes. Si lo desea, puede solicitar estadsticos por subgrupos definidos por una
o ms variables categricas.
El procedimiento genera estimaciones de los tamaos poblacionales de las casillas,
adems de errores tpicos, intervalos de confianza, coeficientes de variacin, efectos del diseo,
raz cuadrada de los efectos del diseo, valores acumulados y recuentos no ponderados para cada
estimacin. Adems, se calculan los estadsticos de chi-cuadrado y la razn de verosimilitudes
para el contraste de proporciones de casilla iguales.
Para la obtencin de Descriptivos de Muestras complejas elija en los mens Analizar A
Muestras complejas A Descriptivos... (Figura 10-29), seleccione un archivo de plan, que puede
ser el asociado por defecto a la muestra en memoria PLAN2.SAV u otro a especificar en Archivo
personalizado (Figura 10-30) y, si lo desea, seleccione un archivo de probabilidades conjuntas
personalizado.
Pulse en Continuar y seleccione al menos una variable de medida y, si lo desea, tiene la
posibilidad de especificar variables para definir subpoblaciones (Figura 10-31), en cuyo caso los
estadsticos se calculan por separado para cada subpoblacin. Al pulsar Aceptar se obtiene la
salida (Figuras 10-32 y 10-33).

Muestreo estadstico mediante SPSS

Figura 10-29

Figura 10-30

Figura 10-31

Figura 10-32

Figura 10-33

Figura 10-34

369

Descriptivos de Muestras complejas


El procedimiento Descriptivos de Muestras complejas genera estadsticos descriptivos para
las variables seleccionadas en un archivo de plan de anlisis existente (*.CSAPLAN). Si lo
desea, puede solicitar estadsticos por subgrupos definidos por una o ms variables
categricas.

370 Muestreo estadstico. Conceptos y problemas resueltos

El procedimiento genera estimaciones de los tamaos poblacionales de las casillas,


adems de errores tpicos, intervalos de confianza, coeficientes de variacin, efectos del diseo,
raz cuadrada de los efectos del diseo, valores acumulados y recuentos no ponderados para cada
estimacin. Adems, se calculan los estadsticos de chi-cuadrado y la razn de verosimilitudes
para el contraste de proporciones de casilla iguales. Para la obtencin de Descriptivos de
Muestras complejas elija en los mens Analizar A Muestras complejas A Descriptivos...
(Figura 10-34), seleccione un archivo de plan, que puede ser el asociado por defecto a la muestra
actual (PLANA.CSAPLAN) u otro a especificar en Archivo personalizado (Figura 10-35) y, si lo
desea, seleccione un archivo de probabilidades conjuntas personalizado. Pulse en Continuar y
seleccione al menos una variable de medida (Figura 10-36). Si lo desea, tiene la posibilidad de
especificar variables para definir subpoblaciones, en cuyo caso los estadsticos se calculan por
separado para cada subpoblacin. El botn Estadsticos permite elegir los estadsticos a obtener
(Figura 10-37). Al pulsar Aceptar se obtiene la salida (figuras 10-38 a 10-40).

Figura 10-35

Figura 10-36

Figura 10-37

Figura 10-38

Figura 10-39

Muestreo estadstico mediante SPSS

Figura 10-40

371

372 Muestreo estadstico. Conceptos y problemas resueltos

Tablas de contingencia de Muestras complejas


El procedimiento Tablas de contingencia de Muestras complejas genera tablas de contingencia
para los pares de variables seleccionadas y muestra estadsticos sobre la clasificacin
bivariante. Si lo desea, puede solicitar estadsticos por subgrupos, definidos por una o ms
variables categricas. Para la obtencin de Tablas de contingencia de Muestras complejas elija
en los mens Analizar A Muestras complejas A Tablas de contingencia... (Figura 10-41),
seleccione un archivo de plan, que puede ser el asociado por defecto a la muestra actual
(PLANA.CSAPLAN) u otro a especificar en Archivo personalizado (Figura 10-42) y, si lo desea,
seleccione un archivo de probabilidades conjuntas personalizado. Pulse en Continuar y seleccione al
menos una variable de medida para el campo Filas y otra para el campo Columnas que formarn la
tabla de contingencia (Figura 10-43). Si lo desea, tiene la posibilidad de especificar variables para
definir subpoblaciones, en cuyo caso las tablas se calculan por separado para cada subpoblacin. El
botn Estadsticos permite elegir los estadsticos a obtener (Figura 10-44). Al pulsar Aceptar se
obtiene la salida.

Figura 10-41

Figura 10-42

Figura 10-43

Figura 10-44

Muestreo estadstico mediante SPSS

373

Razones de Muestras complejas


El procedimiento Razones de Muestras complejas muestra estadsticos de resumen
univariantes para razones de variables. Si lo desea, puede solicitar estadsticos por subgrupos,
definidos por una o ms variables categricas. Para la obtencin de Razones de Muestras
complejas elija en los mens Analizar A Muestras complejas A Razones... (Figura 10-45),
seleccione un archivo de plan, que puede ser el asociado por defecto a la muestra actual
(PLANA.CSAPLAN) u otro a especificar en Archivo personalizado (Figura 10-46) y, si lo
desea, seleccione un archivo de probabilidades conjuntas personalizado. Pulse en Continuar y
seleccione al menos una variable de medida para el campo Numerador y otra para el campo
Denominador que formarn la razn a estimar (Figura 10-47). Los numeradores y los
denominadores deben ser variables de escala con valores positivos. Si lo desea, tiene la
posibilidad de especificar variables para definir subpoblaciones, en cuyo caso, las razones se
calculan por separado para cada subpoblacin.
El botn Estadsticos permite elegir los estadsticos a obtener (Figura 10-48). Al
pulsar Aceptar se obtiene la salida (Figuras 10-49 y 10-50).

Figura 10-45

Figura 10-46

Figura 10-47

Figura 10-48

374 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-49

Figura 10-50