Está en la página 1de 12

Capı́tulo 1

Muestreo sistemático

El muestreo sistemático es un tipo de muestreo que es aplicable cuando los


elementos de la población sobre la que se realiza el muestreo están ordenados.
Este procedimiento de muestreo se basa en tomar muestras de una manera direc-
ta y ordenada a partir de una regla determinı́stica, también llamada sistemática.
Concretamente, a partir de una sola unidad que se selecciona en primer lugar, el
resto de unidades de la muestra vienen determinadas automáticamente al apli-
carle a dicha unidad una regla selección sistemática. Bajo este procedimiento de
muestreo, por ejemplo, seleccionamos cada vigésimo nombre de una lista, cada
decimosegunda casa de un lado de una calle, cada quincuagésima pieza de una
lı́nea de montaje, etc..
En este capı́tulo consideramos el diseño muestral sistemático más sencillo
llamado muestreo sistemático uniforme de paso k. La obtención de una muestra
sistemática de tamaño n de una población de N elementos se consigue siguiendo
el siguiente procedimiento.
1. Conseguir un listado ordenado de los N elementos de la población.
2. Determinar el tamaño muestral n.
3. Definir el tamaño del salto sistemático k dado por k = N/n.
4. Elegir un número aleatorio δ entre 1 y k (δ=arrranque aleatorio). Este
numero permite obtener la primera unidad muestral.
5. A partir de la posición δ, dando un salto de k unidades, obtendremos la
segunda unidad de la muestra uδ+k y de esta forma, saltando de k en k
unidades, el resto de la muestra estará formada por las unidades uδ+2k ,
uδ+3k , . . ., uδ+(n−1)k .

Ejemplo 1 Consideramos una población de 5000 agricultores pertenecientes a


una determinada zona y de la que se pretende extraer una muestra sistemática
de 10 agricultores. El procedimiento a seguir es el siguiente:
Definir el tamaño del salto sistemático k = 5000/10 = 500.

1
2

Selecciona un numero aleatorio r entre 1 y 500, (por ejemplo 96).


Seleccionar los restantes elementos de la muestra, 96, 96+500=596,
596+500=1096, 1596, 2096, 2596, 3096, 3596, 4096, 4596.

En realidad, bajo muestreo sistemático, clasificamos las unidades de la po-


blación en n zonas o filas de tamaño k, las numeramos de izquierda a derecha
empezando por la primera unidad de la primera fila y pasando a a primera
unidad de la siguiente fila una que se haya agotado la fila anterior. Una vez
numeradas las N = nk unidades podemos expresarlas de la siguiente forma:
i 1 2 3 ... j ... k
1 u1 u2 u3 ... uj ... uk
2 uk+1 uk+2 uk+3 ... uk+j ... uk+k
3 u2k+1 u2k+2 u2k+3 ... u2k+j u2k+k
.. .. .. .. ..
. . . . .
i u(i−1)k+1 u(i−1)k+2 u(i−1)k+3 ... u(i−1)k+j ... u(i−1)k+k
.. .. .. .. .. ..
. . . . . .
n u(n−1)k+1 u(n−1)k+2 u(n−1)k+3 ... u(n−1)k+j ... u(n−1)k+k
Con estas especificaciones, el espacio muestral esta formado por las siguientes
k muestras posibles:

(S1 ) = {u1 , u1+k , u1+2k , . . . , u1+(n−1)k }


(S2 ) = {u2 , u2+k , u2+2k , . . . , u2+(n−1)k }
..
.
(Sk ) = {uk , uk+k , uk+2k , . . . , uk+(n−1)k }

Cada una de estas muestras tiene probabilidad igual a 1/k = n/N de ser selec-
cionada. Las probabilidades de inclusión de primer y segundo orden correspon-
diente a este diseño muestral son
X 1 n
πi = p(s) = = , i = 1, 2, . . . , N,
k N
s∈S;ui ∈s

para la probabilidad de primer orden y



1/k si ui y uj estan en la misma muestra
πij = P [(ui , uj ) ∈ s]
0 en otro caso

Ejemplo 2 Dada la población siguiente


ui u1 u2 u3 u4 u5 u6 u7 u8 u9
Xi 1 3 5 2 4 6 2 7 3
se desea obtener una muestra sistemática de tamaño 3. Determinar el espacio
muestral.
3

1. Tenemos el listado ordenado de los 9 elementos.


2. Tamaño muestral n = 3.
3. El tamaño del salto sistemático es k = N/n = 9/3 = 3.

4. Elegir un numero aleatorio r entre 1 y 3.


Para r = 1, se tiene que la muestra viene dada por {u1 , u1+3 , u1+6 }.
Para r = 2, se tiene que la muestra viene dada por {u2 , u2+3 , u2+6 }.
Para r = 3, se tiene que la muestra viene dada por {u3 , u3+3 , u3+6 }.

A diferencia de los que puede ocurrir en el muestreo aleatorio, ninguna su-


cesión grande de elementos queda sin representación. En consecuencia, si los
elementos considerados en el orden en que aparecen en la lista tienen a for-
mar grupos o zonas de elementos parecidos respecto de la caracterı́stica que se
estudia, el muestreo sistemático puede ser mas representativo que el muestreo
aleatorio simple.
En el muestreo sistemático existe, pues un efecto que podemos llamar de
extension o estratificación si cada grupo de k elementos consecutivos a partir del
primero se considera como un estrato. Debe tenerse en cuenta, sin embargo, que
en el muestreo estratificado aleatorio la selección se efectúa independientemente
en cada estrato, mientras que en el muestreo sistemático todos los elementos
seleccionados ocupan el mismo lugar o numero de orden dentro de cada grupo
de k elementos.
El efecto anterior sera beneficioso para la representatividad de la muestra
cuando hay rachas o estratos sucesivos constituidos por elementos iguales o pa-
recidos entre si. Por el contrario, si en la ordenación de elementos poblacionales
existe cierta periodicidad y k es igual al periodo o múltiplo de éste, la represen-
tatividad disminuye.
En el ejemplo anterior apreciamos que el tamaño del salto sistemático es un
numero entero, pero que ocurre si este tamaño k no es entero?
Una alternativa para solucionar este problema consiste en considerar el lis-
tado ordenado de todos los elementos de la población como circular (es decir,
el elemento N + 1 coincide con el elemento 1). En este caso el procedimiento se
desarrolla de la siguiente manera.
Definir el tamaño del salto sistemático, k, como el entero mas cercano a
N/n.
Elegir un numero aleatorio, r, entre 1 y k.
Seleccionar los elementos de la lista: r, r + k, r + 2k, . . ., r + (n − 1)k
teniendo en cuenta que la lista es circular.

Las ventajas e inconvenientes de este método de muestreo son, en resumen:


Ventajas
4

• Extiende la muestra a toda la población.


• Recoge el posible efecto de estratificación debido al orden en que
figuran las unidades de la población.
• No presenta problemas de calculo algebraico.
• El error de muestreo suele ser inferior que en muestreo aleatorio sim-
ple o incluso que en estratificado.
Inconvenientes
• La posibilidad de aumento de la varianza si existe periodicidad en la
población.
• El problema teórico que se presenta en la estimación de las varianzas
• No hay independencia en la selección de unidades en las distintas
zonas, ya que las unidades extraı́das en cada zona dependen de la
seleccionada en la primera zona.
• En general sólo hay selección aleatoria para la primera unidad de la
muestra.

1.1. Estimadores lineales insesgados


Las estimaciones del total, media, proporción y total de clase poblacionales
son los siguientes:
Total
θ=X⇒X
bstm = N x
b̄j ,
siendo x
b̄j la media de la muestra sistemática j resultante a partir del punto
de arranque j, mj .
Media
θ = X̄ ⇒ X

stm = x
b̄j ,
siendo x
b̄j la media de la muestra sistemática siendo x b̄j la media de la
muestra sistemática j resultante a partir del punto de arranque j, mj .

Proporción
θ = P ⇒ Pbstm = Pbj ,
siendo Pbj la proporción de la muestra sistemática j resultante a partir del
punto de arranque j, mj .
Total de clase
θ=A⇒A
bstm = N Pbj ,

siendo Pbj la proporción de la muestra sistemática j resultante a partir del


punto de arranque j, mj .
5

Ejemplo 3 Dada la población siguiente


ui u1 u2 u3 u4 u5 u6 u7 u8 u9
Xi 1 3 5 2 4 6 2 7 3
se desea obtener una muestra sistemática de tamaño 3. Determinar la distribu-
ción de probabilidad del estimador del total y el de la media.
Solución. Las muestras posibles son (1, 2, 2), (3, 4, 7) y (5, 6, 3) siendo la
probabilidad de cada una de ellas k = 1/3. Se tiene que:

S(X) P (X) X
bstm = N X

j X

stm = Xj

(1,2,2) 1/3 15 5/3
(3,4,7) 1/3 42 14/3
(5,6,3) 1/3 42 14/3
La distribución de probabilidad en el muestreo de estos estimadores viene dado
por:
P (Xbstm = 15) = 1 , P (Xbstm = 42) = 2 .
3 3
1 2
P (X

stm = 5/3) = , P (X

stm = 14/3) = .
3 3
Además dicho estimador es insesgado ya que:

bstm ) = 15 1 + 42 2 = 99 = 33 = X.
E(X
3 3 3

5 1 14 2 33
E(X

stm ) = + = = X̄.
33 3 3 9

1.2. Varianza de los estimadores


Bajo muestreo sistemático las varianzas de los estimadores de los parámetros
vienen dadas por las siguientes expresiones:
Para la media,
k
1 X b̄
V (X

stm ) = (X j − X̄)2 ,
k j=1

donde el ı́ndice j indica que se trata de la muestra sistemática asociada


al j-ésimo punto de arranque y la expresión X b̄ denota la media de la
j
muestra sistemática asociada al j-ésimo punto de arranque.
Para el total,
k
2 X
bstm ) = N
V (X b̄ − X̄)2 ,
(X j
k j=1
6

Para la proporción,
k
1X b
V (P

stm ) = (Pj − P )2 ,
k j=1

siendo Pbj la proporción de la muestra sistemática asociada al j-ésimo


punto de arranque.
Para el total de clase
k
N2 X b
V (Astm ) =
b̄ (Pj − P )2 .
k j=1

Ejemplo 4 Considerando el Ejemplo 3, calcular la varianza del estimador


X

stm considerando la definición y la fórmula dada en la teorı́a.

Para ello, notar que


5 28 33
E[Xb̄
stm ] = + = ,
9 9 9
y por lo tanto, aplicando la definición de varianza de variable aleatoria es

V ar(X b̄ 2 ] − (E[X 2
stm ) = E[X stm ])
b̄ b̄
stm
 2  2  2
5 1 14 2 33
= + −
3 3 3 3 9
= 2.
Aplicando la fórmula de la varianza para muestreo aleatorio simple, se tiene
que
k
1 X b̄
V ar(X

stm ) = (X j − X̄)2
k j=1
 2  2 !
1 5 33 14 33
= − +2 −
3 3 9 3 9
= 2.

1.3. Descomposición de la varianza


Vamos a realizar la siguiente descomposición de la suma de cuadrados para
el análisis de la varianza poblacional.
n X
X k n X
X k n X
X k
(Xij − X̄)2 = b̄ )2 +
(Xij − X j
b̄ − X̄)2
(X j
i=1 j=1 i=1 j=1 i=1 j=1
n X
X k
+ 2 (Xij − X b̄ − X̄).
b̄ )(X
j j
i=1 j=1
7

El término
n X
X k
b̄ )2 ,
(Xij − X j
i=1 j=1

representa la variación dentro de las muestras. Por el contrario, el término


n X
X k
b̄ − X̄)2 ,
(X j
i=1 j=1

representa la variación entre muestras. Si definimos la cuasivarianza entre las k


muestras posibles, o cuasivarianza intermuestral, como
n k
2 1 XX b̄
Sbs = (X j − X̄)2 , (1.1)
k − 1 i=1 j=1

y la cuasivarianza dentro de las muestras o cuasivarianza intramuestral como


n k
2 1 XX b̄ )2 ,
Sws = (Xij − X j (1.2)
N − k i=1 j=1

se tiene en cuenta la siguiente división de la cuasivarianza poblacional,

(N − 1)S 2 = (k − 1)Sbs
2 2
+ (k(n − 1))Sws .

Según esta nomenclatura, podemos expresar las varianzas de los estimadores de


la siguiente forma:
k
1 X b̄
V (X

smt ) = (X j − X̄)2
k j=1
n k
1 XX b̄
= (X j − X̄)2
nk i=1 j=1
2
k − 1 Sbs
=
k n
2 2 2
1 Sbs  n  Sbs  n  Sbs S2
= 1− = 1− = 1− = (1 − f ) bs .
k n nk n N n n

n k n k
N 2 XX c b̄ − X̄)2 = N
2 XX
b̄ − X̄)2
c
V (X
bsmt ) = (X j (X j
nk i=1 j=1 nk i=1 j=1
N2 2
= S (k − 1)
nk bs
S2
= N 2 (1 − f ) bs .
n
8

Se observa que las varianzas de los estimadores aumenta cuanto aumenta la cua-
2
sivarianza intermuestral Sbs . Por lo tanto, para conseguir una mayor eficiencia
en el estimador, la variación entre muestras debe ser lo más pequeña posible, es
decir, que haya homogeneidad dentro de las muestras y que todas las posibles
muestras sean lo más parecidas entre sı́. Por otra parte,
2
Sbs k−1 2 (N − 1)S 2 − (N − k)Sws
2
V (X

smt ) = (1 − f ) = Sbs =
n kn N
N −1 2 N −k 2 2 nk − k 2
= S − Sws = σ − Sws
N N n
n−1 2
= σ2 − Sws
 n 
2 2 n−1 2
V (X
bsmt ) = N σ − Sws .
n

Por lo tanto, la varianza de los estimadores será menor cuanto mayor sea la
2
cuasivarianza intramuestral Sws . Por lo tanto, conviene que la variación dentro
de la muestras sea lo más grande posible, es decir, que haya heterogeneidad
entre las muestras.
En el caso del estimador del total de clase y de la proporción, se obtienen
expresiones similares del tipo
2
Sbs
V (X

smt ) = (1 − f )
n
2
Sbs
V (X
bsmt ) = N 2 (1 − f )
n
n−1 2
V (Pb) = σ2 − Sws
 n 
2 2 n−1 2
V (A)
b = N σ − Sws ,
n

donde, en este caso,


n k n k
2 1 XX 1 XX
Sws = (Aij − Pj )2 , 2
Sbs = (Pj − P )2
N − k i=1 j=1 k − 1 i=1 j=1

Ejemplo 5 Consideramos el ejemplo 3 para el cual habı́amos obtenido la dis-


tribución en el muestreo para el estimador de la media y del total y la varianza
del estimador.
2 2
V ar(Xbstm ) = 15 + 2 ∗ 42 − 332 = 162.
3 3
Sin embargo, las varianzas también pueden calcularse a partir de las fórmulas
deducidas para la descomposición de la varianza.
La cuasi-varianza entre las 3 muestras posibles, o cuasivarianza intermues-
9

tral, viene dado por


n k
2 1 XX c̄
Sbs = (Xj − X̄)2
k − 1 i=1 j=1
" n  2 #
1 X 5 33 2 
14 33
= − +2 −
3 − 1 i=1 3 9 3 9
 2  2
3 5 33 14 33 18
= − +3 − = .
2 3 9 3 9 2

Análogamente, la cuasivarianza intramuestral, o cuasivarianza dentro de las


muestras, viene dada por
n k
2 1 XX c̄ )2 ,
Sws = (Xij − Xj
N − k i=1 j=1
1 
= (1 − 5/3)2 + 2(2 − 5/3)2 + (3 − 14/3)2 + (4 − 14/3)2 +
9−3
 14
(7 − 14/3)2 + (5 − 14/3)2 + (6 − 14/3)2 + (3 − 14/3)2 = ,
6
y finalmente la cuasivarianza poblacional es igual a
n k
1 XX 32
S2 = (Xij − X̄)2 = .
N − 1 i=1 j=1 8

Y comprobamos que se cumple la igualdad

(N − 1)S 2 = (N − k)Sws
2 2
+ (k − 1)Sbs

Además, utilizando la expresión para la varianza del estimador mediante la cua-


sivarianza intermuestral se tiene que

bstm ) = N 2 (1 − 3 ) 9 = 162,
V ar(X
9 3
que coincide con el valor obtenido aplicando la definición de varianza de variable
aleatoria.

1.3.1. Comparación con el muestreo aleatorio simple


La cuasivarianza intermuestral permite comparar el muestreo sistemático con
el muestreo aleatorio simple. Ası́, debido a que tenemos las siguientes expresiones
2 2
b̄ = (1 − f ) S , Sbs
V ar(X) V ar(X smt ) = (1 − f ) ,

n n
10

se tiene que el muestreo aleatorio simple tiene más (menos) precisión que el
muestreo sistemático cuando S 2 < Sbs2
(S 2 > Sbs
2
) y coinciden en precisión
2 2
cuando S = Sbs . Análogamente, tenemos que
2 2
b = N 2 (1 − f ) S , V ar(X
V ar(X) bsmt ) = N 2 (1 − f ) Sbs .
n n
Ejemplo 6 Comparar el muestreo sistemático dado en el Ejemplo 3 con el
realizado mediante muestreo aleatorio simple.

2
En este caso particular, se tiene que la cuasivarianza intermuestral Sbs viene
2 2 2 2
dada por Sbs = 9 y la cuasi-varianza poblacional es de S = 4. Como S < Sbs ,
entonces el muestreo aleatorio simple en este caso particular tiene más precisión
que el realizado mediante muestreo sistemático.
Pasamos ahora al problema de estimación de las varianzas

1.4. Estimación de la varianza de los estimado-


res
La estimación de la varianza de los estimadores es uno de los problemas que
plantea el uso de este método de muestreo ya que no hay un método directo
para obtener dichas estimaciones a partir de una muestra sistemática. En este
punto, presentamos tres métodos para aproximar la varianza de los estimadores
1. Si la ordenación de los elementos en la población “puede considerarse
aleatoria”, los resultados que proporcionar una muestra sistemática y una
muestra aleatoria simple son similares. Por tanto, podemos estimar la
varianza de los estimadores de los parámetros usuales como si se tratase
de un muestreo aleatorio simple. En el caso del estimador de la media
2
Sj
Vb (X stm ) = (1 − f ) ,

n
donde Sbj2 es la cuasi-varianza de la muestra tomada, mj . Para el resto de
los estimadores se tiene que
Sbj2
Vb (X
bstm ) = N 2 (1 − f )
n
Pj Qj
b b
Vb (Pbstm ) = (1 − f )
n−1
Pbj Qbj
Vb (A
bstm ) = N 2 (1 − f ) .
n−1

Para detectar este aleatoriedad en la población examinamos la cuasiva-


2
rianza intermuestral Sbs y si está cercana a la cuasivarianza poblacional
podemos suponer que la población es aleatoria.
11

2. Método de las diferencias sucesivas.


Se basa en utilizar la suma de los cuadrados de las diferencias entre cada
dos elementos consecutivos de la muestra, y ajustando este resultado con-
venientemente por una costante, aproximar la estimación de la varianza
del estimador de la media mediante la expresión
n−1
(1 − f ) X
Vb (X

sist ) = (Xi − Xi+1 )2
2n(n − 1) i=1
n−1
N (N − n) X
V (Xsist ) =
b b (Xi − Xi+1 )2
2n(n − 1) i=1

3. Método de las muestras interpenetrantes


En ocasiones, no podemos estimar la varianza del estimador en función
de la información contenida en una sola muestra sistemática. Se llaman
muestras interpenetrantes al conjunto formado por dos o más muestras
elegidas bajo el mismo esquema de muestreo de forma que cada una de
ellas proporciona un estimador del parámetro poblacional θ de interés.
Sea θb1 , θb2 , . . . , θbk , estimadores insesgados del parámetro poblacional θ y
con varianza igual a V ∗ (θ) b basados en k muestras independientes. Su me-
dia
k
1 Xb
θbc = θi ,
k i=1
es también un estimador insesgado de θ ya que
k
1X b kθ
E[θbc ] = E[θi ] = = θ,
k i=1 k

y su varianza puede calcularse fácilmente como


k
1 X b V ∗ (θ)
b
V (θbc ) = 2
V (θi ) = .
k i=1 k

Además, un estimador insesgado de esta varianza viene dada por


t
1 X
Vb (θbc ) = ( θb2 − tθbc2 ).
t(t − 1) i=1 i

Para aplicar este método al muestreo sistemático, en vez de tomar una


muestra sistemática de tamaño n a partir de un único arranque aleatorio,
se toman t muestras sistemáticas de tamaños n/t a partir de t arranques
aleatorios.

Ejemplo 7 Para t = 2, es decir, considerando dos muestras sistemáticas


con distintos arranques, obtener las expresiones de los estimadores de los
parámetros usuales y las estimaciones de sus varianzas considerando el
método de las muestras interpenetrantes.
12

Para el estimador de la media


b̄2 )2
b̄1 − x
b¯c = x1 + x2 , c̄ ) = (x
b̄ b̄
X Vb (Xc .
2 4
Para el estimador del total
2 b̄ b̄ 2
b¯c = N x1 + x2 , cc = N (x1 − x2 ) .
b̄ b̄
X Vb X
2 4
Para el estimador de la proporción y el total de clase basta con sustituir
las medias muestrales por las proporciones muestrales en las expresiones
anteriores de la media y el total, respectivamente.

Ejemplo 8 En un proceso de control de calidad se trata de analizar la pro-


ducción de piezas en serie de 13 máquinas. Para ello se controlaron las piezas
producidas por las 13 máquinas en el primer momento de su funcionamiento.
La distribución de piezas producidas por cada máquina en el primer minuto de
funcionamiento es:
Máquina 1 2 3 4 5 6 7 8 9 10 11 12 13
Número piezas 5 5 4 2 5 4 5 4 3 4 4 3 2
Para estimar el número de piezas defectuosas en el proceso de producción
se realiza un muestreo sistemático 1 en 5, es decir, se selecciona una de cada
cinco piezas empezando por la primera pieza de la primera máquina hasta que
se agoten sus piezas para pasar a continuación a la primera pieza de la segunda
máquina hasta que se agoten sus piezas y ası́ sucesivamente. Suponiendo que
la primera pieza producida por cada máquina es defectuosa y las demás son
correctas, se pide

Calcular la varianza del estimador de la proporción de piezas defectuosas


producidas por las máquinas. ¿Existirá ganancia en precisión respecto de
un muestreo aleatorio simple con fracción de muestreo del 20 %?
Calcular el coeficiente de correlación intermuestral.
Suponiendo que la distribución de la población es aleatoria, estimar la
varianza para cada muestra sistemática. ¿Con qué muestra sistemática
nos quedaremos que mejor represente a la producción?

También podría gustarte