Está en la página 1de 14

CAPÍTULO 3

MUESTREO SISTEMÁTICO

1. Introducción
En muchas situaciones prácticas no están garantizadas algunas de las condicio-
nes necesarias para poder realizar un muestreo aleatorio simple, por ejemplo, la
condición de aleatoriedad de la población o el hecho de disponer de un listado de
dicha población de donde obtener las unidades que formarán la muestra aleatoria
simple.
Un diseño muestral alternativo y de fácil aplicación en este tipo de situaciones es
el llamado muestreo sistemático. Éste se basa en tomar muestras de una manera
directa y ordenada a partir de una regla determinística, también llamada sistemática.
Concretamente, a partir de una sola unidad que se selecciona en primer lugar, el
resto de unidades de la muestra vienen determinadas automáticamente al aplicarle a
dicha unidad una regla selección sistemática.
En este capítulo consideraremos el diseño muestral sistemático más sencillo lla-
mado muestreo sistemático uniforme de paso k. La obtención de una muestra
sistemática de tamaño n de una población de N elementos se consigue de la siguien-
te forma:
1. Seleccionamos aleatoriamente un número δ entre los k primeros,
N
δ ∈ {1,2,..., k}, donde k ≤ e identifica el paso o salto de la regla sistemáti-
n
ca. Llamaremos punto de arranque o semilla al valor de δ que permite obtener
la primera unidad muestral.
2. A partir de la posición δ, dando un salto de k unidades, obtendremos la
segunda unidad de la muestra uδ + k y de esta forma, saltando de k en k unidades,
el resto de la muestra estará formada por las unidades uδ + 2 k , uδ + 3k ,..., uδ + ( n −1) k .
$ M. Virtudes Alba Fernández & Nuria Ruiz Fuentes

Según este procedimiento el espacio muestral M está formado por las k posibles
muestras sistemáticas asociadas a cada punto aleatorio de arranque. Denotaremos
a cada muestra por m j ; j = 1,K, k y su composición es la siguiente

m1 = {u1 , u1+ k , u1+ 2 k , K , u1+ (n −1)k }


m2 = {u 2 , u 2 + k , u 2 + 2 k , K, u 2+ (n −1)k }
M
mk = {u k , u k + k , u k + 2 k , K , u k + (n −1)k }

1 n
Cada una de ellas tiene probabilidad = de ser seleccionada, y las proba-
k N
bilidades de inclusión de primer y segundo orden correspondiente a este diseño
muestral son

1 n
π i = P [u i ∈ m ] = = , i = 1,2, K , N
k N
 1
[( ) ]
π ij = P u i , u j ∈ m =  k
si u i y u j están en la misma muestra
 0 en otro caso
i ≠ j , i , j = 1,2, K , N

2. Estimación de los parámetros


Los estimadores lineales e insesgados de los parámetros usuales mediante
muestreo sistemático son:
• Para la media,
1
Xˆ sist = ∑ xij = x j
n i∈m j
donde el índice j indica la muestra sistemática resultante a partir del punto de
arranque j, m j .
• Para el total,
Xˆ sist = Nx j
• Para la proporción,
Muestreo Estadístico $!

1 n
Pˆsist = p j = ∑ Aij
n i =1
donde p j denota la proporción muestral asociada a la muestra m j , por tanto,
Aij toma el valor 1 o 0 dependiendo de que la unidad i-ésima de la muestra m j
tenga la cualidad de interés o no, respectivamente.
• Para el total de la clase,

Aˆ sist = NPˆsist

3. Varianza de los estimadores


Bajo muestreo sistemático las varianzas de los estimadores de los parámetros
vienen dadas por las siguientes expresiones
• Para la media,
( )
2

V Xˆ sist = ∑ (x j − X )
1 k
k j =1
donde el índice j indica que se trata de la muestra sistemática asociada al j-
ésimo punto de arranque.
• Para el total,
( )
2

∑ (x − X)
N2 k
V Xˆ sist = j
k j =1

• Para la proporción,
( )
2

V Pˆsist = ∑ (p j − P )
1 k
k j =1
• Para el total de la clase,
( )
2

∑ (p − P)
ˆ N2 k
V Asist = j
k j =1

4. Estimación de la varianza de los estimadores


La estimación de la varianza de los estimadores es uno de los problemas que
plantea el uso de este método de muestreo ya que no hay un método directo para
obtener dichas estimaciones. En este punto, presentamos tres métodos para aproximar
la varianza de los estimadores.
1. Si la ordenación de los elementos en la población “puede considerarse
$" M. Virtudes Alba Fernández & Nuria Ruiz Fuentes

aleatoria”, los resultados que proporciona una muestra sistemática y una mues-
tra aleatoria simple son similares. Por tanto, podemos estimar la varianza de los
estimadores de los parámetros usuales como si se tratase de un muestreo alea-
torio simple. En el caso del estimador de la media,

( )
Vˆ Xˆ sist =
N −n 2
Nn
sj

donde s 2j es la cuasi-varianza muestral de la muestra tomada, m j .


2. Método de las diferencias sucesivas.
Se basa en utilizar la suma de los cuadrados de las diferencias entre cada dos
elementos consecutivos de la muestra, y ajustando este resultado conveniente-
mente por una constante, aproximar la estimación de la varianza del estimador
de la media mediante la expresión

( )
Vˆ Xˆ sist =
N −n
2n(n − 1)N
n −1

∑ (x
i =1
i − xi +1 )
2
y

N (N − n ) n −1
( )
Vˆ Xˆ sist = ∑
2n(n − 1) i =1
(xi − xi +1 )2

3. Método de las muestras interpenetrantes.


Se llaman muestras interpenetrantes al conjunto formado por dos o más mues-
tras elegidas bajo el mismo esquema de muestreo (independientes o no) de for-
ma que cada una de ellas proporciona un estimador del parámetro θ de interés.
En el caso de que sean independientes, se puede dar una estimación insesgada
de la varianza del estimador θˆ .
Dadas t muestras independientes que proporcionan los estimadores insesgados
θˆ1 ,θˆ2 ,K,θˆt , se define el estimador combinado para el parámetro θ como la
media de los θˆi
Muestreo Estadístico $#

t
1
θˆc = ∑ θˆi
t i =1

Es inmediato ver que θˆc también es un estimador insesgado de θ , con varianza


( ) 1 t
( ) ( )
V θˆc = 2 ∑ V θˆi =
t i =1
V θˆi
t
, para algún i.
Entonces un estimador insesgado para la varianza del estimador combinado será
ˆ( )
ˆ
V θc =
1  t ˆ2
t (t − 1)  i =1

 ∑θ i − tθˆc2 

Para aplicar este método al muestreo sistemático, en vez de tomar una muestra
sistemática de tamaño n a partir de un único arranque aleatorio, se toman t
muestras sistemáticas de tamaños n/t a partir de t arranques aleatorios.

Nota: Por su comodidad y amplio uso, destacamos que para t=2


se obtienen las siguientes expresiones para los estimadores de
los parámetros usuales y las estimaciones de sus varianzas.

x + x2
• Media, Xˆ c = 1
2

( ) (x1 − x 2 )
2
ˆ ˆ
V Xc =
4
N
• Total, Xˆ c = (x1 + x 2 )
2

( )
Vˆ Xˆ c =
N2
4
(x1 − x2 )2

• Para el estimador de la proporción y el total de la clase basta con sustituir las


medias muestrales por las proporciones muestrales en las expresiones anteriores
de la media y el total, respectivamente.

4. Ejercicios resueltos

Ejercicio 3.1

Se dispone de una encuesta realizada al terminar un curso de formación en informática


avanzada. Entre las preguntas que se hicieron se encuentran las siguientes:
$$ M. Virtudes Alba Fernández & Nuria Ruiz Fuentes

Pregunta 1. A su juicio, el nivel de conocimientos impartidos en el curso es:


1. Bajo
2. Medio
3. Alto
Pregunta 2. ¿Aplicará los conceptos aprendidos aquí en su actividad laboral?
Pregunta 3. Indique aproximadamente el número de horas invertidas para superar el
examen final de conocimientos.
Los resultados obtenidos se muestran en la siguiente tabla,

Entrevistado 1 2 3 4 5 6 7 8
Respuesta 1 Bajo Alto Medio Medio Bajo Medio Alto Alto
Respuesta 2 SI SI NO NO SI SI NO SI
Respuesta 3 10 15 17 13 16 14 19 23
Entrevistado 9 10 11 12 13 14 15 16
Respuesta 1 Alto Alto Medio Medio Alto Alto Alto Alto
Respuesta 2 NO NO SI NO NO SI SI SI
Respuesta 3 12 19 20 13 21 18 19 23
Entrevistado 17 18 19 20 21 22 23 24
Respuesta 1 Alto Bajo Bajo Medio Alto Alto Alto Bajo
Respuesta 2 SI SI NO NO SI SI NO NO
Respuesta 3 18 21 19 16 25 18 12 20

1. A partir de una muestra sistemática de tamaño 8, estimar el número de participantes


en el curso que utilizarán los conocimientos adquiridos en su actividad laboral. Dar una
estimación del error de estimación suponiendo aleatoriedad en la población.
2. Seleccionar dos muestras sistemáticas de tamaño 6 para estimar de forma combinada
la media de horas de estudio invertidas para superar el examen de conocimientos. Dar
una estimación del error utilizando el método de las muestras interpenetrantes.
3. Estimar la proporción de participantes en el curso que consideran que el nivel de
conocimientos impartidos ha sido Alto a partir de una muestra sistemática de tamaño 6.
Determinar el error de estimación a partir de todas las muestras sistemáticas posibles.

Solución.
Dado que el tamaño de la muestra sistemática a seleccionar es 8, el arranque
aleatorio podrá ser cualquiera entre 1 y 3. Consideremos, por ejemplo, arranque
aleatorio j=3, en este caso la muestra elegida será la formada por las respuestas a
la segunda pregunta siguientes
Muestreo Estadístico $%

m3 = { NO, SI , NO, NO, SI , SI , SI , NO}

y nos solicitan estimar el total de alumnos que utilizarán los conocimientos adquiri-
dos en su actividad laboral mediante el estimador
Aˆ sist = NPˆsist

En la muestra extraída hay cuatro participantes que responden afirmativamente,


por tanto
4
Pˆsist = = 0.5
8

por lo que
Aˆ sist = NPˆsist = 12 ,

es decir, se estima que 12 de los participantes utilizarán los conocimientos adquiri-


dos en su actividad laboral.

Si suponemos aleatoriedad en la población el error de estimación se estima de


igual forma que en el muestreo aleatorio simple, es decir

N (N − n ) 24(24 − 8) 1 1
( )
Vˆ Aˆ sist =
n −1
p(1 − p ) =
8 −1
⋅ ⋅ = 13.7143 = 3.7032
2 2

Seleccionamos ahora dos muestras sistemáticas de tamaño 6, el arranque alea-


torio puede ser cualquiera entre 1 y 4, supongamos para una de ellas j = 2 y para
la otra j = 4 . La estimación del número medio de horas de estudio invertidas para
superar el examen de conocimientos está referida a la Pregunta 3, obteniéndose de
las muestras seleccionadas los siguientes valores
m2 = {15,14,19,18,21,18}

y
m4 = {13,23,13,23,16,20}
$& M. Virtudes Alba Fernández & Nuria Ruiz Fuentes

de forma que el estimador de la media de horas de estudio para cada una de ellas
será

105
Xˆ sist , 2 = x 2 = = 17.5
6
108
Xˆ sist , 4 = x 4 = = 18
6

y el correspondiente estimador combinado


1
(x 2 + x 4 ) = 17.75 ≅ 18
2

la estimación del error por el método de las muestras interpenetrantes sea la si-
guiente

(x 2 − x 4 )2
σˆ ˆ = = 0.25
Xc 4

Para resolver la última cuestión planteada debemos extraer una muestra siste-
mática de tamaño 6. Supongamos que el punto de arranque es j = 1 , la cuestión
planteada se refiere a la primera pregunta y la muestra de entrevistados selecciona-
dos da lugar a las siguientes respuestas
m1 = { BAJO, BAJO, ALTO, ALTO, ALTO, ALTO}.

La proporción de participantes en el curso que considera que el nivel de cono-


cimientos adquirido ha sido alto se estima a partir de esta muestra como
4
Pˆsist = = 0.6667 ,
6

es decir, se estima que un 66.67% de los participantes lo considera así.


Si establecemos todas las posibles muestras sistemáticas de tamaño 6 asociadas
a los cuatro posibles puntos de arranque y a la primera pregunta, se obtiene
Muestreo Estadístico $'

m 1 = {BAJO , BAJO , ALTO , ALTO , ALTO , ALTO}


m 2 = { ALTO , MEDIO , ALTO , ALTO , BAJO , ALTO}
m 3 = { MEDIO , ALTO , MEDIO , ALTO , BAJO , ALTO}
m 4 = { MEDIO , ALTO , MEDIO , ALTO , MEDIO , BAJO}

y de ellas obtenemos las cuatro estimaciones posibles para la proporción de estu-


diantes que considera como ALTO el nivel de conocimientos alcanzado
4 4 3 2
Pˆsist ,1 = , Pˆsist , 2 = , Pˆsist , 3 = , Pˆsist , 4 =
6 6 6 6

y podemos determinar el verdadero error de estimación asociado a dicha propor-


ción
2
( )
V Pˆsist =
1 4 ˆ
4 i =1
(
∑ Psist ,i − P )
2
=
1 4 ˆ

13 
 Psist ,i −  = 0.1382 .
4 i =1  24 

Ejercicio 3.2

El departamento de control de calidad de una empresa productora de latas de conserva,


utiliza de forma periódica muestreo sistemático para estimar el peso medio de las latas en
gramos. Un día concreto en el que se produjeron 240 latas en una hora elegida al azar, se
extrajo una muestra sistemática de tamaño 16 con los siguientes pesos en gramos de las latas
muestreadas: 12, 11.97, 12.01, 12.03, 12.01, 11.8, 11.91, 11.98, 12.03, 11.98,
12, 11.83, 11.87, 12.01, 11.98, 11.97.
Estimar el peso medio de las latas producidas. Dar una estimación del error de muestreo
mediante el método de las diferencias sucesivas, así como un intervalo de confianza al 98%
para dicha estimación (considerando un comportamiento normal del estimador).

Solución.
El estimador del peso medio de las latas producidas es la media de los pesos de
las 16 latas muestreadas de forma sistemática
191.38
Xˆ sist = x = = 11.96125 gramos .
16
% M. Virtudes Alba Fernández & Nuria Ruiz Fuentes

Para estimar la varianza del estimador utilizamos el método de las diferencias sucesivas

( )
Vˆ Xˆ sist =
N − n 15

2n(n − 1)N i =1
(xi − xi +1 )2

=
240 − 16
2 ⋅ 240 ⋅ 16 ⋅ 15
{
⋅ (12 − 11.97 ) + (11.97 − 12.01) + L
2 2

L + (12.01 − 11.98) + (11.98 − 11.97 ) = 0.000235


2 2
}
lo que da lugar a un error de estimación de σˆ ˆ = 0.01533 gramos.
X sist
Para un nivel de confianza del 98% y suponiendo un comportamiento normal del
estimador, el verdadero peso medio de las latas producidas estará comprendido
entre los valores 11.9255 grs, 11.9969 grs.

Ejercicio 3.3

En una determinada comunidad en la que se está realizando un censo, además de la infor-


mación usual se les ha preguntado a los ocupantes de cada vigésima casa cuánto tiempo (en
años) la han habitado. Los resultados obtenidos fueron
n n
n = 115, N = 2300, ∑x
i =1
i = 407.1, ∑x
I =1
2
i = 2011.15 .

Estimar el tiempo medio de estancia en las viviendas muestreadas y determinar


el error de estimación suponiendo aleatoriedad en la población de estudio.

Solución.

La estimación del tiempo medio de ocupación se realiza mediante la media muestral


de tiempos de ocupación en las casas seleccionadas de forma sistemática, es decir,
407.1
Xˆ sist = = 3.54 años .
115

Supuesta la aleatoriedad en la ordenación de los individuos de la población, la


estimación de la varianza del estimador se realiza igual que en el caso del muestreo
aleatorio simple. Teniendo en cuenta que la cuasi-varianza muestral viene dada por
s2 =
1
114
(2011.15 − 115 ⋅ 3.54 2 ) = 5.0001404 ≅ 5 ,
Muestreo Estadístico %

se obtiene la siguiente estimación

( )
Vˆ Xˆ sist =
N − n 2 2300 − 115
Nn
s =
2300 ⋅ 115
⋅ 5 = 0.04131 ,

( )
dando lugar a un error de estimación de Vˆ Xˆ sist = 0.2032 años.

Ejercicio 3.4

Los funcionarios de un museo está interesados en determinar el número total de personas


que lo visitan durante un período de 180 días en los que está en exhibición una costosa
colección de antigüedades. El control de visitantes en el museo cada día es muy costoso y se
encarga a los funcionarios obtener los datos de las visitas cada décimo día. La información
disponible está en la siguiente tabla
Día 3 13 23 33 43 53 63 73 83 93 103 113 123 133 143 153 163 173
xi 160 350 325 283 289 293 296 385 327 298 289 316 290 293 295 306 298 290

Estimar el número total de personas que han visitado el museo durante el período de expo-
sición de la colección de antigüedades. Estimar el error de muestreo mediante el método de
las diferencias sucesivas.

Solución.
Para estimar el número total de personas que visitan el museo necesitamos esti-
mar el número medio de personas que lo visitan diariamente
5383
x= = 299.06 ≈ 299 personas,
18

la estimación del total de visitantes en el período será de


Xˆ sist = 180 ⋅ 299.06 ≈ 53830 personas.

Para estimar la varianza del estimador utilizamos el método de las diferencias


sucesivas
N (N − n ) n −1
( )
Vˆ Xˆ sist = ∑ (x i − x i +1 )2 = 180 ⋅ (180 − 18) ⋅ 52424 = 2.497849 × 10 6
2n (n − 1) i =1 2 ⋅ 18 ⋅ 17

( )
dando lugar a un error de muestreo de Vˆ Xˆ sist = 1580.46 personas.
% M. Virtudes Alba Fernández & Nuria Ruiz Fuentes

Ejercicio 3.5

La primera fase de un examen consistió en aprobar un cuestionario de 65 preguntas. Una


vez finalizado el examen se procedió a ordenar alfabéticamente los cuestionarios para los
40 alumnos presentados y se determinó el número de errores cometidos en cada cuestionario
obteniéndose los siguientes resultados
20 34 56 0 24 0 10 18 11 4
19 22 33 3 12 3 25 12 30 10
23 49 54 51 20 4 38 11 1 32
35 17 32 43 45 25 52 2 29 31

(ordenados por filas).


1. Extraer dos muestras sistemáticas de tamaño 10 (una con arranque aleatorio en 2 y
otra en 4) y estimar la proporción de cuestionarios aprobados en cada caso y dar una
estimación del error estándar de tales estimadores (un cuestionario se considera aproba-
do si posee un número de errores menor o igual que 30). A partir de las dos muestras
anteriores obtener una estimación combinada de la proporción de cuestionarios aproba-
dos y estimar su error estándar.
2. Extraer una muestra sistemática de tamaño 10 con arranque aleatorio en el número
3 y estimar el número medio de errores cometidos. Dar una estimación del error de
estimación utilizando el método de las diferencias sucesivas.
3. Supongamos que la población está ordenada al azar, calcular el tamaño de muestra
necesario para obtener la estimación de la proporción de cuestionarios aprobados con un
error de muestreo de 0.05.

Solución.
Puesto que N=40 para considerar una muestra de tamaño n=10 tenemos que
tomar un número aleatorio entre
N
1y k = =4
n

y tomar los cuestionarios de la encuesta de 4 en 4. Atendiendo al enunciado, los


arranques aleatorios son j = 2 y j = 4 , las muestras seleccionadas son los alum-
nos con el siguiente número de errores
m2 = {34,0,4,3,12,49,4,32,43,2}
Muestreo Estadístico %!

y
m4 = {0,18,22,3,10,51,11,17,25,31}.

Para la primera muestra el número de cuestionarios aprobados, es decir, con 30


o menos errores es de 6 y para la segunda de 8 cuestionarios, por tanto se estiman
un 60% de cuestionarios aprobados según la primera muestra y un 80% según la
segunda.
Para dar una estimación del error estándar de los estimadores supongamos
aleatoriedad en la ordenación de los elementos de la población, bajo esta condición
la estimación se realiza de igual forma que para muestreo aleatorio simple, es decir

( )
Vˆ Pˆ1 =
N −n
N (n − 1)
p1 (1 − p1 ) =
40 − 10
40 ⋅ 9
⋅ 0.6 ⋅ 0.4 = 0.44721

y para la segunda muestra extraída

( )
Vˆ Pˆ2 =
40 − 10
40 ⋅ 9
⋅ 0.8 ⋅ 0.2 = 0.11547 .

El estimador combinado de la proporción de cuestionarios aprobados, a partir


de las dos muestras anteriores
1
Pˆc = (0.6 + 0.8) = 0.7 ,
2

proporciona una estimación de un 70% de cuestionarios aprobados y evaluando la


estimación de la varianza del estimador combinado, se tiene que

( ) ( ) (0.6 − 0.8)2
2
Pˆ − Pˆ2
Vˆ Pˆc = 1 = = 0.01 ⇒ σˆ Pˆ = 0.1 .
4 4 c

Extraemos ahora una muestra sistemática de tamaño 10 con arranque aleatorio


j = 3 , se trata entonces de la siguiente muestra
m3 = {56,10,19,12,30,54,38,35,45,29},

de forma que
%" M. Virtudes Alba Fernández & Nuria Ruiz Fuentes

Xˆ sist = x3 = 32.8 ,

es decir, se estima un número medio de 32.8 errores. Para estimar el error de


estimación utilizamos el método de las diferencias sucesivas

( )
Vˆ Xˆ sist =
40 − 10
2 ⋅ 10 ⋅ 9 ⋅ 40
(3767 ) = 3.9612 errores.

Sin embargo, si suponemos que la población está aletoriamente distribuida, or-


den al azar en la población, el tamaño de muestra necesario se calculará igual que en
el caso de muestreo aleatorio simple para un error de muestreo fijado es la propor-
ción poblacional de cuestionarios aprobados es
25
P= = 0.625
40

y por lo desarrollado para muestreo aleatorio simple, para ε = 0.05 , se obtendrá


un tamaño de muestra óptimo igual a
NP (1 − P ) 40 ⋅ 0.625 ⋅ (1 − 0.625)
n= =
ε (N − 1) + P (1 − P ) 0.05 2 ⋅ 39 + 0.625 ⋅ (1 − 0.625)
2

= 28.2486 ≅ 28 cuestionarios

Sería necesaria una muestra de 28 cuestionarios para estimar la proporción de


cuestionarios aprobados con un error de muestreo inferior o igual al 5%.

También podría gustarte