Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Muestreo Aleatorio Simple
Muestreo Aleatorio Simple
bolas al azar. Si todo el proceso se realiza de manera adecuada, las bolas seleccionadas constituiran una muestra aleatoria simple de 65 estudiantes. Aunque
es conceptualmente simple, este metodo es un poco trabajoso de ejecutar y depende de que las bolas se hayan mezclado de manera adecuada y que todas las
bolas tengan el mismo peso y rozamiento.
Otra manera de seleccionar esta muestra aleatoria simple consistira en utilizar una tabla de n
umeros aleatorios. Una tabla de n
umeros aleatorios es un
conjunto de dgitos generado de modo que, normalmente, la tabla contendra a
cada uno de los diez dgitos (0, 1, . . . , 9), en proporciones aproximadamente iguales, sin mostrar tendencias en el patron que se generan los dgitos. Por lo tanto, si
se selecciona un n
umero en un lugar aleatorio de la tabla, es igualmente probable
que sea cualquiera de los dgitos entre el 0 y el 9. Estas tablas se construyen para
asegurar que cada dgito, cada par de dgitos, cada tres dgitos, ... aparecen con
la misma frecuencia. En el caso de extraer una muestra aleatoria simple, se elige
un lugar para empezar a leer dichos n
umeros aleatorios. Despues se selecciona
una direcci
on (arriba, abajo, derecha e izquierda) y se van recogiendo dgitos
de dos en dos hasta que se consiga el tama
no muestral adecuado. Utilizando
este metodo, un elemento puede aparecer mas de una vez. Si queremos extraer
una muestra aleatoria simple sin reposicion, la solucion es ignorar los elementos
repetidos.
Las ventajas que tiene este procedimiento de muestreo son las siguientes:
Sencillo y de f
acil comprension.
C
alculo r
apido de medias y varianzas.
Existen paquetes informaticos para analizar los datos
Por otra parte, las desventajas de este procedimiento de muestreo son:
Requiere que se posea de antemano un listado completo de toda la poblaci
on.
Si trabajamos con muestras peque
nas, es posible que no representen a la
poblaci
on adecuadamente.
A continuaci
on pasamos a describir este procedimiento de muestreo considerando muestreo sin reposicion.
1.1.
Dise
no muestral
1.1.1.
1.1.2.
= P (ui s) =
=
1.1.3.
N 1
n
n1
=
N
N
n
poblaci
on restantes n2 de ellos para la muestra (los elementos ui y uj ya estan
fijos en la muestra). Tenemos entonces que
ij
1.2.
Casos favorables
Casos posibles
Total de muestras que contienen a (ui , uj )
n(n 1)
=
Total de muestras
N (N 1)
= P ((ui , uj ) s) =
Tal y como se
nal
abamos en el captulo anterior, si el parametro poblacional
tiene una expresi
on lineal del tipo
=
N
X
Yi ,
i=1
i=1 i
de modo que E[bHT ] = siendo i la probabilidad de que la unidad ui pertenezca a una muestra determinada o probabilidad de primera inclusion. Partimos
como es usual de una poblacion formada por N elementos
= {u1 , u2 , u3 , . . . , uN },
en los que se estudiar una variable de interes X que toma los valores
X() = {X1 , X2 , X3 , . . . , XN },
sobre cada elemento de la poblacion. Para ello, se selecciona una muestra de
tama
no n dada por
s = {u1 , u2 , u3 , . . . , un },
en los que la variable X toma los valores
X(s) = {X1 , X2 , X3 , . . . , Xn },
sobre cada uno de los elementos de la muestra.
Como en muestreo aleatorio simple sin reposicion la probabilidad de primera
inclusi
on i viene dado por i = n/N , ya podemos especificar los estimadores
lineales insesgados para los parametros poblacionales mas comunes a estimar.
Tendremos que
Total
=X=
N
X
b=
Xi = Yi = Xi = X
i=1
n
X
Xi
i=1
n
n
X
NX
Xi
b
=
Xi = N X
n/N
n i=1
i=1
Media
=
=X
N
X
b =
Xi /N = Yi = Xi /N = X
i=1
n
X
Xi
N
n/N
i=1
Total de clase
=A=
N
X
b=
Ai = Yi = Ai = A
i=1
n
n
X
1X
Ai
=N
Ai
n/N
n i=1
i=1
Proporci
on
=P =
N
X
Ai /N = Yi = Ai /N = Pb =
i=1
n
X
Ai /N
i=1
n/N
1X
Ai
n i=1
Evidentemente cualquier de estos estimadores nos indican muy poco acerca del
par
ametro poblacional a estimar a menos que sea posible evaluar la bondad
del estimador. Por lo tanto, ademas de estimar los parametros poblacionales, se
deseara fijar un lmite sobre el error de estimacion. Mediante ciertos calculos,
es posible calcular la varianza del estimador de Horvitz-Thompson para cada
uno de los estimadores. Las varianzas de los estimadores anteriores nos van a
proporcionar los errores est
andar de estimacion y vienen dado por:
b
V ar(X)
= N 2 (1 f )
b
V ar(X)
V ar(Pb)
b
V ar(A)
S2
n
S2
n
N 1
(1 f )P Q
N 1n
N3 1
(1 f )P Q
N 1n
(1 f )
6
representa la media poblacional. Esta cuasi-varianza poblacional puede
donde X
expresarse tambien de la siguiente manera.
"N
#
X
1
2 2Xi X
S2 =
(X 2 + (X))
N 1 i=1 i
"N
#
X
1
2
2
2
2(X)
N
=
X + N (X)
N 1 i=1 i
"N
#
X
1
2
2
=
X N (X) .
N 1 i=1 i
En el caso de la proporci
on y el total de clase, la varianza de dichos estimadores
dependen de P y de Q. El parametro P corresponde a la proporcion de clase
dentro de la poblaci
on, es decir,
N
P =
1X
Ai ,
N i=1
y Q = 1 P . Al par
ametro f se le denomina fracci
on de muestreo y viene dado
por
f = n/N,
y representa la fracci
on de la poblacion N contenida en la muestra o la relacion
existente entre el tama
no de la muestra y el tama
no de la poblacion. Siempre
n N ; si n = N entonces f = 1 y 1 f = 0. Por otra parte, si n << N ,
entonces n/N
= 0 y por lo tanto 1 f 1 y las varianzas de los estimadores
ser
an mayores. A la diferencia 1 f se le denomina factor de correcci
on de
poblaci
on finita y tiene en cuenta el hecho de que una estimacion basada en una
muestra de tama
no n = 10 de una poblacion de N = 20 elementos, contiene mas
informaci
on acerca de la poblacion que una muestra de n = 10 de una poblacion
de N = 20000 elementos.
Ejemplo 1 Consideramos una poblaci
on de 4 elementos dada por
= {u1 , u2 , u3 , u4 },
sobre los que medimos una variable X obteniendo como resultados {8, 3, 4, 6} en
cada uno de los elementos de la poblaci
on. Mediante muestreo aleatorio simple
sin reposici
on, se extraen muestras de tama
no 2. Se pide:
N
umero de elementos del espacio muestral.
Especificar dicho espacio muestral y determinar las probabilidades asociadas a las muestras.
Hallar las distribuciones en el muestreo de los estimadores de la media
y del total de X as como la varianza de los estimadores. Calcular la
cuasivarianza de cada muestra.
b = (1 f ) S ,
V ar(X)
n
b = N 2 (1 f ) S ,
V ar(X)
n
y adem
as
E[Sb2 ] = S 2 .
Como vemos, la varianza de estos estimadores depende de una serie de
par
ametros poblaciones por lo que, en la mayora de los casos practicos, estos datos no estar
an disponibles. En el caso en el que no dispongamos de estos
valores poblacionales, utilizaremos estimaciones para estas varianzas. Las estimaciones son las siguientes:
b
Vb (X)
= N 2 (1 f )
Sb2
n
Sb2
n
1 bb
b
b
V (P ) = (1 f )
PQ
n1
b = N 2 (1 f ) 1 PbQ
b
Vb (A)
n1
b
Vb (X)
(1 f )
X
b = 1
Xi ,
X
n i=1
and Pb representa la probabilidad muestral, o lo que es lo mismo,
n
1X
Pb =
Ai ,
n i=1
b = 1 Pb.
luego Q
Notar que Sb2 dada en (1.1) puede expresarse como
Sb2
n
1 X
b 2
(Xi X)
n 1 i=1
1
n1
n
X
i=1
Xi2
b 2
nX
!
.
Xi = 15,
100
X
Yi = 65,
i=1
y determina adem
as sus errores de muestreo
Ejemplo 4 Una gran empresa constructora tiene 120 casas en diversas etapas
de construcci
on. Para estimar la cantidad total (en miles de euros) que ser
a registrada en el inventario de la construcci
on en proceso, se seleccion
o una muestra
aleatoria simple de 12 casas y se determinaron los costes acumulados en cada
una de ellas. Los costos obtenidos para las 12 casas fueron los siguientes:
35,5, 30,2, 28,9, 36,4, 29,8, 34,1, 32,6, 26,4, 38, 38,2, 32,2, 27,5.
Estimar los costes totales acumulados para las 120 casas y dar una estimaci
on del error de muestreo. Dar un intervalo de confianza al 95 % para
el coste total.
Estimar la proporci
on de casas cuyos costes de construcci
on superan los
32.000 euros. Dar una estimaci
on del error.
Para estimar los costes totales acumulados para las 120 casas tenemos en
cuenta que el estimador lineal insesgado del total de una caracterstica X sobre
una poblaci
on viene dado por:
b
b = N X,
X
en este caso se tiene que N = 120 y la media muestral ser
a
12
X
b = 1
X
Xi = 32,4833,
12 i=1
y por lo tanto
b = 12032,4833 = 3897,996
b = NX
X
= 3898,
es decir, el coste total acumulado estimado para las 120 casas ser
a de 3898 miles
de euros.
Vamos a dar una estimaci
on de la varianza de dicho estimador. Utilizando
las f
ormulas anteriores, se tiene que:
b2
b = N 2 (1 f ) S .
Vb (X)
n
Calculamos la cuasivarianza muestral de los costes acumulados
P12
12
b 2
X 2 n(X)
1 X
12839,36 1232,48332
2
2
b
b
(Xi X) = i=1 i
S =
=
= 160 1233,
11 i=1
n1
11
entonces
b = 17410,
Vb (X)
y la correspondiente estimaci
on para el error de muestreo ser
a
b = 1310 958948
(X)
El intervalo de confianza al 95 % viene dado por
b z1/2
b + z1/2
(X
bXb , X
bXb ) = (36390 4, 41560 6).
De la muestra formada por 12 casas, u
nicamente los costes de construcci
on
de 7 casas sobrepasan los 32000 euros, por lo tanto, la estimaci
on de la proporci
on de casas que superan los 32000 euros es de
n
7
1X
Ai =
= 00 5833,
Pb =
n i=1
12
10
o lo que es lo mismo el 58,33 % de las casas sobrepasan los 32000 euros. Una
estimaci
on de la varianza del estimador Pb viene dado por
Vb (Pb) = (1 f )
1 bb
P Q = 00 0199
n1
1.3.
Tama
no de muestra fijado el error de estimaci
on
Una cuesti
on muy importante en muestreo consiste en conocer el tama
no de
muestra adecuado para cometer un determinado error de muestreo. En alguna
etapa del dise
no del procedimiento de muestreo, alguien debe tomar una decision
acerca del tama
no de la muestra que se seleccionara de la poblacion. Como
es natural, al aproximar las caractersticas poblacionales mediante estimadores
basados en la muestra se comete un error, error que mide la representatividad de
dicha muestra. Dependiendo del coste del muestreo, del presupuesto disponible
y de otros muchos factores fijaremos un error de muestreo que en todo caso debe
ser el mnimo posible. Dicho error de muestreo puede venir dado en terminos
absolutos, en terminos relativos o sujeto adicionalmente a un coeficiente de
confianza dado (sujeto a unos lmites de tolerancia).
A continuaci
on, calcularemos los tama
nos de muestra necesarios para cometer un error de muestreo dado al estimar las caractersticas poblacionales mas
comunes mediante muestreo aleatorio simple sin reposicion. Inicialmente disb dado por la desviacion
tinguiremos entre el error com
un de muestreo = ()
tpica del estimador y el error relativo de muestreo dado por el coeficiente de
varianza del estimador,
b
b = CV ()
b = () .
er ()
b
E()
1.3.1.
Tama
no de la muestra para un error de muestreo
dado
El n
umero de observaciones necesarias para estimar un parametro poblacional a partir de un estimador b con un error de estimacion se encuentra
resolviendo la siguiente expresion para n
q
b = .
V ar()
Analizaremos esta expresi
on para cada uno de los estimadores propuestos.
11
Estimador de la media
r
2
2
2
2
b
= (1 f ) S = 2 = 1 n S = S S
= (X)
n
N n
n
N
=
N S2
S2
S2
S2
= 2 +
= n =
2 =
S
n
N
N 2 + S 2
2 + N
N 2S2
N 2S2
N 2S2
S2
N 3S2
= 2 +
= n =
= 2
.
2S2 =
2
2
2
N
2
n
N
N + N S
e + N S2
+ N
An
alogamente al caso anterior, en la mayora de las situaciones practicas, la cuasi-varianza poblacional S 2 es desconocida. Si se tiene la cuasivarianza muestral Sb2 de alg
un experimento anterior, se reemplaza S 2 por
Sb2 en la expresi
on anterior.
Estimador de la proporcion
r
PQ
N
n PQ
N
b
= (P ) =
(1 f )
= 2 =
1
N 1
n
N 1
N
n
=
NPQ
NPQ
PQ
N P Q/(N 1)
= 2 +
= n =
=
.
P
Q
2
(N 1)n
N 1
(N 1)2 + P Q
+ N 1
12
1
= (A) =
(1 f )
= 2 =
N 1
n
N 1
N
n
e2 =
N 3P Q
N 2P Q
N 3P Q
n=
.
(N 1)n
N 1
(N 1)e2 + N 2 P Q
1.3.2.
N 2S2
1202 16,1233
=
= 14,4674
= 15 casas
2 + N S 2
118,82 + 120 16,1233
Tama
no de muestra fijado el error relativo de muestreo
An
alogamente, fijado el error relativo r , el tama
no de muestra optimo necesario se despeja de la ecuacion siguiente:
b =
r = CV ()
b
()
.
b
E()
Vamos a ver cu
al es el tama
no de la muestra a seleccionar para cometer
dicho error seg
un las caractersticas poblacionales a estimar.
13
Estimador de la media
b
b = (X) =
er = CV (X)
b
E(X)
q
2
(1 f ) Sn
.
N 2 (1 f ) Sn
X
N 1
(1 f )P Q
N 1n
.
P
14
la proporci
on poblacional P ni se tiene una aproximacion suya (proporcionada por una encuesta similar, por una encuesta piloto, por la misma
encuesta realizada anteriormente, ni por ning
un otro metodo) entonces se
llama P = 1/2. Este caso P = 1/2 proporciona el caso de maximo tama
no
muestral para el error fijado, lo cual es siempre aceptable estadsticamente. La dificultad pr
actica puede ser que se obtenga un tama
no muestral n
demasiado grande para el presupuesto de que se dispone.
Estimador del total de clase
r
b
b = (A) =
er = CV (A)
b
E(A)
N3 1
(1 f )P Q
N 1n
.
A
Estimar la proporci
on de casas cuyos costes de construcci
on superan los
32 mil euros. Dar una estimaci
on del error relativo de muestreo. Cu
al
debera ser el tama
no muestral
optimo para reducir dicho error relativo en
un 10 %?
Ejemplo 7 Mediante muestreo aleatorio simple se trata de estimar la proporci
on de piezas correctas producidas en un proceso industrial en el que se fabrican
un total de 8000 unidades. Una muestra piloto ha suministrado 1/5 de piezas
defectuosas. Obtener el tama
no de muestra necesario para que el error de muestreo sea de 0.08 al estimar la proporci
on de piezas correctas producidas en el
proceso de producci
on industrial. Hallar el tama
no de muestra necesario para
15
NPQ
80004/51/5
=
= 24,98
= 25 piezas
(N 1)2 + P Q
79990,082 + 1/54/5
Por otra parte, en el caso de que el error relativo de muestreo sea del 2 % se
tiene que
n=
1.3.3.
NQ
80001/5
=
= 579,7774
= 580 piezas
(N 1)P e2r + Q
79990,22 4/5 + 1/5
Tama
no de muestra para un error de muestreo y un
coeficiente de confianza dados
b
e
e
b
b
b
()
()
()
de manera que
z1/2 =
e
b
()
!
= 1 ,
b
= e = z1/2 ().
2
z1/2
N S2
2
N e2 + z1/2
S2
16
2
z1/2
N 2S2
2
S2N
e2 + z1/2
Estimador de la proporci
on
n=
2
z1/2
NPQ
2
PQ
(N 1)e2 + z1/2
1.3.4.
2
z1/2
N 3P Q
2
N 2P Q
(N 1)e2 + z1/2
Tama
no de muestra para un error relativo de muestreo y un coeficiente de confianza dados
!
b
er, = 1 = P (er, b er, ) = 1
Por lo tanto,
P
er,
b
er,
b
b
b
()
()
()
!
= 1 ,
17
Estimador de la media
n=
2
2
z1/2
C1,x
e2r,
2
2 /N
z1/2
C1,x
S
C1,x =
X
2
2
N z1/2
C1,x
2
2
N e2r, + z1/2
C1,x
S
C1,x =
X
Estimador de la proporci
on
n=
2
N Qz1/2
2
P (N 1)e2r, + z1/2
Q
2
N Qz1/2
2
P (N 1)e2r, + z1/2
Q