Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema 2
Muestreo Aleatorio Simple
Versión π
Como hemos visto en el Tema 1., dada la población, U , el Diseño Muestral Aleatorio
Simple está formado por el espacio muestral de todas las N
n muestras posibles de tamaño
fijo, n, lo que en sı́mbolos expresamos como,
M = {m ⊆ U | n(m) = n}
N −2
muestras favorables a i, j n−2 n(n − 1)
πij = = N
=
muestras posibles n
N (N − 1)
es pues un diseño muestral probabilı́stico y cuantificable.
La cantidad πi = n/N aparece con mucha frecuencia por lo que se ha creado para ella
una notación especial, n/N = f . Dicho valor f se denomina fracción de muestreo, por
ser el cociente entre el tamaño muestral y el poblacional. Se tiene que 0 < f ≤ 1, pero
es obvio que usualmente n será mucho menor que N por lo que f suele ser una cantidad
pequeña. Por ejemplo, si en una ciudad con 1.000.000 (un millón) de habitantes se extrae
una muestra aleatoria simple de 500 individuos, la fracción de muestreo será f = 00 0005.
Hay innúmeros procedimientos para seleccionar una muestra aleatoria simple, m, a partir
de una de una población, U . En el Tema 1., ya hemos visto un procedimiento simple, válido
en términos generales, tanto para emplearlo en pequeños ejemplo a mano o en EXCEL,
como para programarlo en un lenguaje de ordenador con el fin de aplicarlo a gran escala.
Suponemos que este método es ya bien conocido, por lo que no insistiremos en el mismo.
La demostración de su validez puede verse, por ejemplo, en Fernández y Mayor(1995a).
2.2. Método de McLeod y Bellhouse. [Trabajo personal del alumno. No se explica en clase.]
Observemos que en los dos métodos citados, se requiere conocer previamente el valor
de N . Aunque esto ocurre usualmente, hay situaciones en las cuales N no se conoce de
antemano, citemos como ejemplo el muestreo realizado sobre los vehı́culos que pasan por
un puesto de control en carretera, en un dı́a determinado, y cuyo número exacto no es
conocido previamente.
Por todo ello, se han ideado procedimientos especı́ficos para este caso que sólo requieren
una lectura secuencial de la población. A continuación describimos un procedimiento ideado
por McLeod y Bellhouse.
Este método se inicia seleccionando los n primeros elementos de la población como mues-
tra inicial. Seguidamente se realiza una exploración secuencial del resto de los elementos.
En cada observación de un nuevo elemento, la muestra puede quedar igual o ser actualizada
con la inclusión del elemento y la supresión de uno de los que ya habı́a, aleatoriamente.
El algoritmo pormenorizado para aplicar este método, se basa en seguir los siguien-
tes pasos, donde j denota un contador que va tomando como valores los elementos de la
población,
Paso 1. Hacer j := 0.
Paso 2. Si no hay elementos de la población por explorar, finalizar. En caso contrario,
obtener un nuevo elemento y hacer j := j + 1.
Paso 3.
Como hemos dicho, este procedimiento fue ideado por McLeod y Bellhouse, y sus por-
menores pueden verse en Fernández y Mayor(1995a).
ε1 , ε 2 , . . . , ε N
y de esta forma se tiene que {5, 4, 2} es una muestra aleatoria simple. Y {3, 1, 7} es otra.
4
Para generar con R una muestra aleatoria simple de n elementos de una población de
tamaño N se ejecuta la instrucción,
sample(N,n)
Por ejemplo, sample(2500,50) genera una muestra aleatoria simple de 50 elementos de
una población de 2500 elementos.
Esta es la forma más simple de emplearla, pero esta función tiene innúmeras posibilida-
des adicionales, muy útiles, que recomendamos consultar.
Ya hemos visto la fase de muestreo, es decir, cómo construir una muestra de un diseño
muestral aleatorio simple. Ahora estudiaremos la fase de estimación, es decir, cómo emplear
dicha muestra para obtener información de la población completa.
Tenemos una variable de estudio, Y = (y1 , y2 , . . . , yN ), y un parámetro poblacional,
θ(Y ). La muestra m = {i1 , i2 , . . . , in } nos proporciona una información basada en los valores
de la variable para cada uno de los elementos muestrales, es decir,
{yi | i ∈ m}
y con esta información, pretendemos obtener, si no el valor exacto de θ(Y ), lo que obviamen-
te no es posible en condiciones normales, sı́ al menos un valor aproximado que denotamos
θ(m),
b y que en el campo de la Estadı́stica se denomina estimador. El gorro indica que es un
estimador, y la m indica que es muestral, es decir, emplea sólo la muestra. Dada un muestra
concreta, m, el valor concreto que obtenemos, θ(m)
b se denomina estimación de θ(Y ). Por
consiguiente, la estimación depende del azar, es aleatoria. Hay tantas estimaciones posibles
como muestras potenciales. En la práctica real del muestreo, obtendremos UNA muestra, y
a partir de ella calcularemos UNA estimación.
Pero ¿Qué propiedades deberı́an tener los estimadores para cumplir bien su cometido?.
Notemos que el estimador, θ(m),
b es una variable aleatoria. Una propiedad lógica y
deseable es que su valor esperado o esperanza matemática coincida con el parámetro que
pretende estimar, es decir,
E[θ(m)]
b = θ(Y )
(θ(m)
b − θ(Y ))2
nos sirve para calibrar lo buena que es la estimación. Mientras menor sea dicha cantidad,
mejor es la estimación, y viceversa. Por esta razón, la esperanza de dicha diferencia, es decir,
E[(θ(m)
b − θ(Y ))2 ]
Obsérvese que para denotar este estimador, empleamos la simbologı́a ȳ(m), o simple-
mente ȳ, si no hay posibilidad de confusion. A continuación estudiamos este estimador.
Para estudiar esto, iremos por partes. En primer lugar vamos a definir, para cada ele-
mento poblacional, i, una variable aleatoria que vale 1 ó 0, según dicho elemento SÍ esté o
NO esté en la muestra, es decir,
(
1 si i ∈ m
Ii (m) =
0 si i 6∈ m
Es obvio la variable Ii (m) se distribuye según una distribución o ley de Bernoulli siendo
su esperanza matemática o valor esperado,
n
E[Ii (m)] = 1 × P r[i ∈ m] = πi =
N
y se tiene pues que,
" # " #
1 X 1X 1X 1X n
E[ȳ(m)] = E yi = E yi Ii (m) = yi E[Ii (m)] = yi = Y
n i∈m n i∈U n i∈U n i∈U N
Para este cálculo, vamos a necesitar conocer la varianza de Ii (m), ası́ como la covarianza
de Ii (m) con Ij (m), siendo i 6= j. La varianza es inmediata. Sólamente hay que recordar un
poquito de Cálculo de Probabilidades, es decir,
V [Ii (m)] = πi (1 − πi ) = f (1 − f )
n(n − 1) n n f (1 − f )
= πij − πi πj = − =−
N (N − 1) N N N −1
donde la cantidad final se obtiene con un cálculo directo y trivial, que no hace falta porme-
norizar aquı́.
Si ahora recordamos, del Cálculo de Probabilidades, que la varianza de una suma de
variables aleatorias es la suma de las varianzas más la suma de todas las covarianzas,
tendremos,
" # " #
1 X 1 X
V [ȳ(m)] = V yi = 2 V yi Ii (m)
n i∈m n i∈U
1 X X
= V [yi Ii (m)] + Cov[yi Ii (m), yj Ij (m)]
n2
i∈U i,j∈U
i6=j
1 X X
= yi2 V [Ii (m)] + yi yj Cov[Ii (m), Ij (m)]
n2
i∈U i,j∈U
i6=j
1 X X f (1 − f )
= yi2 f (1 − f ) − yi yj
n2 N −1
i∈U i,j∈U
i6=j
1−f 1 X 1 X
= yi2 − yi yj
N (N − 1)
n N
i∈U
i,j∈U
i6=j
1−f 1 N − 1 X 2 1 X
= yi − yi yj
n N − 1 N i∈U
N
i,j∈U
i6=j
1−f 1 X 2 1 X 2 1 X
= yi − yi − y i yj
n N − 1 i∈U
N i∈U N
i,j∈U
i6=j
!2
1 − f 1 X 2 1 X 1−f 2
= yi − yi = Sy
n N − 1 i∈U N i∈U
n
Para estimar V [ȳ(m)] necesitamos estimar la cuasivarianza poblacional, Sy2 . Para ello
proponemos emplear la cuasivarianza muestral, que denotamos igual, pero con m en lugar
de U , y que es análoga a la cuasivarianza poblacional, pero, lógicamente, cambiando N por
n, U por m, y Y por ȳ(m), es decir,
!2
1 X 1 X 2 1
(yi − ȳ(m))2 =
X
s2y (m) = s2y = y − yi
n − 1 i∈m n − 1 i∈m i n i∈m
o sea, la media muestral de los cuadrados menos el cuadrado de la media muestral. A efecto
de cálculos prácticos, es conveniente usar las fórmulas que ligan cuasivarianza muestral y
varianza muestral, es decir,
n n−1 2
s2y = varianza muestral y varianza muestral = sy
n−1 n
muy utilizadas en clases de problemas.
Volviendo al problema de estimación, nos queda todavı́a la tarea de dilucidar si s2y es
un estimador insesgado de Sy2 . Veámoslo a continuación,
" # !2
n 1 X n 1 X 2 1 X
E[s2y ] = E (yi − ȳ(m))2 = E y − yi
n i∈m i
n − 1 n i∈m n−1 n i∈m
" # !2
n 1 X 2 1 X
= E yi − E yi
n−1 n i∈m n i∈m
!
n 1 X 2 1−f 2 2
= yi − Sy − Y
n−1 N i∈U n
n 1−f 2 n N −1 2 1−f 2
= σy2 − Sy = Sy − Sy
n−1 n n−1 N n
n N −1 1−f
= − Sy2 = Sy2
n−1 N n
y por consiguiente, s2y es un estimador insesgado de Sy2 .
A continuación, vamos a hacer varias aclaraciones sobre algunos pasos de la anterior
demostración,
Esta igualdad es obvia por que antes hemos demostrado que la esperanza matemática
de la media muestral es la media poblacional.
También para pasar de la segunda lı́nea a la tercera se ha empleado la igualdad,
!2
1 X 1−f 2 2
E yi = Sy + Y
n i∈m n
1 X 2 2
σy2 = y −Y
N i∈U i
que introdujimos en el Tema 1. Téngase en cuenta que la relación entre la varianza
poblacional y la cuasivarianza poblacional será,
N −1 2
σy2 = Sy
N
1−f 2
Vb [ȳ(m)] = s
n y
que será la estimación, insesgada, de la varianza de la estimación, y que nos da infor-
mación sobre el error que se comete al estimar Y . Más adelante veremos como emplear
adecuadamente esta cantidad Vb [ȳ(m)]. En resumen,
Yb = ȳ(m)
1−f 2
V [Yb ] = Sy
n
1−f 2
Vb [Yb ] = s
n y
1−f 2
V [Tb(Y )] = N 2 Sy
n
1−f 2
Vb [Tb(Y )] = N 2 s
n y
4. Estimación de proporciones
parámetros están muy relacionados pues dividiendo el total por N , obtendremos la propor-
ción.
Para fijar el problema, supondremos que la variable es de tipo dicotómico, es decir, con
dos modalidades, siendo una la ausencia de la otra, y que el parámetro a estimar es una
proporción.
Consideremos pues una cualidad o caracterı́stica de estudio que sólo tiene dos posibili-
dades, o bien aparece, o bien no aparece. Definimos entonces una variable,
(
1 si el individuo i posee la cualidad
yi =
0 en caso contrario
1−f 1 N − n P (1 − P ) N − n PQ
= N (P − P 2 ) = =
n N −1 N −1 n N −1 n
donde, como es usual, hemos denotado Q = 1 − P .
Finalmente, podemos obtener un estimador insesgado de esta varianza a partir del esti-
mador insesgado de la varianza de la media muestral que hemos visto en la sección anterior,
haciendo un cálculo similar al anterior. Se obtiene ası́,
1−f 1−f
Vb [Pb ] = p(1 − p) = pq
n−1 n−1
donde hemos denotado q = 1 − p. En resumen,
Pb = p
N − n PQ
V [Pb ] =
N −1 n
1−f
Vb [Pb ] = pq
n−1
Tb(Y ) = N p
N − n PQ
V [Tb(Y )] = N 2
N −1 n
1−f
Vb [Tb(Y )] = N 2 pq
n−1
5. Intervalos de confianza
Y − ȳ
Z=p
V [ȳ]
tiene, aproximadamente, una distribución normal, N (0, 1). Vamos a suponer que a es una
cantidad positiva, tal que,
P r[−a < Z < a] = 1 − α
siendo α una cantidad pequeña, es decir, 1 − α es una probabilidad elevada. Se tiene pues,
" #
Y − ȳ
P r −a < p <a =1−α
V [ȳ]
o sea,
q q
P r ȳ − a V [ȳ] < Y < ȳ + a V [ȳ] = 1 − α
es decir,
q q
ȳ − a V [ȳ] , ȳ + a V [ȳ]
P r[−a < Z < a] = P r[Z < a]−P r[Z < −a] = P r[Z < a]−(1−P r[Z < a]) = 2P r[Z < a]−1
y al ser,
P r[−a < Z < a] = 1 − α
se deduce,
α
P r[Z < a] = 1 −
2
expresión que nos permite calcular el valor de a a partir de las tablas de la distribución
normal, N (0, 1), tal y como se ha visto en Cálculo de Probabilidades.
Por ejemplo, para α = 00 05 se tiene P r[Z < a] = 00 975, y buscando en la tabla obtenemos
a = 10 96. En general, para un valor de α dado, la cantidad a se denota z1−α/2 , y se llama
percentil o cuantil 1 − α/2. Ası́, 10 96 es el percentil 00 975 de una distribución normal
N (0, 1).
De esta forma, el intervalo que hemos construido anteriormente se convierte en,
q q
ȳ − z1−α/2 V [ȳ] , ȳ + z1−α/2 V [ȳ]
Ası́ pues, hemos obtenido un intervalo aleatorio, al cual pertenece el parámetro Y con
elevada probabilidad 1 − α.
Dicho intervalo se denomina intervalo de confianza al 100(1 − α) %. Por ejemplo, si
α = 00 05, el intervalo será al 95 %, indicando que contiene al parámetro Y con probabilidad
00 95. Un desarrollo similar se puede hacer para el total y la proporción. En resumen, tenemos
los siguientes intervalos de confianza al 100(1 − α) %,
Recordemos que los estimadores Vb [ȳ] y Vb [p] ya han sido expuestos en la sección anterior,
y pueden ser calculados a partir de los datos proporcionados por la muestra aleatoria simple.
A continuación exponemos una pequeña lista con los valores z1−α/2 más usuales,
La elección del tamaño muestral es una de las cuestiones más relevantes del muestreo en
poblaciones finitas. Se trata de decidir cuál va a ser el tamaño de la muestra, o sea n, que
vamos a extraer de la población. En principio nos guiaremos por criterios de precisión, es
decir, buscamos una exactitud o precisión en la estimación, predeterminada de antemano.
Este planteamiento se hará empleando el concepto de intervalo de confianza.
Observemos que dado un intervalo de confianza, con la estructura expuesta en la sección
anterior, por ejemplo para la media poblacional,
q q
ȳ − z1−α/2 Vb [ȳ] , ȳ + z1−α/2 V [ȳ]
b
dicho intervalo tiene un centro y un radio. De hecho, el intervalo anterior se puede expresar
en la forma, q
ȳ ± z1−α/2 Vb [ȳ]
y ası́, ȳ es el centro, y, q
z1−α/2 Vb [ȳ]
es el radio.
Notemos que a mayor radio, más amplio es el intervalo, y a menor radio, más reducido
es. Los intervalos muy amplios pueden no ser útiles. Si un intervalo de confianza nos dice
que el consumo medio anual de fruta en España está entre 8 Kgr. y 300 Kgr., obviamente
dicho intervalo no es muy indicativo. Es decir, el radio del intervalo es un elemento muy
relevante. Los intervalos con gran radio son menos precisos que los que tienen menor radio,
en el sentido de que dan menos información o precisan menos acerca de la caracterı́stica
que estudiamos. Luego, ya sabemos que en el problema que estudiamos, el radio será un
elemento decisivo.
Otra consideración que hemos de hacer es que el radio, en términos absolutos, puede
no ser útil. Por ejemplo, si la variable que estudiamos es la estatura de las personas en
centı́metros, un radio de una unidad significarı́a una gran precisión, pues representa un
centı́metro. Pero si la estatura se mide en metros, una radio de una unidad no proporciona
un intervalo preciso en absoluto. Por ello, para las variables cuantitativas corrientes, es usual
considerar el concepto de precisión en términos relativos. Nosotros lo haremos ası́ para este
tipo de variables, aunque desde un punto de vista formal, nada impide hacerlo también
términos absolutos.
Para fijar el problema, Y es una variable de naturaleza cuantitativa como estatura, peso
o número de horas de sueño. Queremos estimar la media poblacional, Y , mediante la media
muestral ȳ, a partir de una muestra aleatoria simple, de forma que el intervalo de confianza
tenga la forma siguiente,
ȳ ± δ ȳ
donde δ es usualmente una cantidad positiva menor que 1. Por ejemplo, si δ = 00 2 diremos
que el intervalo de confianza presenta una precisión relativa 00 2 o también del 20 %, que-
riendo decir con esto que el radio es el 20 % del centro. Considerando este intervalo deseado,
y el anterior, e igualando los radios obtenemos,
q
δ ȳ = z1−α/2 Vb [ȳ]
esto es, s
1−f 2
δ ȳ = z1−α/2 s
n y
y tenemos pues la ecuación,
s
n
nδ ȳ = z1−α/2 1− s2y
N
cuya incógnita es lo que estamos buscando, es decir, n, y que resuelta con técnicas de la
ESO, proporciona,
2
z1−α/2 s2y 2
z1−α/2 cvy2
δ 2 ȳ 2 δ2
n= 2 2 =
z1−α/2 sy z1−α/2 cvy2
2
1+ 1 +
N δ 2 ȳ 2 N δ2
donde hemos denotado,
s2y sy
cvy2 = o lo que es lo mismo cvy =
ȳ 2 ȳ
Esta cantidad, cvy , es la cuasidesviación tı́pica muestral dividida por la media muestral,
por lo que tiene sentido denominarla cuasicoeficiente de variación muestral, por ana-
logı́a con el coeficiente de variación de Pearson, tan conocido y empleado en Estadı́stica. Y
si ahora llamamos,
2
z1−α/2 cvy2
n0 =
δ2
el tamaño muestral se puede expresar como,
n0
n=
1 + n0 /N
2. Supongamos que para una determinada población hemos obtenido n0 = 30. Si dicha
población tuviera N = 1000 elementos, se tendrı́a,
n0 30
n= = ≈ 290 126213 ≈ 29
1 + n0 /N 1 + 30/1000
y si tuviera N = 10,000,000 de elementos,
n0 30
n= = ≈ 290 999910 ≈ 30
1 + n0 /N 1 + 30/10,000,000
con lo que se produce el fenómeno, aparentemente paradójico, de que con un deter-
minado tamaño muestral se obtiene similar precisión tanto para una población de mil
elementos como para una población con diez millones de elementos.
3. Recordemos que el planteamiento se puede hacer partiendo del intervalo ȳ ±δ, es decir,
dando la precisión en términos absolutos, con lo que se puede realizar un desarrollo
similar.
Podemos también calcular el tamaño muestral necesario para obtener una determinada
precisión al estimar una proporción. Ahora, puesto que la proporción carece de unidad de
medida, y además siempre una proporción está entre cero y uno, SÍ tiene sentido realizar
un planteamiento en términos de precisión absoluta. Ası́, si queremos que nuestro intervalo
de confianza sea de la forma,
(p − δ, p + δ) es decir p±δ
deberá ser,
pq
r
δ = z1−α/2 (1 − f )
n−1
de donde se obtiene, sin más que resolver esta ecuación,
2
z1−α/2 pq
1+
n= δ2
2
z1−α/2 pq
1+
N δ2
y como la cantidad pq verifica siempre pq ≤ 14 , cualquiera que sea p, podemos dar una cota
superior conservadora para n escribiendo,
2
z1−α/2 2
z1−α/2
1+ n0
n= 4δ 2 ≈ 4δ 2 =
2
z1−α/2 2
z1−α/2 1 + n0 /N
1+ 1+
4N δ 2 4N δ 2
siendo,
2
z1−α/2
n0 =
4δ 2
Notemos finalmente que si α = 00 05, es decir, queremos un intervalo de confianza al
95 %, podemos tomar z1−α/22 = 10 962 ≈ 4 con lo que n0 es aproximadamente 1/δ 2 lo que
permite el cálculo rápido del tamaño muestral.
7. Ejemplos
Para ilustrar numéricamente, los conceptos introducidos en este Tema, vamos a realizar
una serie de ejemplos. Para ello, vamos a considerar una pequeña población de N = 12
elementos,
U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
que denominaremos MU12.
En la práctica real del muestreo, las poblaciones no son tan pequeñas, y suelen tener miles
o millones de elementos, pero MU12, a pesar de sus reducidas dimensiones, es perfectamente
válida para nuestras necesidades.
Sobre esta población tenemos una variable cuantitativa, Y , y una cualitativa, Z, con
dos modalidades, SÍ y NO, que codificaremos como 1 y 0. Los valores de estas variables son,
i 1 2 3 4 5 6 7 8 9 10 11 12
Y 8 7 10 8 7 8 12 10 6 12 6 9
Z 1 1 0 1 1 0 1 1 1 1 1 0
Seguidamente, exponemos varios ejemplos en los que se ilustran prácticamente los pro-
cesos y muestreo y estimación basados en el Muestreo Aleatorio Simple.
m = {7, 8, 11}
• Método secuencial
j r nj (n − nj )/(N − j + 1) r ≤ (n − nj )/(N − j + 1)
1 0, 65849 0 0, 25000 no
2 0, 84545 0 0, 27273 no
3 0, 60525 0 0, 30000 no
4 0, 54078 0 0, 33333 no
5 0, 02137 0 0, 37500 sı́
6 0, 56834 1 0, 28571 no
7 0, 01736 1 0, 33333 sı́
8 0, 37537 2 0, 20000 no
9 0, 83177 2 0, 25000 no
10 0, 10015 2 0, 33333 sı́
11 0, 06977 3 0, 00000 no
12 0, 09457 3 0, 00000 no
Ası́, la muestra obtenida es ahora m = {5, 7, 10}. Obsérvese que una vez que nj llega a ser
n, en este caso 3, la cantidad (n − nj )/(N − j + 1) ya siempre es cero, y nunca van a entrar más
elementos en la muestra. Nótese pues que podrı́amos haber cortado la tabla en la fila décima,
pues ya está formada la muestra. No obstante para este ejemplo hemos preferido exponer la
tabla completa a efectos didácticos. No obstante, en la realización práctica del método, en
situaciones reales, una vez nj llegue a ser n, detenemos el algoritmo. Seguir hasta el final serı́a
un sinsentido pues realizarı́amos una serie de cálculos inútiles.
• Método de McLeod y Bellhouse [Trabajo personal del alumno. No se explica en clase.]
Se deja como ejercicio. Basta aplica el algoritmo introducido en este tema. Se recomienda
reutilizar la tabla anterior para suministrar los números aleatorios.
• Método de los números aleatorios
Ordenamos la población según el orden ascendente de los números aleatorios. Utilizando los
mismos números aleatorios que en los métodos anteriores, dicha ordenación es la siguiente,
j r (ordenados)
7 0, 01736
5 0, 02137
11 0, 06977
12 0, 09457
10 0, 10015
8 0, 37537
4 0, 54078
6 0, 56834
3 0, 60525
1 0, 65849
9 0, 83177
2 0, 84545
y por consiguiente, m = {5, 7, 11} es una muestra aleatoria. También lo serı́a m = {8, 10, 12},
etc.
4
Obsérvese como el extremo superior del intervalo de confianza original es 10 09939, que supera
el valor máximo de una proporción, es decir, 1. Entonces, por coherencia, el intervalo se recorta
al valor máximo posible, o sea, 1, quedando en su forma final (00 50061, 1). Algo similar se
harı́a si el extremo inferior fuera menor que cero.
4
El Muestreo Aleatorio Simple con Reemplazamiento es una variación del Muestreo Alea-
torio Simple usual que hemos estudiado en este Tema. Básicamente, consiste en admitir
elementos repetidos en la muestra, es decir, al aplicar el algoritmo básico para construir la
muestra, no se rechazan los elementos repetidos, de forma que en la muestra final, m, un
elemento puede aparecer repetido varias veces. Aunque esto parece extraño desde el punto
de vista práctico, no presenta ningún inconveniente funcional, pues a la hora de construir
las estimaciones, si un elemento, i, está repetido, su información, Yi , aparece duplicada.
U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}
vamos a extraer una muestra aleatoria simple con reemplazamiento, de n = 6 elementos. Nos
vamos al principio de la primera columna de nuestra tabla de números aleatorios, y obtenemos
seis números aleatorios entre cero y uno. Para simplificar los cálculos, conservaremos sólo tres
decimales,
00 597, 00 398, 00 024, 00 412, 00 005, 00 056
a partir de los cuales obtenemos,
i1 = 1 + EN T (20 ∗ 00 597) = 12
i2 = 1 + EN T (20 ∗ 00 398) = 8
i3 = 1 + EN T (20 ∗ 00 024) = 1
i4 = 1 + EN T (20 ∗ 00 412) = 9
i1 = 1 + EN T (20 ∗ 00 005) = 1
i1 = 1 + EN T (20 ∗ 00 056) = 2
siendo pues la muestra obtenida,
m = [1, 1, 2, 8, 9, 12]
Como puede verse, el elemento 1 aparece repetido en la muestra. Obviamente, esto no signi-
fica que si por ejemplo es una persona encuestada, haya que preguntarle dos veces. Simplemente
la información que proporciona aparecerá duplicada. Obsérvese también que hemos empleado
la notación [ ] para indicar la muestra. Esto se debe a que la notación usual de conjunto, { },
serı́a aquı́ incongruente pues los conjuntos no tienen elementos repetidos.
4
Yb = ȳ
Su varianza es,
1 2
V [Yb ] = V [ȳ] =
σ
n y
Recuérdese que σy2 denota la varianza poblacional de Y
Para ver en qué medida varia la eficiencia del muestreo aleatorio simple, según se emplee
en su forma usual o con reemplazamiento, podemos calcular el cociente entre sus varianzas.
En concreto, si denominamos,
1−f 2 1 2
VMAS = Sy y VMASR = σ
n n y
se tiene,
1−f 2 N −n 2
VMAS Sy Sy N −n
= n = N = <1
VMASR 1 2 N −1 2 N −1
σy Sy
n N
ya que usualmente n es bastante mayor que 1. Como puede verse, el reemplazamiento hace
disminuir la eficiencia pues aumenta la varianza de la estimación. Obsérvese también que
este aumento de la varianza es menos acentuado conforme la población es más grande. Esto
es lógico, pues a mayor valor de N , menor probabilidad de que haya repeticiones.
De cualquier forma, el aumento de varianza no suele ser muy grande en condiciones
normales. Por ejemplo, si N = 1.000.000 y n = 400, se tiene,
N −n 999.600
= = 00 999600999
N −1 999.999
que es muy próximo a 1, es decir, ambas varianzas son muy similares.
Además de las notaciones empleadas en el Tema anterior, en este tema se han introducido
y empleados las siguientes,
Media muestral
1 X
ȳ(m) = ȳ = yi
n i∈m
Cuasivarianza muestral
!2
1 1 1
(yi − ȳ(m))2 =
X X X
s2y (m) = s2y = y2 − yi
n − 1 i∈m n − 1 i∈m i n i∈m
Varianza muestral
!2 " #2
1 X 1 X 2 1 1 1
(yi − ȳ(m))2 =
X X X
2
y − yi = yi − yi
n i∈m n i∈m i n i∈m
n i∈m n i∈m
z1−α/2
[1] Fernández Garcı́a, F.R. y Mayor Gallego, J.A. (1995a). Muestreo en poblaciones fini-
tas: Curso básico. E.U.B. Ediciones Universitarias de Barcelona.
[2] Fernández Garcı́a, F.R. y Mayor Gallego, J.A. (1995b). Ejercicios y prácticas de mues-
treo en poblaciones finitas. E.U.B. Ediciones Universitarias de Barcelona.