Me102 09

Muestreo Estadı́stico I
Diplomatura de Estadı́stica. Curso Segundo

Facultad de Matemáticas
Universidad de Sevilla
Tema 2
Muestreo Aleatorio Simple
Versión π
José A. Mayor Gallego

Departamento de Estadı́stica e Investigación Operativa
Universidad de Sevilla
F.M. Muestreo Estadı́stico I. Tema 2: Muestreo Aleatorio Simple 1
1. Muestreo Aleatorio Simple
Como hemos visto en el Tema 1., dada la población, U , el Diseño Muestral Aleatorio
Simple está formado por el espacio muestral de todas las N
n muestras posibles de tamaño
fijo, n, lo que en sı́mbolos expresamos como,
M = {m ⊆ U | n(m) = n}
y la distribución de probabilidad uniforme o constante sobre las mismas, es decir,

1
P r(m) = N
∀m ∈ M
n
Cuando en una población realizamos un muestreo, es decir, la obtención de una muestra,

de acuerdo con este diseño, diremos que hemos realizado un Muestreo Aleatorio Simple.
Este tipo de muestreo es posiblemente el más empleado porque, dentro de su facilidad,
en términos generales presenta también buenas propiedades en relación a la estimación de
parámetros.
Veamos nuevamente, pues ya lo hemos hecho en el Tema 1., el cálculo de las probabili-
dades de inclusión para este diseño muestral MAS(N, n). En este diseño todas las muestras
son equiprobables, por lo que podemos aplicar la regla o fórmula de Laplace,
N −1
muestras favorables a i n−1 n
πi = = N
=
muestras posibles n
N
N −2
muestras favorables a i, j n−2 n(n − 1)
πij = = N
=
muestras posibles n
N (N − 1)
es pues un diseño muestral probabilı́stico y cuantificable.
La cantidad πi = n/N aparece con mucha frecuencia por lo que se ha creado para ella
una notación especial, n/N = f . Dicho valor f se denomina fracción de muestreo, por
ser el cociente entre el tamaño muestral y el poblacional. Se tiene que 0 < f ≤ 1, pero
es obvio que usualmente n será mucho menor que N por lo que f suele ser una cantidad
pequeña. Por ejemplo, si en una ciudad con 1.000.000 (un millón) de habitantes se extrae
una muestra aleatoria simple de 500 individuos, la fracción de muestreo será f = 00 0005.
2. Generación de muestras aleatorias simples
Hay innúmeros procedimientos para seleccionar una muestra aleatoria simple, m, a partir
de una de una población, U . En el Tema 1., ya hemos visto un procedimiento simple, válido
en términos generales, tanto para emplearlo en pequeños ejemplo a mano o en EXCEL,
como para programarlo en un lenguaje de ordenador con el fin de aplicarlo a gran escala.
Suponemos que este método es ya bien conocido, por lo que no insistiremos en el mismo.
La demostración de su validez puede verse, por ejemplo, en Fernández y Mayor(1995a).
José A. Mayor Gallego. Universidad de Sevilla

2.1. Método secuencial
Este método consiste en recorrer secuencialmente la población de manera que para

j = 1, 2, . . . N , se selecciona el elemento j de la población con probabilidad,
n − nj
N −j+1
cosa que ya sabemos como hacer, siendo nj el número de elementos ya seleccionados o
aceptados en las j − 1 primeras inspecciones, si j > 1, y siendo n1 = 0. El procedimiento
finaliza cuando nj = n.
En la realización práctica del método, se recorre secuencialmente la población, y para
cada elemento se genera un número aleatorio, r, entre 0 y 1. En caso de que se cumpla
r ≤ (n − nj )/(N − j + 1), se introduce el elemento en la muestra. Cuando de esta forma
hayamos seleccionado n elementos, detenemos el proceso.
Este procedimiento fue ideado por Fan, Muller y Rezucha, y sus pormenores pueden verse
en Fernández y Mayor(1995a). Al final de este tema se ha incluido un ejemplo práctico.
2.2. Método de McLeod y Bellhouse. [Trabajo personal del alumno. No se explica en clase.]
Observemos que en los dos métodos citados, se requiere conocer previamente el valor
de N . Aunque esto ocurre usualmente, hay situaciones en las cuales N no se conoce de
antemano, citemos como ejemplo el muestreo realizado sobre los vehı́culos que pasan por
un puesto de control en carretera, en un dı́a determinado, y cuyo número exacto no es
conocido previamente.
Por todo ello, se han ideado procedimientos especı́ficos para este caso que sólo requieren
una lectura secuencial de la población. A continuación describimos un procedimiento ideado
por McLeod y Bellhouse.
Este método se inicia seleccionando los n primeros elementos de la población como mues-
tra inicial. Seguidamente se realiza una exploración secuencial del resto de los elementos.
En cada observación de un nuevo elemento, la muestra puede quedar igual o ser actualizada
con la inclusión del elemento y la supresión de uno de los que ya habı́a, aleatoriamente.
El algoritmo pormenorizado para aplicar este método, se basa en seguir los siguien-
tes pasos, donde j denota un contador que va tomando como valores los elementos de la
población,
Paso 1. Hacer j := 0.
Paso 2. Si no hay elementos de la población por explorar, finalizar. En caso contrario,
obtener un nuevo elemento y hacer j := j + 1.
Paso 3.
a) Si j ≤ n, incluir el elemento j-ésimo de la población en la muestra. Volver al

paso 2.
b) Si j > n, generar un número aleatorio entero, k, entre 1 y j. Si k ≤ n, el elemento
k-ésimo de la muestra es intercambiado con el elemento j-ésimo de la población.
Volver al paso 2.

Como hemos dicho, este procedimiento fue ideado por McLeod y Bellhouse, y sus por-
menores pueden verse en Fernández y Mayor(1995a).
2.3. Método de los números aleatorios
Este método consiste en la generación, para cada elemento de la población, de un número

aleatorio entre 0 y 1, obteniendo ası́,
ε1 , ε 2 , . . . , ε N
a continuación, estos números se ordenan según su valor, obteniendo,
εi1 < εi2 < . . . < εin < . . . < εiN
Se verifica entonces que las unidades asociadas a los n primeros números i1 , i2 , . . . in

constituyen una muestra aleatoria simple de tamaño n. En general se verifica que cualquier
conjunto de n posiciones preasignadas definen una muestra aleatoria simple, por ejemplo
de la n + 1 a la 2n y ası́ sucesivamente, por lo que este método puede ser empleado para
generar a la vez varias muestras aleatorias simples.
EJEMPLO 1 Supongamos que N = 7 y n = 3. Generamos 7 números aleatorios en el

intervalo [0, 1) y obtenemos,
00 689, 00 577, 00 651, 00 043, 00 005, 00 939, 00 848
los ordenamos de menor a mayor, obteniendo,
00 005, 00 043, 00 577, 00 651, 00 689, 00 848, 00 939
y de esta forma se tiene que {5, 4, 2} es una muestra aleatoria simple. Y {3, 1, 7} es otra.
4
Los pormenores de este interesante método pueden verse en el libro de Fernández y

Mayor(1995a). Al final de este tema se ha incluido otro ejemplo práctico de este método.
2.4. Función sample() en R
Para generar con R una muestra aleatoria simple de n elementos de una población de
tamaño N se ejecuta la instrucción,
sample(N,n)
Por ejemplo, sample(2500,50) genera una muestra aleatoria simple de 50 elementos de
una población de 2500 elementos.
Esta es la forma más simple de emplearla, pero esta función tiene innúmeras posibilida-
des adicionales, muy útiles, que recomendamos consultar.

3. Estimación de parámetros poblacionales
Ya hemos visto la fase de muestreo, es decir, cómo construir una muestra de un diseño
muestral aleatorio simple. Ahora estudiaremos la fase de estimación, es decir, cómo emplear
dicha muestra para obtener información de la población completa.
Tenemos una variable de estudio, Y = (y1 , y2 , . . . , yN ), y un parámetro poblacional,
θ(Y ). La muestra m = {i1 , i2 , . . . , in } nos proporciona una información basada en los valores
de la variable para cada uno de los elementos muestrales, es decir,
{yi | i ∈ m}
y con esta información, pretendemos obtener, si no el valor exacto de θ(Y ), lo que obviamen-
te no es posible en condiciones normales, sı́ al menos un valor aproximado que denotamos
θ(m),
b y que en el campo de la Estadı́stica se denomina estimador. El gorro indica que es un
estimador, y la m indica que es muestral, es decir, emplea sólo la muestra. Dada un muestra
concreta, m, el valor concreto que obtenemos, θ(m)
b se denomina estimación de θ(Y ). Por
consiguiente, la estimación depende del azar, es aleatoria. Hay tantas estimaciones posibles
como muestras potenciales. En la práctica real del muestreo, obtendremos UNA muestra, y
a partir de ella calcularemos UNA estimación.
Pero ¿Qué propiedades deberı́an tener los estimadores para cumplir bien su cometido?.
Notemos que el estimador, θ(m),
b es una variable aleatoria. Una propiedad lógica y
deseable es que su valor esperado o esperanza matemática coincida con el parámetro que
pretende estimar, es decir,
E[θ(m)]
b = θ(Y )
Cuando un estimador cumpla esta propiedad, diremos que es insesgado. Intentaremos

pues buscar estimadores insesgados.
Supongamos ahora que θ(m)
b es insesgado. Tenemos pues, por una parte, el parámetro
que queremos estimar, θ(Y ), y por otra parte, su estimador, θ(m).
b La diferencia entre estas
dos cantidades, al cuadrado, es decir,
(θ(m)
b − θ(Y ))2
nos sirve para calibrar lo buena que es la estimación. Mientras menor sea dicha cantidad,
mejor es la estimación, y viceversa. Por esta razón, la esperanza de dicha diferencia, es decir,
E[(θ(m)
b − θ(Y ))2 ]
es un parámetro que nos da información sobre lo buena que es la estimación. Mientras

mayor sea dicha esperanza, peor es la estimación, y viceversa.
Y si ahora observamos dicha esperanza, y tenemos en cuenta que el estimador es inses-
gado, llegamos a la conclusión de que la misma no es otra cosa que la varianza de θ(m),
b es
decir,
E[(θ(m)
b − θ(Y ))2 ] = V [θ(m)]
b
En resumidas cuentas, a la hora de buscar estimadores, intentaremos que sean

insesgado y con la menor varianza posible.

Vamos ya a concretar la situación. Uno de los parámetros más investigados en la práctica

es la media poblacional,
1 X
Y = yi
N i∈U
Como estimador de este relevante parámetro, proponemos emplear la media muestral,

es decir, la media aritmética de los valores de la variable sobre la muestra,
1 X
Yb = yi = ȳ(m) = ȳ
n i∈m
Obsérvese que para denotar este estimador, empleamos la simbologı́a ȳ(m), o simple-
mente ȳ, si no hay posibilidad de confusion. A continuación estudiamos este estimador.
3.1. ¿Es insesgado Yb = ȳ(m)?
Para estudiar esto, iremos por partes. En primer lugar vamos a definir, para cada ele-
mento poblacional, i, una variable aleatoria que vale 1 ó 0, según dicho elemento SÍ esté o
NO esté en la muestra, es decir,
(
1 si i ∈ m
Ii (m) =
0 si i 6∈ m
Es obvio la variable Ii (m) se distribuye según una distribución o ley de Bernoulli siendo
su esperanza matemática o valor esperado,
n
E[Ii (m)] = 1 × P r[i ∈ m] = πi =
N
y se tiene pues que,
" # " #
1 X 1X 1X 1X n
E[ȳ(m)] = E yi = E yi Ii (m) = yi E[Ii (m)] = yi = Y
n i∈m n i∈U n i∈U n i∈U N
por consiguiente SÍ es un estimador insesgado. El siguiente paso es calcular su varianza

para calibrar la bondad de las estimaciones.
3.2. Cálculo de V [ȳ(m)]
Para este cálculo, vamos a necesitar conocer la varianza de Ii (m), ası́ como la covarianza
de Ii (m) con Ij (m), siendo i 6= j. La varianza es inmediata. Sólamente hay que recordar un
poquito de Cálculo de Probabilidades, es decir,
V [Ii (m)] = πi (1 − πi ) = f (1 − f )
Para la covarianza, recordemos que dadas dos variables aleatorias, V y W , su covarianza

se puede calcular mediante Cov[V, W ] = E[V W ] − E[V ]E[W ]. En nuestro caso, se tiene,
Cov[Ii , Ij ] = E[Ii Ij ] − E[Ii ]E[Ij ] = 1 × P r[i, j ∈ m] − πi πj
n(n − 1) n n f (1 − f )
= πij − πi πj = − =−
N (N − 1) N N N −1

donde la cantidad final se obtiene con un cálculo directo y trivial, que no hace falta porme-
norizar aquı́.
Si ahora recordamos, del Cálculo de Probabilidades, que la varianza de una suma de
variables aleatorias es la suma de las varianzas más la suma de todas las covarianzas,
tendremos,
" # " #
1 X 1 X
V [ȳ(m)] = V yi = 2 V yi Ii (m)
n i∈m n i∈U
 
1 X X 
= V [yi Ii (m)] + Cov[yi Ii (m), yj Ij (m)]
 
n2

 
i∈U i,j∈U
i6=j
 
1 X X 
= yi2 V [Ii (m)] + yi yj Cov[Ii (m), Ij (m)]
 
n2

 
i∈U i,j∈U
i6=j
 
1 X X f (1 − f ) 
= yi2 f (1 − f ) − yi yj
 
n2 N −1 
 

i∈U i,j∈U
i6=j
 
1−f 1 X 1 X 
= yi2 − yi yj 
 
N (N − 1)

n N
i∈U

i,j∈U
i6=j
 
1−f 1  N − 1 X 2 1 X 
= yi − yi yj 

n N − 1  N i∈U

N 
i,j∈U
i6=j
 
1−f 1  X 2 1 X 2 1 X 
= yi − yi − y i yj 

n N − 1 i∈U

 N i∈U N 
i,j∈U
i6=j
 !2 
1 − f 1 X 2 1 X 1−f 2
= yi − yi  = Sy
n N − 1 i∈U N i∈U
n
donde Sy2 es la cuasivarianza poblacional de la variable de estudio, Y . Véase el Tema 1.

Recuérdese que dicho parámetro es de dispersión.
En resumidas cuentas, hemos obtenido para la varianza del estimador insesgado de la
media poblacional la siguiente expresión,
1−f 2
V [ȳ(m)] =
Sy
n
lo que nos permite hacer las siguientes consideraciones,

1. Aumentando el tamaño muestral, n, disminuye la varianza, es decir, mientras mayor

es la muestra, más precisa es la estimación. Esto que era intuitivamente lógico, ahora
se ve corroborado matemáticamente.
2. Mientras más dispersión presente la variable de estudio sobre la población, menos

precisa será la estimación. Es decir, para estimar la media poblacional con el muestreo
aleatorio simple y el estimador propuesto, las poblaciones con gran dispersión para
la variable de estudio dan lugar a peores estimaciones que las poblaciones con poca
dispersión.
3. En la expresión anterior, aparece un parámetro poblacional, Sy2 , que no se conoce,

por lo que V [ȳ(m)] tampoco podrá ser calculado con exactitud. Esta varianza es
interesante por que nos da una idea del error que se está cometiendo al estimar Y
mediante ȳ(m). Entonces, vamos a estimarla.
3.3. Estimación de V [ȳ(m)]
Para estimar V [ȳ(m)] necesitamos estimar la cuasivarianza poblacional, Sy2 . Para ello
proponemos emplear la cuasivarianza muestral, que denotamos igual, pero con m en lugar
de U , y que es análoga a la cuasivarianza poblacional, pero, lógicamente, cambiando N por
n, U por m, y Y por ȳ(m), es decir,
 !2 
1 X 1 X 2 1
(yi − ȳ(m))2 =
X
s2y (m) = s2y = y − yi 
n − 1 i∈m n − 1 i∈m i n i∈m
Obsérvese que en la expresión anterior, si dividimos por n en lugar de por n − 1, obten-

dremos la expresión de la varianza muestral, es decir,
!2
1 X 1 X 2 1 X
varianza muestral = (yi − ȳ(m))2 = y − yi
n i∈m n i∈m i n i∈m
o sea, la media muestral de los cuadrados menos el cuadrado de la media muestral. A efecto
de cálculos prácticos, es conveniente usar las fórmulas que ligan cuasivarianza muestral y
varianza muestral, es decir,
n n−1 2
s2y = varianza muestral y varianza muestral = sy
n−1 n
muy utilizadas en clases de problemas.
Volviendo al problema de estimación, nos queda todavı́a la tarea de dilucidar si s2y es
un estimador insesgado de Sy2 . Veámoslo a continuación,
" #  !2 
n 1 X n 1 X 2 1 X
E[s2y ] = E (yi − ȳ(m))2 = E y − yi
n i∈m i

n − 1 n i∈m n−1 n i∈m
 " #  !2 
n  1 X 2 1 X
= E yi − E  yi 
n−1 n i∈m n i∈m

!
n 1 X 2 1−f 2 2
= yi − Sy − Y
n−1 N i∈U n
n 1−f 2 n N −1 2 1−f 2

= σy2 − Sy = Sy − Sy
n−1 n n−1 N n
n N −1 1−f

= − Sy2 = Sy2
n−1 N n
y por consiguiente, s2y es un estimador insesgado de Sy2 .
A continuación, vamos a hacer varias aclaraciones sobre algunos pasos de la anterior
demostración,
Para pasar de la segunda lı́nea a la tercera se ha empleado la igualdad,

" #
1 X 2 1 X 2
E yi = y
n i∈m N i∈U i
Esta igualdad es obvia por que antes hemos demostrado que la esperanza matemática
de la media muestral es la media poblacional.
También para pasar de la segunda lı́nea a la tercera se ha empleado la igualdad,
 !2 
1 X 1−f 2 2
E yi = Sy + Y
n i∈m n
Si recordamos del Cálculo de Probabilidades que dada una variable aleatoria, Z, se

verifica,
E[Z 2 ] = V [Z] + E 2 [Z]
la igualdad resulta obvia.
Para simplificar los desarrollos, hemos empleado la expresión de la varianza pobla-
cional,
1 X 2 2
σy2 = y −Y
N i∈U i
que introdujimos en el Tema 1. Téngase en cuenta que la relación entre la varianza
poblacional y la cuasivarianza poblacional será,
N −1 2
σy2 = Sy
N
En resumidas cuentas, volviendo al problema de la estimación de V [ȳ(m)], al ser s2y

estimador insesgado de Sy2 , se tendrá que,
1−f 2
Vb [ȳ(m)] = s
n y
es un estimador insesgado de V [ȳ(m)]. De esta forma ya hemos completado el proceso de
la estimación de Y en Muestreo Aleatorio Simple, es decir,

1. Extraemos la muestra, m, de la población, U .
2. Calculamos la media muestral, ȳ(m), que será la estimación, insesgada, de Y .
3. Calculamos la cuasivarianza muestral, s2y , y a partir de la misma, calculamos,
1−f 2
Vb [ȳ(m)] = s
n y
que será la estimación, insesgada, de la varianza de la estimación, y que nos da infor-
mación sobre el error que se comete al estimar Y . Más adelante veremos como emplear
adecuadamente esta cantidad Vb [ȳ(m)]. En resumen,
Yb = ȳ(m)
1−f 2
V [Yb ] = Sy
n
1−f 2
Vb [Yb ] = s
n y
Si en lugar de la media poblacional, lo que queremos estimar es el total poblacional,

P
T (Y ) = i∈U yi , basta tener en cuenta que T (Y ) = N Y , para obtener los siguientes resul-
tados,
N X
Tb(Y ) = N ȳ(m) = yi
n ∈m
1−f 2
V [Tb(Y )] = N 2 Sy
n
1−f 2
Vb [Tb(Y )] = N 2 s
n y
NOTA IMPORTANTE. En lo que sigue, para simplificar la notación, y siempre que no

haya posibilidad de confusión, usaremos ȳ en lugar de ȳ(m), de la misma forma que hemos
utilizado s2y en lugar de s2y (m).
4. Estimación de proporciones
En muchas situaciones reales, nos encontraremos con variables de tipo cualitativo, es

decir, variables que indican la posesión o no de cierta cualidad. Por ejemplo, en una población
de personas, el sexo es una variable cualitativa con dos modalidades: VARÓN y MUJER. El
nivel de estudios es otra variable cualitativa con más de dos modalidades: E.PRIMARIOS,
E.MEDIOS, DIPLOMADO, LICENCIADO, DOCTOR, OTROS.
En este tipo de variables, los parámetros más relevantes son, o bien el total de elemen-
tos que presentan una determinada modalidad, o bien la proporción. Realmente, ambos

parámetros están muy relacionados pues dividiendo el total por N , obtendremos la propor-
ción.
Para fijar el problema, supondremos que la variable es de tipo dicotómico, es decir, con
dos modalidades, siendo una la ausencia de la otra, y que el parámetro a estimar es una
proporción.
Consideremos pues una cualidad o caracterı́stica de estudio que sólo tiene dos posibili-
dades, o bien aparece, o bien no aparece. Definimos entonces una variable,
(
1 si el individuo i posee la cualidad
yi =
0 en caso contrario
Sea P la proporción de individuos que presentan dicha cualidad en la totalidad de toda

la población. Es obvio que,
1 X
P = T (Y ) = Y siendo T (Y ) = yi
N i∈U
es decir, hemos logrado expresar la proporción poblacional, P , como una media poblacional.
Podemos entonces aplicar directamente los resultados de la sección anterior para estimar
dicha proporción. Ası́, en primer lugar, la estimación de la proporción será,
1 X
Pb = Yb = ȳ = yi = p
n i∈m
es decir, la proporción poblacional se estima mediante la proporción muestral. Esta estima-
ción es insesgada. Para la varianza tendremos,
 !2 
1 − f 2 1 − f 1 X 2 1 X
V [Pb ] = V [ȳ] = Sy = yi − yi 
n n N − 1 i∈U N i∈U
" #
1−f 1 X 1 2 1−f 1 h 2
i
= yi − NY = NY −NY
n N − 1 i∈U N n N −1
1−f 1 N − n P (1 − P ) N − n PQ
= N (P − P 2 ) = =
n N −1 N −1 n N −1 n
donde, como es usual, hemos denotado Q = 1 − P .
Finalmente, podemos obtener un estimador insesgado de esta varianza a partir del esti-
mador insesgado de la varianza de la media muestral que hemos visto en la sección anterior,
haciendo un cálculo similar al anterior. Se obtiene ası́,
1−f 1−f
Vb [Pb ] = p(1 − p) = pq
n−1 n−1
donde hemos denotado q = 1 − p. En resumen,
Pb = p
N − n PQ
V [Pb ] =
N −1 n
1−f
Vb [Pb ] = pq
n−1

Si en lugar de la proporción poblacional, lo que queremos estimar es el total de elementos

P
con la caracterı́stica, T (Y ) = i∈U yi , basta tener en cuenta que T (Y ) = N P , para obtener
los siguientes resultados,
Tb(Y ) = N p
N − n PQ
V [Tb(Y )] = N 2
N −1 n
1−f
Vb [Tb(Y )] = N 2 pq
n−1
5. Intervalos de confianza
Ya hemos visto cómo estimar un parámetro y como estimar la varianza de la estimación.

Ahora veremos como combinar estos resultados para dar una interpretación de los mismo
útil a efectos prácticos. Lo haremos para la media poblacional.
Hemos estimado Y mediante ȳ, y este estimador presenta una varianza V [ȳ]. Numerosos
estudios teóricos de alto nivel han concluido que la variable aleatoria,
Y − ȳ
Z=p
V [ȳ]
tiene, aproximadamente, una distribución normal, N (0, 1). Vamos a suponer que a es una
cantidad positiva, tal que,
P r[−a < Z < a] = 1 − α
siendo α una cantidad pequeña, es decir, 1 − α es una probabilidad elevada. Se tiene pues,
" #
Y − ȳ
P r −a < p <a =1−α
V [ȳ]
o sea,
q q
P r ȳ − a V [ȳ] < Y < ȳ + a V [ȳ] = 1 − α
es decir,
q q
ȳ − a V [ȳ] , ȳ + a V [ȳ]
es un intervalo al cual pertenece el parámetro Y con elevada probabilidad 1 − α. Busquemos

el valor de a. Sabemos por Cálculo de Probabilidades que,
P r[−a < Z < a] = P r[Z < a]−P r[Z < −a] = P r[Z < a]−(1−P r[Z < a]) = 2P r[Z < a]−1
y al ser,
P r[−a < Z < a] = 1 − α
se deduce,
α
P r[Z < a] = 1 −
2

expresión que nos permite calcular el valor de a a partir de las tablas de la distribución
normal, N (0, 1), tal y como se ha visto en Cálculo de Probabilidades.
Por ejemplo, para α = 00 05 se tiene P r[Z < a] = 00 975, y buscando en la tabla obtenemos
a = 10 96. En general, para un valor de α dado, la cantidad a se denota z1−α/2 , y se llama
percentil o cuantil 1 − α/2. Ası́, 10 96 es el percentil 00 975 de una distribución normal
N (0, 1).
De esta forma, el intervalo que hemos construido anteriormente se convierte en,
q q
ȳ − z1−α/2 V [ȳ] , ȳ + z1−α/2 V [ȳ]
y como V [ȳ] no es conocida, la sustituiremos por su estimación, obteniendo finalmente,

q q
ȳ − z1−α/2 Vb [ȳ] , ȳ + z1−α/2 V [ȳ]
b
Ası́ pues, hemos obtenido un intervalo aleatorio, al cual pertenece el parámetro Y con
elevada probabilidad 1 − α.
Dicho intervalo se denomina intervalo de confianza al 100(1 − α) %. Por ejemplo, si
α = 00 05, el intervalo será al 95 %, indicando que contiene al parámetro Y con probabilidad
00 95. Un desarrollo similar se puede hacer para el total y la proporción. En resumen, tenemos
los siguientes intervalos de confianza al 100(1 − α) %,
Para la media poblacional, Y ,

q q
ȳ − z1−α/2 Vb [ȳ] , ȳ + z1−α/2 V [ȳ]
b
Para el total poblacional, T (Y ),

q q
N ȳ − z1−α/2 N Vb [ȳ] , N ȳ + z1−α/2 N Vb [ȳ]
Para la proporción poblacional, P ,

q q
p − z1−α/2 Vb [p] , p + z1−α/2 V [p]
b
Recordemos que los estimadores Vb [ȳ] y Vb [p] ya han sido expuestos en la sección anterior,
y pueden ser calculados a partir de los datos proporcionados por la muestra aleatoria simple.
A continuación exponemos una pequeña lista con los valores z1−α/2 más usuales,
α 00 1 00 08 00 05 00 02 00 01 00 008 00 005 00 002 00 001

z1−α/2 10 65 10 75 10 96 20 33 20 58 20 65 20 82 30 01 30 03

6. Determinación del tamaño muestral
La elección del tamaño muestral es una de las cuestiones más relevantes del muestreo en
poblaciones finitas. Se trata de decidir cuál va a ser el tamaño de la muestra, o sea n, que
vamos a extraer de la población. En principio nos guiaremos por criterios de precisión, es
decir, buscamos una exactitud o precisión en la estimación, predeterminada de antemano.
Este planteamiento se hará empleando el concepto de intervalo de confianza.
Observemos que dado un intervalo de confianza, con la estructura expuesta en la sección
anterior, por ejemplo para la media poblacional,
q q
ȳ − z1−α/2 Vb [ȳ] , ȳ + z1−α/2 V [ȳ]
b
dicho intervalo tiene un centro y un radio. De hecho, el intervalo anterior se puede expresar
en la forma, q
ȳ ± z1−α/2 Vb [ȳ]
y ası́, ȳ es el centro, y, q
z1−α/2 Vb [ȳ]
es el radio.
Notemos que a mayor radio, más amplio es el intervalo, y a menor radio, más reducido
es. Los intervalos muy amplios pueden no ser útiles. Si un intervalo de confianza nos dice
que el consumo medio anual de fruta en España está entre 8 Kgr. y 300 Kgr., obviamente
dicho intervalo no es muy indicativo. Es decir, el radio del intervalo es un elemento muy
relevante. Los intervalos con gran radio son menos precisos que los que tienen menor radio,
en el sentido de que dan menos información o precisan menos acerca de la caracterı́stica
que estudiamos. Luego, ya sabemos que en el problema que estudiamos, el radio será un
elemento decisivo.
Otra consideración que hemos de hacer es que el radio, en términos absolutos, puede
no ser útil. Por ejemplo, si la variable que estudiamos es la estatura de las personas en
centı́metros, un radio de una unidad significarı́a una gran precisión, pues representa un
centı́metro. Pero si la estatura se mide en metros, una radio de una unidad no proporciona
un intervalo preciso en absoluto. Por ello, para las variables cuantitativas corrientes, es usual
considerar el concepto de precisión en términos relativos. Nosotros lo haremos ası́ para este
tipo de variables, aunque desde un punto de vista formal, nada impide hacerlo también
términos absolutos.
Para fijar el problema, Y es una variable de naturaleza cuantitativa como estatura, peso
o número de horas de sueño. Queremos estimar la media poblacional, Y , mediante la media
muestral ȳ, a partir de una muestra aleatoria simple, de forma que el intervalo de confianza
tenga la forma siguiente,
ȳ ± δ ȳ
donde δ es usualmente una cantidad positiva menor que 1. Por ejemplo, si δ = 00 2 diremos
que el intervalo de confianza presenta una precisión relativa 00 2 o también del 20 %, que-
riendo decir con esto que el radio es el 20 % del centro. Considerando este intervalo deseado,
y el anterior, e igualando los radios obtenemos,
q
δ ȳ = z1−α/2 Vb [ȳ]

esto es, s
1−f 2
δ ȳ = z1−α/2 s
n y
y tenemos pues la ecuación,
s
n

nδ ȳ = z1−α/2 1− s2y
N
cuya incógnita es lo que estamos buscando, es decir, n, y que resuelta con técnicas de la
ESO, proporciona,
2
z1−α/2 s2y 2
z1−α/2 cvy2
δ 2 ȳ 2 δ2
n= 2 2 =
z1−α/2 sy z1−α/2 cvy2
2
1+ 1 +
N δ 2 ȳ 2 N δ2
donde hemos denotado,
s2y sy
cvy2 = o lo que es lo mismo cvy =
ȳ 2 ȳ
Esta cantidad, cvy , es la cuasidesviación tı́pica muestral dividida por la media muestral,
por lo que tiene sentido denominarla cuasicoeficiente de variación muestral, por ana-
logı́a con el coeficiente de variación de Pearson, tan conocido y empleado en Estadı́stica. Y
si ahora llamamos,
2
z1−α/2 cvy2
n0 =
δ2
el tamaño muestral se puede expresar como,
n0
n=
1 + n0 /N
Obsérvese que el cuasicoeficiente de variación muestral tiene su versión poblacional,

sustituyendo la cuasidesviación tı́pica muestral por poblacional, y la media muestral por
poblacional, es decir,
Sy
CVy =
Y
aunque por ahora no emplearemos este parámetro poblacional.
OBSERVACIONES.
1. Para el cálculo de n0 necesitamos conocer el cuasicoeficiente de variación muestral, lo

que parece un poco incoherente pues aún no hemos realizado el muestreo. Hay varias
formas de resolver este grave inconveniente. Una de ellas consiste en emplear, si existe,
información obtenida en otros estudios, extrapolando algunos resultados.
Otra posibilidad es obtener una muestra preliminar o muestra piloto, de tamaño n1 ,
y una vez calculado cvy con dicha muestra, determinar n0 . Posteriormente se vuelve
a realizar un muestreo de n − n1 elementos para obtener la información deseada.

2. Supongamos que para una determinada población hemos obtenido n0 = 30. Si dicha
población tuviera N = 1000 elementos, se tendrı́a,
n0 30
n= = ≈ 290 126213 ≈ 29
1 + n0 /N 1 + 30/1000
y si tuviera N = 10,000,000 de elementos,
n0 30
n= = ≈ 290 999910 ≈ 30
1 + n0 /N 1 + 30/10,000,000
con lo que se produce el fenómeno, aparentemente paradójico, de que con un deter-
minado tamaño muestral se obtiene similar precisión tanto para una población de mil
elementos como para una población con diez millones de elementos.
3. Recordemos que el planteamiento se puede hacer partiendo del intervalo ȳ ±δ, es decir,
dando la precisión en términos absolutos, con lo que se puede realizar un desarrollo
similar.
Podemos también calcular el tamaño muestral necesario para obtener una determinada
precisión al estimar una proporción. Ahora, puesto que la proporción carece de unidad de
medida, y además siempre una proporción está entre cero y uno, SÍ tiene sentido realizar
un planteamiento en términos de precisión absoluta. Ası́, si queremos que nuestro intervalo
de confianza sea de la forma,
(p − δ, p + δ) es decir p±δ
deberá ser,
pq
r
δ = z1−α/2 (1 − f )
n−1
de donde se obtiene, sin más que resolver esta ecuación,
2
z1−α/2 pq
1+
n= δ2
2
z1−α/2 pq
1+
N δ2
y como la cantidad pq verifica siempre pq ≤ 14 , cualquiera que sea p, podemos dar una cota
superior conservadora para n escribiendo,
2
z1−α/2 2
z1−α/2
1+ n0
n= 4δ 2 ≈ 4δ 2 =
2
z1−α/2 2
z1−α/2 1 + n0 /N
1+ 1+
4N δ 2 4N δ 2
siendo,
2
z1−α/2
n0 =
4δ 2
Notemos finalmente que si α = 00 05, es decir, queremos un intervalo de confianza al
95 %, podemos tomar z1−α/22 = 10 962 ≈ 4 con lo que n0 es aproximadamente 1/δ 2 lo que
permite el cálculo rápido del tamaño muestral.

EJEMPLO 2 Supongamos que deseamos estimar, en una población de N = 1500 elementos,

la proporción asociada a cierta modalidad de una variable cualitativa, con una precisión δ = 00 1.
Un cálculo rápido proporciona los siguientes valores,
1 100
n0 =
00 12
= 100 n= 100 ≈ 94
1 + 1500
7. Ejemplos
Para ilustrar numéricamente, los conceptos introducidos en este Tema, vamos a realizar
una serie de ejemplos. Para ello, vamos a considerar una pequeña población de N = 12
elementos,
U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
que denominaremos MU12.
En la práctica real del muestreo, las poblaciones no son tan pequeñas, y suelen tener miles
o millones de elementos, pero MU12, a pesar de sus reducidas dimensiones, es perfectamente
válida para nuestras necesidades.
Sobre esta población tenemos una variable cuantitativa, Y , y una cualitativa, Z, con
dos modalidades, SÍ y NO, que codificaremos como 1 y 0. Los valores de estas variables son,
i 1 2 3 4 5 6 7 8 9 10 11 12
Y 8 7 10 8 7 8 12 10 6 12 6 9
Z 1 1 0 1 1 0 1 1 1 1 1 0
Seguidamente, exponemos varios ejemplos en los que se ilustran prácticamente los pro-
cesos y muestreo y estimación basados en el Muestreo Aleatorio Simple.
EJEMPLO 3 Aplicación de los diferentes métodos para obtener una muestra

aleatoria simple.
Vamos a extraer una muestra aleatoria simple de MU12, con cada uno de los métodos
explicados en este tema. El tamaño de la muestra será n = 3.
• Método básico. Como se ha explicado al principio de este Tema, y también en el Tema 1.,
generemos números aleatorios entre 1 y 12, rechazando las repeticiones. Para ello, emplearemos
uno de los métodos explicados en el Tema 1. Tomamos por ejemplo la columna 7 de la tabla de
números aleatorios, y vamos formando números aleatorios entre 0 y 1. Los multiplicamos por
12, calculamos la parte entera y sumamos 1. Empezamos pues por 00 65849, que nos proporciona
1+EN T (12×00 65849) = 8. Ya tenemos un primer elemento. El siguiente, 00 84545, proporciona
11, el siguiente, 00 60525, nuevamente 8, que no sirve pues ya ha aparecido. Seguimos pues y
obtenemos 00 54078 que proporciona 7. Ya tenemos pues la muestra,
m = {7, 8, 11}
• Método secuencial

Este método consiste en recorrer secuencialmente la población, y para cada elemento se

genera un número aleatorio, r, entre 0 y 1. En caso de que r ≤ (n − nj )/(N − j + 1), se
introduce el elemento en la muestra. Cuando de esta forma hayamos seleccionado n elementos,
detenemos el proceso. En la expresión anterior, nj es el número de elementos que hay en la
muestra en un paso dado. Al inicio es cero, lógicamente. Y j es el ı́ndice de cada elemento, es
decir, 1, 2, 3, ..., 12.
Utilizaremos también la columna séptima de la tabla de números aleatorios. En la siguiente
tabla aparecen todas las cantidades que vamos necesitando. La segunda columna son los números
aleatorios entre 0 y 1,
j r nj (n − nj )/(N − j + 1) r ≤ (n − nj )/(N − j + 1)
1 0, 65849 0 0, 25000 no
2 0, 84545 0 0, 27273 no
3 0, 60525 0 0, 30000 no
4 0, 54078 0 0, 33333 no
5 0, 02137 0 0, 37500 sı́
6 0, 56834 1 0, 28571 no
7 0, 01736 1 0, 33333 sı́
8 0, 37537 2 0, 20000 no
9 0, 83177 2 0, 25000 no
10 0, 10015 2 0, 33333 sı́
11 0, 06977 3 0, 00000 no
12 0, 09457 3 0, 00000 no
Ası́, la muestra obtenida es ahora m = {5, 7, 10}. Obsérvese que una vez que nj llega a ser
n, en este caso 3, la cantidad (n − nj )/(N − j + 1) ya siempre es cero, y nunca van a entrar más
elementos en la muestra. Nótese pues que podrı́amos haber cortado la tabla en la fila décima,
pues ya está formada la muestra. No obstante para este ejemplo hemos preferido exponer la
tabla completa a efectos didácticos. No obstante, en la realización práctica del método, en
situaciones reales, una vez nj llegue a ser n, detenemos el algoritmo. Seguir hasta el final serı́a
un sinsentido pues realizarı́amos una serie de cálculos inútiles.
• Método de McLeod y Bellhouse [Trabajo personal del alumno. No se explica en clase.]
Se deja como ejercicio. Basta aplica el algoritmo introducido en este tema. Se recomienda
reutilizar la tabla anterior para suministrar los números aleatorios.
• Método de los números aleatorios
Ordenamos la población según el orden ascendente de los números aleatorios. Utilizando los

mismos números aleatorios que en los métodos anteriores, dicha ordenación es la siguiente,
j r (ordenados)
7 0, 01736
5 0, 02137
11 0, 06977
12 0, 09457
10 0, 10015
8 0, 37537
4 0, 54078
6 0, 56834
3 0, 60525
1 0, 65849
9 0, 83177
2 0, 84545
y por consiguiente, m = {5, 7, 11} es una muestra aleatoria. También lo serı́a m = {8, 10, 12},
etc.
4
EJEMPLO 4 Estimación de la media poblacional de una variable cuantitativa

mediante una muestra aleatoria simple.
Vamos a estimar en MU12 la media poblacional, Y , de la variable Y , empleando, por ejemplo,
la muestra aleatoria obtenida con el método básico, m = {7, 8, 11}. Teniendo en cuenta que
y7 = 12, y8 = 10 e y11 = 6, la estimación será,
1
Yb = ȳ = (12 + 10 + 6) = 90 33333
3
Si tenemos en cuanta que el verdadero valor es Y = 80 58333, la estimación no va muy

desencaminada. Seguidamente estimaremos la varianza de la estimación y construiremos un
intervalo de confianza al 95 %. Se tiene,
1−f 2
Vb [Yb ] = sy
n
siendo,
 !2 
1 X 2 1 X
s2y = y − yi
n − 1 i∈m i

n i∈m
1 1

= (122 + 102 + 62 ) − (12 + 10 + 6)2 = 90 33333
3−1 3
por lo que,
1−f 2 1 − 3/12 0
Vb [Yb ] = sy = 9 33333 = 20 33333
n 3
siendo pues el intervalo de confianza al 95 %,
q q
0 0
ȳ − 1 96 V [ȳ] , ȳ + 1 96 V [ȳ] =
b b

= (90 33333 − 20 99395, 90 33333 + 20 99395) = (60 33938, 120 32728)
EJEMPLO 5 Estimación de la proporción poblacional de una caracterı́stica cua-

litativa mediante una muestra aleatoria simple.
Ahora vamos a estimar en MU12, para la variable Z, la proporción de la modalidad Z = 1,
empleando una muestra aleatoria simple de tamaño n = 5. Por ejemplo, el método de los
números aleatorios, puesto en práctica en un ejemplo anterior, nos proporciona la la muestra
m = {5, 7, 10, 11, 12}. Teniendo en cuenta que Z5 = 1, Z7 = 1, Z10 = 1, Z11 = 1 y Z12 = 0,
la estimación será,
1
Pb = p = (1 + 1 + 1 + 1 + 0) = 00 8
5
es decir, en porcentaje, estimamos que el 80 % de la población presenta la modalidad Z = 1. El
verdadero valor es P = 9/12 = 0, 75. Nótese que no difiere mucho de la estimación. Por otra
parte, para la varianza estimada, tendremos,
1−f 1 − 5/12 0
Vb [Pb ] = V [p] = pq = 0 8 × (1 − 00 8) = 00 023333
n−1 4
siendo pues el intervalo de confianza al 95 %,
q q
p − 10 96 Vb [p] , p + 10 96 Vb [p] = (00 50061, 10 09939) → (00 50061, 1)
Obsérvese como el extremo superior del intervalo de confianza original es 10 09939, que supera
el valor máximo de una proporción, es decir, 1. Entonces, por coherencia, el intervalo se recorta
al valor máximo posible, o sea, 1, quedando en su forma final (00 50061, 1). Algo similar se
harı́a si el extremo inferior fuera menor que cero.
4
Para estudiar más aplicaciones y ejemplos prácticos, se recomienda consultar el texto

de Fernández y Mayor(1995b).
8. Complemento: Muestreo Aleatorio Simple con Reempla-

zamiento
El Muestreo Aleatorio Simple con Reemplazamiento es una variación del Muestreo Alea-
torio Simple usual que hemos estudiado en este Tema. Básicamente, consiste en admitir
elementos repetidos en la muestra, es decir, al aplicar el algoritmo básico para construir la
muestra, no se rechazan los elementos repetidos, de forma que en la muestra final, m, un
elemento puede aparecer repetido varias veces. Aunque esto parece extraño desde el punto
de vista práctico, no presenta ningún inconveniente funcional, pues a la hora de construir
las estimaciones, si un elemento, i, está repetido, su información, Yi , aparece duplicada.
EJEMPLO 6 En una población de N = 20 elementos,
U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}

vamos a extraer una muestra aleatoria simple con reemplazamiento, de n = 6 elementos. Nos
vamos al principio de la primera columna de nuestra tabla de números aleatorios, y obtenemos
seis números aleatorios entre cero y uno. Para simplificar los cálculos, conservaremos sólo tres
decimales,
00 597, 00 398, 00 024, 00 412, 00 005, 00 056
a partir de los cuales obtenemos,
i1 = 1 + EN T (20 ∗ 00 597) = 12
i2 = 1 + EN T (20 ∗ 00 398) = 8
i3 = 1 + EN T (20 ∗ 00 024) = 1
i4 = 1 + EN T (20 ∗ 00 412) = 9
i1 = 1 + EN T (20 ∗ 00 005) = 1
i1 = 1 + EN T (20 ∗ 00 056) = 2
siendo pues la muestra obtenida,
m = [1, 1, 2, 8, 9, 12]
Como puede verse, el elemento 1 aparece repetido en la muestra. Obviamente, esto no signi-
fica que si por ejemplo es una persona encuestada, haya que preguntarle dos veces. Simplemente
la información que proporciona aparecerá duplicada. Obsérvese también que hemos empleado
la notación [ ] para indicar la muestra. Esto se debe a que la notación usual de conjunto, { },
serı́a aquı́ incongruente pues los conjuntos no tienen elementos repetidos.
4
La intuición nos dice que al permitir la repetición de elementos, la muestra en general

proporciona menos información que el muestreo sin reemplazamiento, por lo que cabe es-
perar un aumento del error de muestreo. A continuación mostramos una serie de resultados
que corroboran esta idea.
8.1. Estimación de la media poblacional
Exponemos, sin demostración, los principales resultados acerca de la estimación de la

media poblacional mediante muestreo aleatorio simple con reemplazamiento. Suponemos
que m es una muestra aleatoria simple con reemplazamiento.
Un estimador insesgado de la media poblacional, Y , viene dado por,
Yb = ȳ
es decir la media muestral.
Su varianza es,
1 2
V [Yb ] = V [ȳ] =
σ
n y
Recuérdese que σy2 denota la varianza poblacional de Y

Un estimador insesgado de dicha varianza viene dado por,

1 2
Vb [Yb ] = s
n y
Para ver en qué medida varia la eficiencia del muestreo aleatorio simple, según se emplee
en su forma usual o con reemplazamiento, podemos calcular el cociente entre sus varianzas.
En concreto, si denominamos,
1−f 2 1 2
VMAS = Sy y VMASR = σ
n n y
se tiene,
1−f 2 N −n 2
VMAS Sy Sy N −n
= n = N = <1
VMASR 1 2 N −1 2 N −1
σy Sy
n N
ya que usualmente n es bastante mayor que 1. Como puede verse, el reemplazamiento hace
disminuir la eficiencia pues aumenta la varianza de la estimación. Obsérvese también que
este aumento de la varianza es menos acentuado conforme la población es más grande. Esto
es lógico, pues a mayor valor de N , menor probabilidad de que haya repeticiones.
De cualquier forma, el aumento de varianza no suele ser muy grande en condiciones
normales. Por ejemplo, si N = 1.000.000 y n = 400, se tiene,
N −n 999.600
= = 00 999600999
N −1 999.999
que es muy próximo a 1, es decir, ambas varianzas son muy similares.
9. Nuevas notaciones empleadas en este tema
Además de las notaciones empleadas en el Tema anterior, en este tema se han introducido
y empleados las siguientes,
Media muestral
1 X
ȳ(m) = ȳ = yi
n i∈m
Cuasivarianza muestral
 !2 
1 1  1
(yi − ȳ(m))2 =
X X X
s2y (m) = s2y = y2 − yi 
n − 1 i∈m n − 1 i∈m i n i∈m
Varianza muestral
 !2  " #2
1 X 1 X 2 1 1 1
(yi − ȳ(m))2 = 
X X X
2
y − yi  = yi − yi
n i∈m n i∈m i n i∈m
n i∈m n i∈m

Relaciones entre varianza y cuasivarianza muestral

n n−1 2
s2y = varianza muestral varianza muestral = sy
n−1 n
Proporción poblacional. Variable Y cero-uno

1 X
P = yi
N i∈U
Proporción muestral. Variable Y cero-uno

1 X
p̄(m) = p̄ = yi
n i∈m
Cuasicoeficiente de variación poblacional

Sy
CVy =
Y
Cuasicoeficiente de variación muestral

sy
cvy =
ȳ
Percentil o Cuantil 1 − α/2 de una normal, N (0, 1)
z1−α/2
Referencias y bibliografı́a recomendada
[1] Fernández Garcı́a, F.R. y Mayor Gallego, J.A. (1995a). Muestreo en poblaciones fini-
tas: Curso básico. E.U.B. Ediciones Universitarias de Barcelona.
[2] Fernández Garcı́a, F.R. y Mayor Gallego, J.A. (1995b). Ejercicios y prácticas de mues-
treo en poblaciones finitas. E.U.B. Ediciones Universitarias de Barcelona.

Me102 09

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Me102 09

Cargado por

Copyright:

Formatos disponibles

Muestreo Estadı́stico I

Diplomatura de Estadı́stica. Curso Segundo

José A. Mayor Gallego

1. Muestreo Aleatorio Simple

y la distribución de probabilidad uniforme o constante sobre las mismas, es decir,

Cuando en una población realizamos un muestreo, es decir, la obtención de una muestra,

2. Generación de muestras aleatorias simples

José A. Mayor Gallego. Universidad de Sevilla

2.1. Método secuencial

Este método consiste en recorrer secuencialmente la población de manera que para

a) Si j ≤ n, incluir el elemento j-ésimo de la población en la muestra. Volver al

José A. Mayor Gallego. Universidad de Sevilla

2.3. Método de los números aleatorios

Este método consiste en la generación, para cada elemento de la población, de un número

a continuación, estos números se ordenan según su valor, obteniendo,

εi1 < εi2 < . . . < εin < . . . < εiN

Se verifica entonces que las unidades asociadas a los n primeros números i1 , i2 , . . . in

EJEMPLO 1 Supongamos que N = 7 y n = 3. Generamos 7 números aleatorios en el

00 689, 00 577, 00 651, 00 043, 00 005, 00 939, 00 848

los ordenamos de menor a mayor, obteniendo,

00 005, 00 043, 00 577, 00 651, 00 689, 00 848, 00 939

Los pormenores de este interesante método pueden verse en el libro de Fernández y

2.4. Función sample() en R

José A. Mayor Gallego. Universidad de Sevilla

3. Estimación de parámetros poblacionales

Cuando un estimador cumpla esta propiedad, diremos que es insesgado. Intentaremos

es un parámetro que nos da información sobre lo buena que es la estimación. Mientras

En resumidas cuentas, a la hora de buscar estimadores, intentaremos que sean

José A. Mayor Gallego. Universidad de Sevilla

Vamos ya a concretar la situación. Uno de los parámetros más investigados en la práctica

Como estimador de este relevante parámetro, proponemos emplear la media muestral,

3.1. ¿Es insesgado Yb = ȳ(m)?

por consiguiente SÍ es un estimador insesgado. El siguiente paso es calcular su varianza

3.2. Cálculo de V [ȳ(m)]

Para la covarianza, recordemos que dadas dos variables aleatorias, V y W , su covarianza

José A. Mayor Gallego. Universidad de Sevilla

donde Sy2 es la cuasivarianza poblacional de la variable de estudio, Y . Véase el Tema 1.

José A. Mayor Gallego. Universidad de Sevilla

1. Aumentando el tamaño muestral, n, disminuye la varianza, es decir, mientras mayor

2. Mientras más dispersión presente la variable de estudio sobre la población, menos

3. En la expresión anterior, aparece un parámetro poblacional, Sy2 , que no se conoce,

3.3. Estimación de V [ȳ(m)]

Obsérvese que en la expresión anterior, si dividimos por n en lugar de por n − 1, obten-

José A. Mayor Gallego. Universidad de Sevilla

Para pasar de la segunda lı́nea a la tercera se ha empleado la igualdad,

Si recordamos del Cálculo de Probabilidades que dada una variable aleatoria, Z, se

En resumidas cuentas, volviendo al problema de la estimación de V [ȳ(m)], al ser s2y

José A. Mayor Gallego. Universidad de Sevilla

1. Extraemos la muestra, m, de la población, U .

2. Calculamos la media muestral, ȳ(m), que será la estimación, insesgada, de Y .

3. Calculamos la cuasivarianza muestral, s2y , y a partir de la misma, calculamos,

Si en lugar de la media poblacional, lo que queremos estimar es el total poblacional,

NOTA IMPORTANTE. En lo que sigue, para simplificar la notación, y siempre que no

En muchas situaciones reales, nos encontraremos con variables de tipo cualitativo, es

José A. Mayor Gallego. Universidad de Sevilla

Sea P la proporción de individuos que presentan dicha cualidad en la totalidad de toda

José A. Mayor Gallego. Universidad de Sevilla

Si en lugar de la proporción poblacional, lo que queremos estimar es el total de elementos

Ya hemos visto cómo estimar un parámetro y como estimar la varianza de la estimación.

es un intervalo al cual pertenece el parámetro Y con elevada probabilidad 1 − α. Busquemos

José A. Mayor Gallego. Universidad de Sevilla

y como V [ȳ] no es conocida, la sustituiremos por su estimación, obteniendo finalmente,