Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
U = {u1 , u2 , . . . , uN }
Cada unidad de la población esta identificada por un número, de modo que podemos igual-
U = {1, 2, . . . , k, . . . , N }
Es frecuente que no se desee recoger toda la información sobre X, sino una función de los
Xi . Por ejemplo, no se quiere saber las edades de todas las personas sino la edad media.
Ası́, la edad media de la población será una función de la población
N
X Xi
θ (X1 , . . . , XN ) =
i=1
N
Espacio Muestral
La intuición nos lleva a tomar subconjuntos de U para obtener la información que nos
permita hacer inferencias correctas sobre el parámetro de interés. A cualquier subconjunto de
U le llamaremos muestra.
1
El conjunto de todas las posibles muestras es el conjunto de todos los posibles subconjuntos
de U , que representamos por P(U ), denominado Espacio Muestral Universal siendo su cardinal
2N , dado que el conjunto de todas las posibles muestras es N N
P N
j=0 j = 2 .
juntos de él, S ⊆ P(U ), que llamaremos espacios muestrales, y la amplitud de estos subconjun-
tos dependerá del problema abordado. Se tiene que considerar también el marco poblacional,
los parámetros a estudiar, la estructura de la población y forma en que se realiza el muestreo.
i ) Los elementos de S son una partición de U ; en este caso se llama espacio muestral par-
tición.
tamaño fijo.
iii ) Contiene un subconjunto fijo de U en todas las muestras: Espacio muestral con elementos
prefijados.
cumplir que toda unidad poblacional debe estar en al menos una muestra s ∈ S, es decir S
constituye un recubrimiento de U : ∀ui ∈ U ∃s ∈ S tal que ui ∈ s.
Ejemplo: Dada la población U = {1, 2, 3} se pueden definir los siguientes espacios muestrales:
2
La cantidad de elementos de cada muestra s se denomina tamaño muestral y se representa
por ns .
s = {u1 , u2 , u3 , . . . , uns }
Diseño muestral
Una vez elegido el espacio muestral S hay que indicar el modo de elegir dichas muestras
basado en el azar. Para ello basta definir la probabilidad de elegir cada una de las muestras, es
decir la función de probabilidad.
Se define un diseño muestral como un par (S, P (·)), donde S es el espacio muestral y P (·)
P : S −→ [0, 1]
s → P (s)
tal que
P (s) ≥ 0 ∀s ∈ S
X
P (s) = 1
s∈S
(X1 , . . . , Xns ) con los que se realiza el estudio del parámetro θ (X1 , . . . , XN ).
(I) Diseño muestral de Bernoulli: En este diseño se escoge una muestra s ∈ S con
probabilidad p (0< p < 1) y con un número de elementos ns .
3
muestra s. De este modo, la muestra se forma unidad a unidad de manera que una unidad
p(s) = p2 (1 − p)N −2
Ası́ se interpreta de manera que las muestras más probables son aquellas con un tamaño
En realidad no es necesario enumerar todas las muestras y seleccionar una de ellas me-
diante p(·).
Para obtener una muestra se eligen N números aleatorios (E1 , . . . , EN ) del intervalo
(0, 1), es decir una muestra de N números de la distribución uniforme U (0, 1), y cada
Del mismo modo se hace para cada uno de los N elementos. El número de elementos
4
En este diseño el espacio muestral lo constituyen todos los subconjuntos de n unidades
1
P (s) =
N
n
En este diseño, todas las unidades de la población tienen la misma probabilidad de ser
extraı́das, pero la probabilidad de que se extraiga un elemento dependerá de los que se
(III) Muestreo aleatorio con reposición. En este diseño todas las muestras, y en conse-
cuencia todos los elementos de la población, tienen la misma probabilidad de ser selec-
cionados y pueden entrar en la muestra más de una vez. El número de muestras de S
será igual a N n y la distribución sobre el espacio muestral es la uniforme, de manera que,
para todo s ∈ S
1
P (s) =
Nn
homogéneas. El espacio muestral está formado por muestras de tamaño n, las cuales
P
tienen n1 , n2 , . . . , nk elementos (donde i ni = n) de cada una de las subpoblaciones
muestreadas aleatoriamente.
población.
5
error se debe a la muestra concreta que se ha elegido, siendo conscientes que se podrı́a haber
extraı́do otra. En el caso hipotético de que se tomara como muestra a toda la población, el
error serı́a exactamente cero.
Sea Xi , para i = 1, . . . , N la caracterı́stica de interés medida sobre la unidad i. No es una
variable aleatoria, sino que es el valor fijo observado en la unidad i. Con estos valores se definen
las caracterı́sticas poblacionales desconocidas, a las que se llaman parámetros. Por ejemplo,
se pueden destacar:
- Media de la población:
N
1 X
θ(X1 , . . . , XN ) = Xi = X
N i=1
- Total de la población
N
X
θ(X1 , . . . , XN ) = Xi = X
i=1
donde (
1 si éxito
Xi =
0 si no éxito
- Varianza de la población
N
2 1 X 2
θ(X1 , . . . , XN ) = σ = Xi − X
N i=1
- Cuasivarianza de la población
N
2 1 X 2
θ(X1 , . . . , XN ) = S = Xi − X
N − 1 i=1
Para estimar estos parámetros nos basamos en estadı́sticos que son funciones de la muestra.
En concreto, un estadı́stico es una función real que se aplica a los elementos de una muestra
T : S→R
s → T (s)
6
Al estar calculada sobre todos los resultados posibles del experimento, y depender estos del
θb : S → R
s → θ(s)
b = t(s)
Ejemplo
La media muestral
n
1X
θb = t = Xi = X
b
n i=1
vale como estimador de θ:
N
1 X
θ= Xi = X
N i=1
Ejemplo:
Supongamos una ciudad que tiene seis colegios cuyos datos vienen recogidos en la tabla 1
7
Tabla 1
Se toma una muestra de dos colegios para estimar el número total de estudiantes no inmu-
por el sarampión.
N 6
Se pueden obtener n
= 2
= 15 muestras y para cada una de ellas se puede calcular el
valor del total de estudiantes inmunizados por sarampión (ver Tabla 2):
xi + xj
x′ = N · .
2
Tabla 2
Como cada una de las 15 muestras tiene la misma probabilidad de ser seleccionada (1/15)
se puede obtener la distribución de frecuencias de x′ (Tabla 3) o representar su distribución de
8
Tabla 3
Tabla 4
Lógicamente esto no se puede hacer en todas las situaciones, pero ilustra lo que significa la
distribución en el muestreo del estadı́stico. La distribución del estadı́stico T se puede conocer
teóricamente, aunque en la práctica solo se observa una muestra de entre posiblemente un
X
E(θ)
b = p(s)θ(s)
b
s∈S
X
V (θ)
b = p(s)(θ(s) b 2
b − E(θ))
s∈S
En función de estas dos caracterı́sticas se pueden definir medidas de calidad del estimador:
i ) Error de muestreo de θ:
b
q
σ(θ)
b = V (θ)
b = EM (θ)
b
9
ii ) Sesgo de θ:
b
B(θ) b −θ
b = E(θ)
b = 0 ⇔ E(θ)
B(θ) b =θ
b →0
B(θ)
Si θb es insesgado entonces
ECM (θ)
b = V (θ)
b
b = σ(θ)
b
CV (θ)
E(θ)
b
Esta da una medida más real de la dispersión del estimador al ser una medida adimensio-
nal, en el sentido de que no depende de las unidades en las que se mide una caracterı́stica.
Intervalos de confianza
Se pueden construir subconjuntos de la recta real con una determinada confianza de contener
el verdadero valor del parámetro. Dichos subconjuntos son los intervalos de confianza que nos
10
Intervalos de confianza basados en la desigualdad de Tchebychev
σ2
P {| X − E(X) |< k} ≥ 1 −
k2
siendo k una constante.
Si la variable aleatoria es el estimador θb de θ, siendo σ su desviación tı́pica, entonces apli-
es un intervalo para θ con un nivel de confianza 1 − α y con el cuantil del normal N (0, 1)
denominado zα , tal que
P (Z ≥ zα ) = α
θb − θ
donde Z = .
σ
Si σ es desconocida se puede usar una estimación σ̂ insesgada de σ y se obtiene el intervalo:
n o
P θb − σ̂tn−1, α2 ≤ θ ≤ θb + σ̂tn−1, α2 ≥ 1 − α
11
Intervalos de confianza cuando θb no es centrado
Hemos estado suponiendo que el estimador θb es insesgado para θ. Sin embargo, en ocasiones
se usan estimadores no centrados como es el caso de la estimación de un ratio (o razón). En
este caso la amplitud del intervalo para θ va a ser mayor y el intervalo será menos preciso y
θb − θ − B
−z α2 < < z α2 ⇒
σ
−z α2 σ < θb − θ − B < z α2 σ
de este modo
( )
θ > θb − z α2 σ − B
⇒
θ < θb + z α2 σ − B
θb − z α2 σ − B < θ < θb + z α2 σ − B
Con lo que intervalo de confianza para θ basado en el estimador θb en presencia del sesgo
b − θ es el siguiente:
B = E(θ)
h i
θb − z α2 σ − B; θb + z α2 σ − B
otro extremo por equidistancia al centro. Por tanto, el intervalo tiene una longitud superior al
intervalo cuando no hay sesgo.
Entonces la presencia de sesgo conduce a una estimación por intervalos menos precisa.
|B|
≤ 0,1
σ
12
Probabilidades de inclusión
Anteriormente se ha visto que todo elemento de la población debe de estar en alguna mues-
tra. Si consideramos la selección de unidades con reemplazamiento, en ocasiones es deseable
que un elemento esté en varias muestras, o incluso que dados dos elementos de la población
estos tengan distinta probabilidad de formar parte de una muestra. Para ello es necesario saber
la probabilidad que tiene cada unidad k de formar parte de una muestra de n unidades. Dichas
probabilidades se conocen como probabilidades de inclusión.
Ik : S → {0, 1} (
1 si uk ∈ s
s → Ik (s) =
0 si uk ∈
/s
para todo s ∈ S y k = 1, . . . , N .
Ik es una variable aleatoria definida sobre el diseño muestral (S, P (·)) .
La probabilidad de que el elemento k esté incluido en alguna muestra s, la denotamos por
X
πk = P (k ∈ s) = P (Ik = 1) = p(s)
k∈s,s∈S
Como todo elemento uk debe de estar en al menos una muestra del diseño, ha de veri-
ficarse que πk > 0, para todo k ∈ U . Cuando el diseño verifica esta condición el muestreo
correspondiente se denomina muestreo probabilı́stico.
13
Ejemplo
En el muestreo aleatorio simple (mas(N, n)) sabemos que la probabilidad de obtener una
muestra s ∈ S de tamaño n es
1
P (s) =
N
n
luego para un elemento de la población dado uk
X
πk = P (k ∈ s) = P (Ik = 1) = p(s)
k∈s
N −1
X 1 n−1 n
= N
= N
=
k∈s n n
N
ya que el número de muestras posibles que se pueden formar con los elementos de la población
−1
y que contienen al elemento k son Nn−1
.
Se define (
1 si uk , ul ∈ s
Ikl =
0 si uk , ul ∈
/s
Distribución de Ik e Ikl
E(Ik ) = πk
V (Ik ) = πk (1 − πk )
E(Ikl ) = πkl
14
Propiedades de Ik e Ikl
Ya que
iii) Ikk = Ik
Propiedades de πk y πkl
1.
N
X X
πi = ns p(s)
i=1 s∈S
2.
N
X X
πij = ns (ns − 1)p(s)
i,j=1 s∈S
i̸=j
Si ns = n entonces
N
X
πij = n(n − 1)
i,j=1
i̸=j
3.
N
X X
πij = (ns − 1)p(s)
j=1 s∈S
j̸=i i∈s
Si ns = n entonces
N
X
πij = (n − 1)πi
j=1
j̸=i
15
4. πij = πji
5. πii = πi
6. Si ns = n entonces
N
X
∆ij = −πj (1 − πj )
i=1
j̸=i
Demostraciones
1.)
N
X N X
X XX
πi = p(s) = p(s) = (∗)
i=1 i=1 s∈S s∈S i∈s
i∈s
Si ns = n entonces
N
X
πi = n
i=1
2.)
N
X N X
X XX
πij = p(s) = p(s) =
i,j=1 i,j=1 s∈S s∈S i,j∈s
i̸=j i̸=j i,j∈s i̸=j
X X X
p(s) 1 = ns (ns − 1)p(s)
s∈S i,j∈s s∈S
i̸=j
3.)
N
X N X
X XX
πij = p(s) = p(s) = (∗)
j=1 j=1 i,j∈s s∈S j∈s
j̸=i j̸=i s∈S i∈s j̸=i
16
Si el tamaño de s es fijo, es decir, ns = n para todo s ∈ S entonces
N
X N
X
πij = (n − 1) p(s) = (n − 1)πi
j=1 i∈s
j̸=i s∈S
5.)
πii = P (Iii = 1) = P (Ii · Ii = 1) = P (Ii = 1) = πi
6.) Si n es fijo
N
X N
X N
X
∆ij = πij − π i πj =
i=1 i=1 i=1
i̸=j i̸=j i̸=j
= (n − 1)πj − πj (n − πj ) = −πj (1 − πj )
Corolario
(i )
N
X
E(ns ) = πi
i=1
(ii )
N X
N N
!2 N X
N
X X X
V (ns ) = πij − πi = ∆ij
i=1 j=1 i=1 i=1 j=1
Demostraciones
(i )
X N
X
E(ns ) = ns p(s) = πi
s∈S i=1
17
Pero por los resultados previos
N X
X N N X
X X X
πij = ns (ns − 1)p(s) = n2s p(s) − ns p(s)
i=1 j=1 i=1 s∈S s∈S s∈S
j̸=i | {z }
= N
P
i=1 πi
de modo que
N X
X N N
X X
πij + πi = n2s p(s)
i=1 j=1 i=1 s∈S
j̸=i
De este modo !2
N X
X N N
X
(∗) = πij − πi
i=1 j=1 i=1
De manera equivalente
N X
X N N X
X N
∆ij = (πij − πi πj ) =
i=1 j=1 i=1 j=1
N X
N N N N X
N N
!2
X X X X X
πij − πi πj = πij − πi
i=1 j=1 i=1 j=1 i=1 j=1 i=1
y ası́
N X
N N
!2 N X
N
X X X
V (ns ) = πij − πi = ∆ij
i=1 j=1 i=1 i=1 j=1
Ejemplo 1: mas(N, n)
18
De este modo, la probabilidad para todo s ∈ S
1
P (s) =
N
n
n(n − 1) n n
∆kl = πkl − πk πl = −
N (N − 1) N N
n(n − 1) n 2
∆kl = − =
N (N − 1) N
n(n − 1)N − n2 (N − 1)
=
N 2 (n − 1)
f NN−n
−n(N − n)
=− =
N 2 (n − 1) N −1
f (1 − f )
−
N −1
∆kk = πk − πk2 =
n n 2
− = f (1 − f )
N N
19
La suma de ambos términos por separado es
X
∆kk = N f (1 − f )
k∈s
X f (1 − f )
∆kl = −N (N − 1) = −N f (1 − f )
k,l∈s
N −1
k̸=l
X
∆kl = 0
k,l∈s
πk = P {uk ∈ s} = p
πkl = P {uk , ul ∈ s} = p · p = p2
Y se obtiene que
∆kl = p2 − p · p = 0
por la independencia de Ik e Il .
A su vez,
∆kk = p − p2 = p(1 − p)
20
El estimador de Horvitz-Thompson
Vamos a estudiar una familia de estimadores, que es de gran utilidad en los diseños mues-
trales y que presentan diversas propiedades. Esta familia de estimadores se caracteriza porque
la extracción de cada unidad poblacional altera las probabilidades de selección de elementos
donde ai ∈ R
Es decir, parámetros que son combinaciones lineales de las observaciones de todas las uni-
dades de la población.
Por ejemplo:
Proporción
N
1 X
P = θ (X1 , . . . XN ) = I{Xi =1}
N i=1
de modo que hay que determinar αi para que el estimador sea insesgado.
21
n N
X X
E(θ̂) = E αi Xi = E αi Ii Xi
i=1 i=1
i∈s i∈s
donde (
1 si ui ∈ s
Ii =
0 si ui ∈
/s
ai
αi =
πi
Observaciones:
b i = Xi
X
πi
22
Ejemplos de estimadores
N
X
Total: θ = Xi
i=1
n
X Xi
θb =
i=1
πi
N
1 X
Media: θ = Xi
N i=1
n
1 X Xi
θ=
b
N i=1 πi
Proporción: Sea (
1 si ui ∈ clase
Ii =
0 si ui ∈
/ clase
N
1 X
es decir θ = Ii
N i=1
n
1 X Ii
θ=
b
N i=1 πi
La varianza es
N N X
N
X (ai Xi )2 X (ai Xi ) (aj Xj )
V (θ)
b = (1 − πi ) + 2 (πij − πi πj )
i=1
πi i=1 j>i
π i πj
Xi
siendo ∆ij = πij − πi πj y X
bi =
πi
.
A su vez, un estimador de la varianza del estimador (siempre que πij > 0 para todo i ̸= j)
viene dado por
n n X n
X (ai Xi )2 X ai Xi aj Xj (πij − πi πj )
Vb (θ)
b = (1 − πi ) + 2
i=1
πi2 i=1 j>i
π i πj πij
23
O equivalentemente, de manera más compacta,
n X
n
bj ∆ij
X
Vb (θ)
b = ai aj X
bi X
i=1 j=1
πij
i∈s j∈s
Demostración:
Denotamos
∆ii = πi − πi2
b i = Xi
X
πi
Entonces
n
! N
! N
!
X X Xi X
V (θ)
b =V αi X
bi =V ai Ii =V ai X
bi Ii =
i=1 i=1
πi i=1
N
X N X
X N
a2i X
b 2V
i (Ii ) + 2 Cov ai Xi Ii , aj Xj Ij =
b b
i=1 i=1 j>i
N
X N X
X N
a2i X
b 2 πi (1 − πi ) +
i ai aj X
bi X
bj Cov (Ii , Ij ) =
i=1 i=1 j̸=i
N
X N X
X N
a2i X
b 2 ∆ii +
i ai aj X
bi X
bj ∆ij =
i=1 i=1 j̸=i
N X
X N
ai aj X
bi X
bj ∆ij .
i=1 j=1
24
Estimador de Yates-Grunding
Si (S, P (·)) es un diseño muestral de tamaño fijo, entonces la varianza puede expresarse
como
N X
N
b = −1
X 2
V (θ) ∆ij b i − aj X
ai X bj
2 i=1 j=1
Del mismo modo, si πij > 0 para todo i ̸= j, el estimador insesgado para la varianza del
estimador es
n X
n
b = −1 ∆ij
X 2
Vb (θ) b i − aj X
ai X bj
2 i=1 j=1
πij
Demostracion:
N X
N N X
N
b = −1 bj )2 = − 1
X X
V (θ) b i − aj X
∆ij (ai X ∆ij (a2i X
b 2 − a2 X
i
b2
j j − 2ai aj Xi Xj ) = (1)
b b
2 i=1 j=1
2 i=1 j=1
y
N
X N
X
∆ij = ∆ij = 0
j=1 i=1
ya que
N
X N
X N
X
∆ij = πij − π i πj =
j=1 j=1 j=1
N
X N
X
πij − πi πj = (n − 1)πi + πii − nπi
j=1 j=1
(nπi − πi ) + πi − nπi = 0
ya que
N
X
πij = (n − 1)πi =⇒
j=1
j̸=i
N
X
πij = (n − 1)πi + πii
j=1
si n es fijo.
25
luego
N N
1 X X
(1) = − (−2) ai X
bi aj X
bj ∆ij =
2 i=1 j=1
N X
X N
∆ij ai aj X
bi X
bj = V (θ)
b
i=1 j=1
Entonces
" N X N
#
h i
b =E − 1 X ∆ ij
b i − aj X
2
E Vb (θ) Ii Ij ai X bj =
2 i=1 j=1 πij
N N
1 X X ∆ij b 2
− ai X i − aj X
bj E [Ii Ij ] =
2 i=1 j=1 πij
N N
1 X X ∆ij b 2
− ai Xi − aj Xj πij =
b
2 i=1 j=1 πij
N N
1 XX 2
− b i − aj X
∆ij ai X bj = V (θ)
b
2 i=1 j=1
Observaciones
Para diseños muestrales estándar las estimaciones de las varianzas de θb son no negativas,
pero en algunos casos pueden llevar a estimaciones negativas que no son admisibles.
El estimador de V (θ)
b de Yates-Grunding es siempre no negativo si
Ejemplo:
26
La varianza del estimador se calcula como
XN X
N
V θ =
b ∆ij ai aj X
bi X
bj =
i=1 j=1
N
X Xi Xj
p(1 − p) =
i=1
p p
N
X
1−p
Xi2
p i=1
ya que
ai = 1
Xi Xi
πii = πi = p para todo i por lo que πi
= p
X p(1 − p) Xi Xi
=
i∈s
p p p
X
1 1
−1 Xi2
p p i∈s
Se busca el estimador de
N
1 X
θ=X= Xi
N i=1
1 n
En este caso, al ser ai = N
y πi =
para todo i
N
X ai n n
1 X 1 1 XN
θ=
b Xi = Xi = Xi =
i∈s
πi N i=1 πi N i=1 n
n
1X
Xi = X
b
n i=1
27
es decir, la media muestral.
b i = Xi
X
πi
n
πi = f =
N
f (1 − f )
∆ij = −
N −1
∆ii = f (1 − f )
de modo que
N N 2
1 XX 1 b 1 b
V (θ) = V (X) = −
b b ∆ij Xi − Xj =
2 i=1 j=1 N N
N N 2
1 XX f (1 − f ) Xi X j
− 2 − − =
2N i=1 j=1 N −1 f f
N N
1 1 − f 1 XX
(Xi − Xj )2 = (1)
2N 2 N − 1 f i=1 j=1
PN PN
Pero si en la parte i=1 j=1 (Xi − Xj )2 se suma y se resta X y se desarrolla la suma de
cuadrados, entonces
N X
N
X 2
Xi − Xj + X − X =
i=1 j=1
N X
N N X
N N X
N
X 2 X 2 X
Xi − X + Xj − X −2 Xi − X Xj − X =
i=1 j=1 i=1 j=1 i=1 j=1
N N N N
X 2 X 2 X X
N Xi − X +N Xj − X −2 Xi − X Xj − X =
i=1 j=1 i=1 j=1
| {z }
=0
N
X 2
2N Xi − X
i=1
28
De este modo
N
1 1−f 1 X 2
(1) = 2N X i − X =
2N 2 N − 1 f i=1
N
1 1−f 1 X 2
Xi − X
N N − 1 f i=1
N
1−f X 1 2
n Xi − X =
N N i=1 N − 1
1−f 2
SX
n
2
donde SX es la cuasivarianza poblacional.
n
πi = N
= f,
n(n−1)
πij = N (N −1)
= f Nn−1
−1
∆ij = − f N
(1−f )
−1
,
entonces
n n
1 X X ∆ij b 2
V (θ) = V (X) = −
b b b b ai Xi − aj Xj =
b
2 i=1 j=1 πij
1 − fN
(1−f )
−1
n
1 1 XX
n
− (Xi − Xj )2 = (2)
2 f Nn−1
−1
2 2
N f i=1 j=1
como
n
2 1 X
SbX = (Xi − X)2
n − 1 i=1
n X
X n
(Xi − Xj )2 = 2n(n − 1)SbX
2
i=1 j=1
luego
1 − f 1 b2
(2) = nS =
f2 N2 X
1 − f 1 b2 1 − f b2
nSX = SX
n 2 N2 n
N
29
Es decir, en definitiva,
b = 1 − f Sb2
Vb (X) X
n
donde
n
2 1 X
SbX = (Xi − X)2
n − 1 i=1
Observación:
Se puede ver que en la expresión de Yates-Grundig Vb (θ)
b es no negativa si
∆ij < 0
⇔ πij − πi πj < 0
⇔ 0 < πij ≤ πi πj
para todo i ̸= j.
f (1 − f )
∆ij = − <0
N −1
para todo i ̸= j.
30
Ejemplos con R
Aparte de ser fácil de programar a mano, se pueden usar diferentes librerı́as como la librerı́a
mase o la librerı́a Frames2:
library ( mase )
library ( survey )
help ( api )
# The Academic Performance Index is computed for all California
# schools based on standardised testing of students.
# The data sets contain information for all schools with at
# least 100 students and for various probability samples
# of the data.
$ pop _ total
[1] 4066887
$ pop _ mean
[1] 656 .585
library ( Frames2 )
data ( DatA )
attach ( DatA )
31
Ejemplos con TeachingSampling
población es el siguiente:
y = (32, 34, 46, 89, 35)
library ( T e a c h i n g Sa m p l i n g )
U = c ( " Yves " , " Ken " , " Erik " , " Sharon " , " Leslie " )
y = c (32 , 34 , 46 , 89 , 35)
N = length ( U )
n = 2
# Support : crea una matriz que contiene todas las muestras posibles
# con dise n
~ os de tama ~
n o fijo
[ ,1] [ ,2]
[1 ,] " Yves " " Ken "
[2 ,] " Yves " " Erik "
[3 ,] " Yves " " Sharon "
[4 ,] " Yves " " Leslie "
[5 ,] " Ken " " Erik "
[6 ,] " Ken " " Sharon "
[7 ,] " Ken " " Leslie "
[8 ,] " Erik " " Sharon "
[9 ,] " Erik " " Leslie "
[10 ,] " Sharon " " Leslie "
Consideremos el siguiente diseño de muestreo P (·) que asigna las siguientes probabilidades
de selección a cada una de las 10 posibles muestras de tamaño 2.
Ind = Ik (N , n )
Q = Support (N , n , U )
data.frame (Q , p , Ind )
32
X1 X2 p X1.1 X2.1 X3 X4 X5
1 Yves Ken 0 .13 1 1 0 0 0
2 Yves Erik 0 .20 1 0 1 0 0
3 Yves Sharon 0 .15 1 0 0 1 0
4 Yves Leslie 0 .10 1 0 0 0 1
5 Ken Erik 0 .15 0 1 1 0 0
6 Ken Sharon 0 .04 0 1 0 1 0
7 Ken Leslie 0 .02 0 1 0 0 1
8 Erik Sharon 0 .06 0 0 1 1 0
9 Erik Leslie 0 .07 0 0 1 0 1
10 Sharon Leslie 0 .08 0 0 0 1 1
La función Pik calcula el vector de probabilidades de inclusión para todos los elementos de
Respecto a la estimación del total poblacional θ y en todas las posibles muestras de tamaño
10 de la población U , se obtiene la siguiente tabla
for ( k in 1:10){
all.HT [ k ] = HT ( all.y [k ,] , all.pik [k ,])
}
33
El vector all.HT contiene las estimaciones Horvitz-Thompson para cada una de las 10
posibles muestras:
all.HT
[1] 155 .1724 151 .0057 324 .8694 184 .8020 195 .8333 369 .6970 229 .6296 365 .5303
[9] 225 .4630 399 .3266
[1] 236
[1] 236
cionada y dado que las probabilidades de inclusión de estos dos elementos son 0.58 y 0.34,
respectivamente y los valores de la caracterı́stica de interés son respectivamente 32 y 34, el
estimador de Horvitz-Thompson darı́a la siguiente estimación:
HT ( y.s , pik.s )
[ ,1]
[1 ,] 155 .1724
VarHT (y , N , n , p )
# Pikl calcula las pr obabilid ades de inclusi ó n de segundo orden de cada par
# de unidades en la poblaci ó n dado un dise ~
n o de tama ~
n o de muestra fijo
pikl = Pikl (N , n , p )
pikl
34
[ ,1] [ ,2] [ ,3] [ ,4] [ ,5]
[1 ,] 0 .58 0 .13 0 .20 0 .15 0 .10
[2 ,] 0 .13 0 .34 0 .15 0 .04 0 .02
[3 ,] 0 .20 0 .15 0 .48 0 .06 0 .07
[4 ,] 0 .15 0 .04 0 .06 0 .33 0 .08
[5 ,] 0 .10 0 .02 0 .07 0 .08 0 .27
[ ,1]
[1 ,] 155 .1724
35
El estimador de Hansen-Hurwitz
una vez asignada una probabilidad de selección a una unidad, ésta permanecerá constante a lo
largo del proceso de extracción de la muestra: se trata de un muestreo con reemplazamiento.
Ni ∼ Bin(n, pi )
E (Ni ) = npi
V (Ni ) = npi (1 − pi )
para todo i = 1, . . . , N.
De manera general, para todos los posibles valores de la población se tiene una multinomial
(N1 , . . . , NN ) ∼ Multin(n, p1 , . . . , pN )
36
de modo que se puede demostrar que
Cov(Ni , Nj ) = −npi pj
http://yaroslavvb.com/upload/wasserman-multinomial.pdf
/ muestra} = 1 − (1 − pk )n
πk = 1 − P {uk ∈
u2 , . . . , tN veces la unidad uN es
n!
p(s) = pt11 pt22 · · · ptNN
t1 ! · · · tN !
PN
de modo que i=1 ti = n.
Si
ak
αk =
npk
37
para todo k.
Ejemplos de estimadores
PN
1. Total: θ = k=1 Xk
n
1 X Xk
θb =
n k=1 pk
PN Xk
2. Media: θ = k=1 N
n n
1 X N1 Xk 1 X Xk
θ=
b =
n k=1 pk N n k=1 pk
1
PN
3. Proporción: θ = N k=1 Ik
n
1 X Ik
θb =
N n k=1 pk
es
1X N 2
a k X k
V θb = pk −θ
n k=1 pk
o equivalentemente " N #
1 X 2 2
a X
k k
V θb = − θ2
n k=1 pk
Un estimador de la varianza es
n 2
1 X ak X k b
Vb θb = −θ
n(n − 1) k=1 pk
Demostración
38
" n
# " N
#
1 X Xk 1 X Xk
V θb = V ak =V ak Nk =
n k=1 pk n k=1 pk
N N X N
1 2 Xk2
X X 1 Xk 1 Xl
a
2 k p2
V (Nk ) + Cov ak Nk , al Nl =
k=1
n k k=1 l=1
n p k n pl
k̸=l
N N X N
X 1 2 Xk2 X 1 Xk Xl
2
ak 2 npk (1 − pk ) + 2
ak al Cov (Nk , Nl ) =
k=1
n pk k=1 l=1
n pk pl | {z }
k̸=l =−npk pl
N N N
1 X 1 − pk 2 2 1 X X
ak X k − ak al X k X l =
n k=1 pk n k=1 l=1
k̸=l
N N N N
1X a2k Xk2 X 2 2 X X
− ak X k − ak al Xk Xl = (3)
n k=1 pk
k=1 k=1 l=1
k̸=l
N
!2 N N
N X
X X X
ak X k = (ak Xk )2 + ak al X k X l
k=1 k=1 k=1 l=1
k̸=l
por lo que
2
N N N N
1X a2k Xk2 X 2 2 X X
2
(3) = − ak X k − ak X k + (ak Xk ) =
n k=1 pk
k=1 k=1 k=1
| {z }
=θ
"N N
# 2 "
#
1 X a2k Xk2 1 X a X
k k
− θ2 = pk − θ 2 =
n k=1 pk n k=1 pk
N 2
1X ak X k
pk −θ .
n k=1 pk
39
" n 2 #
1 X ak X k b
E Vb θb = E −θ =
n(n − 1) k=1 pk
n n
X 2
1 ak Xk 2
X ak Xk b
E + nθ − 2
b θ
=
n(n − 1) k=1 p k p k
|k=1 {z
}
=θb
"
n 2 # " N #
1 X ak X k 1 X ak Xk 2
E − nθb2 = E Nk − nθb2 =
n(n − 1) k=1
p k n(n − 1) k=1
p k
N
X a2k Xk2
1
b + E 2 θb
np − n V θ =
2 k
n(n − 1) k=1 pk
| {z }
=θ2
" N #
1 X a2 X 2 1
k k 2
−V θ −θ =
b nV θ − V θb =
b
n − 1 k=1 pk n−1
n − 1 b
V θ = V θb
n−1
la muestra.
Aunque, en general, la hipótesis de normalidad de los estimadores debe analizarse antes de
construir los intervalos de confianza.
40
Ejemplo con R: TeachingSampling
library ( T e a c h i n g Sa m p l i n g )
y = c (32 , 34 , 46 , 89 , 35)
U = c ( " Yves " , " Ken " , " Erik " , " Sharon " , " Leslie " )
N = length ( U )
m = 2
SupportWR ( N ,m , ID = U )
[ ,1] [ ,2]
[1 ,] " Yves " " Yves "
[2 ,] " Yves " " Ken "
[3 ,] " Yves " " Erik "
[4 ,] " Yves " " Sharon "
[5 ,] " Yves " " Leslie "
[6 ,] " Ken " " Ken "
[7 ,] " Ken " " Erik "
[8 ,] " Ken " " Sharon "
[9 ,] " Ken " " Leslie "
[10 ,] " Erik " " Erik "
[11 ,] " Erik " " Sharon "
[12 ,] " Erik " " Leslie "
[13 ,] " Sharon " " Sharon "
[14 ,] " Sharon " " Leslie "
[15 ,] " Leslie " " Leslie "
Supongamos que cada uno de los cinco elementos de la población tiene probabilidades de
selección dadas por (
1/4 k = Yves, Ken, Leslie
pk =
1/8 k = Sharon, Erik
Para esta configuración particular, las probabilidades de selección p(s) de las muestras en
el soporte y el valor de la variable nk estarı́an dadas por la siguiente tabla
nkWR = nk (N , m )
SamplesWR = data.frame ( QWR , pWR , nkWR )
SamplesWR
41
X1 X2 pWR X1.1 X2.1 X3 X4 X5
1 Yves Yves 0 .062500 2 0 0 0 0
2 Yves Ken 0 .125000 1 1 0 0 0
3 Yves Erik 0 .062500 1 0 1 0 0
4 Yves Sharon 0 .062500 1 0 0 1 0
5 Yves Leslie 0 .125000 1 0 0 0 1
6 Ken Ken 0 .062500 0 2 0 0 0
7 Ken Erik 0 .062500 0 1 1 0 0
8 Ken Sharon 0 .062500 0 1 0 1 0
9 Ken Leslie 0 .125000 0 1 0 0 1
10 Erik Erik 0 .015625 0 0 2 0 0
11 Erik Sharon 0 .031250 0 0 1 1 0
12 Erik Leslie 0 .062500 0 0 1 0 1
13 Sharon Sharon 0 .015625 0 0 0 2 0
14 Sharon Leslie 0 .062500 0 0 0 1 1
15 Leslie Leslie 0 .062500 0 0 0 0 2
Calculamos el total poblacional θ para todas las posibles muestras con reemplazamiento de
all.y = SupportWR (N , m , y )
all.pk = SupportWR (N , m , pk )
all.HH = rep (0 , 15)
El vector all.HH contiene las estimaciones de Hansen-Hurwitz para cada una de las posibles
15 muestras con reemplazamiento.
42
Se puede observar que la esperanza del estimador equivale al total de la caracterı́stica de
[1] 236
sum ( y )
[1] 236
Supongamos que se obtiene una muestra en particular donde se incluyen Erik e Yves
# La muestra seleccionada es
sam = c (3 , 1)
U [ sam ]
[1] 46 32
y
Estimation 248 .0000
Standard Error 120 .0000
CVE 48 .3871
[1] 120
43