Muestreo probabilístico introducción métodos

Muestreo Probabilı́stico
Introducción
Se parte de una población U de tamaño N cuyos elementos se llaman unidades elementales,

y los denotaremos por ui para i = 1, . . . , N .
U = {u1 , u2 , . . . , uN }
Cada unidad de la población esta identificada por un número, de modo que podemos igual-
mente identificar la población por una colección de ı́ndices:
U = {1, 2, . . . , k, . . . , N }
donde k representa el elemento k-ésimo de la población.

Se va a denominar X a la caracterı́stica de la población que deseamos estudiar, que llama-
remos variable de estudio, y Xi es el valor de X para el elemento i-ésimo de la población.
Es frecuente que no se desee recoger toda la información sobre X, sino una función de los
Xi . Por ejemplo, no se quiere saber las edades de todas las personas sino la edad media.
Ası́, la edad media de la población será una función de la población
N
X Xi
θ (X1 , . . . , XN ) =
i=1
N
A estas funciones de Xi se les denomina parámetros.
Espacio Muestral
La intuición nos lleva a tomar subconjuntos de U para obtener la información que nos
permita hacer inferencias correctas sobre el parámetro de interés. A cualquier subconjunto de
U le llamaremos muestra.
1
El conjunto de todas las posibles muestras es el conjunto de todos los posibles subconjuntos
de U , que representamos por P(U ), denominado Espacio Muestral Universal siendo su cardinal
2N , dado que el conjunto de todas las posibles muestras es N N
P N
j=0 j = 2 .
Como, en general, P(U ) es un conjunto muy grande consideraremos en la práctica subcon-
juntos de él, S ⊆ P(U ), que llamaremos espacios muestrales, y la amplitud de estos subconjun-
tos dependerá del problema abordado. Se tiene que considerar también el marco poblacional,
los parámetros a estudiar, la estructura de la población y forma en que se realiza el muestreo.
Las muestras de S se denotan por s.
El conjunto S puede considerarse de modo que:
i ) Los elementos de S son una partición de U ; en este caso se llama espacio muestral par-
tición.
ii ) Todas las muestras de S tienen el mismo número de elementos: Espacio muestral de
tamaño fijo.
iii ) Contiene un subconjunto fijo de U en todas las muestras: Espacio muestral con elementos
prefijados.
El concepto de muestra como subconjunto implica que el orden de los elementos no es

relevante y que no puede haber repeticiones. Sea cual sea el espacio muestral elegido se ha de
cumplir que toda unidad poblacional debe estar en al menos una muestra s ∈ S, es decir S
constituye un recubrimiento de U : ∀ui ∈ U ∃s ∈ S tal que ui ∈ s.
Ejemplo: Dada la población U = {1, 2, 3} se pueden definir los siguientes espacios muestrales:
S1 = {(3, 2), (2, 1), 2, 1}
S2 = {(3, 2), 1} (Partición)
S3 = {(1, 2), (1, 3), (2, 3)} (Tamaño fijo)
S4 = {(1, 2), (1, 3), 1} (Con elemento prefijado 1)
2
La cantidad de elementos de cada muestra s se denomina tamaño muestral y se representa
por ns .
s = {u1 , u2 , u3 , . . . , uns }
Cuando el tamaño de la muestra es fijo lo representamos por n de modo que n = ns
Diseño muestral
Una vez elegido el espacio muestral S hay que indicar el modo de elegir dichas muestras
basado en el azar. Para ello basta definir la probabilidad de elegir cada una de las muestras, es
decir la función de probabilidad.
Se define un diseño muestral como un par (S, P (·)), donde S es el espacio muestral y P (·)
es una ley de probabilidad definida sobre S
P : S −→ [0, 1]
s → P (s)
tal que
P (s) ≥ 0 ∀s ∈ S
X
P (s) = 1
s∈S
Al par (S, P ) se le denomina diseño muestral. Si conocemos el diseño muestral, escoge-

remos una de las muestras del espacio muestral que nos indicará las unidades a estudiar de la
población: s = {U1 , . . . , Uns }.

Una vez tomadas dichas unidades, se obtienen los valores de la variable a estudiar:
(X1 , . . . , Xns ) con los que se realiza el estudio del parámetro θ (X1 , . . . , XN ).
Ejemplos de diseños muestrales
(I) Diseño muestral de Bernoulli: En este diseño se escoge una muestra s ∈ S con
probabilidad p (0< p < 1) y con un número de elementos ns .
La probabilidad de elegir una muestra s ∈ S depende de un parámetro p ∈ (0, 1) fijo.

De hecho, p es la probabilidad de que cualquier elemento de U vaya a pertenecer a la
3
muestra s. De este modo, la muestra se forma unidad a unidad de manera que una unidad
pertenece a la muestra (de tamaño no fijo) con probabilidad p.
Ası́, una muestra s tendrá el elemento ui con probabilidad
p(s) = p(1 − p)N −1
y tendrá dos elementos ui y uj con probabilidad
p(s) = p2 (1 − p)N −2
En general, la muestra s con ns elementos se elegirá con una probabilidad
p(s) = pns (1 − p)N −ns
De este modo, las muestras de digamos ns = k elementos tendrán una probabilidad

acumulada de

N k
P {ns = k} = p (1 − p)N −k
k
es decir, la variable tamaño de la muestra ns tiene una distribución binomial.
Ası́ se interpreta de manera que las muestras más probables son aquellas con un tamaño
muestral próximo a N p (tamaño medio).
¿Cómo se elige en la práctica una muestra s de tamaño ns ?
En realidad no es necesario enumerar todas las muestras y seleccionar una de ellas me-
diante p(·).
Para obtener una muestra se eligen N números aleatorios (E1 , . . . , EN ) del intervalo
(0, 1), es decir una muestra de N números de la distribución uniforme U (0, 1), y cada
número se asigna a la unidad ui donde i = 1, . . . , N de la población.
Fijado p ∈ (0, 1) se incluirá la unidad Ui en la muestra si Ei < p, dado que esto es
equivalente a que se incluirá en la muestra con probabilidad P (Ei < p) = p.
Del mismo modo se hace para cada uno de los N elementos. El número de elementos
seleccionados es una variable con distribución binomial.
(II) Diseño muestral aleatorio simple sin reposición (mas(N, n)).
4
En este diseño el espacio muestral lo constituyen todos los subconjuntos de n unidades
muestrales, donde n es el tamaño muestral fijo.

N

El número de muestras de S es n
y la distribución de probabilidad sobre el espacio
muestral es uniforme, es decir, para todo s ∈ S
1
P (s) =
N
n
En este diseño, todas las unidades de la población tienen la misma probabilidad de ser
extraı́das, pero la probabilidad de que se extraiga un elemento dependerá de los que se
hayan extraı́do anteriormente.
(III) Muestreo aleatorio con reposición. En este diseño todas las muestras, y en conse-
cuencia todos los elementos de la población, tienen la misma probabilidad de ser selec-
cionados y pueden entrar en la muestra más de una vez. El número de muestras de S
será igual a N n y la distribución sobre el espacio muestral es la uniforme, de manera que,
para todo s ∈ S
1
P (s) =
Nn
(IV) Muestreo estratificado. La población U está dividida en k subpoblaciones de unidades
homogéneas. El espacio muestral está formado por muestras de tamaño n, las cuales
P
tienen n1 , n2 , . . . , nk elementos (donde i ni = n) de cada una de las subpoblaciones
muestreadas aleatoriamente.
(V) Muestreo por conglomerados. Las unidades de U están agrupadas en subconjuntos

que serán las unidades de muestreo y que interesa que cada uno represente bien a la
población.
(VI) Muestreo sistemático. Consiste en seleccionar los elementos de k en k a partir de uno

de ellos, seleccionado aleatoriamente entre el que ocupa el primer lugar y el k-ésimo.
Estadı́sticos, Estimadores y sus propiedades
Se pretende estimar alguna caracterı́stica de la población, junto con un error debido a la

muestra concreta elegida, a partir de una muestra seleccionada según un diseño muestral. Este
5
error se debe a la muestra concreta que se ha elegido, siendo conscientes que se podrı́a haber
extraı́do otra. En el caso hipotético de que se tomara como muestra a toda la población, el
error serı́a exactamente cero.
Sea Xi , para i = 1, . . . , N la caracterı́stica de interés medida sobre la unidad i. No es una
variable aleatoria, sino que es el valor fijo observado en la unidad i. Con estos valores se definen
las caracterı́sticas poblacionales desconocidas, a las que se llaman parámetros. Por ejemplo,
se pueden destacar:
- Media de la población:
N
1 X
θ(X1 , . . . , XN ) = Xi = X
N i=1
- Total de la población
N
X
θ(X1 , . . . , XN ) = Xi = X
i=1
- Proporción de una caracterı́stica

N
1 X
θ(X1 , . . . , XN ) = Xi = P
N i=1
donde (
1 si éxito
Xi =
0 si no éxito
- Varianza de la población
N
2 1 X 2
θ(X1 , . . . , XN ) = σ = Xi − X
N i=1
- Cuasivarianza de la población
N
2 1 X 2
θ(X1 , . . . , XN ) = S = Xi − X
N − 1 i=1
Para estimar estos parámetros nos basamos en estadı́sticos que son funciones de la muestra.
En concreto, un estadı́stico es una función real que se aplica a los elementos de una muestra
cuyos valores varı́an con las diferentes realizaciones de un experimento:
T : S→R
s → T (s)
donde S es el espacio muestral de la posibles muestras.
6
Al estar calculada sobre todos los resultados posibles del experimento, y depender estos del
azar, podemos considerar la correspondiente distribución de probabilidad de un estadı́stico.

Cuando esta función se utiliza para obtener un valor próximo al parámetro desconocido se
le denomina estimador.
θb : S → R
s → θ(s)
b = t(s)
La distribución de θb viene dada en función de la probabilidad definida sobre el conjunto de
todas las muestras S.
Ejemplo
La media muestral
n
1X
θb = t = Xi = X
b
n i=1
vale como estimador de θ:
N
1 X
θ= Xi = X
N i=1
La distribución de θb no depende de los valores Xi sino de la elección que se haga de
las unidades de la muestra, es decir, la distribución de θb se hereda de las probabilidades de

pertenencia de las unidades poblacionales en la muestra. Ası́, no se requiere ninguna suposición
sobre la distribución de X en estudio.
Se definen las v.a. indicadoras de pertenencia a la muestra Ik como una Bernoulli:

(
1 si uk ∈ s
Ik =
0 si uk ∈ /s
Ejemplo:
Supongamos una ciudad que tiene seis colegios cuyos datos vienen recogidos en la tabla 1
7
Tabla 1
Se toma una muestra de dos colegios para estimar el número total de estudiantes no inmu-
nizados para el sarampión en la ciudad.

Los colegios se numeran del 1 al 6 y se extraen dos papeletas al azar que corresponderán a
los colegios que seleccionamos y en los que observamos el número de estudiantes no inmunizados
por el sarampión.
N 6

Se pueden obtener n
= 2
= 15 muestras y para cada una de ellas se puede calcular el
valor del total de estudiantes inmunizados por sarampión (ver Tabla 2):
xi + xj
x′ = N · .
2
Tabla 2
Como cada una de las 15 muestras tiene la misma probabilidad de ser seleccionada (1/15)
se puede obtener la distribución de frecuencias de x′ (Tabla 3) o representar su distribución de
frecuencias relativa (Tabla 4).

Dichas tablas representan la distribución muestral del estimador del total (x′ ).
8
Tabla 3
Tabla 4
Lógicamente esto no se puede hacer en todas las situaciones, pero ilustra lo que significa la
distribución en el muestreo del estadı́stico. La distribución del estadı́stico T se puede conocer
teóricamente, aunque en la práctica solo se observa una muestra de entre posiblemente un
número inconmensurable de ellas.

Sin embargo podemos considerar las caracterı́sticas asociadas al estimador θb como variable
aleatoria:
X
E(θ)
b = p(s)θ(s)
b
s∈S
X
V (θ)
b = p(s)(θ(s) b 2
b − E(θ))
s∈S
En función de estas dos caracterı́sticas se pueden definir medidas de calidad del estimador:
i ) Error de muestreo de θ:
b
q
σ(θ)
b = V (θ)
b = EM (θ)
b
9
ii ) Sesgo de θ:
b
B(θ) b −θ
b = E(θ)
Un estimador será insesgado para θ:
b = 0 ⇔ E(θ)
B(θ) b =θ
La propiedad de ser insesgado no es fundamental en el sentido de que al aumentar el

tamaño muestral, en la mayorı́a de los diseños, el sesgo es despreciable.
Un estimador será consistente si, cuando n → ∞
b →0
B(θ)
iii ) Error cuadrático medio de θb se define como
b = E(θb − θ)2 = V (θ)

ECM (θ) b2
b + B(θ)
Cuantifica la concentración de las estimaciones alrededor del verdadero valor de θ.
Si θb es insesgado entonces
ECM (θ)
b = V (θ)
b
iv ) Error relativo de muestreo de θb o coeficiente de variación
b = σ(θ)
b
CV (θ)
E(θ)
b
Esta da una medida más real de la dispersión del estimador al ser una medida adimensio-
nal, en el sentido de que no depende de las unidades en las que se mide una caracterı́stica.
Intervalos de confianza
Se pueden construir subconjuntos de la recta real con una determinada confianza de contener
el verdadero valor del parámetro. Dichos subconjuntos son los intervalos de confianza que nos
permiten establecer estimaciones de los parámetros desconocidos de la población.

Si construyéramos con todas las posibles muestras, todos los posibles intervalos de confianza
con un nivel dado, entonces el (1−α) % de estos intervalos contendrán al parámetro desconocido.
Evidentemente esto es teórico porque no se conoce el valor del parámetro.
10
Intervalos de confianza basados en la desigualdad de Tchebychev
Supongamos que θb es un estimador de θ ∈ Θ con distribución arbitraria, entonces se puede

utilizar la desigualdad de Tchebychev :
Sea X una variable aleatoria tal que E(X) < ∞ y V (X) = σ 2 < ∞ entonces:
σ2
P {| X − E(X) |< k} ≥ 1 −
k2
siendo k una constante.
Si la variable aleatoria es el estimador θb de θ, siendo σ su desviación tı́pica, entonces apli-
cando la desigualdad de Tchebychev se tiene que

n o σ2
P | θb − θ |< k ≥ 1 − 2
k
σ2 σ2 σ
lo que se traduce en tomar 1 − α = 1 − 2
, es decir, si α = 2
se tiene que k = √ .
k k α
Luego el intervalo para θ con nivel de confianza 1 − α será:

σ σ
P θb − √ < θ < θb + √ ≥1−α
α α
Intervalos de confianza basados en la aproximación a la normal
Supongamos que θb es un estimador de θ ∈ Θ con distribución N (θ, σ) y α ∈ (0, 1) entonces
(aplicando el concepto de cantidad pivotal ) se tiene que:

n o
P θ − σz 2 ≤ θ ≤ θ + σz 2 ≥ 1 − α
b α b α
es un intervalo para θ con un nivel de confianza 1 − α y con el cuantil del normal N (0, 1)
denominado zα , tal que
P (Z ≥ zα ) = α
θb − θ
donde Z = .
σ
Si σ es desconocida se puede usar una estimación σ̂ insesgada de σ y se obtiene el intervalo:
n o
P θb − σ̂tn−1, α2 ≤ θ ≤ θb + σ̂tn−1, α2 ≥ 1 − α
donde tn−1,α es el cuantil de una t de Student.
11
Intervalos de confianza cuando θb no es centrado
Hemos estado suponiendo que el estimador θb es insesgado para θ. Sin embargo, en ocasiones
se usan estimadores no centrados como es el caso de la estimación de un ratio (o razón). En
este caso la amplitud del intervalo para θ va a ser mayor y el intervalo será menos preciso y
tendrá un nivel de confianza menor.

Si el estimador es sesgado entonces E(θ)
b = θ+B, (asumimos aquı́ sin pérdida de generalidad
que B > 0), con lo que el valor de Z sufrirı́a un desplazamiento y se convertirı́a en
θb − θ − B
−z α2 < < z α2 ⇒
σ
−z α2 σ < θb − θ − B < z α2 σ
de este modo
( )
θ > θb − z α2 σ − B
⇒
θ < θb + z α2 σ − B
θb − z α2 σ − B < θ < θb + z α2 σ − B
Con lo que intervalo de confianza para θ basado en el estimador θb en presencia del sesgo
b − θ es el siguiente:
B = E(θ)
h i
θb − z α2 σ − B; θb + z α2 σ − B
Observamos que se trata de un intervalo no centrado en θb y desplazado en la cantidad B

respecto del intervalo sin sesgo. Ası́ debe centrarse situándonos en la peor de las circunstancias,
es decir, tomando como extremo fijo del intervalo el más lejano del centro θ,
b y calculando el
otro extremo por equidistancia al centro. Por tanto, el intervalo tiene una longitud superior al
intervalo cuando no hay sesgo.
Entonces la presencia de sesgo conduce a una estimación por intervalos menos precisa.
Aunque la distorsión no es importante si
|B|
≤ 0,1
σ
12
Probabilidades de inclusión
Se tenı́a que la distribución en el muestreo viene determinada por las probabilidades de

elección de cada muestra, que se calcula cuando se especifican las probabilidades de inclusión
de las unidades de la población que forman la muestra.
Hay dos métodos de selección de muestras: sin reposición o con reposición.

A su vez, las probabilidades de extracción de cada unidad ui pueden ser iguales para todas
ellas o bien distintas entre sı́.
Anteriormente se ha visto que todo elemento de la población debe de estar en alguna mues-
tra. Si consideramos la selección de unidades con reemplazamiento, en ocasiones es deseable
que un elemento esté en varias muestras, o incluso que dados dos elementos de la población
estos tengan distinta probabilidad de formar parte de una muestra. Para ello es necesario saber
la probabilidad que tiene cada unidad k de formar parte de una muestra de n unidades. Dichas
probabilidades se conocen como probabilidades de inclusión.
Dada s ∈ S y dado un elemento uk ∈ U puede ocurrir que uk pertenezca o no a la muestra.

Se define la variable indicadora de pertenencia a la muestra como la variable aleatoria
Ik : S → {0, 1} (
1 si uk ∈ s
s → Ik (s) =
0 si uk ∈
/s
para todo s ∈ S y k = 1, . . . , N .
Ik es una variable aleatoria definida sobre el diseño muestral (S, P (·)) .
La probabilidad de que el elemento k esté incluido en alguna muestra s, la denotamos por
πk , y vendrá dada por:
X
πk = P (k ∈ s) = P (Ik = 1) = p(s)
k∈s,s∈S
es decir la suma sobre todas las muestras que contienen el elemento k.

Ası́ πk es la probabilidad de que el elemento k esté en una muestra resultante de un expe-
rimento aleatorio, y se denomina probabilidad de inclusión de primer orden.
Como todo elemento uk debe de estar en al menos una muestra del diseño, ha de veri-
ficarse que πk > 0, para todo k ∈ U . Cuando el diseño verifica esta condición el muestreo
correspondiente se denomina muestreo probabilı́stico.
13
Ejemplo
En el muestreo aleatorio simple (mas(N, n)) sabemos que la probabilidad de obtener una
muestra s ∈ S de tamaño n es
1
P (s) =
N
n
luego para un elemento de la población dado uk
X
πk = P (k ∈ s) = P (Ik = 1) = p(s)
k∈s
N −1

X 1 n−1 n
= N
= N
=
k∈s n n
N
ya que el número de muestras posibles que se pueden formar con los elementos de la población
−1
y que contienen al elemento k son Nn−1

.
Probabilidad de inclusión de segundo orden
Se define (
1 si uk , ul ∈ s
Ikl =
0 si uk , ul ∈
/s
Esta es la variable aleatoria indicadora de que los elementos k y l pertenecen a la muestra;
luego la probabilidad de que los elementos k y l estén en la muestra, la denotamos por

X
πkl = P (uk ∈ s, ul ∈ s) = P (Ikl = 1) = P (Ik Il = 1) = p(s)
k,l∈s,s∈S
donde πkl es la probabilidad de inclusión de segundo orden.
Si πkl es positivo para todo k, l ∈ U entonces se dirá que el muestreo es cuantificable.
Distribución de Ik e Ikl
Como P (Ik = 1) = πk y P (Ik = 0) = 1 − πk entonces Ik ∼ Bern(πk )

Del mismo modo se deduce que Ikl ∼ Bern(πkl ). Ası́
E(Ik ) = πk
V (Ik ) = πk (1 − πk )
E(Ikl ) = πkl
V (Ikl ) = πkl (1 − πkl )
14
Propiedades de Ik e Ikl
i) Ikl = Ik Il aunque en general Ik no es independiente de Il .
ii) Cov(Ik , Il ) = πkl − πk πl = ∆kl
Ya que
Cov(Ik , Il ) = E(Ik Il ) − E(Ik )E(Il ) =
E(Ikl ) − E(Ik )E(Il ) = πkl − πk πl
iii) Ikk = Ik
Nota: Se define Π = {πij }1≤i,j≤N como la matriz de diseño.
Propiedades de πk y πkl
Dado un diseño muestral (S, p(·)) y ns : S −→ {0, 1, . . . , N }

la variable aleatoria definida como el tamaño muestral de s, verifica que:
1.
N
X X
πi = ns p(s)
i=1 s∈S
Si ns = n (tamaño fijo) entonces

N
X
πi = n
i=1
2.
N
X X
πij = ns (ns − 1)p(s)
i,j=1 s∈S
i̸=j
Si ns = n entonces
N
X
πij = n(n − 1)
i,j=1
i̸=j
3.
N
X X
πij = (ns − 1)p(s)
j=1 s∈S
j̸=i i∈s
Si ns = n entonces
N
X
πij = (n − 1)πi
j=1
j̸=i
15
4. πij = πji
5. πii = πi
6. Si ns = n entonces
N
X
∆ij = −πj (1 − πj )
i=1
j̸=i
Demostraciones
1.)
N
X N X
X XX
πi = p(s) = p(s) = (∗)
i=1 i=1 s∈S s∈S i∈s
i∈s
como i ∈ s la suma de elementos es hasta ns

X
(∗) = ns p(s)
s∈S
Si ns = n entonces
N
X
πi = n
i=1
2.)
N
X N X
X XX
πij = p(s) = p(s) =
i,j=1 i,j=1 s∈S s∈S i,j∈s
i̸=j i̸=j i,j∈s i̸=j
X X X
p(s) 1 = ns (ns − 1)p(s)
s∈S i,j∈s s∈S
i̸=j
Si el tamaño de s es fijo, es decir, ns = n para todo s ∈ S entonces

N
X
πij = n(n − 1)
i,j=1
i̸=j
3.)
N
X N X
X XX
πij = p(s) = p(s) = (∗)
j=1 j=1 i,j∈s s∈S j∈s
j̸=i j̸=i s∈S i∈s j̸=i
Pero el número de j ̸= i que pertenecen a s es ns − 1 por lo que

X
(∗) = (ns − 1)p(s)
s∈S
i∈s
16
Si el tamaño de s es fijo, es decir, ns = n para todo s ∈ S entonces
N
X N
X
πij = (n − 1) p(s) = (n − 1)πi
j=1 i∈s
j̸=i s∈S
4.) Trivial por intercambio de los ı́ndices.
5.)
πii = P (Iii = 1) = P (Ii · Ii = 1) = P (Ii = 1) = πi
6.) Si n es fijo
N
X N
X N
X
∆ij = πij − π i πj =
i=1 i=1 i=1
i̸=j i̸=j i̸=j
= (n − 1)πj − πj (n − πj ) = −πj (1 − πj )
Corolario
(i )
N
X
E(ns ) = πi
i=1
(ii )
N X
N N
!2 N X
N
X X X
V (ns ) = πij − πi = ∆ij
i=1 j=1 i=1 i=1 j=1
Demostraciones
(i )
X N
X
E(ns ) = ns p(s) = πi
s∈S i=1
(ii ) Se tiene que

!2
X X
V (ns ) = n2s p(s) − ns p(s) = (∗)
s∈S s∈S
Habrı́a que probar como primer paso que

N X
X N X
πij = n2s p(s)
i=1 j=1 s∈S
17
Pero por los resultados previos
N X
X N N X
X X X
πij = ns (ns − 1)p(s) = n2s p(s) − ns p(s)
i=1 j=1 i=1 s∈S s∈S s∈S
j̸=i | {z }
= N
P
i=1 πi
de modo que
N X
X N N
X X
πij + πi = n2s p(s)
i=1 j=1 i=1 s∈S
j̸=i
es decir en el primer término, agrupando, queda como

N X
X N N
X N X
X N
πij + πi = πij
i=1 j=1 i=1 i=1 j=1
j̸=i
Por otro lado

X N
X
ns p(s) = πi
s∈S i=1
De este modo !2
N X
X N N
X
(∗) = πij − πi
i=1 j=1 i=1
De manera equivalente
N X
X N N X
X N
∆ij = (πij − πi πj ) =
i=1 j=1 i=1 j=1
N X
N N N N X
N N
!2
X X X X X
πij − πi πj = πij − πi
i=1 j=1 i=1 j=1 i=1 j=1 i=1
y ası́
N X
N N
!2 N X
N
X X X
V (ns ) = πij − πi = ∆ij
i=1 j=1 i=1 i=1 j=1
Se puede observar que si ns = n es constante , entonces la varianza es 0, de modo que

N X
X N
V (ns ) = ∆ij = 0
i=1 j=1
Ejemplo 1: mas(N, n)
Es un diseño sin reemplazamiento de tamaño ns = n fijo donde S es el conjunto de muestras

con n unidades distintas, de modo que el cardinal de S es

N
#(S) =
n
18
De este modo, la probabilidad para todo s ∈ S
1
P (s) =
N
n
Por otro lado,

X N −1 1 n
πk = p(s) = = =f
s∈S
n−1 N N
k∈s n

N −1
ya que el número de muestras de tamaño n que contienen a k es .
n−1
Ası́ todas las unidades tienen la misma probabilidad de pertenecer a la muestra.
Para las probabilidades

N −2
X n−2 n(n − 1)
πkl = p(s) = =
s∈S
N N (N − 1)
k,l∈s n

N −2
ya que el número de muestras que contienen a k y a l es .
n−2
Por otro lado, para k ̸= l
n(n − 1) n n
∆kl = πkl − πk πl = −
N (N − 1) N N
Esta expresión, se puede escribir de modo alternativo como
n(n − 1) n 2
∆kl = − =
N (N − 1) N
n(n − 1)N − n2 (N − 1)
=
N 2 (n − 1)
f NN−n

−n(N − n)
=− =
N 2 (n − 1) N −1
f (1 − f )
−
N −1
Por otro lado
∆kk = πk − πk2 =
n n 2
− = f (1 − f )
N N
19
La suma de ambos términos por separado es
X
∆kk = N f (1 − f )
k∈s
X f (1 − f )
∆kl = −N (N − 1) = −N f (1 − f )
k,l∈s
N −1
k̸=l
de modo que, añadiendo ambas expresiones,
X
∆kl = 0
k,l∈s
Ejemplo 2: Muestreo Bernoulli MB(N, p)
Es un diseño sin reemplazamiento de tamaño ns variable.

Se caracteriza por el hecho de que la probabilidad de que una unidad pertenezca a la muestra
es p.
πk = P {uk ∈ s} = p
πkl = P {uk , ul ∈ s} = p · p = p2
por ser sucesos independientes.
Y se obtiene que
∆kl = p2 − p · p = 0
por la independencia de Ik e Il .
A su vez,
∆kk = p − p2 = p(1 − p)
Por otro lado

N
X
E(ns ) = πi = N p
i=1
es decir el tamaño medio muestral es N p.
Por otro lado

X N
N X N
X
V (ns ) = ∆ij = 0 + ∆ii = N p(1 − p)
i=1 j=1 i=1
20
El estimador de Horvitz-Thompson
Dado un problema en estudio y considerado un diseño muestral para estimar un parámetro

poblacional, deseamos encontrar estimadores insesgados, ası́ como la estimación de su varianza
para ası́ poder calcular intervalos de confianza.
Vamos a estudiar una familia de estimadores, que es de gran utilidad en los diseños mues-
trales y que presentan diversas propiedades. Esta familia de estimadores se caracteriza porque
la extracción de cada unidad poblacional altera las probabilidades de selección de elementos
posteriores, es decir corresponden a esquemas de selección sin reemplazamiento.

Se trata de estudiar la estimación de parámetros de la forma
N
X
θ (X1 , . . . XN ) = ai X i
i=1
donde ai ∈ R
Es decir, parámetros que son combinaciones lineales de las observaciones de todas las uni-
dades de la población.
Por ejemplo:
Media (ai = 1/N )

N
1 X
X = θ (X1 , . . . XN ) = Xi
N i=1
Total (ai = 1)
N
X
X = θ (X1 , . . . XN ) = Xi
i=1
Proporción
N
1 X
P = θ (X1 , . . . XN ) = I{Xi =1}
N i=1
El objetivo es encontrar un estimador denotado como θb (X1 , . . . Xn ) que sea insesgado y

lineal ya que sus varianzas son fáciles de calcular.
El estimador será de la forma
n
X
θ̂ (X1 , . . . , Xn ) = αi Xi
i=1
de modo que hay que determinar αi para que el estimador sea insesgado.
Se trata de que E(θ̂) = θ es decir,
21
   
n N
X X
E(θ̂) = E  αi Xi  = E  αi Ii Xi 
 
i=1 i=1
i∈s i∈s
donde (
1 si ui ∈ s
Ii =
0 si ui ∈
/s
Nota: Xi no es aleatorio, ya que lo es la variable Ii .

Ası́  
N N N
X  X X
E αi Ii Xi  = αi Xi E(Ii ) = α i Xi π i
i=1 i=1 i=1
i∈s i∈s i∈s
de modo que πi es la probabilidad de inclusión de la unidad i en la muestra.
Por lo tanto ai = αi πi para todo i de modo que se deduce que
ai
αi =
πi
Por lo tanto el estimador insesgado y lineal para un parámetro,

N
X
θ= ai X i
i=1
en el muestreo sin reemplazamiento es de la forma

n
X ai
θb = Xi
i=1
πi
i∈s
que se denomina estimador de Horvitz-Thompson.
Observaciones:
1. Para cada unidad i de la muestra, a la expresión
b i = Xi
X
πi
se le denomina π-expansión del i -ésimo elemento o valor de Xi aumentado mediante πi . La
π-expansión tiene el efecto de incrementar la importancia de los elementos en la muestra.
Con esta notación, entonces

n
X
θb = ai X
bi
i=1
2. Todas las unidades pueden pertenecer a la muestra, es decir, πi > 0.
22
Ejemplos de estimadores
N
X
Total: θ = Xi
i=1
n
X Xi
θb =
i=1
πi
N
1 X
Media: θ = Xi
N i=1
n
1 X Xi
θ=
b
N i=1 πi
Proporción: Sea (
1 si ui ∈ clase
Ii =
0 si ui ∈
/ clase
N
1 X
es decir θ = Ii
N i=1
n
1 X Ii
θ=
b
N i=1 πi
Esperanza y varianza del estimador de Horvitz-Thompson
La esperanza del estimador de Horvitz-Thompson es el propio parámetro porque se ha

construido para que sea ası́: E(θ)
b = θ.
La varianza es
N N X
N
X (ai Xi )2 X (ai Xi ) (aj Xj )
V (θ)
b = (1 − πi ) + 2 (πij − πi πj )
i=1
πi i=1 j>i
π i πj
O equivalentemente, de manera más compacta,

N X
X N
V (θ)
b = ai aj X
bi X
bj ∆ij
i=1 j=1
Xi
siendo ∆ij = πij − πi πj y X
bi =
πi
.
A su vez, un estimador de la varianza del estimador (siempre que πij > 0 para todo i ̸= j)
viene dado por
n n X n
X (ai Xi )2 X ai Xi aj Xj (πij − πi πj )
Vb (θ)
b = (1 − πi ) + 2
i=1
πi2 i=1 j>i
π i πj πij
23
O equivalentemente, de manera más compacta,
n X
n
bj ∆ij
X
Vb (θ)
b = ai aj X
bi X
i=1 j=1
πij
i∈s j∈s
Nota: Usando la aproximación πi,j ∼

= πi πj , i ̸= j,
n
b ∼
X 1 − πi
Vb (θ) = (ai Xi )2
i=1
πi2
Demostración:
Denotamos
Cov(Ii , Ij ) = ∆ij = πij − πi πj
∆ii = πi − πi2
b i = Xi
X
πi
Entonces
n
! N
! N
!
X X Xi X
V (θ)
b =V αi X
bi =V ai Ii =V ai X
bi Ii =
i=1 i=1
πi i=1
N
X N X
X N
a2i X
b 2V
i (Ii ) + 2 Cov ai Xi Ii , aj Xj Ij =
b b
i=1 i=1 j>i
N
X N X
X N
a2i X
b 2 πi (1 − πi ) +
i ai aj X
bi X
bj Cov (Ii , Ij ) =
i=1 i=1 j̸=i
N
X N X
X N
a2i X
b 2 ∆ii +
i ai aj X
bi X
bj ∆ij =
i=1 i=1 j̸=i
N X
X N
ai aj X
bi X
bj ∆ij .
i=1 j=1
Para el caso del estimador de la varianza, se tiene que

" N N #
h i XX ∆
bj ij Ii , Ij =
E Vb (θ)
b =E ai aj X
bi X
i=1 j=1
πij
N X
N N X
N
bj ∆ij E(Ii , Ij ) = bj ∆ij πij =
X X
ai aj X
bi X ai aj X
bi X
i=1 j=1
πij i=1 j=1
πij
N X
X N
ai aj X
bi X
bj ∆ij = V (θ)
b
i=1 j=1
y de este modo queda probado.
24
Estimador de Yates-Grunding
Si (S, P (·)) es un diseño muestral de tamaño fijo, entonces la varianza puede expresarse
como
N X
N
b = −1
X 2
V (θ) ∆ij b i − aj X
ai X bj
2 i=1 j=1
Del mismo modo, si πij > 0 para todo i ̸= j, el estimador insesgado para la varianza del
estimador es
n X
n
b = −1 ∆ij
X 2
Vb (θ) b i − aj X
ai X bj
2 i=1 j=1
πij
Demostracion:
N X
N N X
N
b = −1 bj )2 = − 1
X X
V (θ) b i − aj X
∆ij (ai X ∆ij (a2i X
b 2 − a2 X
i
b2
j j − 2ai aj Xi Xj ) = (1)
b b
2 i=1 j=1
2 i=1 j=1
Por un lado, se tiene que

N X
X N N
X N
X
∆ij a2i X
b2
i = a2i X
b2
i ∆ij
i=1 j=1 i=1 j=1
N X
X N N
X N
X
∆ij a2j X
b2 =
j a2j X
b2
j ∆ij
i=1 j=1 j=1 i=1
y
N
X N
X
∆ij = ∆ij = 0
j=1 i=1
ya que
N
X N
X N
X
∆ij = πij − π i πj =
j=1 j=1 j=1
N
X N
X
πij − πi πj = (n − 1)πi + πii − nπi
j=1 j=1
(nπi − πi ) + πi − nπi = 0
ya que
N
X
πij = (n − 1)πi =⇒
j=1
j̸=i
N
X
πij = (n − 1)πi + πii
j=1
si n es fijo.
25
luego
N N
1 X X
(1) = − (−2) ai X
bi aj X
bj ∆ij =
2 i=1 j=1
N X
X N
∆ij ai aj X
bi X
bj = V (θ)
b
i=1 j=1
Con respecto al estimador insesgado

n X
n N N
b = −1 ∆ij 1 XX ∆ij b
X 2 2
Vb (θ) b i − aj X
ai X bj =− Ii Ij ai X i − aj X
bj
2 i=1 j=1
πij 2 i=1 j=1 πij
Entonces
" N X N
#
h i
b =E − 1 X ∆ ij

b i − aj X
2
E Vb (θ) Ii Ij ai X bj =
2 i=1 j=1 πij
N N
1 X X ∆ij b 2
− ai X i − aj X
bj E [Ii Ij ] =
2 i=1 j=1 πij
N N
1 X X ∆ij b 2
− ai Xi − aj Xj πij =
b
2 i=1 j=1 πij
N N
1 XX 2
− b i − aj X
∆ij ai X bj = V (θ)
b
2 i=1 j=1
Observaciones
Para diseños muestrales estándar las estimaciones de las varianzas de θb son no negativas,
pero en algunos casos pueden llevar a estimaciones negativas que no son admisibles.
El estimador de V (θ)
b de Yates-Grunding es siempre no negativo si
∆ij = πij − πi πj < 0
Ejemplo:
Sea un diseño muestral de Bernoulli MB(N, p).

Se trata de encontrar un estimador del total :
N
X N
X
θ= ai X i = Xi
i=1 i=1
dado que ai = 1 para todo i.
El estimador de Horvitz-Thompson para θ es

X X1 1X
θb = αi Xi = Xi = Xi
i∈s i∈s
p p i∈s
26
La varianza del estimador se calcula como
XN X
N
V θ =
b ∆ij ai aj X
bi X
bj =
i=1 j=1
N
X Xi Xj
p(1 − p) =
i=1
p p
N
X
1−p
Xi2
p i=1
ya que
∆ij = 0 para todo i ̸= j, pero ∆ii = p(1 − p)
ai = 1
Xi Xi
πii = πi = p para todo i por lo que πi
= p
πij = p2 para todo i ̸= j
Un estimador insesgado de la varianza es

XX ∆ij b b
Vb (θ)
b = ai aj Xi Xj =
i∈s j∈s
πij
X p(1 − p) Xi Xi
=
i∈s
p p p
X
1 1
−1 Xi2
p p i∈s
donde ∆ij = 0 para todo i ̸= j, pero ∆ii = p(1 − p)
Ejemplo: Diseño muestral mas(N, n)
Se busca el estimador de
N
1 X
θ=X= Xi
N i=1
1 n
En este caso, al ser ai = N
y πi =
para todo i
N
X ai n n
1 X 1 1 XN
θ=
b Xi = Xi = Xi =
i∈s
πi N i=1 πi N i=1 n
n
1X
Xi = X
b
n i=1
27
es decir, la media muestral.
Para calcular la varianza, se puede usar la expresión de Yates-Grundig.

Sabiendo que
b i = Xi
X
πi
n
πi = f =
N
f (1 − f )
∆ij = −
N −1
∆ii = f (1 − f )
de modo que
N N 2
1 XX 1 b 1 b
V (θ) = V (X) = −
b b ∆ij Xi − Xj =
2 i=1 j=1 N N
N N 2
1 XX f (1 − f ) Xi X j
− 2 − − =
2N i=1 j=1 N −1 f f
N N
1 1 − f 1 XX
(Xi − Xj )2 = (1)
2N 2 N − 1 f i=1 j=1
PN PN
Pero si en la parte i=1 j=1 (Xi − Xj )2 se suma y se resta X y se desarrolla la suma de
cuadrados, entonces
N X
N
X 2
Xi − Xj + X − X =
i=1 j=1
N X
N N X
N N X
N
X 2 X 2 X
Xi − X + Xj − X −2 Xi − X Xj − X =
i=1 j=1 i=1 j=1 i=1 j=1
N N N N
X 2 X 2 X X
N Xi − X +N Xj − X −2 Xi − X Xj − X =
i=1 j=1 i=1 j=1
| {z }
=0
N
X 2
2N Xi − X
i=1
28
De este modo
N
1 1−f 1 X 2
(1) = 2N X i − X =
2N 2 N − 1 f i=1
N
1 1−f 1 X 2
Xi − X
N N − 1 f i=1
N
1−f X 1 2
n Xi − X =
N N i=1 N − 1
1−f 2
SX
n
2
donde SX es la cuasivarianza poblacional.
Análogamente, sustituyendo las expresiones, se puede obtener un estimador de la varianza

Se tenı́a que en este caso,
n
πi = N
= f,
n(n−1)
πij = N (N −1)
= f Nn−1
−1
∆ij = − f N
(1−f )
−1
,
entonces
n n
1 X X ∆ij b 2
V (θ) = V (X) = −
b b b b ai Xi − aj Xj =
b
2 i=1 j=1 πij

1 − fN
(1−f )
−1
n
1 1 XX
n
− (Xi − Xj )2 = (2)
2 f Nn−1
−1
2 2
N f i=1 j=1
pero, aplicando el mismo razonamiento que en (1) y denominando a la cuasivarianza muestral
como
n
2 1 X
SbX = (Xi − X)2
n − 1 i=1
n X
X n
(Xi − Xj )2 = 2n(n − 1)SbX
2
i=1 j=1
luego
1 − f 1 b2
(2) = nS =
f2 N2 X
1 − f 1 b2 1 − f b2
nSX = SX
n 2 N2 n

N
29
Es decir, en definitiva,
b = 1 − f Sb2
Vb (X) X
n
donde
n
2 1 X
SbX = (Xi − X)2
n − 1 i=1
Observación:
Se puede ver que en la expresión de Yates-Grundig Vb (θ)
b es no negativa si
∆ij < 0
⇔ πij − πi πj < 0
⇔ 0 < πij ≤ πi πj
para todo i ̸= j.
En el ejemplo diseño muestral mas(N, n):
f (1 − f )
∆ij = − <0
N −1
para todo i ̸= j.
30
Ejemplos con R
Aparte de ser fácil de programar a mano, se pueden usar diferentes librerı́as como la librerı́a
mase o la librerı́a Frames2:
library ( mase )
library ( survey )
# Tomamos los datos oficiales de educaci ó n de California

data ( api )
help ( api )
# The Academic Performance Index is computed for all California
# schools based on standardised testing of students.
# The data sets contain information for all schools with at
# least 100 students and for various probability samples
# of the data.
h or vi tz T ho mp so n ( y = apisrs $ api00 , pi = apisrs $ pw ^( -1) , var _ est = TRUE )
$ pop _ total
[1] 4066887
$ pop _ mean
[1] 656 .585
$ pop _ total _ var

[1] 3282462447
$ pop _ mean _ var

[1] 85 .55736
Otro ejemplo con la librerı́a Frames2:
library ( Frames2 )
data ( DatA )
attach ( DatA )
# Matriz de p robabil idades de inclusi ó n de las unidades seleccionadas del grupo A

data ( PiklA )
# Estimamos el total poblacional de la variable " Feeding " en el grupo A

HT ( Feed , ProbA )
# Estimamos la varianza de la variable " Feeding " en el grupo A

VarHT ( Feed , PiklA )
> HT ( Feed , ProbA )

[1] 429884 .8
> VarHT ( Feed , PiklA )

[1] 116751473
31
Ejemplos con TeachingSampling
Supongamos una población finita de tamaño N = 5, en donde los integrantes de la población

están identificados cada uno con su nombre. La población está formada por los siguientes
elementos: Yves, Ken, Erik, Sharon, y Leslie.
Supongamos que en esta población se quiere estimar el total de la variable y, tomando

muestras de tamaño 2.
Se sabe que el valor de y (aunque esto no es realista) para cada uno de los elementos de la
población es el siguiente:
y = (32, 34, 46, 89, 35)
library ( T e a c h i n g Sa m p l i n g )
U = c ( " Yves " , " Ken " , " Erik " , " Sharon " , " Leslie " )
y = c (32 , 34 , 46 , 89 , 35)
N = length ( U )
n = 2
# Support : crea una matriz que contiene todas las muestras posibles
# con dise n
~ os de tama ~
n o fijo
# Posibles muestras de tama ~

n o n =2
Support (N , n , U )
[ ,1] [ ,2]
[1 ,] " Yves " " Ken "
[2 ,] " Yves " " Erik "
[3 ,] " Yves " " Sharon "
[4 ,] " Yves " " Leslie "
[5 ,] " Ken " " Erik "
[6 ,] " Ken " " Sharon "
[7 ,] " Ken " " Leslie "
[8 ,] " Erik " " Sharon "
[9 ,] " Erik " " Leslie "
[10 ,] " Sharon " " Leslie "
Consideremos el siguiente diseño de muestreo P (·) que asigna las siguientes probabilidades
de selección a cada una de las 10 posibles muestras de tamaño 2.
p = c (0 .13 , 0 .2 , 0 .15 , 0 .1 , 0 .15 , 0 .04 , 0 .02 ,0 .06 , 0 .07 , 0 .08 )

# sum ( p )
# Ik : Crea una matriz de valores (0 = la unidad pertenece a la muestra y

# 1 = no pertenece ) para cada muestra posible con un dise ~
no
# de tama ~
n o fijo sin r ee mp l az am ie n to
Ind = Ik (N , n )
Q = Support (N , n , U )
data.frame (Q , p , Ind )
32
X1 X2 p X1.1 X2.1 X3 X4 X5
1 Yves Ken 0 .13 1 1 0 0 0
2 Yves Erik 0 .20 1 0 1 0 0
3 Yves Sharon 0 .15 1 0 0 1 0
4 Yves Leslie 0 .10 1 0 0 0 1
5 Ken Erik 0 .15 0 1 1 0 0
6 Ken Sharon 0 .04 0 1 0 1 0
7 Ken Leslie 0 .02 0 1 0 0 1
8 Erik Sharon 0 .06 0 0 1 1 0
9 Erik Leslie 0 .07 0 0 1 0 1
10 Sharon Leslie 0 .08 0 0 0 1 1
La función Pik calcula el vector de probabilidades de inclusión para todos los elementos de
la población. Esta tiene dos argumentos: un vector p de probabilidades de selección de todas

las posibles muestras y una matriz Ind de N variables indicadoras.
# Pik calcula la probabilidad de inclusi ó n de primer orden de cada unidad en

# la poblaci ó n dado un dise ~
n o de tama ~
n o de muestra fijo
pik = Pik (p , Ind )

pik
[ ,1] [ ,2] [ ,3] [ ,4] [ ,5]

[1 ,] 0 .58 0 .34 0 .48 0 .33 0 .27
Respecto a la estimación del total poblacional θ y en todas las posibles muestras de tamaño
10 de la población U , se obtiene la siguiente tabla
all.pik = Support (N , n , pik )

all.y = Support (N , n , y )
all.HT = rep (0 , 10)
# HT : Calcula el estimador de Horvitz - Thompson del total de la poblaci ó n

# para las variables de inter é s
for ( k in 1:10){
all.HT [ k ] = HT ( all.y [k ,] , all.pik [k ,])
}
AllSamples = data.frame (Q , p , all.pik , all.y , all.HT )

AllSamples
X1 X2 p X1.1 X2.1 X1.2 X2.2 all.HT

1 Yves Ken 0 .13 0 .58 0 .34 32 34 155 .1724
2 Yves Erik 0 .20 0 .58 0 .48 32 46 151 .0057
3 Yves Sharon 0 .15 0 .58 0 .33 32 89 324 .8694
4 Yves Leslie 0 .10 0 .58 0 .27 32 35 184 .8020
5 Ken Erik 0 .15 0 .34 0 .48 34 46 195 .8333
6 Ken Sharon 0 .04 0 .34 0 .33 34 89 369 .6970
7 Ken Leslie 0 .02 0 .34 0 .27 34 35 229 .6296
8 Erik Sharon 0 .06 0 .48 0 .33 46 89 365 .5303
9 Erik Leslie 0 .07 0 .48 0 .27 46 35 225 .4630
10 Sharon Leslie 0 .08 0 .33 0 .27 89 35 399 .3266
33
El vector all.HT contiene las estimaciones Horvitz-Thompson para cada una de las 10
posibles muestras:
all.HT
[1] 155 .1724 151 .0057 324 .8694 184 .8020 195 .8333 369 .6970 229 .6296 365 .5303
[9] 225 .4630 399 .3266
Su esperanza se calcula como

sum ( p * all.HT )
[1] 236
# Verdadero valor de la poblacion

sum ( y )
[1] 236
Se observa que la esperanza del estimador de Horvitz-Thompson reproduce exactamente el

total poblacional.
Por ejemplo, si la primera muestra (cuyos elementos son Yves y Ken) hubiese sido selec-
cionada y dado que las probabilidades de inclusión de estos dos elementos son 0.58 y 0.34,
respectivamente y los valores de la caracterı́stica de interés son respectivamente 32 y 34, el
estimador de Horvitz-Thompson darı́a la siguiente estimación:
y.s = c (32 , 34)

pik.s = c (0 .58 , 0 .34 )
HT ( y.s , pik.s )
[ ,1]
[1 ,] 155 .1724
La varianza teórica del estimador es
# VarHT : calcula la varianza te ó rica del estimador de Horvitz - Thompson

# dado un dise ~
n o de tama ~
n o fijo sin r ee mp la z am ie nt o
VarHT (y , N , n , p )
[1] 7847 .211
Se puede estimar también la varianza del estimador a partir de la muestra.
# Pikl calcula las pr obabilid ades de inclusi ó n de segundo orden de cada par
# de unidades en la poblaci ó n dado un dise ~
n o de tama ~
n o de muestra fijo
pikl = Pikl (N , n , p )
pikl
34
[ ,1] [ ,2] [ ,3] [ ,4] [ ,5]
[1 ,] 0 .58 0 .13 0 .20 0 .15 0 .10
[2 ,] 0 .13 0 .34 0 .15 0 .04 0 .02
[3 ,] 0 .20 0 .15 0 .48 0 .06 0 .07
[4 ,] 0 .15 0 .04 0 .06 0 .33 0 .08
[5 ,] 0 .10 0 .02 0 .07 0 .08 0 .27
Se puede usar la librerı́a sampling para el cálculo de la varianza.
# Tomamos en la muestra las dos mismas primeras personas de antes

s = c (1 , 1 , 0 , 0 , 0)
# Estimador de Horvitz - Thompson

sampling :: HTestimator ( y [ s ==1] , pik [ s ==1])
[ ,1]
[1 ,] 155 .1724
# Estimador de la varianza del estimador de Horvitz - Thompson

sampling :: varHT ( y [ s ==1] , pikl [ s ==1 , s ==1] , 2)
[1] 1038 .763
# La varianza teorica del estimador era

T e a c h i n g S a m p l i n g :: VarHT (y , N , n , p )
[1] 7847 .211
35
El estimador de Hansen-Hurwitz
En este caso, se trata de la selección de unidades con reposición.

La dificultad de obtener una muestra del espacio muestral al tomar elemento a elemento, se
debe a que, al escoger un elemento, el espacio universo restante varı́a y a los individuos se les
debe asignar nuevas probabilidades de selección.

Esto no ocurrirı́a si la población permaneciera constante tras la extracción de una unidad, es
decir, si reemplazamos ésta de nuevo entonces puede ser escogida nuevamente. De esta forma,
una vez asignada una probabilidad de selección a una unidad, ésta permanecerá constante a lo
largo del proceso de extracción de la muestra: se trata de un muestreo con reemplazamiento.
Se tiene la población U = {u1 , . . . , uN }, y el objetivo es igual que antes: obtener un estimador

insesgado para un parámetro poblacional:
N
X
θ= ai X i
i=1
donde ai ∈ R, y luego estimar la varianza correspondiente.
Sea pk la probabilidad de selección de la unidad k en cada extracción, de modo que pk

permanece constante:
N
X
pk = 1
k=1
tal que pk > 0 para todo k.

Supongamos que se va a extraer una muestra de tamaño fijo n.
Ahora cada unidad puede aparecer más de una vez en la muestra, por lo que se define Ni
como el número de veces que aparece la unidad i en la muestra de tamaño n.

Entonces, si se define éxito como extraer la unidad i,
Ni ∼ Bin(n, pi )
E (Ni ) = npi
V (Ni ) = npi (1 − pi )
para todo i = 1, . . . , N.
De manera general, para todos los posibles valores de la población se tiene una multinomial
(N1 , . . . , NN ) ∼ Multin(n, p1 , . . . , pN )
36
de modo que se puede demostrar que
Cov(Ni , Nj ) = −npi pj
es decir, la correlación es lógicamente negativa
Ver demostración, por ejemplo, en
http://yaroslavvb.com/upload/wasserman-multinomial.pdf
Si queremos definir la probabilidad πk de inclusión en la muestra de la unidad k habrá que

calcular la probabilidad de que uk pertenezca al menos una vez a la muestra.
Es decir
/ muestra} = 1 − (1 − pk )n
πk = 1 − P {uk ∈
La probabilidad de una muestra s que contiene t1 veces la unidad u1 , t2 veces la unidad
u2 , . . . , tN veces la unidad uN es
n!
p(s) = pt11 pt22 · · · ptNN
t1 ! · · · tN !
PN
de modo que i=1 ti = n.
Estimador de Hansen-Hurwitz o p-estimador
El estimador que se busca es lineal de la forma

n
X
θb = αk Xk
k=1
y para ser insesgado:

N
X
E θb = θ = ak X k
k=1
Entonces ! !
n
X N
X
E θb = E αk Xk =E αk Xk Nk = (1)
k=1 k=1
pero E (Nk ) = npk por lo que

N
X N
X
(1) = αk Xk npk = ak X k
k=1 k=1
Si
ak
αk =
npk
37
para todo k.
Por lo tanto el estimador de Hansen-Hurwitz se define como

n
1 X ak
θb = Xk
n k=1 pk
Ejemplos de estimadores
PN
1. Total: θ = k=1 Xk
n
1 X Xk
θb =
n k=1 pk
PN Xk
2. Media: θ = k=1 N
n n
1 X N1 Xk 1 X Xk
θ=
b =
n k=1 pk N n k=1 pk
1
PN
3. Proporción: θ = N k=1 Ik
n
1 X Ik
θb =
N n k=1 pk
Varianza del estimador de Hansen-Hurwitz
La varianza para el estimador de

N
X
θ= ak X k
k=1
es
1X N 2
a k X k
V θb = pk −θ
n k=1 pk
o equivalentemente " N #
1 X 2 2
a X
k k
V θb = − θ2
n k=1 pk
Un estimador de la varianza es
n 2
1 X ak X k b
Vb θb = −θ
n(n − 1) k=1 pk
Demostración
38
" n
# " N
#
1 X Xk 1 X Xk
V θb = V ak =V ak Nk =
n k=1 pk n k=1 pk
N N X N
1 2 Xk2

X X 1 Xk 1 Xl
a
2 k p2
V (Nk ) + Cov ak Nk , al Nl =
k=1
n k k=1 l=1
n p k n pl
k̸=l
N N X N
X 1 2 Xk2 X 1 Xk Xl
2
ak 2 npk (1 − pk ) + 2
ak al Cov (Nk , Nl ) =
k=1
n pk k=1 l=1
n pk pl | {z }
k̸=l =−npk pl
N N N
1 X 1 − pk 2 2 1 X X
ak X k − ak al X k X l =
n k=1 pk n k=1 l=1
k̸=l
 
N N N N
1X a2k Xk2 X 2 2 X X

− ak X k − ak al Xk Xl  = (3)

n  k=1 pk

k=1 k=1 l=1

k̸=l
Pero se puede utilizar que
N
!2 N N
N X
X X X
ak X k = (ak Xk )2 + ak al X k X l
k=1 k=1 k=1 l=1
k̸=l
por lo que
 
 2
N N N N
1X a2k Xk2 X 2 2 X X 
2
(3) = − ak X k −  ak X k  + (ak Xk )  =

n  k=1 pk

k=1 k=1 k=1

| {z }
=θ
"N N
# 2 "
#
1 X a2k Xk2 1 X a X
k k
− θ2 = pk − θ 2 =
n k=1 pk n k=1 pk
N 2
1X ak X k
pk −θ .
n k=1 pk
En cuanto al estimador de la varianza, se demuestra que
39
" n 2 #
1 X ak X k b
E Vb θb = E −θ =
n(n − 1) k=1 pk
 
 n n
X 2 
1 ak Xk 2
X ak Xk b
E  + nθ − 2
b θ
=
n(n − 1)  k=1 p k p k
|k=1 {z

}
=θb
"
n 2 # " N #
1 X ak X k 1 X ak Xk 2
E − nθb2 = E Nk − nθb2 =
n(n − 1) k=1
p k n(n − 1) k=1
p k
  
N
X a2k Xk2

1
b + E 2 θb 
np − n V θ  =
 
2 k
n(n − 1) k=1 pk
 
| {z }
=θ2
" N #
1 X a2 X 2 1
k k 2
−V θ −θ =
b nV θ − V θb =
b
n − 1 k=1 pk n−1
n − 1 b
V θ = V θb
n−1
Observación: La hipótesis de normalidad
Dada una población finita, en la práctica es habitual encontrar distribuciones normales o

con simetrı́a de la distribución de frecuencias.
Si el estimador está formado por una suma o una combinación lineal de variables cuya
población es normal, el estimador también tiene distribución normal en el muestreo.

Si la distribución de la población no es normal, bajo condiciones muy generales, la distribu-
ción de los estimadores anteriores converge a la normal cuando tiende a infinito el tamaño de
la muestra.
Aunque, en general, la hipótesis de normalidad de los estimadores debe analizarse antes de
construir los intervalos de confianza.
40
Ejemplo con R: TeachingSampling
la función SupportWR del paquete TeachingSampling permite definir el soporte inducido

por el diseño de muestreo con reemplazamiento.
library ( T e a c h i n g Sa m p l i n g )
y = c (32 , 34 , 46 , 89 , 35)
U = c ( " Yves " , " Ken " , " Erik " , " Sharon " , " Leslie " )
N = length ( U )
m = 2
SupportWR ( N ,m , ID = U )
[ ,1] [ ,2]
[1 ,] " Yves " " Yves "
[2 ,] " Yves " " Ken "
[3 ,] " Yves " " Erik "
[4 ,] " Yves " " Sharon "
[5 ,] " Yves " " Leslie "
[6 ,] " Ken " " Ken "
[7 ,] " Ken " " Erik "
[8 ,] " Ken " " Sharon "
[9 ,] " Ken " " Leslie "
[10 ,] " Erik " " Erik "
[11 ,] " Erik " " Sharon "
[12 ,] " Erik " " Leslie "
[13 ,] " Sharon " " Sharon "
[14 ,] " Sharon " " Leslie "
[15 ,] " Leslie " " Leslie "
Supongamos que cada uno de los cinco elementos de la población tiene probabilidades de
selección dadas por (
1/4 k = Yves, Ken, Leslie
pk =
1/8 k = Sharon, Erik
Para esta configuración particular, las probabilidades de selección p(s) de las muestras en
el soporte y el valor de la variable nk estarı́an dadas por la siguiente tabla
pk = c (0 .25 , 0 .25 , 0 .125 , 0 .125 , 0 .25 )

QWR = SupportWR (N , m , ID = U )
# p.WR : calcula la probabilidad de selecci ó n ( dise ~

n o de muestreo )
# de cada uno con muestreo con r ee mp l az am ie n to
pWR = p.WR (N , m , pk )
# nk : calcula combinaciones con repeticion y saca una matriz de

# 0 , 1 , 2 , ... si la unidad es seleccionada esas veces
nkWR = nk (N , m )
SamplesWR = data.frame ( QWR , pWR , nkWR )
SamplesWR
41
X1 X2 pWR X1.1 X2.1 X3 X4 X5
1 Yves Yves 0 .062500 2 0 0 0 0
2 Yves Ken 0 .125000 1 1 0 0 0
3 Yves Erik 0 .062500 1 0 1 0 0
4 Yves Sharon 0 .062500 1 0 0 1 0
5 Yves Leslie 0 .125000 1 0 0 0 1
6 Ken Ken 0 .062500 0 2 0 0 0
7 Ken Erik 0 .062500 0 1 1 0 0
8 Ken Sharon 0 .062500 0 1 0 1 0
9 Ken Leslie 0 .125000 0 1 0 0 1
10 Erik Erik 0 .015625 0 0 2 0 0
11 Erik Sharon 0 .031250 0 0 1 1 0
12 Erik Leslie 0 .062500 0 0 1 0 1
13 Sharon Sharon 0 .015625 0 0 0 2 0
14 Sharon Leslie 0 .062500 0 0 0 1 1
15 Leslie Leslie 0 .062500 0 0 0 0 2
Calculamos el total poblacional θ para todas las posibles muestras con reemplazamiento de
tamaño 2 de la población U , se puede obtener la siguiente tabla.
all.y = SupportWR (N , m , y )
all.pk = SupportWR (N , m , pk )
all.HH = rep (0 , 15)
# HH : calcula el estimador del estimador de Hansen - Hurwitz del total

# de la poblaci ó n para las variables de inter é s
for ( k in 1:15){
all.HH [ k ] = HH ( all.y [k ,] , all.pk [k ,])
}
AllSamplesWR = data.frame ( QWR , all.pk , pWR , all.y , all.HH )

AllSamplesWR
X1 X2 X1.1 X2.1 pWR X1.2 X2.2 all.HH

1 Yves Yves 0 .250 0 .250 0 .062500 32 32 128
2 Yves Ken 0 .250 0 .250 0 .125000 32 34 132
3 Yves Erik 0 .250 0 .125 0 .062500 32 46 248
4 Yves Sharon 0 .250 0 .125 0 .062500 32 89 420
5 Yves Leslie 0 .250 0 .250 0 .125000 32 35 134
6 Ken Ken 0 .250 0 .250 0 .062500 34 34 136
7 Ken Erik 0 .250 0 .125 0 .062500 34 46 252
8 Ken Sharon 0 .250 0 .125 0 .062500 34 89 424
9 Ken Leslie 0 .250 0 .250 0 .125000 34 35 138
10 Erik Erik 0 .125 0 .125 0 .015625 46 46 368
11 Erik Sharon 0 .125 0 .125 0 .031250 46 89 540
12 Erik Leslie 0 .125 0 .250 0 .062500 46 35 254
13 Sharon Sharon 0 .125 0 .125 0 .015625 89 89 712
14 Sharon Leslie 0 .125 0 .250 0 .062500 89 35 426
15 Leslie Leslie 0 .250 0 .250 0 .062500 35 35 140
El vector all.HH contiene las estimaciones de Hansen-Hurwitz para cada una de las posibles
15 muestras con reemplazamiento.
42
Se puede observar que la esperanza del estimador equivale al total de la caracterı́stica de
interés, corroborando que es insesgado.
Se puede observar que la esperanza del estimador equivale al total de la caracterı́stica de

interés, corroborando que es insesgado.
sum ( all.HH * pWR )
[1] 236
sum ( y )
[1] 236
Supongamos que se obtiene una muestra en particular donde se incluyen Erik e Yves
# La muestra seleccionada es
sam = c (3 , 1)
U [ sam ]
[1] " Erik " " Yves "
# Los valores de la variable en estudio de la muestra son

y [ sam ]
[1] 46 32
# Estimador de Hansen - Hurwitz y el error est á ndar

HH ( y [ sam ] , pk [ sam ])
y
Estimation 248 .0000
Standard Error 120 .0000
CVE 48 .3871
Alternativamente, si se calcula a mano, según la expresión original:
est = HH ( y [ sam ] , pk [ sam ])[1]

dif = ( y [ sam ] / pk [ sam ]) - est
Varianza = (1 / 2) * sum ( dif ^2)

sqrt ( Varianza )
[1] 120
43

Muestreo probabilístico introducción métodos

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Muestreo probabilístico introducción métodos

Cargado por

Copyright:

Formatos disponibles

Muestreo Probabilı́stico

Se parte de una población U de tamaño N cuyos elementos se llaman unidades elementales,

mente identificar la población por una colección de ı́ndices:

donde k representa el elemento k-ésimo de la población.

A estas funciones de Xi se les denomina parámetros.

Como, en general, P(U ) es un conjunto muy grande consideraremos en la práctica subcon-

Las muestras de S se denotan por s.

El conjunto S puede considerarse de modo que:

ii ) Todas las muestras de S tienen el mismo número de elementos: Espacio muestral de

El concepto de muestra como subconjunto implica que el orden de los elementos no es

S1 = {(3, 2), (2, 1), 2, 1}

S2 = {(3, 2), 1} (Partición)

S3 = {(1, 2), (1, 3), (2, 3)} (Tamaño fijo)

S4 = {(1, 2), (1, 3), 1} (Con elemento prefijado 1)

Cuando el tamaño de la muestra es fijo lo representamos por n de modo que n = ns

es una ley de probabilidad definida sobre S

Al par (S, P ) se le denomina diseño muestral. Si conocemos el diseño muestral, escoge-

población: s = {U1 , . . . , Uns }.

Ejemplos de diseños muestrales

La probabilidad de elegir una muestra s ∈ S depende de un parámetro p ∈ (0, 1) fijo.

pertenece a la muestra (de tamaño no fijo) con probabilidad p.

Ası́, una muestra s tendrá el elemento ui con probabilidad

p(s) = p(1 − p)N −1

y tendrá dos elementos ui y uj con probabilidad

En general, la muestra s con ns elementos se elegirá con una probabilidad

p(s) = pns (1 − p)N −ns

De este modo, las muestras de digamos ns = k elementos tendrán una probabilidad

muestral próximo a N p (tamaño medio).

¿Cómo se elige en la práctica una muestra s de tamaño ns ?

número se asigna a la unidad ui donde i = 1, . . . , N de la población.

Fijado p ∈ (0, 1) se incluirá la unidad Ui en la muestra si Ei < p, dado que esto es

equivalente a que se incluirá en la muestra con probabilidad P (Ei < p) = p.

seleccionados es una variable con distribución binomial.

(II) Diseño muestral aleatorio simple sin reposición (mas(N, n)).

muestrales, donde n es el tamaño muestral fijo.

hayan extraı́do anteriormente.

(IV) Muestreo estratificado. La población U está dividida en k subpoblaciones de unidades

(V) Muestreo por conglomerados. Las unidades de U están agrupadas en subconjuntos

(VI) Muestreo sistemático. Consiste en seleccionar los elementos de k en k a partir de uno

Estadı́sticos, Estimadores y sus propiedades

Se pretende estimar alguna caracterı́stica de la población, junto con un error debido a la

- Proporción de una caracterı́stica

cuyos valores varı́an con las diferentes realizaciones de un experimento:

donde S es el espacio muestral de la posibles muestras.

azar, podemos considerar la correspondiente distribución de probabilidad de un estadı́stico.

La distribución de θb viene dada en función de la probabilidad definida sobre el conjunto de

todas las muestras S.

La distribución de θb no depende de los valores Xi sino de la elección que se haga de

las unidades de la muestra, es decir, la distribución de θb se hereda de las probabilidades de

Se definen las v.a. indicadoras de pertenencia a la muestra Ik como una Bernoulli:

nizados para el sarampión en la ciudad.

frecuencias relativa (Tabla 4).

número inconmensurable de ellas.

Un estimador será insesgado para θ:

La propiedad de ser insesgado no es fundamental en el sentido de que al aumentar el

Un estimador será consistente si, cuando n → ∞

iii ) Error cuadrático medio de θb se define como

b = E(θb − θ)2 = V (θ)

Cuantifica la concentración de las estimaciones alrededor del verdadero valor de θ.

iv ) Error relativo de muestreo de θb o coeficiente de variación

permiten establecer estimaciones de los parámetros desconocidos de la población.

Evidentemente esto es teórico porque no se conoce el valor del parámetro.