Está en la página 1de 43

Muestreo Probabilı́stico

Introducción

Se parte de una población U de tamaño N cuyos elementos se llaman unidades elementales,


y los denotaremos por ui para i = 1, . . . , N .

U = {u1 , u2 , . . . , uN }

Cada unidad de la población esta identificada por un número, de modo que podemos igual-

mente identificar la población por una colección de ı́ndices:

U = {1, 2, . . . , k, . . . , N }

donde k representa el elemento k-ésimo de la población.


Se va a denominar X a la caracterı́stica de la población que deseamos estudiar, que llama-
remos variable de estudio, y Xi es el valor de X para el elemento i-ésimo de la población.

Es frecuente que no se desee recoger toda la información sobre X, sino una función de los
Xi . Por ejemplo, no se quiere saber las edades de todas las personas sino la edad media.
Ası́, la edad media de la población será una función de la población
N
X Xi
θ (X1 , . . . , XN ) =
i=1
N

A estas funciones de Xi se les denomina parámetros.

Espacio Muestral

La intuición nos lleva a tomar subconjuntos de U para obtener la información que nos
permita hacer inferencias correctas sobre el parámetro de interés. A cualquier subconjunto de

U le llamaremos muestra.

1
El conjunto de todas las posibles muestras es el conjunto de todos los posibles subconjuntos

de U , que representamos por P(U ), denominado Espacio Muestral Universal siendo su cardinal
2N , dado que el conjunto de todas las posibles muestras es N N
P  N
j=0 j = 2 .

Como, en general, P(U ) es un conjunto muy grande consideraremos en la práctica subcon-

juntos de él, S ⊆ P(U ), que llamaremos espacios muestrales, y la amplitud de estos subconjun-
tos dependerá del problema abordado. Se tiene que considerar también el marco poblacional,
los parámetros a estudiar, la estructura de la población y forma en que se realiza el muestreo.

Las muestras de S se denotan por s.

El conjunto S puede considerarse de modo que:

i ) Los elementos de S son una partición de U ; en este caso se llama espacio muestral par-
tición.

ii ) Todas las muestras de S tienen el mismo número de elementos: Espacio muestral de

tamaño fijo.

iii ) Contiene un subconjunto fijo de U en todas las muestras: Espacio muestral con elementos
prefijados.

El concepto de muestra como subconjunto implica que el orden de los elementos no es


relevante y que no puede haber repeticiones. Sea cual sea el espacio muestral elegido se ha de

cumplir que toda unidad poblacional debe estar en al menos una muestra s ∈ S, es decir S
constituye un recubrimiento de U : ∀ui ∈ U ∃s ∈ S tal que ui ∈ s.

Ejemplo: Dada la población U = {1, 2, 3} se pueden definir los siguientes espacios muestrales:

S1 = {(3, 2), (2, 1), 2, 1}

S2 = {(3, 2), 1} (Partición)

S3 = {(1, 2), (1, 3), (2, 3)} (Tamaño fijo)

S4 = {(1, 2), (1, 3), 1} (Con elemento prefijado 1)

2
La cantidad de elementos de cada muestra s se denomina tamaño muestral y se representa

por ns .
s = {u1 , u2 , u3 , . . . , uns }

Cuando el tamaño de la muestra es fijo lo representamos por n de modo que n = ns

Diseño muestral

Una vez elegido el espacio muestral S hay que indicar el modo de elegir dichas muestras

basado en el azar. Para ello basta definir la probabilidad de elegir cada una de las muestras, es
decir la función de probabilidad.
Se define un diseño muestral como un par (S, P (·)), donde S es el espacio muestral y P (·)

es una ley de probabilidad definida sobre S

P : S −→ [0, 1]

s → P (s)

tal que

P (s) ≥ 0 ∀s ∈ S
X
P (s) = 1
s∈S

Al par (S, P ) se le denomina diseño muestral. Si conocemos el diseño muestral, escoge-


remos una de las muestras del espacio muestral que nos indicará las unidades a estudiar de la

población: s = {U1 , . . . , Uns }.


Una vez tomadas dichas unidades, se obtienen los valores de la variable a estudiar:

(X1 , . . . , Xns ) con los que se realiza el estudio del parámetro θ (X1 , . . . , XN ).

Ejemplos de diseños muestrales

(I) Diseño muestral de Bernoulli: En este diseño se escoge una muestra s ∈ S con
probabilidad p (0< p < 1) y con un número de elementos ns .

La probabilidad de elegir una muestra s ∈ S depende de un parámetro p ∈ (0, 1) fijo.


De hecho, p es la probabilidad de que cualquier elemento de U vaya a pertenecer a la

3
muestra s. De este modo, la muestra se forma unidad a unidad de manera que una unidad

pertenece a la muestra (de tamaño no fijo) con probabilidad p.

Ası́, una muestra s tendrá el elemento ui con probabilidad

p(s) = p(1 − p)N −1

y tendrá dos elementos ui y uj con probabilidad

p(s) = p2 (1 − p)N −2

En general, la muestra s con ns elementos se elegirá con una probabilidad

p(s) = pns (1 − p)N −ns

De este modo, las muestras de digamos ns = k elementos tendrán una probabilidad


acumulada de
 
N k
P {ns = k} = p (1 − p)N −k
k
es decir, la variable tamaño de la muestra ns tiene una distribución binomial.

Ası́ se interpreta de manera que las muestras más probables son aquellas con un tamaño

muestral próximo a N p (tamaño medio).

¿Cómo se elige en la práctica una muestra s de tamaño ns ?

En realidad no es necesario enumerar todas las muestras y seleccionar una de ellas me-
diante p(·).

Para obtener una muestra se eligen N números aleatorios (E1 , . . . , EN ) del intervalo
(0, 1), es decir una muestra de N números de la distribución uniforme U (0, 1), y cada

número se asigna a la unidad ui donde i = 1, . . . , N de la población.

Fijado p ∈ (0, 1) se incluirá la unidad Ui en la muestra si Ei < p, dado que esto es

equivalente a que se incluirá en la muestra con probabilidad P (Ei < p) = p.

Del mismo modo se hace para cada uno de los N elementos. El número de elementos

seleccionados es una variable con distribución binomial.

(II) Diseño muestral aleatorio simple sin reposición (mas(N, n)).

4
En este diseño el espacio muestral lo constituyen todos los subconjuntos de n unidades

muestrales, donde n es el tamaño muestral fijo.


N

El número de muestras de S es n
y la distribución de probabilidad sobre el espacio
muestral es uniforme, es decir, para todo s ∈ S

1
P (s) =  
N
n

En este diseño, todas las unidades de la población tienen la misma probabilidad de ser
extraı́das, pero la probabilidad de que se extraiga un elemento dependerá de los que se

hayan extraı́do anteriormente.

(III) Muestreo aleatorio con reposición. En este diseño todas las muestras, y en conse-

cuencia todos los elementos de la población, tienen la misma probabilidad de ser selec-
cionados y pueden entrar en la muestra más de una vez. El número de muestras de S
será igual a N n y la distribución sobre el espacio muestral es la uniforme, de manera que,

para todo s ∈ S
1
P (s) =
Nn

(IV) Muestreo estratificado. La población U está dividida en k subpoblaciones de unidades

homogéneas. El espacio muestral está formado por muestras de tamaño n, las cuales
P
tienen n1 , n2 , . . . , nk elementos (donde i ni = n) de cada una de las subpoblaciones
muestreadas aleatoriamente.

(V) Muestreo por conglomerados. Las unidades de U están agrupadas en subconjuntos


que serán las unidades de muestreo y que interesa que cada uno represente bien a la

población.

(VI) Muestreo sistemático. Consiste en seleccionar los elementos de k en k a partir de uno


de ellos, seleccionado aleatoriamente entre el que ocupa el primer lugar y el k-ésimo.

Estadı́sticos, Estimadores y sus propiedades

Se pretende estimar alguna caracterı́stica de la población, junto con un error debido a la


muestra concreta elegida, a partir de una muestra seleccionada según un diseño muestral. Este

5
error se debe a la muestra concreta que se ha elegido, siendo conscientes que se podrı́a haber

extraı́do otra. En el caso hipotético de que se tomara como muestra a toda la población, el
error serı́a exactamente cero.
Sea Xi , para i = 1, . . . , N la caracterı́stica de interés medida sobre la unidad i. No es una

variable aleatoria, sino que es el valor fijo observado en la unidad i. Con estos valores se definen
las caracterı́sticas poblacionales desconocidas, a las que se llaman parámetros. Por ejemplo,
se pueden destacar:

- Media de la población:
N
1 X
θ(X1 , . . . , XN ) = Xi = X
N i=1
- Total de la población
N
X
θ(X1 , . . . , XN ) = Xi = X
i=1

- Proporción de una caracterı́stica


N
1 X
θ(X1 , . . . , XN ) = Xi = P
N i=1

donde (
1 si éxito
Xi =
0 si no éxito
- Varianza de la población
N
2 1 X 2
θ(X1 , . . . , XN ) = σ = Xi − X
N i=1

- Cuasivarianza de la población
N
2 1 X 2
θ(X1 , . . . , XN ) = S = Xi − X
N − 1 i=1

Para estimar estos parámetros nos basamos en estadı́sticos que son funciones de la muestra.
En concreto, un estadı́stico es una función real que se aplica a los elementos de una muestra

cuyos valores varı́an con las diferentes realizaciones de un experimento:

T : S→R

s → T (s)

donde S es el espacio muestral de la posibles muestras.

6
Al estar calculada sobre todos los resultados posibles del experimento, y depender estos del

azar, podemos considerar la correspondiente distribución de probabilidad de un estadı́stico.


Cuando esta función se utiliza para obtener un valor próximo al parámetro desconocido se
le denomina estimador.

θb : S → R

s → θ(s)
b = t(s)

La distribución de θb viene dada en función de la probabilidad definida sobre el conjunto de

todas las muestras S.

Ejemplo

La media muestral
n
1X
θb = t = Xi = X
b
n i=1
vale como estimador de θ:
N
1 X
θ= Xi = X
N i=1

La distribución de θb no depende de los valores Xi sino de la elección que se haga de

las unidades de la muestra, es decir, la distribución de θb se hereda de las probabilidades de


pertenencia de las unidades poblacionales en la muestra. Ası́, no se requiere ninguna suposición
sobre la distribución de X en estudio.

Se definen las v.a. indicadoras de pertenencia a la muestra Ik como una Bernoulli:


(
1 si uk ∈ s
Ik =
0 si uk ∈ /s

Ejemplo:

Supongamos una ciudad que tiene seis colegios cuyos datos vienen recogidos en la tabla 1

7
Tabla 1

Se toma una muestra de dos colegios para estimar el número total de estudiantes no inmu-

nizados para el sarampión en la ciudad.


Los colegios se numeran del 1 al 6 y se extraen dos papeletas al azar que corresponderán a
los colegios que seleccionamos y en los que observamos el número de estudiantes no inmunizados

por el sarampión.
N 6
 
Se pueden obtener n
= 2
= 15 muestras y para cada una de ellas se puede calcular el
valor del total de estudiantes inmunizados por sarampión (ver Tabla 2):

xi + xj
x′ = N · .
2

Tabla 2

Como cada una de las 15 muestras tiene la misma probabilidad de ser seleccionada (1/15)
se puede obtener la distribución de frecuencias de x′ (Tabla 3) o representar su distribución de

frecuencias relativa (Tabla 4).


Dichas tablas representan la distribución muestral del estimador del total (x′ ).

8
Tabla 3

Tabla 4

Lógicamente esto no se puede hacer en todas las situaciones, pero ilustra lo que significa la
distribución en el muestreo del estadı́stico. La distribución del estadı́stico T se puede conocer
teóricamente, aunque en la práctica solo se observa una muestra de entre posiblemente un

número inconmensurable de ellas.


Sin embargo podemos considerar las caracterı́sticas asociadas al estimador θb como variable
aleatoria:

X
E(θ)
b = p(s)θ(s)
b
s∈S

X
V (θ)
b = p(s)(θ(s) b 2
b − E(θ))
s∈S

En función de estas dos caracterı́sticas se pueden definir medidas de calidad del estimador:

i ) Error de muestreo de θ:
b
q
σ(θ)
b = V (θ)
b = EM (θ)
b

9
ii ) Sesgo de θ:
b

B(θ) b −θ
b = E(θ)

Un estimador será insesgado para θ:

b = 0 ⇔ E(θ)
B(θ) b =θ

La propiedad de ser insesgado no es fundamental en el sentido de que al aumentar el


tamaño muestral, en la mayorı́a de los diseños, el sesgo es despreciable.

Un estimador será consistente si, cuando n → ∞

b →0
B(θ)

iii ) Error cuadrático medio de θb se define como

b = E(θb − θ)2 = V (θ)


ECM (θ) b2
b + B(θ)

Cuantifica la concentración de las estimaciones alrededor del verdadero valor de θ.

Si θb es insesgado entonces

ECM (θ)
b = V (θ)
b

iv ) Error relativo de muestreo de θb o coeficiente de variación

b = σ(θ)
b
CV (θ)
E(θ)
b

Esta da una medida más real de la dispersión del estimador al ser una medida adimensio-
nal, en el sentido de que no depende de las unidades en las que se mide una caracterı́stica.

Intervalos de confianza

Se pueden construir subconjuntos de la recta real con una determinada confianza de contener
el verdadero valor del parámetro. Dichos subconjuntos son los intervalos de confianza que nos

permiten establecer estimaciones de los parámetros desconocidos de la población.


Si construyéramos con todas las posibles muestras, todos los posibles intervalos de confianza
con un nivel dado, entonces el (1−α) % de estos intervalos contendrán al parámetro desconocido.

Evidentemente esto es teórico porque no se conoce el valor del parámetro.

10
Intervalos de confianza basados en la desigualdad de Tchebychev

Supongamos que θb es un estimador de θ ∈ Θ con distribución arbitraria, entonces se puede


utilizar la desigualdad de Tchebychev :
Sea X una variable aleatoria tal que E(X) < ∞ y V (X) = σ 2 < ∞ entonces:

σ2
P {| X − E(X) |< k} ≥ 1 −
k2
siendo k una constante.
Si la variable aleatoria es el estimador θb de θ, siendo σ su desviación tı́pica, entonces apli-

cando la desigualdad de Tchebychev se tiene que


n o σ2
P | θb − θ |< k ≥ 1 − 2
k
σ2 σ2 σ
lo que se traduce en tomar 1 − α = 1 − 2
, es decir, si α = 2
se tiene que k = √ .
k k α

Luego el intervalo para θ con nivel de confianza 1 − α será:


 
σ σ
P θb − √ < θ < θb + √ ≥1−α
α α

Intervalos de confianza basados en la aproximación a la normal

Supongamos que θb es un estimador de θ ∈ Θ con distribución N (θ, σ) y α ∈ (0, 1) entonces

(aplicando el concepto de cantidad pivotal ) se tiene que:


n o
P θ − σz 2 ≤ θ ≤ θ + σz 2 ≥ 1 − α
b α b α

es un intervalo para θ con un nivel de confianza 1 − α y con el cuantil del normal N (0, 1)
denominado zα , tal que
P (Z ≥ zα ) = α
θb − θ
donde Z = .
σ
Si σ es desconocida se puede usar una estimación σ̂ insesgada de σ y se obtiene el intervalo:
n o
P θb − σ̂tn−1, α2 ≤ θ ≤ θb + σ̂tn−1, α2 ≥ 1 − α

donde tn−1,α es el cuantil de una t de Student.

11
Intervalos de confianza cuando θb no es centrado

Hemos estado suponiendo que el estimador θb es insesgado para θ. Sin embargo, en ocasiones
se usan estimadores no centrados como es el caso de la estimación de un ratio (o razón). En
este caso la amplitud del intervalo para θ va a ser mayor y el intervalo será menos preciso y

tendrá un nivel de confianza menor.


Si el estimador es sesgado entonces E(θ)
b = θ+B, (asumimos aquı́ sin pérdida de generalidad

que B > 0), con lo que el valor de Z sufrirı́a un desplazamiento y se convertirı́a en

θb − θ − B
−z α2 < < z α2 ⇒
σ

−z α2 σ < θb − θ − B < z α2 σ

de este modo
( )
θ > θb − z α2 σ − B

θ < θb + z α2 σ − B

θb − z α2 σ − B < θ < θb + z α2 σ − B

Con lo que intervalo de confianza para θ basado en el estimador θb en presencia del sesgo
b − θ es el siguiente:
B = E(θ)
h i
θb − z α2 σ − B; θb + z α2 σ − B

Observamos que se trata de un intervalo no centrado en θb y desplazado en la cantidad B


respecto del intervalo sin sesgo. Ası́ debe centrarse situándonos en la peor de las circunstancias,
es decir, tomando como extremo fijo del intervalo el más lejano del centro θ,
b y calculando el

otro extremo por equidistancia al centro. Por tanto, el intervalo tiene una longitud superior al
intervalo cuando no hay sesgo.
Entonces la presencia de sesgo conduce a una estimación por intervalos menos precisa.

Aunque la distorsión no es importante si

|B|
≤ 0,1
σ

12
Probabilidades de inclusión

Se tenı́a que la distribución en el muestreo viene determinada por las probabilidades de


elección de cada muestra, que se calcula cuando se especifican las probabilidades de inclusión
de las unidades de la población que forman la muestra.

Hay dos métodos de selección de muestras: sin reposición o con reposición.


A su vez, las probabilidades de extracción de cada unidad ui pueden ser iguales para todas
ellas o bien distintas entre sı́.

Anteriormente se ha visto que todo elemento de la población debe de estar en alguna mues-
tra. Si consideramos la selección de unidades con reemplazamiento, en ocasiones es deseable
que un elemento esté en varias muestras, o incluso que dados dos elementos de la población

estos tengan distinta probabilidad de formar parte de una muestra. Para ello es necesario saber
la probabilidad que tiene cada unidad k de formar parte de una muestra de n unidades. Dichas
probabilidades se conocen como probabilidades de inclusión.

Dada s ∈ S y dado un elemento uk ∈ U puede ocurrir que uk pertenezca o no a la muestra.


Se define la variable indicadora de pertenencia a la muestra como la variable aleatoria

Ik : S → {0, 1} (
1 si uk ∈ s
s → Ik (s) =
0 si uk ∈
/s

para todo s ∈ S y k = 1, . . . , N .
Ik es una variable aleatoria definida sobre el diseño muestral (S, P (·)) .
La probabilidad de que el elemento k esté incluido en alguna muestra s, la denotamos por

πk , y vendrá dada por:

X
πk = P (k ∈ s) = P (Ik = 1) = p(s)
k∈s,s∈S

es decir la suma sobre todas las muestras que contienen el elemento k.


Ası́ πk es la probabilidad de que el elemento k esté en una muestra resultante de un expe-
rimento aleatorio, y se denomina probabilidad de inclusión de primer orden.

Como todo elemento uk debe de estar en al menos una muestra del diseño, ha de veri-
ficarse que πk > 0, para todo k ∈ U . Cuando el diseño verifica esta condición el muestreo
correspondiente se denomina muestreo probabilı́stico.

13
Ejemplo

En el muestreo aleatorio simple (mas(N, n)) sabemos que la probabilidad de obtener una
muestra s ∈ S de tamaño n es
1
P (s) =  
N
n
luego para un elemento de la población dado uk
X
πk = P (k ∈ s) = P (Ik = 1) = p(s)
k∈s
N −1

X 1 n−1 n
= N
= N
 =
k∈s n n
N

ya que el número de muestras posibles que se pueden formar con los elementos de la población
−1
y que contienen al elemento k son Nn−1

.

Probabilidad de inclusión de segundo orden

Se define (
1 si uk , ul ∈ s
Ikl =
0 si uk , ul ∈
/s

Esta es la variable aleatoria indicadora de que los elementos k y l pertenecen a la muestra;

luego la probabilidad de que los elementos k y l estén en la muestra, la denotamos por


X
πkl = P (uk ∈ s, ul ∈ s) = P (Ikl = 1) = P (Ik Il = 1) = p(s)
k,l∈s,s∈S

donde πkl es la probabilidad de inclusión de segundo orden.

Si πkl es positivo para todo k, l ∈ U entonces se dirá que el muestreo es cuantificable.

Distribución de Ik e Ikl

Como P (Ik = 1) = πk y P (Ik = 0) = 1 − πk entonces Ik ∼ Bern(πk )


Del mismo modo se deduce que Ikl ∼ Bern(πkl ). Ası́

E(Ik ) = πk

V (Ik ) = πk (1 − πk )

E(Ikl ) = πkl

V (Ikl ) = πkl (1 − πkl )

14
Propiedades de Ik e Ikl

i) Ikl = Ik Il aunque en general Ik no es independiente de Il .

ii) Cov(Ik , Il ) = πkl − πk πl = ∆kl

Ya que

Cov(Ik , Il ) = E(Ik Il ) − E(Ik )E(Il ) =

E(Ikl ) − E(Ik )E(Il ) = πkl − πk πl

iii) Ikk = Ik

Nota: Se define Π = {πij }1≤i,j≤N como la matriz de diseño.

Propiedades de πk y πkl

Dado un diseño muestral (S, p(·)) y ns : S −→ {0, 1, . . . , N }


la variable aleatoria definida como el tamaño muestral de s, verifica que:

1.
N
X X
πi = ns p(s)
i=1 s∈S

Si ns = n (tamaño fijo) entonces


N
X
πi = n
i=1

2.
N
X X
πij = ns (ns − 1)p(s)
i,j=1 s∈S
i̸=j

Si ns = n entonces
N
X
πij = n(n − 1)
i,j=1
i̸=j

3.
N
X X
πij = (ns − 1)p(s)
j=1 s∈S
j̸=i i∈s

Si ns = n entonces
N
X
πij = (n − 1)πi
j=1
j̸=i

15
4. πij = πji

5. πii = πi

6. Si ns = n entonces
N
X
∆ij = −πj (1 − πj )
i=1
j̸=i

Demostraciones

1.)
N
X N X
X XX
πi = p(s) = p(s) = (∗)
i=1 i=1 s∈S s∈S i∈s
i∈s

como i ∈ s la suma de elementos es hasta ns


X
(∗) = ns p(s)
s∈S

Si ns = n entonces
N
X
πi = n
i=1

2.)
N
X N X
X XX
πij = p(s) = p(s) =
i,j=1 i,j=1 s∈S s∈S i,j∈s
i̸=j i̸=j i,j∈s i̸=j

X X X
p(s) 1 = ns (ns − 1)p(s)
s∈S i,j∈s s∈S
i̸=j

Si el tamaño de s es fijo, es decir, ns = n para todo s ∈ S entonces


N
X
πij = n(n − 1)
i,j=1
i̸=j

3.)
N
X N X
X XX
πij = p(s) = p(s) = (∗)
j=1 j=1 i,j∈s s∈S j∈s
j̸=i j̸=i s∈S i∈s j̸=i

Pero el número de j ̸= i que pertenecen a s es ns − 1 por lo que


X
(∗) = (ns − 1)p(s)
s∈S
i∈s

16
Si el tamaño de s es fijo, es decir, ns = n para todo s ∈ S entonces
N
X N
X
πij = (n − 1) p(s) = (n − 1)πi
j=1 i∈s
j̸=i s∈S

4.) Trivial por intercambio de los ı́ndices.

5.)
πii = P (Iii = 1) = P (Ii · Ii = 1) = P (Ii = 1) = πi

6.) Si n es fijo
N
X N
X N
X
∆ij = πij − π i πj =
i=1 i=1 i=1
i̸=j i̸=j i̸=j

= (n − 1)πj − πj (n − πj ) = −πj (1 − πj )

Corolario

(i )
N
X
E(ns ) = πi
i=1

(ii )

N X
N N
!2 N X
N
X X X
V (ns ) = πij − πi = ∆ij
i=1 j=1 i=1 i=1 j=1

Demostraciones

(i )
X N
X
E(ns ) = ns p(s) = πi
s∈S i=1

(ii ) Se tiene que


!2
X X
V (ns ) = n2s p(s) − ns p(s) = (∗)
s∈S s∈S

Habrı́a que probar como primer paso que


N X
X N X
πij = n2s p(s)
i=1 j=1 s∈S

17
Pero por los resultados previos
N X
X N N X
X X X
πij = ns (ns − 1)p(s) = n2s p(s) − ns p(s)
i=1 j=1 i=1 s∈S s∈S s∈S
j̸=i | {z }
= N
P
i=1 πi

de modo que
N X
X N N
X X
πij + πi = n2s p(s)
i=1 j=1 i=1 s∈S
j̸=i

es decir en el primer término, agrupando, queda como


N X
X N N
X N X
X N
πij + πi = πij
i=1 j=1 i=1 i=1 j=1
j̸=i

Por otro lado


X N
X
ns p(s) = πi
s∈S i=1

De este modo !2
N X
X N N
X
(∗) = πij − πi
i=1 j=1 i=1

De manera equivalente
N X
X N N X
X N
∆ij = (πij − πi πj ) =
i=1 j=1 i=1 j=1
N X
N N N N X
N N
!2
X X X X X
πij − πi πj = πij − πi
i=1 j=1 i=1 j=1 i=1 j=1 i=1

y ası́
N X
N N
!2 N X
N
X X X
V (ns ) = πij − πi = ∆ij
i=1 j=1 i=1 i=1 j=1

Se puede observar que si ns = n es constante , entonces la varianza es 0, de modo que


N X
X N
V (ns ) = ∆ij = 0
i=1 j=1

Ejemplo 1: mas(N, n)

Es un diseño sin reemplazamiento de tamaño ns = n fijo donde S es el conjunto de muestras


con n unidades distintas, de modo que el cardinal de S es
 
N
#(S) =
n

18
De este modo, la probabilidad para todo s ∈ S

1
P (s) =  
N
n

Por otro lado,


 
X N −1 1 n
πk = p(s) =  = =f
s∈S
n−1 N N
k∈s n
 
N −1
ya que el número de muestras de tamaño n que contienen a k es .
n−1
Ası́ todas las unidades tienen la misma probabilidad de pertenecer a la muestra.

Para las probabilidades


 
N −2
X n−2 n(n − 1)
πkl = p(s) =   =
s∈S
N N (N − 1)
k,l∈s n
 
N −2
ya que el número de muestras que contienen a k y a l es .
n−2
Por otro lado, para k ̸= l

n(n − 1) n n
∆kl = πkl − πk πl = −
N (N − 1) N N

Esta expresión, se puede escribir de modo alternativo como

n(n − 1)  n 2
∆kl = − =
N (N − 1) N
n(n − 1)N − n2 (N − 1)
=
N 2 (n − 1)
f NN−n

−n(N − n)
=− =
N 2 (n − 1) N −1
f (1 − f )

N −1

Por otro lado

∆kk = πk − πk2 =
n  n 2
− = f (1 − f )
N N

19
La suma de ambos términos por separado es

X
∆kk = N f (1 − f )
k∈s
X f (1 − f )
∆kl = −N (N − 1) = −N f (1 − f )
k,l∈s
N −1
k̸=l

de modo que, añadiendo ambas expresiones,

X
∆kl = 0
k,l∈s

Ejemplo 2: Muestreo Bernoulli MB(N, p)

Es un diseño sin reemplazamiento de tamaño ns variable.


Se caracteriza por el hecho de que la probabilidad de que una unidad pertenezca a la muestra
es p.

πk = P {uk ∈ s} = p

πkl = P {uk , ul ∈ s} = p · p = p2

por ser sucesos independientes.

Y se obtiene que
∆kl = p2 − p · p = 0

por la independencia de Ik e Il .
A su vez,

∆kk = p − p2 = p(1 − p)

Por otro lado


N
X
E(ns ) = πi = N p
i=1

es decir el tamaño medio muestral es N p.

Por otro lado


X N
N X N
X
V (ns ) = ∆ij = 0 + ∆ii = N p(1 − p)
i=1 j=1 i=1

20
El estimador de Horvitz-Thompson

Dado un problema en estudio y considerado un diseño muestral para estimar un parámetro


poblacional, deseamos encontrar estimadores insesgados, ası́ como la estimación de su varianza
para ası́ poder calcular intervalos de confianza.

Vamos a estudiar una familia de estimadores, que es de gran utilidad en los diseños mues-
trales y que presentan diversas propiedades. Esta familia de estimadores se caracteriza porque
la extracción de cada unidad poblacional altera las probabilidades de selección de elementos

posteriores, es decir corresponden a esquemas de selección sin reemplazamiento.


Se trata de estudiar la estimación de parámetros de la forma
N
X
θ (X1 , . . . XN ) = ai X i
i=1

donde ai ∈ R

Es decir, parámetros que son combinaciones lineales de las observaciones de todas las uni-
dades de la población.
Por ejemplo:

Media (ai = 1/N )


N
1 X
X = θ (X1 , . . . XN ) = Xi
N i=1
Total (ai = 1)
N
X
X = θ (X1 , . . . XN ) = Xi
i=1

Proporción
N
1 X
P = θ (X1 , . . . XN ) = I{Xi =1}
N i=1

El objetivo es encontrar un estimador denotado como θb (X1 , . . . Xn ) que sea insesgado y


lineal ya que sus varianzas son fáciles de calcular.
El estimador será de la forma
n
X
θ̂ (X1 , . . . , Xn ) = αi Xi
i=1

de modo que hay que determinar αi para que el estimador sea insesgado.

Se trata de que E(θ̂) = θ es decir,

21
   
n N
X X
E(θ̂) = E  αi Xi  = E  αi Ii Xi 
 
i=1 i=1
i∈s i∈s

donde (
1 si ui ∈ s
Ii =
0 si ui ∈
/s

Nota: Xi no es aleatorio, ya que lo es la variable Ii .


Ası́  
N N N
X  X X
E αi Ii Xi  = αi Xi E(Ii ) = α i Xi π i
i=1 i=1 i=1
i∈s i∈s i∈s

de modo que πi es la probabilidad de inclusión de la unidad i en la muestra.

Por lo tanto ai = αi πi para todo i de modo que se deduce que

ai
αi =
πi

Por lo tanto el estimador insesgado y lineal para un parámetro,


N
X
θ= ai X i
i=1

en el muestreo sin reemplazamiento es de la forma


n
X ai
θb = Xi
i=1
πi
i∈s

que se denomina estimador de Horvitz-Thompson.

Observaciones:

1. Para cada unidad i de la muestra, a la expresión

b i = Xi
X
πi

se le denomina π-expansión del i -ésimo elemento o valor de Xi aumentado mediante πi . La

π-expansión tiene el efecto de incrementar la importancia de los elementos en la muestra.

Con esta notación, entonces


n
X
θb = ai X
bi
i=1

2. Todas las unidades pueden pertenecer a la muestra, es decir, πi > 0.

22
Ejemplos de estimadores

N
X
Total: θ = Xi
i=1
n
X Xi
θb =
i=1
πi
N
1 X
Media: θ = Xi
N i=1
n
1 X Xi
θ=
b
N i=1 πi
Proporción: Sea (
1 si ui ∈ clase
Ii =
0 si ui ∈
/ clase
N
1 X
es decir θ = Ii
N i=1
n
1 X Ii
θ=
b
N i=1 πi

Esperanza y varianza del estimador de Horvitz-Thompson

La esperanza del estimador de Horvitz-Thompson es el propio parámetro porque se ha


construido para que sea ası́: E(θ)
b = θ.

La varianza es
N N X
N
X (ai Xi )2 X (ai Xi ) (aj Xj )
V (θ)
b = (1 − πi ) + 2 (πij − πi πj )
i=1
πi i=1 j>i
π i πj

O equivalentemente, de manera más compacta,


N X
X N
V (θ)
b = ai aj X
bi X
bj ∆ij
i=1 j=1

Xi
siendo ∆ij = πij − πi πj y X
bi =
πi
.

A su vez, un estimador de la varianza del estimador (siempre que πij > 0 para todo i ̸= j)
viene dado por
n n X n
X (ai Xi )2 X ai Xi aj Xj (πij − πi πj )
Vb (θ)
b = (1 − πi ) + 2
i=1
πi2 i=1 j>i
π i πj πij

23
O equivalentemente, de manera más compacta,
n X
n
bj ∆ij
X
Vb (θ)
b = ai aj X
bi X
i=1 j=1
πij
i∈s j∈s

Nota: Usando la aproximación πi,j ∼


= πi πj , i ̸= j,
n  
b ∼
X 1 − πi
Vb (θ) = (ai Xi )2
i=1
πi2

Demostración:

Denotamos

Cov(Ii , Ij ) = ∆ij = πij − πi πj

∆ii = πi − πi2
b i = Xi
X
πi

Entonces
n
! N
! N
!
X X Xi X
V (θ)
b =V αi X
bi =V ai Ii =V ai X
bi Ii =
i=1 i=1
πi i=1
N
X N X
X N  
a2i X
b 2V
i (Ii ) + 2 Cov ai Xi Ii , aj Xj Ij =
b b
i=1 i=1 j>i
N
X N X
X N
a2i X
b 2 πi (1 − πi ) +
i ai aj X
bi X
bj Cov (Ii , Ij ) =
i=1 i=1 j̸=i
N
X N X
X N
a2i X
b 2 ∆ii +
i ai aj X
bi X
bj ∆ij =
i=1 i=1 j̸=i
N X
X N
ai aj X
bi X
bj ∆ij .
i=1 j=1

Para el caso del estimador de la varianza, se tiene que


" N N #
h i XX ∆
bj ij Ii , Ij =
E Vb (θ)
b =E ai aj X
bi X
i=1 j=1
πij
N X
N N X
N
bj ∆ij E(Ii , Ij ) = bj ∆ij πij =
X X
ai aj X
bi X ai aj X
bi X
i=1 j=1
πij i=1 j=1
πij
N X
X N
ai aj X
bi X
bj ∆ij = V (θ)
b
i=1 j=1

y de este modo queda probado.

24
Estimador de Yates-Grunding

Si (S, P (·)) es un diseño muestral de tamaño fijo, entonces la varianza puede expresarse
como
N X
N
b = −1
X  2
V (θ) ∆ij b i − aj X
ai X bj
2 i=1 j=1

Del mismo modo, si πij > 0 para todo i ̸= j, el estimador insesgado para la varianza del
estimador es
n X
n
b = −1 ∆ij 
X 2
Vb (θ) b i − aj X
ai X bj
2 i=1 j=1
πij
Demostracion:

N X
N N X
N
b = −1 bj )2 = − 1
X X
V (θ) b i − aj X
∆ij (ai X ∆ij (a2i X
b 2 − a2 X
i
b2
j j − 2ai aj Xi Xj ) = (1)
b b
2 i=1 j=1
2 i=1 j=1

Por un lado, se tiene que


N X
X N N
X N
X
∆ij a2i X
b2
i = a2i X
b2
i ∆ij
i=1 j=1 i=1 j=1
N X
X N N
X N
X
∆ij a2j X
b2 =
j a2j X
b2
j ∆ij
i=1 j=1 j=1 i=1

y
N
X N
X
∆ij = ∆ij = 0
j=1 i=1

ya que
N
X N
X N
X
∆ij = πij − π i πj =
j=1 j=1 j=1
N
X N
X
πij − πi πj = (n − 1)πi + πii − nπi
j=1 j=1
(nπi − πi ) + πi − nπi = 0

ya que
N
X
πij = (n − 1)πi =⇒
j=1
j̸=i
N
X
πij = (n − 1)πi + πii
j=1

si n es fijo.

25
luego
N N
1 X X
(1) = − (−2) ai X
bi aj X
bj ∆ij =
2 i=1 j=1
N X
X N
∆ij ai aj X
bi X
bj = V (θ)
b
i=1 j=1

Con respecto al estimador insesgado


n X
n N N
b = −1 ∆ij  1 XX ∆ij  b
X 2 2
Vb (θ) b i − aj X
ai X bj =− Ii Ij ai X i − aj X
bj
2 i=1 j=1
πij 2 i=1 j=1 πij

Entonces
" N X N
#
h i
b =E − 1 X ∆ ij

b i − aj X
2
E Vb (θ) Ii Ij ai X bj =
2 i=1 j=1 πij
N N
1 X X ∆ij  b 2
− ai X i − aj X
bj E [Ii Ij ] =
2 i=1 j=1 πij
N N
1 X X ∆ij  b 2
− ai Xi − aj Xj πij =
b
2 i=1 j=1 πij
N N
1 XX  2
− b i − aj X
∆ij ai X bj = V (θ)
b
2 i=1 j=1

Observaciones

Para diseños muestrales estándar las estimaciones de las varianzas de θb son no negativas,

pero en algunos casos pueden llevar a estimaciones negativas que no son admisibles.
El estimador de V (θ)
b de Yates-Grunding es siempre no negativo si

∆ij = πij − πi πj < 0

Ejemplo:

Sea un diseño muestral de Bernoulli MB(N, p).


Se trata de encontrar un estimador del total :
N
X N
X
θ= ai X i = Xi
i=1 i=1

dado que ai = 1 para todo i.

El estimador de Horvitz-Thompson para θ es


X X1 1X
θb = αi Xi = Xi = Xi
i∈s i∈s
p p i∈s

26
La varianza del estimador se calcula como
  XN X
N
V θ =
b ∆ij ai aj X
bi X
bj =
i=1 j=1
N
X Xi Xj
p(1 − p) =
i=1
p p
 N
X
1−p
Xi2
p i=1

ya que

∆ij = 0 para todo i ̸= j, pero ∆ii = p(1 − p)

ai = 1

Xi Xi
πii = πi = p para todo i por lo que πi
= p

πij = p2 para todo i ̸= j

Un estimador insesgado de la varianza es


XX ∆ij b b
Vb (θ)
b = ai aj Xi Xj =
i∈s j∈s
πij

X p(1 − p) Xi Xi
=
i∈s
p p p

 X
1 1
−1 Xi2
p p i∈s

donde ∆ij = 0 para todo i ̸= j, pero ∆ii = p(1 − p)

Ejemplo: Diseño muestral mas(N, n)

Se busca el estimador de
N
1 X
θ=X= Xi
N i=1
1 n
En este caso, al ser ai = N
y πi =
para todo i
N
X ai n n
1 X 1 1 XN
θ=
b Xi = Xi = Xi =
i∈s
πi N i=1 πi N i=1 n
n
1X
Xi = X
b
n i=1

27
es decir, la media muestral.

Para calcular la varianza, se puede usar la expresión de Yates-Grundig.


Sabiendo que

b i = Xi
X
πi
n
πi = f =
N
f (1 − f )
∆ij = −
N −1
∆ii = f (1 − f )

de modo que

N N  2
1 XX 1 b 1 b
V (θ) = V (X) = −
b b ∆ij Xi − Xj =
2 i=1 j=1 N N
N N   2
1 XX f (1 − f ) Xi X j
− 2 − − =
2N i=1 j=1 N −1 f f
  N N
1 1 − f 1 XX
(Xi − Xj )2 = (1)
2N 2 N − 1 f i=1 j=1
PN PN
Pero si en la parte i=1 j=1 (Xi − Xj )2 se suma y se resta X y se desarrolla la suma de

cuadrados, entonces
N X
N
X 2
Xi − Xj + X − X =
i=1 j=1
N X
N N X
N N X
N
X 2 X 2 X  
Xi − X + Xj − X −2 Xi − X Xj − X =
i=1 j=1 i=1 j=1 i=1 j=1
N N N N
X 2 X 2 X X 
N Xi − X +N Xj − X −2 Xi − X Xj − X =
i=1 j=1 i=1 j=1
| {z }
=0
N
X 2
2N Xi − X
i=1

28
De este modo
  N
1 1−f 1 X 2
(1) = 2N X i − X =
2N 2 N − 1 f i=1
  N
1 1−f 1 X 2
Xi − X
N N − 1 f i=1
N
1−f X 1 2
n Xi − X =
N N i=1 N − 1
1−f 2
SX
n
2
donde SX es la cuasivarianza poblacional.

Análogamente, sustituyendo las expresiones, se puede obtener un estimador de la varianza


Se tenı́a que en este caso,

n
πi = N
= f,

n(n−1)
πij = N (N −1)
= f Nn−1
−1

∆ij = − f N
(1−f )
−1
,

entonces
n n
1 X X ∆ij  b 2
V (θ) = V (X) = −
b b b b ai Xi − aj Xj =
b
2 i=1 j=1 πij
 
1 − fN
(1−f )
−1
n
1 1 XX
n
− (Xi − Xj )2 = (2)
2 f Nn−1
−1
2 2
N f i=1 j=1

pero, aplicando el mismo razonamiento que en (1) y denominando a la cuasivarianza muestral

como
n
2 1 X
SbX = (Xi − X)2
n − 1 i=1
n X
X n
(Xi − Xj )2 = 2n(n − 1)SbX
2

i=1 j=1

luego

1 − f 1 b2
(2) = nS =
f2 N2 X
1 − f 1 b2 1 − f b2
nSX = SX
n 2 N2 n

N

29
Es decir, en definitiva,

b = 1 − f Sb2
Vb (X) X
n
donde
n
2 1 X
SbX = (Xi − X)2
n − 1 i=1

Observación:
Se puede ver que en la expresión de Yates-Grundig Vb (θ)
b es no negativa si

∆ij < 0

⇔ πij − πi πj < 0

⇔ 0 < πij ≤ πi πj

para todo i ̸= j.

En el ejemplo diseño muestral mas(N, n):

f (1 − f )
∆ij = − <0
N −1

para todo i ̸= j.

30
Ejemplos con R

Aparte de ser fácil de programar a mano, se pueden usar diferentes librerı́as como la librerı́a
mase o la librerı́a Frames2:

library ( mase )
library ( survey )

# Tomamos los datos oficiales de educaci ó n de California


data ( api )

help ( api )
# The Academic Performance Index is computed for all California
# schools based on standardised testing of students.
# The data sets contain information for all schools with at
# least 100 students and for various probability samples
# of the data.

h or vi tz T ho mp so n ( y = apisrs $ api00 , pi = apisrs $ pw ^( -1) , var _ est = TRUE )

$ pop _ total
[1] 4066887

$ pop _ mean
[1] 656 .585

$ pop _ total _ var


[1] 3282462447

$ pop _ mean _ var


[1] 85 .55736

Otro ejemplo con la librerı́a Frames2:

library ( Frames2 )

data ( DatA )
attach ( DatA )

# Matriz de p robabil idades de inclusi ó n de las unidades seleccionadas del grupo A


data ( PiklA )

# Estimamos el total poblacional de la variable " Feeding " en el grupo A


HT ( Feed , ProbA )

# Estimamos la varianza de la variable " Feeding " en el grupo A


VarHT ( Feed , PiklA )

> HT ( Feed , ProbA )


[1] 429884 .8

> VarHT ( Feed , PiklA )


[1] 116751473

31
Ejemplos con TeachingSampling

Supongamos una población finita de tamaño N = 5, en donde los integrantes de la población


están identificados cada uno con su nombre. La población está formada por los siguientes
elementos: Yves, Ken, Erik, Sharon, y Leslie.

Supongamos que en esta población se quiere estimar el total de la variable y, tomando


muestras de tamaño 2.
Se sabe que el valor de y (aunque esto no es realista) para cada uno de los elementos de la

población es el siguiente:
y = (32, 34, 46, 89, 35)
library ( T e a c h i n g Sa m p l i n g )

U = c ( " Yves " , " Ken " , " Erik " , " Sharon " , " Leslie " )
y = c (32 , 34 , 46 , 89 , 35)
N = length ( U )
n = 2

# Support : crea una matriz que contiene todas las muestras posibles
# con dise n
~ os de tama ~
n o fijo

# Posibles muestras de tama ~


n o n =2
Support (N , n , U )

[ ,1] [ ,2]
[1 ,] " Yves " " Ken "
[2 ,] " Yves " " Erik "
[3 ,] " Yves " " Sharon "
[4 ,] " Yves " " Leslie "
[5 ,] " Ken " " Erik "
[6 ,] " Ken " " Sharon "
[7 ,] " Ken " " Leslie "
[8 ,] " Erik " " Sharon "
[9 ,] " Erik " " Leslie "
[10 ,] " Sharon " " Leslie "

Consideremos el siguiente diseño de muestreo P (·) que asigna las siguientes probabilidades
de selección a cada una de las 10 posibles muestras de tamaño 2.

p = c (0 .13 , 0 .2 , 0 .15 , 0 .1 , 0 .15 , 0 .04 , 0 .02 ,0 .06 , 0 .07 , 0 .08 )


# sum ( p )

# Ik : Crea una matriz de valores (0 = la unidad pertenece a la muestra y


# 1 = no pertenece ) para cada muestra posible con un dise ~
no
# de tama ~
n o fijo sin r ee mp l az am ie n to

Ind = Ik (N , n )
Q = Support (N , n , U )
data.frame (Q , p , Ind )

32
X1 X2 p X1.1 X2.1 X3 X4 X5
1 Yves Ken 0 .13 1 1 0 0 0
2 Yves Erik 0 .20 1 0 1 0 0
3 Yves Sharon 0 .15 1 0 0 1 0
4 Yves Leslie 0 .10 1 0 0 0 1
5 Ken Erik 0 .15 0 1 1 0 0
6 Ken Sharon 0 .04 0 1 0 1 0
7 Ken Leslie 0 .02 0 1 0 0 1
8 Erik Sharon 0 .06 0 0 1 1 0
9 Erik Leslie 0 .07 0 0 1 0 1
10 Sharon Leslie 0 .08 0 0 0 1 1

La función Pik calcula el vector de probabilidades de inclusión para todos los elementos de

la población. Esta tiene dos argumentos: un vector p de probabilidades de selección de todas


las posibles muestras y una matriz Ind de N variables indicadoras.

# Pik calcula la probabilidad de inclusi ó n de primer orden de cada unidad en


# la poblaci ó n dado un dise ~
n o de tama ~
n o de muestra fijo

pik = Pik (p , Ind )


pik

[ ,1] [ ,2] [ ,3] [ ,4] [ ,5]


[1 ,] 0 .58 0 .34 0 .48 0 .33 0 .27

Respecto a la estimación del total poblacional θ y en todas las posibles muestras de tamaño
10 de la población U , se obtiene la siguiente tabla

all.pik = Support (N , n , pik )


all.y = Support (N , n , y )
all.HT = rep (0 , 10)

# HT : Calcula el estimador de Horvitz - Thompson del total de la poblaci ó n


# para las variables de inter é s

for ( k in 1:10){
all.HT [ k ] = HT ( all.y [k ,] , all.pik [k ,])
}

AllSamples = data.frame (Q , p , all.pik , all.y , all.HT )


AllSamples

X1 X2 p X1.1 X2.1 X1.2 X2.2 all.HT


1 Yves Ken 0 .13 0 .58 0 .34 32 34 155 .1724
2 Yves Erik 0 .20 0 .58 0 .48 32 46 151 .0057
3 Yves Sharon 0 .15 0 .58 0 .33 32 89 324 .8694
4 Yves Leslie 0 .10 0 .58 0 .27 32 35 184 .8020
5 Ken Erik 0 .15 0 .34 0 .48 34 46 195 .8333
6 Ken Sharon 0 .04 0 .34 0 .33 34 89 369 .6970
7 Ken Leslie 0 .02 0 .34 0 .27 34 35 229 .6296
8 Erik Sharon 0 .06 0 .48 0 .33 46 89 365 .5303
9 Erik Leslie 0 .07 0 .48 0 .27 46 35 225 .4630
10 Sharon Leslie 0 .08 0 .33 0 .27 89 35 399 .3266

33
El vector all.HT contiene las estimaciones Horvitz-Thompson para cada una de las 10

posibles muestras:

all.HT

[1] 155 .1724 151 .0057 324 .8694 184 .8020 195 .8333 369 .6970 229 .6296 365 .5303
[9] 225 .4630 399 .3266

Su esperanza se calcula como


sum ( p * all.HT )

[1] 236

# Verdadero valor de la poblacion


sum ( y )

[1] 236

Se observa que la esperanza del estimador de Horvitz-Thompson reproduce exactamente el


total poblacional.
Por ejemplo, si la primera muestra (cuyos elementos son Yves y Ken) hubiese sido selec-

cionada y dado que las probabilidades de inclusión de estos dos elementos son 0.58 y 0.34,
respectivamente y los valores de la caracterı́stica de interés son respectivamente 32 y 34, el
estimador de Horvitz-Thompson darı́a la siguiente estimación:

y.s = c (32 , 34)


pik.s = c (0 .58 , 0 .34 )

HT ( y.s , pik.s )

[ ,1]
[1 ,] 155 .1724

La varianza teórica del estimador es

# VarHT : calcula la varianza te ó rica del estimador de Horvitz - Thompson


# dado un dise ~
n o de tama ~
n o fijo sin r ee mp la z am ie nt o

VarHT (y , N , n , p )

[1] 7847 .211

Se puede estimar también la varianza del estimador a partir de la muestra.

# Pikl calcula las pr obabilid ades de inclusi ó n de segundo orden de cada par
# de unidades en la poblaci ó n dado un dise ~
n o de tama ~
n o de muestra fijo

pikl = Pikl (N , n , p )
pikl
34
[ ,1] [ ,2] [ ,3] [ ,4] [ ,5]
[1 ,] 0 .58 0 .13 0 .20 0 .15 0 .10
[2 ,] 0 .13 0 .34 0 .15 0 .04 0 .02
[3 ,] 0 .20 0 .15 0 .48 0 .06 0 .07
[4 ,] 0 .15 0 .04 0 .06 0 .33 0 .08
[5 ,] 0 .10 0 .02 0 .07 0 .08 0 .27

Se puede usar la librerı́a sampling para el cálculo de la varianza.

# Tomamos en la muestra las dos mismas primeras personas de antes


s = c (1 , 1 , 0 , 0 , 0)

# Estimador de Horvitz - Thompson


sampling :: HTestimator ( y [ s ==1] , pik [ s ==1])

[ ,1]
[1 ,] 155 .1724

# Estimador de la varianza del estimador de Horvitz - Thompson


sampling :: varHT ( y [ s ==1] , pikl [ s ==1 , s ==1] , 2)

[1] 1038 .763

# La varianza teorica del estimador era


T e a c h i n g S a m p l i n g :: VarHT (y , N , n , p )

[1] 7847 .211

35
El estimador de Hansen-Hurwitz

En este caso, se trata de la selección de unidades con reposición.


La dificultad de obtener una muestra del espacio muestral al tomar elemento a elemento, se
debe a que, al escoger un elemento, el espacio universo restante varı́a y a los individuos se les

debe asignar nuevas probabilidades de selección.


Esto no ocurrirı́a si la población permaneciera constante tras la extracción de una unidad, es
decir, si reemplazamos ésta de nuevo entonces puede ser escogida nuevamente. De esta forma,

una vez asignada una probabilidad de selección a una unidad, ésta permanecerá constante a lo
largo del proceso de extracción de la muestra: se trata de un muestreo con reemplazamiento.

Se tiene la población U = {u1 , . . . , uN }, y el objetivo es igual que antes: obtener un estimador


insesgado para un parámetro poblacional:
N
X
θ= ai X i
i=1

donde ai ∈ R, y luego estimar la varianza correspondiente.

Sea pk la probabilidad de selección de la unidad k en cada extracción, de modo que pk


permanece constante:
N
X
pk = 1
k=1

tal que pk > 0 para todo k.


Supongamos que se va a extraer una muestra de tamaño fijo n.
Ahora cada unidad puede aparecer más de una vez en la muestra, por lo que se define Ni

como el número de veces que aparece la unidad i en la muestra de tamaño n.


Entonces, si se define éxito como extraer la unidad i,

Ni ∼ Bin(n, pi )

E (Ni ) = npi

V (Ni ) = npi (1 − pi )

para todo i = 1, . . . , N.
De manera general, para todos los posibles valores de la población se tiene una multinomial

(N1 , . . . , NN ) ∼ Multin(n, p1 , . . . , pN )

36
de modo que se puede demostrar que

Cov(Ni , Nj ) = −npi pj

es decir, la correlación es lógicamente negativa

Ver demostración, por ejemplo, en

http://yaroslavvb.com/upload/wasserman-multinomial.pdf

Si queremos definir la probabilidad πk de inclusión en la muestra de la unidad k habrá que


calcular la probabilidad de que uk pertenezca al menos una vez a la muestra.
Es decir

/ muestra} = 1 − (1 − pk )n
πk = 1 − P {uk ∈

La probabilidad de una muestra s que contiene t1 veces la unidad u1 , t2 veces la unidad

u2 , . . . , tN veces la unidad uN es

n!
p(s) = pt11 pt22 · · · ptNN
t1 ! · · · tN !
PN
de modo que i=1 ti = n.

Estimador de Hansen-Hurwitz o p-estimador

El estimador que se busca es lineal de la forma


n
X
θb = αk Xk
k=1

y para ser insesgado:


  N
X
E θb = θ = ak X k
k=1
Entonces ! !
  n
X N
X
E θb = E αk Xk =E αk Xk Nk = (1)
k=1 k=1

pero E (Nk ) = npk por lo que


N
X N
X
(1) = αk Xk npk = ak X k
k=1 k=1

Si
ak
αk =
npk

37
para todo k.

Por lo tanto el estimador de Hansen-Hurwitz se define como


n
1 X ak
θb = Xk
n k=1 pk

Ejemplos de estimadores
PN
1. Total: θ = k=1 Xk
n
1 X Xk
θb =
n k=1 pk
PN Xk
2. Media: θ = k=1 N
n n
1 X N1 Xk 1 X Xk
θ=
b =
n k=1 pk N n k=1 pk

1
PN
3. Proporción: θ = N k=1 Ik
n
1 X Ik
θb =
N n k=1 pk

Varianza del estimador de Hansen-Hurwitz

La varianza para el estimador de


N
X
θ= ak X k
k=1

es
  1X N  2
a k X k
V θb = pk −θ
n k=1 pk
o equivalentemente " N #
  1 X 2 2
a X
k k
V θb = − θ2
n k=1 pk

Un estimador de la varianza es
n  2
  1 X ak X k b
Vb θb = −θ
n(n − 1) k=1 pk

Demostración

38
" n
# " N
#
  1 X Xk 1 X Xk
V θb = V ak =V ak Nk =
n k=1 pk n k=1 pk

N N X N
1 2 Xk2
 
X X 1 Xk 1 Xl
a
2 k p2
V (Nk ) + Cov ak Nk , al Nl =
k=1
n k k=1 l=1
n p k n pl
k̸=l

N N X N
X 1 2 Xk2 X 1 Xk Xl
2
ak 2 npk (1 − pk ) + 2
ak al Cov (Nk , Nl ) =
k=1
n pk k=1 l=1
n pk pl | {z }
k̸=l =−npk pl

N N N
1 X 1 − pk 2 2 1 X X
ak X k − ak al X k X l =
n k=1 pk n k=1 l=1
k̸=l
 
N N N N
1X a2k Xk2 X 2 2 X X

− ak X k − ak al Xk Xl  = (3)

n  k=1 pk

k=1 k=1 l=1

k̸=l

Pero se puede utilizar que

N
!2 N N
N X
X X X
ak X k = (ak Xk )2 + ak al X k X l
k=1 k=1 k=1 l=1
k̸=l

por lo que
 
 2
N N N N
1X a2k Xk2 X 2 2 X X 
2
(3) = − ak X k −  ak X k  + (ak Xk )  =

n  k=1 pk

k=1 k=1 k=1

| {z }

"N N 
# 2 "
#
1 X a2k Xk2 1 X a X
k k
− θ2 = pk − θ 2 =
n k=1 pk n k=1 pk

N  2
1X ak X k
pk −θ .
n k=1 pk

En cuanto al estimador de la varianza, se demuestra que

39
" n  2 #
   1 X ak X k b
E Vb θb = E −θ =
n(n − 1) k=1 pk
 

 n n 
X  2  
1 ak Xk 2
X ak Xk b
E  + nθ − 2
b θ
=
n(n − 1)  k=1 p k p k
|k=1 {z

}
=θb
"
n  2 # " N  #
1 X ak X k 1 X ak Xk 2
E − nθb2 = E Nk − nθb2 =
n(n − 1) k=1
p k n(n − 1) k=1
p k

  
N
X a2k Xk2
 
1    
b + E 2 θb 
np − n V θ  =
 
2 k
n(n − 1) k=1 pk
 
| {z }
=θ2
" N #
1 X a2 X 2   1    
k k 2
−V θ −θ =
b nV θ − V θb =
b
n − 1 k=1 pk n−1

n − 1  b  
V θ = V θb
n−1

Observación: La hipótesis de normalidad

Dada una población finita, en la práctica es habitual encontrar distribuciones normales o


con simetrı́a de la distribución de frecuencias.
Si el estimador está formado por una suma o una combinación lineal de variables cuya

población es normal, el estimador también tiene distribución normal en el muestreo.


Si la distribución de la población no es normal, bajo condiciones muy generales, la distribu-
ción de los estimadores anteriores converge a la normal cuando tiende a infinito el tamaño de

la muestra.
Aunque, en general, la hipótesis de normalidad de los estimadores debe analizarse antes de
construir los intervalos de confianza.

40
Ejemplo con R: TeachingSampling

la función SupportWR del paquete TeachingSampling permite definir el soporte inducido


por el diseño de muestreo con reemplazamiento.

library ( T e a c h i n g Sa m p l i n g )

y = c (32 , 34 , 46 , 89 , 35)
U = c ( " Yves " , " Ken " , " Erik " , " Sharon " , " Leslie " )
N = length ( U )
m = 2

SupportWR ( N ,m , ID = U )

[ ,1] [ ,2]
[1 ,] " Yves " " Yves "
[2 ,] " Yves " " Ken "
[3 ,] " Yves " " Erik "
[4 ,] " Yves " " Sharon "
[5 ,] " Yves " " Leslie "
[6 ,] " Ken " " Ken "
[7 ,] " Ken " " Erik "
[8 ,] " Ken " " Sharon "
[9 ,] " Ken " " Leslie "
[10 ,] " Erik " " Erik "
[11 ,] " Erik " " Sharon "
[12 ,] " Erik " " Leslie "
[13 ,] " Sharon " " Sharon "
[14 ,] " Sharon " " Leslie "
[15 ,] " Leslie " " Leslie "

Supongamos que cada uno de los cinco elementos de la población tiene probabilidades de
selección dadas por (
1/4 k = Yves, Ken, Leslie
pk =
1/8 k = Sharon, Erik

Para esta configuración particular, las probabilidades de selección p(s) de las muestras en
el soporte y el valor de la variable nk estarı́an dadas por la siguiente tabla

pk = c (0 .25 , 0 .25 , 0 .125 , 0 .125 , 0 .25 )


QWR = SupportWR (N , m , ID = U )

# p.WR : calcula la probabilidad de selecci ó n ( dise ~


n o de muestreo )
# de cada uno con muestreo con r ee mp l az am ie n to
pWR = p.WR (N , m , pk )

# nk : calcula combinaciones con repeticion y saca una matriz de


# 0 , 1 , 2 , ... si la unidad es seleccionada esas veces

nkWR = nk (N , m )
SamplesWR = data.frame ( QWR , pWR , nkWR )
SamplesWR

41
X1 X2 pWR X1.1 X2.1 X3 X4 X5
1 Yves Yves 0 .062500 2 0 0 0 0
2 Yves Ken 0 .125000 1 1 0 0 0
3 Yves Erik 0 .062500 1 0 1 0 0
4 Yves Sharon 0 .062500 1 0 0 1 0
5 Yves Leslie 0 .125000 1 0 0 0 1
6 Ken Ken 0 .062500 0 2 0 0 0
7 Ken Erik 0 .062500 0 1 1 0 0
8 Ken Sharon 0 .062500 0 1 0 1 0
9 Ken Leslie 0 .125000 0 1 0 0 1
10 Erik Erik 0 .015625 0 0 2 0 0
11 Erik Sharon 0 .031250 0 0 1 1 0
12 Erik Leslie 0 .062500 0 0 1 0 1
13 Sharon Sharon 0 .015625 0 0 0 2 0
14 Sharon Leslie 0 .062500 0 0 0 1 1
15 Leslie Leslie 0 .062500 0 0 0 0 2

Calculamos el total poblacional θ para todas las posibles muestras con reemplazamiento de

tamaño 2 de la población U , se puede obtener la siguiente tabla.

all.y = SupportWR (N , m , y )
all.pk = SupportWR (N , m , pk )
all.HH = rep (0 , 15)

# HH : calcula el estimador del estimador de Hansen - Hurwitz del total


# de la poblaci ó n para las variables de inter é s
for ( k in 1:15){
all.HH [ k ] = HH ( all.y [k ,] , all.pk [k ,])
}

AllSamplesWR = data.frame ( QWR , all.pk , pWR , all.y , all.HH )


AllSamplesWR

X1 X2 X1.1 X2.1 pWR X1.2 X2.2 all.HH


1 Yves Yves 0 .250 0 .250 0 .062500 32 32 128
2 Yves Ken 0 .250 0 .250 0 .125000 32 34 132
3 Yves Erik 0 .250 0 .125 0 .062500 32 46 248
4 Yves Sharon 0 .250 0 .125 0 .062500 32 89 420
5 Yves Leslie 0 .250 0 .250 0 .125000 32 35 134
6 Ken Ken 0 .250 0 .250 0 .062500 34 34 136
7 Ken Erik 0 .250 0 .125 0 .062500 34 46 252
8 Ken Sharon 0 .250 0 .125 0 .062500 34 89 424
9 Ken Leslie 0 .250 0 .250 0 .125000 34 35 138
10 Erik Erik 0 .125 0 .125 0 .015625 46 46 368
11 Erik Sharon 0 .125 0 .125 0 .031250 46 89 540
12 Erik Leslie 0 .125 0 .250 0 .062500 46 35 254
13 Sharon Sharon 0 .125 0 .125 0 .015625 89 89 712
14 Sharon Leslie 0 .125 0 .250 0 .062500 89 35 426
15 Leslie Leslie 0 .250 0 .250 0 .062500 35 35 140

El vector all.HH contiene las estimaciones de Hansen-Hurwitz para cada una de las posibles
15 muestras con reemplazamiento.

42
Se puede observar que la esperanza del estimador equivale al total de la caracterı́stica de

interés, corroborando que es insesgado.

Se puede observar que la esperanza del estimador equivale al total de la caracterı́stica de


interés, corroborando que es insesgado.

sum ( all.HH * pWR )

[1] 236

sum ( y )

[1] 236

Supongamos que se obtiene una muestra en particular donde se incluyen Erik e Yves

# La muestra seleccionada es
sam = c (3 , 1)
U [ sam ]

[1] " Erik " " Yves "

# Los valores de la variable en estudio de la muestra son


y [ sam ]

[1] 46 32

# Estimador de Hansen - Hurwitz y el error est á ndar


HH ( y [ sam ] , pk [ sam ])

y
Estimation 248 .0000
Standard Error 120 .0000
CVE 48 .3871

Alternativamente, si se calcula a mano, según la expresión original:

est = HH ( y [ sam ] , pk [ sam ])[1]


dif = ( y [ sam ] / pk [ sam ]) - est

Varianza = (1 / 2) * sum ( dif ^2)


sqrt ( Varianza )

[1] 120

43

También podría gustarte