Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estimado Con Remplazo
Estimado Con Remplazo
Tema 3
Estimadores de Horvitz-Thompson y Hájek.
Estimador de Hansen-Hurwitz
Versión µ
1. Estimador de Horvitz-Thompson
Es un estimador general que sirve para estimar parámetros poblacionales lineales, como
el total o la media poblacionales. Nosotros haremos el desarrollo inicial para estimar el total
poblacional, X
ty = yi
i∈U
entonces,
" # " #
X yi X yi
V [tbyπ ] = V =V Ii
i∈m
πi i∈U
πi
X yi yj yi yj
2
X
= Cov[Ii , Ij ] = ∆ij
i,j∈U
πi πj i,j∈U
πi πj
X ∆ij yi yj
Vb [tbyπ ] =
i,j∈m
πij πi πj
donde hemos supuesto πij > 0, ∀ij ∈ U, i 6= j, es decir, diseño cuantificable.
¿Para qué sirve esto? Pués nada más y nada menos que para construir estimadores del
total y calcular su error de forma automática, dado un diseño muestral cualquiera. Nótese
que basta conocer las probabilidades de inclusión de primer y segundo orden.
En caso de querer estimar la media,
1 X 1
yU = yi = ty
N i∈U N
siendo la varianza,
1 X yi yj
V [ybU π ] = ∆ij
N 2 i,j∈U πi πj
1 X p(1 − p) 2 1 − p X 2
= yi = y
N 2 i∈U p2 p N 2 i∈U i
y una estimación insesgada será,
1 X ∆ij yi yj
Vb [ybU π ] =
N 2 i,j∈m πij πi πj
1 X p(1 − p) 2 1−p X 2
= yi = 2 2 y
2
N i∈m p p2 p N i∈m i
3
Se deja como ejercicio [recuérdese que πij = E[Ii Ij ]] probar que para diseños de tamaño
de muestra fijo se cumple, X
∆ij = 0, ∀i ∈ U
j∈U
por lo que,
2 X yi 2 X
yi
X
∆ij = ∆ij = 0
i,j∈U
πi i∈U
πi j∈U
se tendrı́a que,
!2
yi yj
− = 0, ∀i, j ∈ U
πi πj
por lo que,
V [tbyπ ] = 0
siendo esto cierto también para la estimación de la media, cuya varianza sólo se diferencia
en el factor 1/N 2 ; ello significa que el muestreo no producirı́a error.
Esto resulta, por supuesto, imposible de llevar a la práctica pues los valores yi no se
conocen de antemano; pero sı́ es posible en muchas situaciones conocer los valores de varia-
bles auxiliares relacionadas con la variable Y y emplearlas para definir las probabilidades
de inclusión de primer orden. Con ello ya no se conseguirá que la varianza sea nula pero
sı́ que se reduzca considerablemente.
Esta idea da lugar a lo que se conocen como Diseños Muestrales con Probabilidades de
Inclusión Proporcionales al Tamaño, o diseños ΠPS en siglas, que por su importancia serán
estudiados especı́ficamente en un Tema posterior.
NOTA: ΠPS es un acrónimo de “Inclusion Probabilities Proportional to Size”.
y si expresamos N como, X
N= 1
i∈U
es decir, el total de la variable UNO sobre la población, podemos estimarlo también mediante
el estimador de Horvitz-Thompson,
X 1
N
bπ =
i∈m
πi
Nótese que este estimador es una razón o cociente de estimadores insesgados, por lo
que comparte la problemática que ya vimos para estimador alternativo de la media de una
subpoblación en relación a la estimación de su varianza. Por esta razón, posponemos para
un tema posterior, el Tema 4., el estudio de esta cuestión.
EJEMPLO 1 Veamos qué sucede para el diseño de muestral aleatorio simple, MAS(N, n).
Al ser πi = n/N , se cumple que 1/πi = N/n, y por consiguiente,
X 1
=N
i∈m
πi
siendo pues, X X
yi /πi yi /(n/N )
i∈m i∈m 1 X
ybU HJ = X = = yi = y m
1/πi N n i∈m
i∈m
es decir, coincide con la media muestral que es el estimador usual que ya vimos en el Tema 2.,
y que coincide con el estimador de Horvitz-Thompson.
EJEMPLO 2 Veámoslo ahora para el diseño de Bernouilli, MB(N, p). En este diseño, πi = p.
Supongamos que la muestra obtenida, m, no es vacı́a, es decir, tiene algún elemento, pues en
caso contrario, no tiene sentido continuar.
El estimador de Hájek será,
X X X
yi /πi yi /p yi
i∈m i∈m i∈m
ybU HJ = X = X = = ym
1/πi 1/p n(m)
i∈m i∈m
4
6
Ya vimos en el Tema 2., como es posible considerar muestreos en los que los elementos
puedan aparecer repetidos en la muestra. La situación serı́a similar a la extracción de n
bolas de una caja en la que hay N bolas numeradas de 1 a N , devolviendo a la caja la bola
obtenida en cada extracción. Esto se vio para el caso particular de que todos los elementos
tuvieran la misma probabilidad, 1/N de ser seleccionados en cada extracción. Ahora lo
veremos en general y construiremos un estimador ad hoc para este tipo de muestreo.
En efecto, a veces resulta útil extraer la muestra permitiendo que los elementos se repitan
sin limitación, es decir, con reemplazamiento, y suponiendo probabilidades respectivas,
N
X
{p1 , p2 , . . . , pN | pi ≥ 0 ∀i, pi = 1}
i=1
Para ver que es insesgado, tampoco nos sirven aquı́ las variables indicadoras Ii pues al
ser el muestreo con reemplazamiento, estas variables NO proporcionan información sobre el
número de veces que un elemento aparece en la muestra. Definimos pues las nuevas variables
indicadoras, más poderosas,
por lo que, h i X yi X
E tbyHH = E[fi ] = yi = t y
i∈U
npi i∈U
siendo pues insesgado. Calculemos su varianza,
h i hX y f i
i i X y2 X yi yj
i
V tbyHH =V = V [fi ] + Cov[fi , fj ]
i∈U
npi i∈U
n2 p2i i6=j=∈U
npi npj
X y2 X yi yj
i
= npi (1 − pi ) + (−npi pj )
i∈U
n2 p2i i6=j∈U
npi npj
X y2 X yi yj
i
= (1 − pi ) −
i∈U
npi i6=j∈U
n
" #
1 X yi 2
= pi − t2y
n i∈U pi
1 X 2 1 X 2
= zi + t2y − 2ty zi pi = zi − ty pi
n i∈U n i∈U
2
1 X yi
= − ty pi 2
n i∈U pi
siendo pues,
2
1 X yi 1
h i X
Vb tbyHH = − tbyHH = (zi − tbyHH )2
n(n − 1) i∈m pi n(n − 1) i∈m
1 X
= (z 2 + tbyHH
2
− 2zi tbyHH )
n(n − 1) i∈m i
" # " #
1 X X 1 X
= zi2 + ntbyHH
2
− 2tbyHH zi = zi2 − ntbyHH
2
n(n − 1) i∈m i∈m
n(n − 1) i∈m
h i h i h i h i
2
E tbyHH = V tbyHH + E 2 tbyHH = V tbyHH + t2y
tendremos,
" #
h h ii 1 X
E Vb tbyHH = E zi2 − ntbyHH
2
n(n − 1) i∈m
" #
1 X h i
= zi2 npi − nt2y − nV tbyHH
n(n − 1) i∈U
" #
1 X h i
= zi2 pi − t2y − V tbyHH
n − 1 i∈U
1 h hb i h ii h i
= nV tyHH − V tbyHH = V tbyHH 2
n−1
En resumen, observemos que con el cambio de variable introducido se tienen las siguien-
9
tes expresiones, de interés tanto teórico como práctico, para el estimador tbyHH ,
tbyHH = z m
h i 1X
V tbyHH = (zi − ty )2 pi
n i∈U
!
h i 1 X
V tbyHH = zi2 pi − t2y
n i∈U
h i 1 X
V tbyHH = pi pj (zi − zj )2
2n i,j∈U
h i 1 1
(zi − z m )2 = s2zm
X
Vb tbyHH =
n(n − 1) i∈m n
Todas ellas, salvo la cuarta, han ido apareciendo a lo largo de los desarrollos anterior.
La cuarta se demuestra mediante un cálculo directo sin mayor dificultad. Realmente es casi
obvia.
En caso de que el parámetro a estimar sea la media poblacional, y U , basta tener en
cuenta que y U = ty /N , con lo que el estimador de Hansen-Hurwitz adoptará la forma,
1 X yi
ybU HH =
N i∈m npi
siendo obviamente insesgado, y tanto las expresión de la varianza como su estimación in-
sesgadas serán las del total multiplicadas por el factor 1/N 2 .
Es posible introducir un nuevo cambio de variable para que las expresiones sean las
mismas. En efecto, si ahora el cambio es,
yi
zi = , i = 1, 2, . . . , N
N pi
se tiene otra vez obviamente,
10
ybU HH = z m
h i 1X
V ybU HH = (zi − y U )2 pi
n i∈U
!
h i 1 X
V ybU HH = zi2 pi − y 2U
n i∈U
h i 1 X
V ybU HH = pi pj (zi − zj )2
2n i,j∈U
h i 1 1
(zi − z m )2 = s2zm
X
Vb ybU HH =
n(n − 1) i∈m n
Observemos que, tanto en el caso del total como de la media, el cálculo práctico asociado
a la estimación se reduce al cálculo de una media muestral y de una cuasivarianza muestral.
Observemos también que, de forma similar a lo que ocurre con el estimador de Horvitz-
Thompson, si las probabilidades de de selección son proporcionales a la variable de estudio,
pi ∝ yi , i = 1, . . . , N
se tendrı́a, tanto para el caso del total como de la media, que los valores zi son constantes
por lo que, aplicando por ejemplo la cuarta igualdad de las listas anteriores, se tendrı́a que
la varianza de la estimación es CERO, es decir, el muestreo no producirı́a error.
Esto resulta, por supuesto, utópico pues los valores yi no se conocen de antemano; pero
sı́ es posible en muchas situaciones conocer los valores de variables auxiliares relacionadas
con la variable Y y emplearlas para construir las probabilidades de selección. Con ello no
se conseguirá que la varianza sea nula pero sı́ que se reduzca considerablemente. Esta idea
da lugar a lo que se conocen como Diseños Muestrales con Probabilidades de Selección
Proporcionales al Tamaño, o diseños PPS en siglas.
Veamos ahora un ejemplo en el que particularizamos los resultados anteriores para el
muestreo aleatorio simple con reemplazamiento. Las expresiones obtenidas ya fueron anti-
cipadas en el Tema 2., aunque sin exponer su demostración.
Observemos que es similar a la que se obtiene en el caso de muestreo aleatorio simple sin
reemplazamiento, salvo el factor (1 − f ). Esta cantidad suele denominarse factor de correc-
ción por población finita.
4
La aplicación del muestreo con reemplazamiento se realiza más a nivel teórico que real.
En efecto, no es usual realizar en una población muestreo con reemplazamiento para es-
timar parámetros. No obstante, la teorı́a del muestreo con reemplazamiento es de suma
importancia como vamos a ver a continuación.
Ya hemos visto anteriormente, cuando hemos estudiado el estimador de Horvitz-Thompson,
que si el procedimiento de muestreo da lugar a unas probabilidades de inclusión de primer
orden proporcionales a una variable conocida adecuada, se puede conseguir una reducción
del error de muestreo. Los diseños muestrales de este tipo se denominan ΠPS y hay cientos
de procedimientos para implementarlos. No obstante, al intentar estimar la varianza, por
ejemplo cuando se estima el total, nos encontramos con la expresión,
X ∆ij yi yj
Vb [tbyπ ] =
i,j∈m
πij πi πj
en las que, como puede verse, aparecen las probabilidades de inclusión de segundo orden,
πij . Ası́ como las de primer orden son fáciles de calcular, las de segundo suelen ser muy
complicadas, e incluso imposibles de calcular en algunas situaciones en las que carecemos
de suficiente información. Por el contrario, la varianza estimada del estimador de Hansen-
Hurwitz del total
h i 1 1 yi
(zi − z m )2 = s2zm ,
X
Vb tbyHH = siendo zi =
n(n − 1) i∈m n pi
no ofrece la más mı́nima dificultad de cálculo. Entonces, teniendo en cuenta que el muestreo
con reemplazamiento, usualmente produce un leve aumento de la varianza de la estimación,
se puede emplear la expresión anterior para obtener una estimación de la varianza, aún
sabiendo que dicha estimación es una aproximación por exceso; esto es lo que llamamos
estimación conservadora; y dará lugar a un intervalo de confianza algo más amplio.
12
[1] Fernández Garcı́a, F.R. y Mayor Gallego, J.A. (1995a). Muestreo en poblaciones fini-
tas: Curso básico. E.U.B. Ediciones Universitarias de Barcelona.
[2] Fernández Garcı́a, F.R. y Mayor Gallego, J.A. (1995b). Ejercicios y prácticas de mues-
treo en poblaciones finitas. E.U.B. Ediciones Universitarias de Barcelona.
[3] Lohr, S.L. (2010). Sampling: Design and Analysis. 2nd Edition. Brooks/Cole. Inter-
national Edition.
[4] Särndal, C., Swensson, B. and Wretman, J. (1992). Model Assisted Survey Sampling.
Springer-Verlag. New York, Inc.