Está en la página 1de 75

Universidad de Granada

Departamento de Estadı́stica e Investigación Operativa

Bootstrap en poblaciones finitas

Samuel Nicolás Gil Abreu

Máster Oficial en Estadı́stica Aplicada

Granada, julio de 2014


Índice general

1. EL MÉTODO BOOTSTRAP 4
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Estimación bootstrap de la distribución del estimador de un parámetro de interés 6
1.3. Estimación bootstrap del error estándar . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Estimación bootstrap del sesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5. Intervalos de confianza bootstrap: Métodos de construcción . . . . . . . . . . . . 8
1.5.1. Intervalo de confianza bootstrap Normal estándar . . . . . . . . . . . . . 8
1.5.2. Intervalo de confianza bootstrap percentil . . . . . . . . . . . . . . . . . 9
1.5.3. Intervalo de confianza bootstrap básico . . . . . . . . . . . . . . . . . . . 10
1.5.4. Intervalo de confianza bootstrap t (estudentizado) . . . . . . . . . . . . . 11
1.5.5. Intervalo de confianza bootstrap mejorado, BCa . . . . . . . . . . . . . . 12

2. BOOTSTRAP EN POBLACIONES FINITAS 15


2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2. Muestreo aleatorio simple con reemplazamiento . . . . . . . . . . . . . . . . . . 17
2.3. Muestreo aleatorio simple sin reemplazamiento . . . . . . . . . . . . . . . . . . . 19
2.3.1. Variante del factor de corrección (F) . . . . . . . . . . . . . . . . . . . . 21
2.3.2. Variante del reescalado (R) . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.3. Variante BWR (Replacement bootstrap) . . . . . . . . . . . . . . . . . . 22
2.3.4. Variante BWO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.5. Variante Mirror-Match (MM) . . . . . . . . . . . . . . . . . . . . . . . . 25

2
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

2.4. Muestreo con probabilidades proporcionales al tamaño muestral con reemplaza-


miento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5. Muestreo con probabilidades proporcionales al tamaño muestral sin reemplaza-
miento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6. Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.1. Muestreo aleatorio simple con y sin reemplazamiento en los estratos . . . 34
2.6.2. Muestreo con probabilidades proporcionales al tamaño muestral con re-
emplazamiento en los estratos . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6.3. Muestreo con probabilidades proporcionales al tamaño muestral sin re-
emplazamiento en los estratos . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7. Muestreo multietápico con estratificación . . . . . . . . . . . . . . . . . . . . . . 40
2.7.1. Muestreo con probabilidades proporcionales al tamaño muestral con re-
emplazamiento en la primera etapa . . . . . . . . . . . . . . . . . . . . . 40
2.7.2. Muestreo πps en la primera etapa . . . . . . . . . . . . . . . . . . . . . . 43
2.8. Estimadores no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3. Aplicaciones con R 52
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2. Muestreo aleatorio simple con reemplazamiento . . . . . . . . . . . . . . . . . . 52
3.3. Muestreo aleatorio simple sin reemplazamiento . . . . . . . . . . . . . . . . . . . 60

A. Funciones implementadas 67

B. Diseños muestrales y estimadores usuales 72

3
Capı́tulo 1
EL MÉTODO BOOTSTRAP

1.1. Introducción

El bootstrap fue introducido en 1979 por Bradley Efron, aunque experimentó avances en
años sucesivos gracias a aportaciones de otros autores como Robert Tibshirani, Michael Cher-
nick, Jun Shao o Anthony Davison.

Los métodos bootstrap son una clase de métodos Monte Carlo no paramétricos que
pretenden estimar la distribución de una población mediante remuestreo. Los métodos de
remuestreo tratan una muestra observada como una población finita, y generan muestras
aleatorias a partir de ella para estimar caracterı́sticas poblacionales y hacer inferencia sobre la
población muestreada. A menudo estos métodos se usan cuando no se conoce la distribución
de la población objetivo, de modo que la muestra es la única información disponible.

El término bootstrap puede referirse a bootstrap no paramétrico o bootstrap pa-


ramétrico. Los métodos de Monte Carlo que implican el muestreo a partir de una distribución
de probabilidad completamente especificada, son conocidos como bootstrap paramétrico. En el
caso no paramétrico la distribución no se especifica.

4
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

La distribución de la población finita representada por la muestra puede ser vista como
una pseudopoblación con caracterı́sticas similares a las de la verdadera población. Generando
repetidamente muestras aleatorias de esta pseudopoblación (remuestreo), se puede estimar la
distribución muestral de un estadı́stico. El remuestreo permite también estimar propiedades de
un estimador tales como su sesgo o su error estándar.

Cabe señalar que las estimaciones bootstrap de una distribución de muestreo son análogas
a la idea de estimación de la densidad. El histograma de una muestra proporciona una esti-
mación de la forma de la función de densidad. El histograma no es la densidad, pero desde el
punto de vista no paramétrico puede ser visto como una estimación razonable de la misma.
Existen métodos para generar muestras aleatorias de densidades completamente especificadas;
el bootstrap genera muestras aleatorias a partir de la distribución empı́rica de la muestra.

Supongamos que x = {x1 , . . . , xn } es una muestra aleatoria observada de una distribución


con función de distribución F (x). Si a partir de x se selecciona aleatoriamente X ∗ , entonces

1
P [X ∗ = xi ] = , i = 1, . . . , n
n

El remuestreo genera una muestra aleatoria X1∗ , . . . , Xn∗ mediante el muestreo con reempla-
zamiento de x. Las variables aleatorias Xi∗ son independientes e idénticamente distribuidas de
manera uniforme en el conjunto de {x1 , . . . , xn }.

La función de distribución empı́rica, Fn (x), es un estimador de F (x). Puede probarse que


Fn (x) es un estadı́stico suficiente de F (x); es decir, toda la información sobre F (x) contenida
en la muestra está también contenida en Fn (x). Aún más, Fn (x) es en sı́ misma la función de
distribución de una variable aleatoria, a saber, la variable aleatoria que se distribuye de manera
uniforme en el conjunto x = {x1 , . . . , xn }. Por tanto, la función de distribución empı́rica Fn es la
función de distribución de X ∗ . Ası́, en bootstrap, pueden considerarse dos aproximaciones. Por
una parte, Fn es una aproximación de FX ; y, por otra, la función de distribución empı́rica Fm∗ de

5
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

las réplicas bootstrap es una aproximación de Fn . El remuestreo a partir de x equivale a generar


muestras aleatorias de la distribución Fn (x). Las dos aproximaciones pueden ser representadas
mediante el diagrama
F → X → Fn

Fn → X ∗ → Fn∗

Para generar una muestra aleatoria bootstrap mediante remuestreo de x, basta generar n
números enteros aleatorios {i1 , . . . , in } uniformemente distribuidos en 1, . . . , n y seleccionar la
muestra bootstrap x∗ = {xi1 , . . . , xin }.

1.2. Estimación bootstrap de la distribución del estima-

dor de un parámetro de interés

Sea θ un parámetro poblacional de interés (que puede ser un vector) y θ̂ un estimador de


θ. Entonces, la estimación bootstrap de la distribución de θ̂ se obtiene como sigue:

1. Para cada réplica bootstrap, indexada por b = 1, . . . , B:

a) Generar la muestra x∗(b) = {x∗1 , . . . , x∗n } mediante muestreo con reemplazamiento a


partir de la muestra observada {x1 , . . . , xn }

b) Calcular la réplica b−ésima de θ̂(b) a partir de la b−ésima muestra bootstrap.

2. La estimación bootstrap de Fθ̂ (·) es la distribución empı́rica de las réplicas θ̂(1) , . . . , θ̂(B) .

6
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

1.3. Estimación bootstrap del error estándar

La estimación bootstrap del error estándar de un estimador θ̂ es la desviación estándar


muestral de las réplicas bootstrap θ̂(1) , . . . , θ̂(B) , dada por

v
u B
u 1 X (b)
σ
bθ̂∗ =t (θ̂ − θ̂∗ )2
B − 1 b=1

donde
B
1 X (b)
θ̂∗ = θ̂ .
B b=1

Según Efron y Tibshirani, el número de réplicas necesarias para obtener una buena esti-
mación del error estándar no es elevado; por lo general B = 50 es suficiente, y con escasa
frecuencia se precisa B > 200. En cambio, sı́ es necesario que B sea mucho mayor para la
estimación mediante intervalos de confianza.

1.4. Estimación bootstrap del sesgo

Si θ̂ es un estimador insesgado de θ, entonces E[θ̂] = θ. En general el sesgo de un estimador


θ̂ de θ está dado por
sesgo[θ̂] = E[θ̂ − θ] = E[θ̂] − θ .

Ası́, cada estadı́stico es un estimador insesgado de su valor esperado y, en particular, la media


muestral de una muestra aleatoria es un estimador insesgado de la media de la distribución.

La estimación bootstrap del sesgo utiliza las réplicas bootstrap de θ̂ para estimar la dis-
tribución muestral de θ.
b Para una población finita x = (x1 , . . . , xn ), el parámetro es θ̂(x) y

disponemos de B estimadores independientes e idénticamente distribuidos, θ̂(b) . Dado que la


media muestral de las réplicas {θ̂(b) } es insesgada para su valor esperado E[θ̂∗ ], la estimación

7
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

bootstrap del sesgo es:


esgo[θ̂] = θ̂∗ − θ̂
s\

1
PB
siendo θ̂∗ = B b=1 θ̂(b) y θ̂ = θ̂(x) la estimación obtenida a partir de la muestra observada x.

Cabe señalar que en bootstrap se muestrea Fn en lugar de FX , luego θ se reemplazará por


θ̂ a la hora de estimar el sesgo. Además, un sesgo positivo indicará que θ̂ tiende a sobreestimar
en media a θ, y un sesgo negativo indicará que θ̂ subestima a dicho parámetro.

1.5. Intervalos de confianza bootstrap: Métodos de cons-

trucción

En esta sección vamos a presentar diversas aproximaciones para construir intervalos de


confianza bootstrap para un parámetro de interés.

1.5.1. Intervalo de confianza bootstrap Normal estándar

Esta aproximación es la más simple, aunque no necesariamente la mejor. Sea θ̂ un estimador


del parámetro θ con error estándar σθ̂ . Si θ̂ es una media muestral y el tamaño muestral es
grande, entonces por el Teorema Central del Lı́mite se tiene que

θ̂ − E[θ̂]
Z=
σθ̂

se aproxima a una Normal estándar.

Por consiguiente, si θ̂ es insesgado para θ, resulta de forma aproximada que

θ̂ ± zα/2 · σθ̂

8
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

donde zα/2 = Φ−1 (1− α2 ), con Φ la función de distribución de la Normal estándar, es un intervalo
de confianza para θ al nivel de confianza 100(1 − α) %.

Este intervalo es fácil de calcular, aunque acabamos de ver que requiere varios supuestos. Por
un lado, θ̂ debe tener distribución normal o ser una media muestral y que el tamaño muestral
sea suficientemente grande; y, por otro, θ̂ debe ser insesgado para θ.

Además, aquı́ σθ̂ se ha tratado como un parámetro conocido, aunque en bootstrap es esti-
mado por la desviación estándar muestral de las réplicas bootstrap de θ̂, lo que proporciona el
intervalo
θ̂ ± zα/2 · σ
bθ̂∗ .

El sesgo puede ser estimado y utilizado para centrar el estadı́stico Z, lo que da lugar al
intervalo corregido por el sesgo

bθ̂∗ − (θ̂∗ − θ̂) = (2θ̂ − θ̂∗ ) ± zα/2 · σ


θ̂ ± zα/2 · σ bθ̂∗ ,

que está centrado en (2θ̂ − θ̂∗ ).

1.5.2. Intervalo de confianza bootstrap percentil

Utiliza la distribución empı́rica de las réplicas bootstrap como distribución de referencia. Los
cuantiles de la distribución empı́rica son estimadores de los cuantiles de la distribución muestral
de θ̂, con lo que estos cuantiles aleatorios reproducirán mejor la verdadera distribución cuando
la distribución de θ̂ no sea Normal.

Supóngase que θ̂(1) , . . . , θ̂(B) son las réplicas bootstrap del estadı́stico θ̂. A partir de la
α
función de distribución de las réplicas se calculan los cuantiles de órdenes 2
y 1 − α2 , θ̂ α2 y θ̂1− α2 ,
respectivamente, que definen el intervalo de confianza.

9
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Efron y Tibshirani probaron que el intervalo Percentil presenta ventajas teóricas sobre el
intervalo normal estándar y un mejor comportamiento en la práctica.

1.5.3. Intervalo de confianza bootstrap básico

Este intervalo transforma la distribución de las réplicas bootstrap restando el estadı́stico


observado. Los cuantiles de la muestra transformada se usan para determinar los lı́mites de
confianza.

Considérese T un estimador de θ, y sea kα el cuantil de orden α de T − θ. Entonces:

P [T − θ > kα ] = 1 − α ⇒ P [T − kα > θ] = 1 − α

Ası́, un intervalo de confianza al nivel de confianza 100 · (1 − 2α) % con el mismo error α en
la cola inferior y superior, está dado por (t − k1−α , t − kα ).

En bootstrap, la distribución de T es habitualmente desconocida, pero los cuantiles pueden


ser estimados.

Sea θ̂α el cuantil de orden α calculado a partir de la función de distribución empı́rica de las
réplicas θ̂∗ . Y sea bα el cuantil de orden α de θ̂∗ − θ̂. Entonces b̂α = θ̂α − θ̂ es un estimador de
bα .

Por tanto, un lı́mite de confianza superior aproximado para un nivel de confianza del 100(1−
α) % está dado por
θ̂ − b̂α/2 = θ̂ − (θ̂α/2 − θ̂) = 2θ̂ − θ̂α/2 .

De un modo similar un lı́mite inferior de confianza aproximado está dado por

2θ̂ − θ̂1−α/2 .

10
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Ası́, el intervalo de confianza bootstrap básico al nivel de confianza del 100(1 − α) % es

(2θ̂ − θ̂1−α/2 , 2θ̂ − θ̂α/2 )

1.5.4. Intervalo de confianza bootstrap t (estudentizado)


θ̂ − E[θ̂]
Incluso si θ̂ tiene distribución normal y θ̂ es insesgado para θ, el estadı́stico Z = no
σθ̂
sigue exactamente una distribución normal, dado que σθ̂ es estimada. Tampoco puede afirmarse
que se trate de un estadı́stico t de Student puesto que se desconoce la distribución del estimador
bootstrap σ
bθ̂ .
El intervalo de confianza bootstrap t, o estudentizado, no utiliza la distribución t de Student
como distribución de referencia, sino que genera mediante remuestreo la distribución muestral
de un estadı́stico de “tipo t”.

Sea x = (x1 , . . . , xn ) la muestra aleatoria observada. Se obtiene el correspondiente estadı́stico


observado θ̂. El intervalo de confianza bootstrap t al nivel de confianza 100(1 − α) % es

(θ̂ − t∗1−α/2 · σ
bθ̂ , θ̂ − t∗α/2 · σ
bθ̂ )

bθ̂ , t∗1−α/2 y t∗α/2 se calculan como sigue:


donde σ

1. Calcular θ̂ = θ̂(x).

2. Para cada réplica bootstrap, indexada por b = 1, . . . , B:

(b) (b)
a) Generar la b-ésima muestra bootstrap x(b) = (x1 , . . . , xn ) mediante muestreo con
reemplazamiento a partir de x

b) Calcular θ̂(b) a partir de la b-ésima muestra bootstrap x(b) .

bθ̂(b) remuestreando a partir de x(b) , no de x, de


c) Calcular o estimar el error estándar σ
forma independiente para cada muestra bootstrap.

11
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

d ) Obtener la b-ésima réplica del estadı́stico “t”,

θ̂(b) − θ̂
t(b) =
σ
bθ̂(b)

3. Obtener los cuantiles muestrales t∗α/2 y t∗1−α/2 de la muestra ordenada de réplicas t(b) , dado
que la muestra de réplicas t(1) , . . . , t(B) es la distribución de referencia para “t”.

bθ̂ como la desviación estándar muestral de las réplicas θ̂(b) .


4. Calcular σ

5. Determinar los lı́mites de confianza θ̂ − t∗1−α/2 · σ


bθ̂ y θ̂ − t∗α/2 · σ
bθ̂ .

La desventaja de este tipo de intervalos reside en que la estimación de los errores estándar
σ
bθ̂(b) debe obtenerse mediante bootstrap. Ası́, si B = 1000, el tiempo empleado en calcular el
intervalo de confianza bootstrap t es aproximadamente 1000 veces mayor que el empleado en
aplicar cualquiera de los otros métodos.

1.5.5. Intervalo de confianza bootstrap mejorado, BCa

Los intervalos de confianza bootstrap mejorados son una variante de los intervalos percentil
que poseen mejores propiedades teóricas y proporcionan un rendimiento superior en la práctica.

Para un nivel de confianza 100 · (1 − α) %, los habituales cuantiles de órdenes α/2 y 1 − α/2
son ajustados por dos factores: una corrección para el sesgo, y otra para la asimetrı́a o ajuste
de aceleración.

El intervalo de confianza bootstrap mejorado, que notamos BCa, está dado por

(θ̂α∗ 1 , θ̂α∗ 2 ) ,

donde los lı́mites de confianza están dados por los cuantiles muestrales de órdenes

12
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

 
ẑ0 + zα/2
α1 = Φ ẑ0 +
1 − â(ẑ0 + zα/2 )

y
 
ẑ0 + z1−α/2
α2 = Φ ẑ0 +
1 − â(ẑ0 + z1−α/2 )

de las réplicas bootstrap, donde


zα = Φ−1 (α) ,
B
!
1 X
ẑ0 = Φ−1 I(θ̂(b) < θ̂)
B b=1

y
Pn
i=1 (θ() − θ(i) )3
â = Pn q
6· i=1 ((θ() − θ(i) )2 )3/2

con I la función indicadora.

El factor de corrección del sesgo, ẑ0 , es en realidad una estimación de una medida del sesgo
mediano de las réplicas θ̂∗ de θ̂. Si θ̂ es la mediana de las réplicas bootstrap, entonces ẑ0 = 0.

El factor de aceleración, â, es una estimación de una medida de la asimetrı́a a partir de las
réplicas jackknife.

Cabe señalar que existen otros métodos para estimar la aceleración. El factor de aceleración â
debe su nombre a que estima la tasa de cambio del error estándar de θ̂ con respecto al parámetro
θ (en una escala normalizada). Al usar el intervalo de confianza bootstrap normal estándar se
supone que θ̂ es aproximadamente Normal con esperanza θ y varianza σ(2θ̂) independiente del
parámetro θ. Sin embargo, no siempre es cierto que la varianza de un estimador sea constante
con respecto al parámetro. El factor de aceleración tiene como objetivo ajustar los lı́mites
de confianza para tener en cuenta la posibilidad de que la varianza de los estimadores pueda
depender del verdadero valor del parámetro a estimar.

Los intervalos de confianza bootstrap BCa tienen dos importantes ventajas teóricas:

13
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Son “invariantes” frente a transformaciones en el parámetro, es decir, si (θ̂α∗ 1 ; θ̂α∗ 2 ) es un


intervalo de confianza de este tipo para θ, y t(θ) es una transformación del parámetro θ,
entonces
 
t(θ̂α∗ 1 ), t(θ̂α∗ 2 )

es el intervalo correspondiente para t(θ).

Tienen precisión de segundo orden, esto es, su error tiende a 0 a la velocidad 1/n.

El intervalo de confianza bootstrap t tiene precisión de segundo orden, pero no es respetado


por las transformaciones. El intervalo de confianza bootstrap percentil sı́ es respetado por las
transformaciones, pero tiene precisión de primer orden (su error tiende a cero a la velocidad
p
1/ (n)). Y el intervalo de confianza bootstrap Normal no posee ninguna de estas propiedades.

14
Capı́tulo 2
BOOTSTRAP EN POBLACIONES FINITAS

2.1. Introducción

En este capı́tulo vamos a tratar el problema de estimación de la varianza en el muestreo en


poblaciones finitas mediante el método bootstrap.

Como sabemos el método bootstrap es un método de replicación. Otros métodos de repli-


n
cación son: el método de los grupos aleatorios, basado en réplicas de tamaño ; el método de
k
n
las semimuestras, que emplea réplicas de tamaño ; y el método jackknife, que trabaja con
2
réplicas de tamaño n − j. En comparación con los métodos anteriores, el método bootstrap
utiliza réplicas de cualquier tamaño n∗ .

Sea Y1 , . . . , Yn una muestra de una variables aleatorias independientes e idénticamente dis-


tribuidas con función de distribución F . Sea θ un parámetro desconocido de la distribución
que se desea estimar. Notaremos θb al estimador muestral de θ. En lo sucesivo trataremos el
problema de estimar la varianza de θ,
b V ar[θ],
b muestreando repetidamente.

Una muestra bootstrap es una muestra aleatoria simple con reemplazamiento de tamaño n∗
seleccionada a partir de una muestra inicial, que es considerada como una pseudopoblación
para este muestreo. Notaremos Y1∗ , . . . , Yn∗ a las observaciones bootstrap.

15
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Sea θb∗ el estimador bootstrap de θ, que tiene la misma forma funcional que θb pero aplicado
a la muestra bootstrap en lugar de a la muestra de partida. Entonces, el estimador bootstrap
de V ar[θ]
b está definido por
b = V ar∗ [θb∗ ]
v1 [θ]

donde V ar∗ denota la varianza condicionada dada la muestra inicial o pseudopoblación.

El muestreo bootstrap repetido a partir de la muestra de partida genera muestras alter-


nativas que podrı́an haber sido seleccionadas como muestra de partida de F . Ası́, la idea de
este método es emplear la varianza en el muestreo bootstrap repetido para estimar la varianza,
V ar[θ].
b

En casos sencillos en los que θb es lineal es posible determinar la expresión de v1 [θ].


b Sin

embargo, en general, no se tiene la expresión exacta y es preciso recurrir a una aproximación.


Dicho método de aproximación consta de tres pasos:

1. Generar un número grande, A, de muestras bootstrap independientes a partir de la mues-


tra inicial.

2. Para cada muestra bootstrap calcular el correspondiente estimador θbα∗ , α = 1, . . . , A, del


parámetro de interés.

3. Determinar la varianza muestral de los valores θbα∗ , α = 1, . . . , A; esto es:

A
1 X  b∗ b∗ 2
v2 [θ]
b = θ −θ
A − 1 α=1 α

con:
∗ A
1 X b∗
θ =
b θ
A α=1 α

Claramente v2 converge a v1 cuando A → ∞. Efron y Tybshirani (1986) comentan que un


valor de A entre 50 y 200 es adecuado en muchas situaciones.

16
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

La aproximación v2 de v1 es fácil de calcular en todos los casos. En lo que sigue vamos a


estudiar el estimador bootstrap para diseños muestrales sencillos y estimadores lineales, para
los que se dispone de resultados exactos. El método bootstrap funciona bien en estos casos, en
los que los estimadores habituales de la varianza también están disponibles, y este adecuado
comportamiento motiva su uso en diseños más complicados, para los que no disponemos de
los estimadores habituales de la varianza. Finalmente se considerarán diseños más complejos y
estimadores no lineales.

2.2. Muestreo aleatorio simple con reemplazamiento

Supóngase que se desea estimar la media poblacional Y de una variable y en estudio en una
población finita U de tamaño N . Se seleccionan n unidades en la población mediante muestreo
aleatorio simple con reemplazamiento. Sean y1 , . . . , yn los valores muestrales de y. Entonces, es
habitual estimar Y mediante la media muestral; esto es:

1X
y= yi
n

Es sabido que la varianza de este estimador y el estimador usual de la varianza vienen dados,
respectivamente, por:

σ2
V ar[y] =
n

y
s2
v[y] =
n

siendo:
N
2 1 X
σ = (Yi − Y )2
N i=1

17
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

y
n
21 X
s = (yi − y)2
n − 1 i=1

Además, v[y] es un estimador insesgado de V ar[y].

En este caso, la muestra bootstrap y1∗ , . . . , yn∗ ∗ es una m.a.s. con reemplazamiento de tamaño
n∗ obtenida a partir de la muestra inicial de tamaño n, y el correspondiente estimador para la
media poblacional es la media muestral

1 X ∗
y∗ = yi
n∗

1
Considérese, por ejemplo, y1∗ . Dado que P [y1∗ = yi ] =, i = 1, . . . , n, entonces la media y
n
la varianza condicionadas de y1∗ , dada la muestra de partida, están dadas por:

n
1X
E∗ [y1∗ ] = yi = y
n i=1

y
n
1X n−1 2
V ar∗ [y1∗ ] = (yi − y)2 = ·s
n i=1 n

respectivamente. Dado que las observaciones bootstrap y1∗ , . . . , yn∗ ∗ son independientes e idénti-
camente distribuidas por construcción, la media y la varianza condicionadas de y ∗ , dada la
muestra de partida, resultan ser:

n
1X
E∗ [y ∗ ] = E∗ [y1∗ ] = yi = y
n i=1

y
1 n − 1 s2
v1 [y] = V ar∗ [y ∗ ] = · V ar [y
∗ 1

] = · ∗ (2.1)
n∗ n n

18
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

respectivamente. Ası́, en general, el estimador bootstrap de la varianza v1 [y] no coincide con el


estimador usual de la varianza v[y] y no es un estimador insesgado de V ar[y]. Esta deseable
propiedad se obtiene si y sólo si n∗ = n − 1.

Teorema 2.1 Dada una muestra aleatoria simple con reemplazamiento de tamaño n de una
población finita de tamaño N , el estimador bootstrap de la varianza, v1 [y], es un estimador
insesgado de V ar[y] si y sólo si el tamaño de la muestra bootstrap es una unidad menos que
el tamaño de la muestra original; es decir, n∗ = n − 1. Para n∗ = n el sesgo de v1 [y] como
estimador de V ar[y] está dado por

1
sesgo[v1 [y]] = − · V ar[y]
n

Para tamaños muestrales grandes, el sesgo no parece ser relevante, mientras que para ta-
maños muestrales pequeños podrı́a ser muy importante. Por ejemplo, si n = 2 y n∗ = n el sesgo
serı́a del 50 %.

2.3. Muestreo aleatorio simple sin reemplazamiento

El método bootstrap no se adecúa con facilidad a los diseños muestrales sin reemplazamien-
to, incluso en los casos más simples. En esta sección se describen algunas variaciones del método
estándar que pueden ser apropiados para el muestreo aleatorio simple sin reemplazamiento. El
parámetro de interés será la media poblacional Y .

Sea s la muestra de partida de tamaño n y s∗ la muestra bootstrap de tamaño n∗ . En


principio se supondrá que s∗ se ha obtenido a partir de s mediante muestreo aleatorio simple
con reemplazamiento. Más adelante se cambiará este supuesto.

19
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

La media muestral y es el estimador habitual de la media poblacional. Es fácil probar que


para el estimador bootstrap
1 X ∗
y∗ = yi
n∗

se tiene que:
1X
E∗ [y ∗ ] = E∗ [yi∗ ] = yi = y
n i∈s

y
1 1 1 X n − 1 s2
V ar∗ [y ∗ ] = V ar [y
∗ i

] = · · (yi − y)2
= · ∗
n∗ n n∗ i∈s n n

Cabe señalar que estos resultados no se ven afectados por el diseño muestral de la muestra
de partida sino únicamente por el diseño de la muestra bootstrap, de modo que coinciden con
los obtenidos en la sección anterior para el muestreo aleatorio simple con reemplazamiento.

Teorema 2.2 Sea y1∗ , . . . , yn∗ ∗ una muestra bootstrap de tamaño n∗ obtenida mediante muestreo
aleatorio simple con reemplazamiento de la muestra de partida s, la cual a su vez es elegida de
la población mediante muestreo aleatorio simple sin reemplazamiento. Entonces, el estimador
bootstrap de V ar[y] está dado por

n − 1 s2
v1 [y] = V ar∗ [y ∗ ] = · ∗ (2.2)
n n

Por tanto, para el muestreo aleatorio simple sin reemplazamiento, el estimador v1 [y] de la
varianza
S2
V ar[y] = (1 − f ) ·
n

no coincide con el estimador insesgado usual

s2
v[y] = (1 − f ) ·
n

20
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Y el sesgo de v1 [y] es

n − 1 S2 S2
sesgo[v1 [y]] = E[v1 [y]] − V ar[y] = · ∗ − (1 − f ) ·
n n n

En el caso particular n∗ = n − 1 se tiene que el estimador bootstrap

s2
v1 [y] =
n

es sesgado, con
S2 S2 S2
sesgo[v1 [y]] = − (1 − f ) · =f·
n n n

Si f es pequeño, el sesgo de v1 es despreciable. En lo que sigue presentamos cuatro variantes


del método bootstrap estándar para abordar situaciones en las que f no es pequeño.

2.3.1. Variante del factor de corrección (F)

Si n∗ = n − 1, un estimador insesgado de la varianza está dado simplemente por

v1F (y) = (1 − f ) · v1 [y]

2.3.2. Variante del reescalado (R)

Rao y Wu (1988) definieron el estimador bootstrap de la varianza en términos de las obser-


vaciones reescaladas r
p n∗
yi] =y+ 1−f · · (yi∗ − y)
n−1

La media bootstrap es ahora

n ∗ r
1 X ] p n∗
]
y = ∗ yi = y + 1 − f · · (y ∗ − y)
n i=1 n−1

21
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

y, en virtud del teorema 2.2, el estimador bootstrap de la varianza es

n∗ 1−f 2
v1R [y] = V ar∗ [y ] ] = (1 − f ) · · V ar∗ [y ∗ ] = ·s
n−1 n

Nótese que v1R coincide con el estimador usual de la varianza de y en muestreo aleatorio
simple sin reemplazamiento, que es insesgado.

Si se considera n∗ = n, entonces las observaciones reescaladas son

r
p n
yi] =y+ 1−f · · (yi∗ − y),
n−1

mientras que la elección n∗ = n − 1 proporciona

p
yi] = y + 1 − f · (yi∗ − y)

2.3.3. Variante BWR (Replacement bootstrap)

El método bootstrap con reemplazamiento, debido a McCarthy y Snowden (1985), pretende


eliminar el sesgo de V ar∗ [y ∗ ] haciendo una elección adecuada del tamaño muestral. Tomando

n−1
n∗ =
1−f

en v1 [y], resulta
1−f 2
v1BW R [y] = ·s ;
n

esto es, el estimador usual insesgado de V ar[y] en muestreo aleatorio simple sin reemplazamien-
to.

22
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

n−1
En la práctica, puesto que es muy probable que el cociente no sea un número entero,
−f
1 
∗ 0 n−1
podemos tomar como tamaño n de la muestra bootstrap n = , n00 = n0 + 1, o una
1−f
aleatorización entre n0 y n00 , donde [[ ]] denota la función entero mayor. Wolter (1985) prefiere
la primera elección, n∗ = n0 , dado que devuelve un estimador conservador de la varianza y su
sesgo es suficientemente pequeño en muchas ocasiones.

2.3.4. Variante BWO

Gross (1980) introdujo este método bootstrap sin reemplazamiento en el que la muestra
bootstrap es obtenida por muestreo aleatorio simple sin reemplazamiento. Esto es, tanto la
muestra inicial como la bootstrap tienen en común que se obtienen sin reemplazamiento.
Esta variante supone un importante avance teórico, pero su implementación práctica en
muchos diseños es aparentemente complicada.

El procedimiento se resume en cuatro pasos:


N
1. Se toma k = y se copia cada elemento de la muestra inicial k veces para crear una nueva
n
 N
pseudopoblación Us de tamaño N , cuyos elementos denotamos yj0 j=1 . Exactamente k
de estos valores yj0 coinciden con los yi , ∀ i = 1, . . . , n.

2. Construir la muestra bootstrap s∗ de tamaño n∗ a partir de Us mediante muestreo aleatorio


simple sin reemplazamiento

3. Determinar la media bootstrap:


n ∗

∗ 1 X ∗
y = ∗ y
n i=1 i

4. Calcular el estimador bootstrap teórico v1BW O (y) = V ar∗ [y ∗ ] o repetir los tres pasos
anteriores un gran número de veces A y calcular la versión de Monte Carlo:

 2
A A
1 y ∗α − 1
X X
v2BW O [y] = y ∗α0 
A − 1 α=1 A 0
α =1

23
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Puesto que s∗ se obtiene mediante muestreo aleatorio simple sin reemplazamiento de Us , la


esperanza y la varianza condicionadas de y ∗ quedan en la forma habitual; esto es:

N
∗ 1 X 0 1 X k X k
E∗ [y ] = yj = kyi = yi = ny = y
N j=1 N i∈s N i∈s N

y
N N
!2
∗ ∗ s∗ 2 ∗ 1 1 X
0 1 X 0
V ar∗ [y ] = (1 − f ) · ∗ = (1 − f ) · ∗ · · yj − y0
n n N − 1 j=1 N j 0 =1 j

1 1 X
= (1 − f ∗ ) · · · k (yi − y)2
n∗ N − 1 i∈s

1 N k
= (1 − f ∗ ) · ∗
· · · (n − 1) · s2
n N −1 N

1 N 1
= (1 − f ∗ ) · ∗
· · · (n − 1) · s2
n N −1 n
donde:
n∗
f∗ =
N

y
1 X
s2 = · (yi − y)2
n − 1 i∈s

Por tanto, se concluye que, en general, el estimador bootstrap v1BW O [y] = V ar∗ [y ∗ ] ni es
insesgado ni coincide con el estimador usual de la varianza

s2
v[y] = (1 − f ) ·
n

n
con f = .
N

24
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Si n∗ = n, entonces:

 
1−f 2 N n−1
v1BW O (y) = ·s · ·
n N −1 n

y el estimador bootstrap es sesgado por el factor:

N · (n − 1)
C=
n · (N − 1)

Para alcanzar la insesgadez puede redefinirse el estimador bootstrap multiplicándolo por C −1 ,

v1BW O = C −1 · V ar∗ [y ∗ ] ,

o trabajar con los valores reescalados


yi] = y + C · (yi∗ − y)

N
Otra de las dificultades es que k = no es en general un número entero. El método puede
n  
0 N 00 0 0
modificarse para trabajar con k igual a k = , k = k + 1, o una aleatorización entre k
n
00 0 0
y k . Siguiendo el paso 1, esta aproximación crea pseudopoblaciones de tamaños N = n · k ,
00 00
N = n · k , o una aleatorización entre los dos.

2.3.5. Variante Mirror-Match (MM)

Este método fue introducido por Sitter (1992a, 1992b) para el caso en que la fracción de
muestreo f se grande (no sea despreciable). Se resume en los cuatro pasos siguientes:

1. Elegir una submuestra o grupo aleatorio de tamaño m ∈ Z, 1 ≤ m < n, de la muestra de


partida s mediante muestreo aleatorio simple sin reemplazamiento.

25
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

2. Repetir el paso anterior k veces, con

n 1−e
k= ·
m 1−f

m
donde e = . Ası́, la muestra bootstrap estará formada por los k grupos aleatorios
n
seleccionados y tendrá tamaño n∗ = m · k.

3. Determinar la media bootstrap

n ∗ k m k
∗ 1 X ∗ 1 XX ∗ 1 X ∗
y = ∗ y = y = y
n i=1 i k m j=1 r=1 i k j=1 j

siendo y ∗j la media muestral del j-ésimo grupo aleatorio seleccionado, j = 1, . . . , m.

4. Calcular el estimador bootstrap teórico v1M M (y) = V ar∗ [y ∗ ], o repetir los tres pasos
anteriores un gran número de veces, A, y calcular la versión de Monte Carlo:

 2
A A
1 X
y ∗α − 1
X
v2M M [y] = y ∗α0 
A − 1 α=1 A 0
α =1

El tamaño de la muestra bootstrap,

1−e
n∗ = n · ,
1−f

difiere del tamaño de la muestra de partida a través de la razón de dos factores de corrección
en poblaciones finitas. La elección m = f · n implica que la fracción de submuestreo e coincide
con la fracción principal de muestreo, f . En este caso, n∗ = n .

Por definición, las medias muestrales y ∗j , j = 1, . . . , m, son variables aleatorias independien-


tes e idénticamente distribuidas con medias y varianzas condicionadas:

E∗ [y ∗j ] = y

26
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

y
s2
V ar∗ [y ∗j ] = (1 − e) ·
m

respectivamente, con
n
1 X
s2 = (yi − y)2
n − 1 i=1

Por tanto, el estimador bootstrap de la varianza es

1 m 1−f s2 s2
v1M M (y) = · V ar∗ [y ∗j ] = · · (1 − e) · = (1 − f ) ·
k n 1−e m n

que es el estimador usual insesgado de la varianza V ar[y].

En la práctica, puesto que k no es habitualmente un número entero, puede redefinirse k


como
 
0 n 1−e
k = · ,
m 1−f
00 0 0 00
k = k + 1, o una aleatorización entre k y k . La primera elección devuelve un estimador
conservador de la varianza.

2.4. Muestreo con probabilidades proporcionales al ta-

maño muestral con reemplazamiento

Otro caso sencillo surge cuando se selecciona la muestra mediante muestreo con proba-
bilidades proporcionales al tamaño muestral con reemplazamiento. Supóngase ahora que se
desea estimar el total poblacional, Y , de una variable y, y que se dispone de los valores Xi ,
i = 1, . . . , n, de una variable auxiliar X en toda la población. Para formar la muestra se hace
uso de una medida del tamaño de Xi y de n valores aleatorios independientes rk , k = 1, . . . , n,
de una distribución U (0, 1).

27
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Para el k-ésimo número aleatorio rk , se selecciona la única unidad i para la que Si−1 < rk ≤
Si , donde las sumas acumuladas están definidas por:

 i
 X


 p i0 i = 1, . . . , N
Si = 0
i =1


0

i=0

y
Xi
pi =
X

Sea yk el valor de la variable y para la unidad aleatoriamente seleccionada a partir de rk , e


Irk ∈(Si−1 ,Si ] la variable indicadora



 1 si rk ∈ (Si−1 , Si ]

Irk ∈(Si−1 ,Si ] =

 0 en otro caso

Entonces, el estimador insesgado estándar para el total poblacional está dado por

n n N n
1 X yk 1 XX Yi 1X
Yb = = Irk ∈(Si−1 ,Si ] · = zk
n k=1 pk n k=1 i=1 pi n k=1

con
N
X Yi
zk = Irk ∈(Si−1 ,Si ] ·
i=1
pi

Sea ahora r1∗ , . . . , rn∗ ∗ una muestra bootstrap obtenida de la pseudopoblación, r1 , . . . , rn ,


mediante muestreo aleatorio simple con reemplazamiento. El estimador de Y a partir de la
muestra bootstrap es
n N ∗

b∗ 1 XX Yi
Y = ∗ Irk∗ ∈(Si−1 ,Si ]
n k=1 i=1 pi

28
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Obsérvese que Yb ∗ es la media de n∗ variables aleatorias independientes e idénticamente


distribuidas
N
X Yi
zk = Irk∗ ∈(Si−1 ,Si ] · ,
i=1
pi

con media y varianza condicionadas:

n
1X
E∗ [z1∗ ] = zk = Yb
n k=1

y
n
1 X 2
V ar∗ [z1∗ ] = zk − Yb ,
n k=1

respectivamente.

En consecuencia,
E∗ [Yb ∗ ] = E∗ [z1∗ ] = Yb

y
n
1 ∗ 1 1 X 2
V ar∗ [Yb ∗ ] = · V ar∗ [z1 ] = zk − Y
b
n∗ n∗ n k=1
(2.3)
" n
#
n−1 1 1 X
= ∗
· (zk − Yb )2
n n n−1 k=1

n−1
Ası́, el estimador bootstrap de la varianza de Yb es v1 [Yb ] = V ar∗ [Yb ∗ ], que resulta ser
n∗
veces el estimador usual de la varianza bajo muestreo con probabilidades proporcionales al
tamaño muestral con reemplazamiento. Si se construye una muestra bootstrap de tamaño n∗ =
n − 1, entonces v1 [Yb ] coincide con dicho estimador y es insesgado. Por otra parte, si n∗ = n, v1
es sesgado, aunque el sesgo es despreciable si n es grande.

29
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

2.5. Muestreo con probabilidades proporcionales al ta-

maño muestral sin reemplazamiento

Otro diseño muestral básico es el muestreo πps o muestreo con probabilidades proporcio-
nales al tamaño muestral sin reemplazamiento, en el que las probabilidades de inclusión son
proporcionales al tamaño de una variable auxiliar. Si Xi es la medida del tamaño para la i−ési-
ma unidad, entonces la probabilidad de inclusión de primer orden para una muestra de tamaño
fijo n es:
 −1
X
πi = n · p i = X i ·
n

Las probabilidades de inclusión de segundo orden, que notaremos πij , vienen determinadas por
el algoritmo especı́fico de muestreo con probabilidades proporcionales utilizado.

En lo que sigue nos ocuparemos de la estimación del total poblacional, Y . El estimador de


Horvitz-Thompson habitual es

X yi X 1X
Yb = = wi · yi = ui
i∈s
πi i∈s
n i∈s

donde ui = n · wi · yi y los pesos wi son los inversos de las probabilidades de inclusión.

Nuestro objetivo es estimar la varianza de Yb utilizando un procedimiento bootstrap. En


este caso, el estimador usual (Yates-Grundy) de V ar[Yb ], es

n X n  2
X πi πj − πij yi yj
v[Yb ] = · −
i=1 j>i
π ij π i πj

Desafortunadamente, el método bootstrap encuentra grandes dificultades para hacer frente


a este tipo de diseños muestrales. En realidad, ninguna variante bootstrap proporciona un es-
timador insesgado de la varianza y suele recurrirse a una aproximación bien conocida, a saber,
tratar la muestra como si hubiera sido seleccionada mediante muestreo con probabilidades pro-

30
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

porcionales al tamaño muestral con reemplazamiento. Ası́, sea u∗1 , . . . , u∗n∗ la muestra bootstrap
obtenida mediante muestreo aleatorio simple con reemplazamientoa partir de la muestra de
partida s. Entonces, el estimador bootstrap del total es

n ∗

∗ 1 X ∗
Y = ∗
b u
n i=1 i

donde u∗i = (n · wi · yi )∗ son variables aleatorias independientes e idénticamente distribuidas


tales que
n
1X
E∗ [u∗1 ] = ui = Yb
n i=1

y !2 !2
n n n
1X X ui Yb X Yb
V ar∗ [u∗1 ] = (ui − Yb )2 = n − =n wi · yi −
n i=1 i=1
n n i=1
n

La definición de u∗i pretender preservar en la muestra bootstrap la relación entre wi e yi en la


muestra de partida.

Puesto que la varianza condicionada de Yb ∗ depende únicamente del diseño de la muestra boots-
trap, y no del diseño de la muestra inicial, resulta

n
!2
∗ 1 ∗ n X Yb
V ar∗ [Y ] = ∗ V ar∗ [u1 ] = ∗
b wi · yi − , (2.4)
n n i=1 n

que es el estimador bootstrap v1 [Yb ] de la varianza bajo muestreo con probabilidades propor-
cionales al tamaño muestral sin reemplazamiento.

Si se considera n∗ = n − 1 queda:

!2 n n  2
n X Yb 1 XX yi yj
v1 [Yb ] = wi · yi − = −
n − 1 i∈s n n − 1 i=1 j>i π i πj

que es el estimador usual insesgado de la varianza en muestreo con probabilidades proporcionales


al tamaño muestral con reemplazamiento.

31
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

v1 [Yb ] es un estimador sesgado de la varianza en muestreo con probabilidades proporcionales


al tamaño muestral sin reemplazamiento y para n∗ = n − 1 se tiene que

n  
sesgo[v1 [Yb ]] = · V ar[Ywr ] − V ar[Y ]
b b
n−1

donde V ar[Ybwr ] es la varianza del total estimado en muestreo con probabilidades proporcionales
al tamaño muestral con reemplazamiento.

Ası́, el método bootstrap tiende a sobreestimar la varianza en muestreo con probabilida-


des proporcionales al tamaño muestral sin reemplazamiento siempre que la varianza sea menor
que la varianza en muestreo con probabilidades proporcionales al tamaño muestral con reem-
plazamiento. El sesgo es probablemente pequeño siempre que n y N sean ambos grandes. En
n
muestras pequeñas la sobreestimación está agravada por el factor ≥ 1.
n−1

Cuando n = 2, la sobreestimación de la varianza puede controlarse mediante reescalado. En


efecto, considerando los valores reescalados

  12
π1 π2 − π12
u]i = Yb + (u∗i − Yb )
π12

el estimador bootstrap del total es


n ∗

b] 1 X ]
Y = ∗ u
n i=1 i

y el estimador bootstrap de la varianza está dado por

1 1 π1 π2 − π12
v1R (Yb ) = V ar∗ [Yb ] ] = ∗
V ar∗ [u]1 ] = ∗ V ar∗ [u∗1 ]
n n π12

Entonces, para n = 2 y n∗ = n − 1 resulta

π1 π2 − π12
v1R (Yb ) = (w1 y1 − w2 y2 )2 ,
π12

32
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

que coincide con el estimador usual insesgado de Yates-Grundy de la varianza. No obstante, el


reescalado sólo funciona cuando π1 π2 > π12 .

Desafortunadamente no está claro como extender esta variante del reescalado al caso de un
n cualquiera. Alternativamente, cuando n∗ = n − 1, se puede intentar corregir el sesgo de forma
aproximada introduciendo un factor de corrección en la forma

!2
n X Yb
v1F [Yb ] = (1 − f ) V ar∗ [Yb ∗ ] = (1 − f ) wi · yi − ,
n − 1 i∈s n

donde
n
1X
f= πi .
n i=1

Aunque esta corrección no ha sido aceptada por todos, proporciona una sencilla regla práctica
para reducir la sobreestimación de la varianza.

2.6. Muestreo estratificado

La extensión del método bootstrap a diseños muestrales estratificados es relativamente di-


recta. En primer lugar ha de tenerse en cuenta que las muestras bootstrap deben conformar
una muestra estratificada seleccionada de la muestra de partida. En lo que sigue, este método
se aplicará en los casos de muestreo aleatorio simple con reemplazamiento, muestreo aleatorio
simple sin reemplazamiento, muestreo con probabilidades proporcionales al tamaño muestral
con reemplazamiento y muestreo con probabilidades proporcionales al tamaño muestral sin re-
emplazamiento, dentro de los estratos. Los detalles de aplicación del bootstrap a estos diseños
muestrales ya han sido presentados en las secciones anteriores.

33
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Supóngase que la población se divide en L estratos. Sea Nh el número de unidades de la


población que conforma el estrato h-ésimo, h = 1, . . . , L. El muestreo se lleva a cabo de forma
independiente en los diferentes estratos, y nh denota el tamaño muestral en el estrato h-ésimo.

Sean yhi , i = 1, . . . , nh , las observaciones muestrales en el estrato h-ésimo, h = 1, . . . , L. Y



sea yhi , i = 1, . . . , n∗h , la muestra bootstrap en el estrato h-ésimo, h = 1, . . . , L.

En lo sucesivo, para simplificar, se considerará nh ≥ 2 y n∗h = nh − 1 en todos los estratos;


esto es, el tamaño de las muestras bootstrap es una unidad menos que el tamaño de las muestras
iniciales en cada estrato. Además se supone que las muestras bootstrap se obtienen de forma
independiente en cada estrato mediante muestreo aleatorio simple con reemplazamiento a partir
de la muestra inicial.

2.6.1. Muestreo aleatorio simple con y sin reemplazamiento en los

estratos

En los casos de muestreo aleatorio simple con reemplazamiento y muestreo aleatorio simple
sin reemplazamiento, el estimador estándar para el total poblacional es:

L
X
Yb = Ybh
h=1

donde
h n
Nh X
Ybh = · yhi ,
nh i=1

y su versión bootstrap es:


L
X
Yb ∗ = Ybh∗
h=1

donde ∗
nh
∗ Nh X
Yh = ∗ ·
b y ∗ = Nh y ∗h ,
nh i=1 hi

34
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

con ∗
nh
∗ 1 X
yh = ∗ · y∗ .
nh i=1 hi

Entonces, el estimador bootstrap para la varianza está dado por:

L
X L
X
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ] = Nh2 · V ar∗ [y ∗h ]
h=1 h=1

Y, teniendo en cuenta (2.1) y (2.2), se obtiene que

L
X s2h
v1 [Yb ] = Nh2 ·
h=1
nh

con
h n
1 X
s2h = (yhi − y h )2 .
nh − 1 i

Obsérvese que se trata del estimador usual insesgado para la varianza en el caso de muestreo
aleatorio simple con reemplazamiento.

Sin embargo, v1 [Yb ] es sesgado para el muestreo aleatorio simple sin reemplazamiento ya que
nh
omite los factores de corrección para poblaciones finitas. Si las fracciones de muestreo fh =
Nh
son insignificantes en todos los estratos, el sesgo será pequeño y v1 será suficientemente bueno.
En caso contrario, serı́a deseable reducir el sesgo de alguna forma.

La variante del factor de corrección no es factible aquı́ a menos que el tamaño muestral sea
asignado proporcionalmente a los estratos, en cuyo caso

1 − fh = 1 − f

para todos los estratos y


v1F [Yb ] = (1 − f ) · V ar∗ [Yb ∗ ]

35
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

vuelve a ser el estimador usual insesgado de la varianza.

La variante del reescalado también puede utilizarse para reducir el sesgo. A partir de las
observaciones bootstrap reescaladas

] 1

yhi = y h + (1 − fh ) 2 (yhi − yh) ,

la versión bootstrap del total poblacional es

L
X
Yb ] = Ybh]
h=1

donde ∗
nh
] Nh
X
Ybh = ∗ · y] ,
nh i=1 hi

y el correspondiente estimador bootstrap de la varianza está dado por

L
X s2h
v1R [Yb ] = V ar∗ [Yb ] ] = Nh2 · (1 − fh ) · ,
h=1
nh

que reproduce el estimador usual insesgado de la varianza en el muestreo aleatorio simple sin
reemplazamiento.

2.6.2. Muestreo con probabilidades proporcionales al tamaño mues-

tral con reemplazamiento en los estratos

Si en los estratos se utiliza muestreo con probabilidades proporcionales al tamaño muestral


con reemplazamiento, el estimador del total poblacional es:

L
X
Yb = Ybh
h=1

36
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

donde
nh
1 X
Yh =
b zhi
nh i=1

con
yhi
zhi = .
phi

Su versión bootstrap es
L
X
Yb ∗ = Ybh∗
h=1

donde
nh
∗ 1 X ∗
Yh = ∗
b zhi
nh i=1

con
 ∗
∗ yhi
zhi = .
phi

Y el estimador bootstrap de la varianza está dado por

L
X
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ]
h=1

Entonces, por (2.3), resulta que

L h  n
X 1 X 2
v1 [Yb ] = zhi − Ybh
h=1
nh · (nh − 1) i=1

que es el estimador usual insesgado de la varianza.

37
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

2.6.3. Muestreo con probabilidades proporcionales al tamaño mues-

tral sin reemplazamiento en los estratos

Finalmente, si en los estratos se usa muestreo con probabilidades proporcionales al tamaño


muestral sin reemplazamiento, el estimador de Horvitz-Thompson del total poblacional es

L
X
Yb = Ybh
h=1

donde
nh
1 X
Ybh = uhi
nh i=1

con
uhi = nh · whi · yhi

y
1
whi = .
πhi

Su versión bootstrap es
L
X
Yb ∗ = Ybh∗
h=1

donde ∗
nh
1 X
Ybh∗ = ∗ u∗hi
nh i=1

con
u∗hi = (nh · whi · yhi )∗ .

Adoptando la aproximación de tratar la muestra como si hubiera sido seleccionada me-


diate muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento y

38
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

teniendo en cuenta (2.4), el estimador bootstrap de la varianza es

L L nh
!2
X X nh X Ybh
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ] = whi · yhi −
h=1 h=1
nh − 1 i=1
nh

Nótese que este estimador es sesgado para muestreo con probabilidades proporcionales al ta-
maño muestral sin reemplazamiento y, de hecho, sobreestima V ar[Yb ] en la medida en que la
auténtica varianza sea menor que la obtenida en muestreo con probabilidades proporcionales
al tamaño muestral con reemplazamiento.

En determinadas aplicaciones nh = 2, ∀ h = 1, . . . , L. En estos casos el sesgo en la estimación


de la varianza puede eliminarse trabajando con las observaciones reescaladas

  12
πh1 πh2 − πh12
u]hi = Ybh + (u∗hi − Ybh )
πh12

Entonces, el estimador bootstrap del total es

L
X
Yb ] = Ybh]
h=1

donde ∗
nh
1 X
Ybh] = ∗ u]hi .
nh i=1

Y el estimador bootstrap de la varianza está dado por

L L
X X πh1 πh2 − πh12
v1R (Yb ) = V ar∗ [Ybh] ] = (wh1 yh1 − wh2 yh2 )2 .
h=1 h=1
πh12

39
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

2.7. Muestreo multietápico con estratificación

En esta sección vamos a abordar la estimación bootstrap de la varianza en muestreo estra-


tificado cuando en cada estrato se lleva a cabo un muestreo en dos o más etapas.
En la primera etapa, en cada estrato, haremos uso del muestreo con probabilidades pro-
porcionales al tamaño muestral, con o sin reemplazamiento, para seleccionar una muestra de
conglomerados o unidades primarias de muestreo (PSU). Posteriormente, dentro de cada uni-
dad primaria en cada estrato, se lleva a cabo submuestreo en varias etapas hasta seleccionar en
la última etapa las unidades últimas de muestreo (USU).

El muestreo se supone independiente de un estrato a otro, y el submuestreo dentro de cada


unidad primaria ha de ser independiente del efectuado en las demás.

El método del conglomerado último, introducido por Hansen, Hurwitz y Madow (1953),
permite obtener el estimador de la varianza del estimador del parámetro de interés considerando
el muestreo multietápico como un caso especial de muestreo por conglomerados con una sola
etapa.

Se denomina conglomerado último al conjunto de todas las unidades muestrales de última


etapa que pertenecen a la misma unidad primaria, independientemente de que se realicen una o
varias etapas de muestreo dentro de cada unidad primaria. La consideración del conglomerado
último simplifica considerablemente la estimación de la varianza porque no es necesario calcular
las componentes de la varianza atribuibles a las demás etapas de muestreo dentro de las PSU.

2.7.1. Muestreo con probabilidades proporcionales al tamaño mues-

tral con reemplazamiento en la primera etapa

Consideremos L estratos y supongamos que en cada estrato se seleccionan nh , h = 1, . . . , L,


conglomerados o PSUs mediante muestreo con probabilidades proporcionales al tamaño mues-

40
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

tral con reemplazamiento siendo phi la probabilidad que tiene la i-ésima PSU de ser seleccionada
en cada extracción ( ni=1
P h
phi = 1) en el h-ésimo estrato.

Supongamos que estamos interesados en estimar el total poblacional, Y . Sea Yhi el total
poblacional dentro de la i-ésima PSU en el estrato h-ésimo, esto es, dentro de la (h, i)−ésima
PSU. Y sea Ybhi el estimador de Yhi en el conglomerado ultimo de la i-ésima unidad PSU en el
estrato h-ésimo.

La forma de Ybhi no es importante. Sin embargo, Ybhi deberı́a ser un buen estimador de
Yhi , lo que significa que deberı́a ser insesgado o aproximadamente insesgado. Además, deberı́a
emplearse el mismo estimador (con la misma forma funcional) para cada PSU dentro de un
estrato.

El total poblacional puede estimarse mediante

L
X
Yb = Ybh
h=1

donde
nh nh
1 X Ybhi 1 X
Ybh = = zhi
nh i=1 phi nh i=1

con
Ybhi
zhi = .
phi

Asumiendo muestreo con probabilidades proporcionales al tamaño muestral con reemplaza-


miento, es conocido que el estimador usual insesgado de la varianza V ar[Yb ] es

L L n h 
X X 1 X 2
v[Yb ] = v[Ybh ] = zhi − Yh
b
h=1 h=1
nh · (nh − 1) i=1

41
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Para llevar a cabo la estimación bootstrap, la muestra bootstrap puede construirse mediante
el siguiente procedimiento:

1. Seleccionar una muestra de n∗1 PSUs a partir de la muestra inicial (pseudopoblación) en


el primer estrato mediante muestreo aleatorio simple con reemplazamiento.

2. De manera independiente, tomar una muestra de n∗2 PSUs a partir de la muestra inicial
en el segundo estrato mediante muestreo aleatorio simple con reemplazamiento.

3. Repetir el paso 2 para los restantes estratos, h = 3, . . . , L.

4. Aplicar el método de los conglomerados últimos. Esto significa que cuando una PSU
es seleccionado en la muestra bootstrap, todas las unidades del conglomerado último
son incluidas en la muestra bootstrap. Ası́, la muestra bootstrap conforma una muestra
multietápica, estratificada, de la población. Su diseño es similar al de la muestra de
partida.

La versión bootstrap de Yb es
L
X
Yb ∗ = Ybh∗
h=1

donde ∗ ∗
nh nh
1 X Ybhi∗ 1 X
Ybh∗ = ∗ = ∗ z∗
nh i=1 phi nh i=1 hi

con Ybhi∗ la versión bootstrap de Ybhi en el conglomerado ultimo de la i-ésima unidad PSU en el
estrato h-ésimo, y
∗ Ybhi∗
zhi = .
phi


En el h-ésimo estrato, las variables zhi , i = 1, . . . , n∗h , tienen esperanza y varianza condicio-
nadas comunes dadas por:
nh
∗ 1 X
E∗ [zhi ] = zhi = Ybh
nh i=1

42
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

y
nh 
∗ 1 X 2
V ar∗ [zhi ] = zhi − Ybh .
nh i=1

Ası́, podemos dar el siguiente teorema:

Teorema 2.3 El estimador bootstrap ideal de la varianza está dado por

L L ∗ L nh 
X X V ar∗ [zh1 ] X 1 1 X 2
v1 [Yb ] = V ar∗ [Ybh∗ ] = = · · zhi − Yh
b
h=1 h=1
n∗h n∗ nh i=1
h=1 h

Obsérvese que el estimador bootstrap coincide con el estimador usual insesgado de la varianza
cuando n∗h = nh − 1.
Para otros tamaños de la muestra bootstrap, tales como n∗h = nh , se tiene que v1 es sesgado
de V ar[Yb ]. El sesgo puede ser relevante para tamaños pequeños de nh .

2.7.2. Muestreo πps en la primera etapa

En lo que sigue vamos a centrar nuestra atención en el muestreo multietápico cuando las
nh PSUs son seleccionadas mediante algún esquema πps en cada estrato.

Sea Nh el número de PSUs en el estrato h-ésimo, y supongamos que la probabilidad de


seleccionar la i-ésima PSU en el estrato h-ésimo es

πhi = nh phi ,

PNh
con 0 < πhi < 1, i phi = 1 y phi proporcional al valor Xi de alguna variable auxiliar x.

Sea Yhi el total poblacional en la (h, i)-ésima PSU. Vamos a considerar un estimador del
total poblacional Y de la forma
L
X
Yb = Ybh
h=1

43
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

donde
nh nh
X Ybhi 1 X Ybhi
Ybh = =
i=1
πhi nh i=1 phi

con Ybhi un estimador de Yhi resultado del submuestreo en la segunda y sucesivas etapas.

Si Yhi = E(Ybhi | i), la varianza de Yb está dada por

L L
" nh
# Nh
!
X X X Yhi X σ2 2hi
V ar[Yb ] = V ar(Ybh ) = V ar +
h=1 h=1 i=1
πhi i=1
πhi

2
donde σ2hi = V ar(Ybhi | i) es la contribución a la varianza debida al muestreo en la segunda y
sucesivas etapas dentro de la (h, i)-ésima PSU.

El estimador Yb de este tipo más utilizado es

L
X nh X
L X
X
Yb = Ybh = whij · yhij
h=1 h=1 i=1 j∈shi

donde shi es el conjunto de USUs observadas resultado del submuestreo en la segunda y sucesivas
etapas dentro de la (h, i)−ésima PSU, y whij es el peso asociado a la (h, i, j)−ésima USU.

Yb puede escribirse como


L nh
X 1 X
Yb = uhi.
h=1
nh i=1

donde
X
uhi. = uhij ,
j∈shi

con
uhij = nh · whij · yhij

44
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

La versión bootstrap de Yb es

L
X nh X
L X
X
Yb ∗ = Ybh∗ = ∗
whij · yhij
h=1 h=1 i=1 j∈shi

donde los pesos bootstrap están dados por

∗ nh
whij = thi · · whij
n∗h

siendo thi el número de veces que la (h, i)-ésima PSU es seleccionado en la muestra bootstrap.
thi puede tomar los valores 0, 1, . . . , n∗hi . Para las PSUs no seleccionadas, thi = 0 y los corres-

pondientes pesos bootstrap son también nulos, whij = 0. Para las PSUs seleccionadas pero no
duplicadas en la muestra bootstrap se tiene que thi = 1 y los pesos bootstrap

∗ nh
whij = · whij
n∗h

reflejan el producto del peso de la (h, i)-ésima PSU en la muestra inicial y el inverso de la fracción
de muestreo bootstrap. Para las PSUs seleccionados y duplicadas en la muestra bootstrap se
tiene que thi ≥ 2 y los pesos bootstrap reflejan el producto del peso de la (h, i)-ésima PSU en
la muestra inicial, el inverso de la fracción de muestreo bootstrap, y el número de veces que la
PSU ha sido seleccionada.

Yb ∗ también puede escribirse en la forma

nh ∗
L

X 1 X
Y =
b

u∗hi.
n
h=1 h i=1

con !∗
X
u∗hi. = nh · whij · yhij
j∈shi

la versión bootstrap de uhi. para i = 1, . . . , n∗h , h = 1, . . . , L.

45
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Las variables u∗hi. son independientes e idénticamente distribuidas con varianza condicionada

nh 
1 X 2
V ar∗ [u∗h1. ] = uhi. − Yh
b
nh i=1

Entonces, el estimador bootstrap de la varianza resulta ser ahora

L L
X X V ar∗ [u∗h1. ]
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ] =
h=1 h=1
n∗h

L nh
!2
X nh X X Ybh
= whij · yhij −
h=1
n∗h i=1 j∈shi
nh

Para n∗h = nh − 1, puede probarse que la esperanza del estimador bootstrap es

  !2  
L nh nh Nh
X
E  nh
X Yhi. 1 X Yhi0 . X σ2 2hi 
E[v1 [Yb ]] = − +
h=1
nh − 1 i=1
πhi nh i0 =1 πhi0 i=1
πhi

Comparando esta expresión con la varianza de Yb concluimos que el estimador bootstrap incluye
de forma adecuada las contribuciones a la varianza del submuestreo dentro de cada PSU.

2.8. Estimadores no lineales

En esta sección vamos a considerar la estimación bootstrap de la varianza para estimadores


no lineales.

Una cuestión clave es porqué cabrı́a esperar que el método bootstrap proporcione un esti-
mador de la varianza razonablemente bueno para un estimador no lineal. Hemos visto que el
método bootstrap funciona bien para estimadores lineales, ya que tiene la capacidad de repro-
ducir el estimador usual insesgado de la varianza. Una adecuada elección de n∗ y el método

46
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

del reescalado proporcionan la insesgadez. Puesto que el método funciona con estadı́sticos li-
neales, deberı́a funcionar también con estadı́sticos no lineales dado que localmente poseen un
comportamiento lineal.

Sea T un vector de dimensión p × 1 de totales poblacionales, y sea θ un parámetro general


de interés en una población finita, definido por

θ = g(T ) ,

donde g es continuamente diferenciable.

Si Tb es un estimador insesgado de T obtenido a partir de una muestra s determinada por


algún esquema general de muestreo, entonces el estimador de θ es

θ̂ = g(Tb)

El método bootstrap para estimar V ar(θ̂) se concreta en los siguientes pasos:

1. Obtener una muestra bootstrap s∗1 por los métodos vistos en las secciones anteriores.

2. Determinar T̂1∗ , la versión bootstrap de los totales estimados basada en la muestra boots-
trap.

3. Calcular la versión bootstrap del estimador θ̂1∗ = g(T̂1∗ )

4. Si es posible, determinar el estimador bootstrap ideal de la varianza, v1 [θ̂] = V ar∗ [θ̂1∗ ],


finalizando de este modo el procedimiento de estimación bootstrap. En caso contrario,
continuar con los siguientes pasos y emplear el método de Monte Carlo para aproximar
el estimador ideal bootstrap.

5. Tomar A − 1 muestras bootstrap más, s∗α , lo que da un total de A muestras. Las muestras
deben ser mutuamente independientes.

47
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

6. Determinar T̂α∗ , las versiones bootstrap de los totales estimados para α = 1, . . . , A.

7. Calcular las versiones bootstrap del estimador θ̂α∗ = g(T̂α∗ ) para α = 1, . . . , A.

8. Finalmente, calcular el estimador bootstrap de Monte Carlo de la varianza:

A 
1 2
θ̂α∗ − θ̄ˆ∗
X
v2 [θ̂] = ·
A − 1 α=1

con:
A
1 X ∗
θ̄ˆ∗ = · θ̂
A α=1 α

Como alternativa conservadora se puede calcular v2 en términos de las diferencias al cua-


drado respecto de θ̂ en lugar de θ̄ˆ∗ .

A continuación vamos a mostrar, a modo de ejemplo, cómo puede aplicarse el método al


importante problema del estimador de razón.

Supondremos que se ha entrevistado a una muestra multietápica seleccionada dentro de L


estratos, obteniéndose ası́ observaciones yhij , xhij para la j−ésima unidad última de muestreo
(USU) seleccionada dentro de la i−ésima unidad primaria de muestreo (PSU) obtenida en el
h−ésimo estrato. Los estimadores usuales de los totales poblacionales son:

nh X
L X
X mhi
Yb = whij · yhij
h=1 i=1 j=1

y
nh X
L X
X mhi
X
b= whij · xhij
h=1 i=1 j=1

donde nh es el número de PSUs seleccionados dentro del estrato h-ésimo, mhi es el número de
USUs entrevistadas dentro de la (h, i)-ésimo PSU, y whij es el peso asignado a la (h, i, j)−ésima
USU. Dichos pesos reflejan los inversos de las probabilidades de inclusión y quizás otros factores,

48
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

y son especificados de modo que Yb y X


b sean estimadores insesgados o casi insesgados de los

correspondientes totales poblacionales Y y X.

A menudo resulta de interés en la investigación en encuestas la razón de los totales

θ = Y /X ,

que se estima habitualmente por


θ̂ = Yb /X
b.

Para estimar V ar(θ̂) debemos obtener de forma independiente A muestras bootstrap como
se indicó en la sección 2.7, y para cada una de ellas, α = 1, . . . , A, calcular las versiones
bootstrap de los totales poblacionales:

nh X
L X
X mhi
Ybα∗ = wαhij · yhij
h=1 i=1 j=1

y
nh X
L X
X mhi
b∗ =
X wαhij · xhij
α
h=1 i=1 j=1

donde los pesos bootstrap están dados por

nh
wαhij = tαhi · · whij
n∗h

siendo tαhi el número de veces que la (h, i)-ésima PSU de la muestra inicial es seleccionada
dentro de la α-ésima muestra bootstrap.

Entonces calcularemos las versiones bootstrap de la razón

θ̂α∗ = Ybα∗ /X
b∗
α

49
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

para α = 1, . . . , A.

Finalmente, evaluaremos el estimador bootstrap de Monte Carlo de la varianza

A 
1 X
∗ ˆ ∗
2
v2 [θ̂] = · θ̂ − θ̄
A − 1 α=1 α

Otro importante parámetro de interés en la investigación en encuestas está definido como


la solución de la ecuación:
N
X
[Yi − µ(Xi θ)]Xi = 0
i=1

Si se considera una variable dependiente y dicotómica y

exθ
µ(xθ) = ,
1 + exθ

el parámetro θ se corresponde con aquél que define el modelo de regresión simple logı́stica;
mientras que para una variable dependiente y cualquiera y

µ(xθ) = xθ ,

el parámetro θ se corresponde con la pendiente en el modelo de regresión lineal simple sin


término constante.

Dado el plan de muestreo multietápico con estratificación considerado anteriormente, el


estimador θ̂ está definido como la solución de la ecuación

nh X
L X mhi
ˆ · xhij = 0
X
whij · [yhij − µ(xhij θ)]
h=1 i=1 j=1

50
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

El estimador θ̂ puede ser obtenido mediante el método iterativo de Newton-Raphson:

" L n m #−1 nh X
L X mhi
XX h X
hi X
(k+1) (k) 0 (k)
θ̂ = θ̂ + whij · µ (xhij θ̂ )· x2hij · whij · [yhij − µ(xhij θ̂(k) )] · xhij
h=1 i=1 j=1 h=1 i=1 j=1

siendo


µ(xθ) · [1 − µ(xθ)], para el problema de regresión simple logı́stica

µ0 (xθ) =

1, para el problema de regresión lineal simple

Para la α-ésima muestra bootstrap, la versión bootstrap θ̂α∗ del estimador θ̂ está definida
como la solución de la ecuación

nh X
L X
X mhi
wαhij · [yhij − µ(xhij θ̂α∗ )] · xhij = 0
h=1 i=1 j=1

donde los pesos bootstrap wαhij están definidos como se vio anteriormente. θ̂α∗ puede obtenerse
de nuevo mediante el método iterativo de Newton-Raphson. Finalmente, haciendo uso de las A
muestras bootstrap, el estimador bootstrap de la varianza de θ̂ es

A 
1 2
θ̂α∗ − θ̄ˆ∗
X
v2 [θ̂] = ·
A − 1 α=1

El método puede extenderse de forma directa al caso multivariante, en el que θ es (p × 1) y


Xi es (1 × p).

51
Capı́tulo 3
Aplicaciones con R

3.1. Introducción

En este capı́tulo, como aplicación de los métodos estudiados, se presentan varias funciones
implementadas en el entorno de programación estadı́stica R con el propósito de obtener la
estimación bootstrap de Monte Carlo de la varianza del parámetro de interés, ası́ como su
sesgo, en el caso de emplear muestreo aleatorio simple.

También se analizan brevemente las funciones, de utilidad para nuestros propósitos, de la


librerı́a boot de R, en la que podemos encontrar los métodos y conjuntos de datos del libro
”Bootstrap Methods and Their Applications”, de A. C. Davison y D. V. Hinkley (1997).

Además, se desarrollan varios ejemplos con la ayuda de las funciones comentadas.

3.2. Muestreo aleatorio simple con reemplazamiento

La función BootSRSWR, de elaboración propia, proporciona el estimador bootstrap de Mon-


te Carlo del error estándar de un estadı́stico de interés y del sesgo de dicho estadı́stico, cuando

52
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

se emplea muestreo aleatorio simple con reemplazamiento para construir las muestras bootstrap
a partir de la muestra de partida.

Los argumentos de la función son:

data Objeto de tipo vector, matrix o dataframe. Si es un vector, cada componente corres-
ponde a una observación univariante de la muestra inicial; en caso contrario, cada fila
corresponde a una observación multivariante de la muestra inicial.

statistic Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico de
interés. Debe tener 2 argumentos: el primero corresponde a los datos originales (data);
y el segundo es un vector de ı́ndices que determinará la muestra bootstrap.

m Tamaño de las muestras bootstrap que se van a generar

A Número de muestras bootstrap que se van a generar.

El valor de la función es un objeto de tipo lista con elementos:

t0 El valor observado del estadı́stico de interés aplicado a data.

t Un vector con las réplicas bootstrap del estadı́stico de interés, resultado de aplicar la
función statistic.

mean La media de las réplicas bootstrap del estadı́stico de interés.

var La estimación bootstrap de la varianza del estadı́stico de interés.

sd La estimación bootstrap del error estándar del estadı́stico de interés.

bias La estimación bootstrap del sesgo del estadı́stico de interés.

data El objeto pasado a la función BootSRSWR como argumento data.

st El estadı́stico pasado a la función BootSRSWR como argumento statistic.

53
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

m El escalar pasado a la función BootSRSWR como argumento m.

Además, la función genera un histograma de la distribución de las estimaciones bootstrap del


estadı́stico de interés.

El código de la función se presenta en el Apéndice A.

Por otra parte, el paquete boot proporciona funciones útiles para llevar a cabo la estimación
bootstrap en este caso. En concreto, son de especial interés las funciones boot y boot.ci.

La función boot genera muestras bootstrap de un estadı́stico de interés a partir de unos


datos de partida, y proporciona la estimación bootstrap del error estándar del estadı́stico de
interés y de su sesgo.

A continuación resumimos los argumentos de la función que son de interés para nuestros propósi-
tos:

data Objeto de tipo vector, matrix o dataframe. Si es un vector, cada componente corres-
ponde a una observación univariante de la muestra inicial; en caso contrario, cada fila
corresponde a una observación multivariante de la muestra inicial.

statistic Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico
de interés. Para el caso de bootstrap no paramétrico statistic debe tener 2 argumentos:
el primero corresponde a los datos originales (data); y el segundo será habitualmente
un vector de ı́ndices que determinará la muestra bootstrap.

R Número de muestras bootstrap a generar.

sim Cadena de caracteres que especifica el tipo de simulación requerida. Su valor por
defecto es ordinary, que corresponde al bootstrap no paramétrico.

54
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

El valor de la función es un objeto de clase boot. Se trata de una lista en la que destacamos los
elementos:

t0 El valor observado del estadı́stico de interés aplicado a data.

t Una matriz cuyas filas corresponden a las réplicas bootstrap del estadı́stico de interés,
resultado de aplicar la función statistic.

statistic El estadı́stico pasado a la función boot como argumento statistic.

R El escalar pasado a la función boot como argumento R.

data El objeto pasado a la función boot como argumento data.

La función boot.ci calcula hasta 5 tipos de intervalos de confianza bootstrap no paramétri-


cos, a saber, normal, básico, t, percentil y BCa. Sus argumentos más relevantes son:

boot.out Objeto de clase boot resultado de aplicar la función boot a unos datos observados.

conf Escalar o vector que especifica los niveles de confianza deseados.

type Vector de cadenas de caracteres especificando el tipo de intervalos de confianza reque-


ridos. Su valor debe ser un subconjunto de entre los valores c(“norm”, “basic”, “stud”,
“perc”, “bca”), o simplemente “all” si se quieren calcular los 5 tipos de intervalos.

El valor de la función es un objeto de tipo boot.ci. Se trata de una lista con elementos:

R El número de réplicas bootstrap en las que están basados los intervalos.

t0 El valor observado del estadı́stico de interés en la misma escala que los intervalos.

call La llamada a la función boot.ci.

normal Matriz de intervalos calculados usando la aproximación normal

55
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

basic Intervalos calculados por el método bootstrap básico.

student Intervalos calculados por el método bootstrap estudentizado.

percent Intervalos calculados por el método bootstrap del percentil.

bca Intervalos calculados por el método bootstrap BCa.

Ejemplo 3.1 En la librerı́a bootstrap de R podemos encontrar el conjunto de datos law. Se


trata de un dataframe que contiene las observaciones muestrales de la puntuación media en
las pruebas de admisión, LSAT , y del promedio de calificaciones en grado medio, GP A, en 15
Facultades de Derecho.

> library(bootstrap)
> law
LSAT GPA
1 576 339
2 635 330
3 558 281
4 578 303
5 666 344
6 580 307
7 555 300
8 661 343
9 651 336
10 605 313
11 653 312
12 575 274
13 545 276
14 572 288
15 594 296

56
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Este conjunto de datos es una muestra aleatoria del conjunto de datos law82 que corresponde
a una población de 82 Facultades de Derecho. Se pretende estimar la correlación entre las
puntuaciones LSAT y GP A, y calcular el error estándar de la estimación bootstrap de la
correlación muestral.

La correlación poblacional y su estimación muestral, a partir de law, están dadas por

> cor(law82$LSAT,law82$GPA)
[1] 0.7599979
> cor(law$LSAT,law$GPA)
[1] 0.7763745

Vamos a hacer uso de la función BootSRSWR especificando muestras bootstrap del mis-
mo tamaño que la muestra inicial. A continuación se muestra el código necesario y la salida
proporcionada por R.

> BootSRSWR(law, function(x,i) cor(x[i,1], x[i,2]), 15, 2000)

Estimaci{\’o}n a partir de la muestra inicial: 0.77637

Media de las estimaciones bootstrap: 0.76913


Estimaci{\’o}n bootstrap de la varianza: 0.01873
Error est{\’a}ndar: 0.13684
Estimaci{\’o}n bootstrap del sesgo: -0.00725

La Figura 3.1 muestra la distribución de las estimaciones bootstrap obtenidas.

La estimación bootstrap puede obtenerse también haciendo uso de la función boot del pa-
quete boot. El código a ejecutar y la salida obtenida son los siguientes:

> boot.obj <- boot(data=law, statistic=function(x,i) cor(x[i,1], x[i,2]), R


=2000)
> boot.obj

57
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Distribución de las estimaciones bootstrap

587

440

294

147

0.00 0.25 0.50 0.75 1.00

Figura 3.1: Distribución de las estimaciones bootstrap de la correlación lineal entre LSAT y
GP A

ORDINARY NONPARAMETRIC BOOTSTRAP

Call: boot(data = law, statistic = function(x, i) cor(x[i, 1], x[i, 2]), R =


2000)

Bootstrap Statistics :
original bias std. error
t1* 0.7763745 -0.005824032 0.1287397

Finalmente vamos a calcular los intervalos de confianza bootstrap para la correlación lineal
entre LSAT y GP A, al nivel de confianza del 95 %, mediante la función boot.ci.

> boot.ci(boot.obj, type="all")


BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on 2000 bootstrap replicates

58
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

CALL : boot.ci(boot.out = boot.obj, type = "all")

Intervals : Level Normal Basic


95 % ( 0.5299, 1.0345 ) ( 0.5897, 1.0770 )

Level Percentile BCa


95 % ( 0.4757, 0.9631 ) ( 0.3647, 0.9398 )
Calculations and Intervals on Original Scale

Ejemplo 3.2 El conjunto de datos patch del paquete bootstrap contiene medidas de cierta hor-
mona en el caudal sanguı́neo de 8 individuos tras haber llevado tres parches médicos diferentes:
un parche placebo (placebo), un parche antiguo (old) y un parche nuevo (new).

> library(bootstrap)
> patch
subject placebo oldpatch newpatch z y
1 1 9243 17649 16449 8406 -1200
2 2 9671 12013 14614 2342 2601
3 3 11792 19979 17274 8187 -2705
4 4 13357 21816 23798 8459 1982
5 5 9055 13850 12560 4795 -1290
6 6 6290 9806 10157 3516 351
7 7 12412 17208 16570 4796 -638
8 8 18806 29044 26325 10238 -2719

Se considera el parámetro de interés θ definido como:

E[new] − E[old]
θ=
E[old] − E[placebo]

59
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Si |θ| ≤ 0.2 se acepta la bioequivalencia de los parches antiguos y los nuevos; esto es,
se asumirá que a todos los efectos terapeúticos los parches producen el mismo efecto en los
pacientes. El estadı́stico es de la forma Y /Z, con Y = new − old y Z = old − placebo. Vamos a
determinar los estimadores bootstrap de la desviación estándar y del sesgo del estadı́stico razón
de bioequivalencia.

El código necesario, especificando muestras bootstrap del mismo tamaño que la muestra de
partida, y la salida proporcionada por R, se muestran a continuación:

> BootSRSWR(patch[,c("y","z")], function(x,i) mean(x[i,1])/mean(x[i,2]), 8,


2000)

Estimaci{\’o}n a partir de la muestra inicial: -0.07131

Media de las estimaciones bootstrap: -0.06659


Estimaci{\’o}n bootstrap de la varianza: 0.01075
Error est{\’a}ndar: 0.10368
Estimaci{\’o}n bootstrap del sesgo: 0.00472

La Figura 3.2 muestra la distribución de las estimaciones bootstrap obtenidas.

3.3. Muestreo aleatorio simple sin reemplazamiento

La función BootSRSWOR, de elaboración propia, proporciona el estimador bootstrap de


Monte Carlo del error estándar de un estadı́stico de interés y del sesgo de dicho estadı́stico,
cuando se emplea muestreo aleatorio simple sin reemplazamiento para construir las muestras
bootstrap a partir de la muestra de partida. La función implementa las variantes BW O y M M .

Los argumentos de la función son:

60
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Distribución de las estimaciones bootstrap

394

296

197

98

−0.30 −0.11 0.07 0.26 0.45

Figura 3.2: Distribución de las estimaciones bootstrap de la razón de bioequivalencia

data Objeto de tipo vector, matrix o dataframe. Si es un vector, cada componente corres-
ponde a una observación univariante de la muestra inicial; en caso contrario, cada fila
corresponde a una observación multivariante de la muestra inicial.

variante Cadena de caracteres que especifica las variantes del método bootstrap que se van
a utilizar. Sus valores pueden ser: “BWO”, para la variante BW O; “MM”, para la
variante M M ; u “all”, si se van a utilizar las dos variantes.

statistic Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico de
interés. Debe tener 2 argumentos: el primero corresponde a los datos originales (data);
y el segundo es un vector de ı́ndices que determinará la muestra bootstrap.

N El tamaño de la población de la que se ha extraı́do la muestra inicial

m Vector o escalar, en función de variante. Si variante es “all”, m es un vector que


especifica el tamaño de las muestras bootstrap que se van a generar en la variante
BW O y el número de grupos aleatorios en los que se dividirá la muestra inicial en la
variante M M .

61
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

A Número de muestras bootstrap que se van a generar.

El valor de la función es un objeto de tipo lista con elementos:

t0 El valor observado del estadı́stico de interés aplicado a data.

t Lista con componentes BWO, MM, o ambas, según variante. Cada componente con-
tiene las réplicas bootstrap del estadı́stico de interés, resultado de aplicar la función
statistic, para la correspondiente variante.

mean El vector de medias de las réplicas bootstrap del estadı́stico de interés para variante.

var El vector de estimaciones bootstrap de la varianza del estadı́stico de interés para


variante.

sd El vector de estimaciones bootstrap del error estándar del estadı́stico de interés para
variante.

bias El vector de estimaciones bootstrap del sesgo del estadı́stico de interés para variante.

data El objeto pasado a la función BootSRSWOR como argumento data.

st El estadı́stico pasado a la función BootSRSWOR como argumento statistic.

N El escalar pasado a la función BootSRSWOR como argumento N

m El vector o escalar pasado a la función BootSRSWOR como argumento m.

Además, la función genera histogramas de la distribución de las estimaciones bootstrap del


estadı́stico.

El código de la función se encuentra en el Apéndice A.

62
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Ejemplo 3.3 A partir de la muestra law del ejemplo 3.2, vamos a obtener las estimaciones
bootstrap de la media poblacional y de la correlación lineal entre ambas variables, mediante
muestreo aleatorio simple sin reemplazamiento BW O y M M .

Utilizaremos la función BootSRSWOR implementada. Para la variante BWO vamos a cons-


truir muestras bootstrap del mismo tamaño que la muestra de partida, 15. En el caso de la
variante M M vamos a considerar grupos aleatorios de tamaño 5 de la muestra de partida. A
continuación recogemos el código necesario y las salidas proporcionadas por R:

Medias poblacionales de LSAT y GP A.

La medias poblacionales y su estimaciones muestrales, a partir de law, están dadas por

> sapply(law82[,-1], mean)*c(1,100)


LSAT GPA
597.5488 313.4878
> sapply(law, mean)
LSAT GPA
600.2667 309.4667

Las estimaciones bootstrap de la varianza y el sesgo de la medias muestrales de LSAT y


GP A son:

> BootSRSWOR(law$LSAT, "all", function(x,i) mean(x[i]), 82, c(15,5), 2000)

Estimaci{\’o}n a partir de la muestra inicial: 600.2667

Media de las estimaciones bootstrap: 600.26827 (BWO) 600.5931 (MM)


Estimaci{\’o}n bootstrap de la varianza: 92.6593 (BWO) 228.73238 (MM)
Error est{\’a}ndar: 9.62597 (BWO) 15.1239 (MM)
Estimaci{\’o}n bootstrap del sesgo: 0.0016 (BWO) 0.32643 (MM)

> BootSRSWOR(law$GPA, "all", function(x,i) mean(x[i]), 82, c(15,5), 2000)

63
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Estimaci{\’o}n a partir de la muestra inicial: 309.4667

Media de las estimaciones bootstrap: 309.50737 (BWO) 309.3127 (MM)


Estimaci{\’o}n bootstrap de la varianza: 29.13469 (BWO) 81.1138 (MM)
Error est{\’a}ndar: 5.39766 (BWO) 9.00632 (MM)
Estimaci{\’o}n bootstrap del sesgo: 0.0407 (BWO) -0.15397 (MM)

Las Figuras 3.3 y 3.4 muestran la distribución de las estimaciones bootstrap obtenidas.

Distribución de las estimaciones bootstrap (BWO)

400

300

200

100

565.24 583.87 602.50 621.13 639.76

Distribución de las estimaciones bootstrap (MM)

263

197

132

66

560.27 581.39 602.50 623.61 644.73

Figura 3.3: Distribución de las estimaciones bootstrap de la media poblacional de LSAT

64
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Distribución de las estimaciones bootstrap (BWO)

304

228

152

76

294.11 302.55 311.00 319.45 327.89

Distribución de las estimaciones bootstrap (MM)

431

323

216

108

280.19 295.10 310.00 324.90 339.81

Figura 3.4: Distribución de las estimaciones bootstrap de la media poblacional de GP A

Correlación lineal entre LSAT y GP A.

> BootSRSWOR(law, "all", function(x,i) cor(x[i,1], x[i,2]), 82, c(15,5),


2000)

Estimaci{\’o}n a partir de la muestra inicial: 0.77637

Media de las estimaciones bootstrap: 0.77171 (BWO) 0.76072 (MM)


Estimaci{\’o}n bootstrap de la varianza: 0.01478 (BWO) 0.05582 (MM)
Error est{\’a}ndar: 0.12159 (BWO) 0.23626 (MM)
Estimaci{\’o}n bootstrap del sesgo: -0.00466 (BWO) -0.01565 (MM)

La Figura 3.5 muestra la distribución de las estimaciones bootstrap obtenidas.

65
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

Distribución de las estimaciones bootstrap (BWO)

323

242

162

81

0.25 0.44 0.62 0.81 1.00

Distribución de las estimaciones bootstrap (MM)

754

566

377

188

−0.30 0.03 0.35 0.67 1.00

Figura 3.5: Distribución de las estimaciones bootstrap de la correlación lineal entre LSAT y
GP A

66
Apéndice A
Funciones implementadas

BootSRSWR

function (data, statistic, m, A) {


n <- NROW(data)
index <- seq_len(n)

theta0 <- statistic(data, index)


cat("\nEstimaci{\’o}n a partir de la muestra inicial:", round(theta0, digits
=5))

Index.boot <- replicate(A, sample(index, m, replace=TRUE), simplify=FALSE)


theta.boot <- sapply(Index.boot, statistic, x = data)

av <- mean(theta.boot)
cat("\n\nMedia de las estimaciones bootstrap: ", round(av, digits=5))

Var <- var(theta.boot)


cat("\nEstimaci{\’o}n bootstrap de la varianza: ", round(Var, digits=5))

Sd <- sqrt(Var)
cat("\nError est{\’a}ndar: ", round(Sd, digits=5))

67
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

sesgo <- av - theta0


cat("\nEstimaci{\’o}n bootstrap del sesgo: ", round(sesgo, digits=5))

hist(theta.boot, freq=TRUE, main="Distribuci{\’o}n de las estimaciones


bootstrap", axes=FALSE, xlab = "", ylab="", col=terrain.colors(20))
a <- diff(par()$usr[1:2])
axis(1, line = 0.25, at = round(seq(par()$usr[1]+0.04*a, par()$usr[2]-0.04*a
, length.out=5L), digits=2))
axis(2, line = 0.25, at = round(seq(0, par()$usr[4]/1.04, length.out=5L)),
las=1)

cat("\n")

out <- list(t0 = theta0, t = theta.boot, mean = av, var = Var, sd = Sd, bias
= sesgo, data = data, st = statistic, m = m)

invisible(out)
}

BootSRSWOR

function (data, variante="all", statistic, N, m, A) {


n <- NROW(data)

index <- seq_len(n)

theta0 <- statistic(data, index)


cat("\nEstimaci{\’o}n a partir de la muestra inicial:", round(theta0, digits
=5))

theta.boot <- vector("list", 2)


names(theta.boot) <- c("BWO","MM")

68
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

if (is.element(variante, c("BWO", "all"))){


k <- round(N/n)
index.U <- rep(index, each=k)
Index.boot <- replicate(A, sample(index.U, m, replace=FALSE), simplify=
FALSE)
theta.boot$BWO <- sapply(Index.boot, statistic, x = data)
}

if (is.element(variante, c("MM", "all"))){


M <- switch(variante, MM=m[1], all=m[2])
if(M < n){
k <- ceiling(M*(1-M/n)/(M*(1-n/N)))
Index.boot <- replicate(A, unlist(replicate(k, sample(index, M,
replace=FALSE), simplify=FALSE)), simplify=FALSE)
theta.boot$MM <- sapply(Index.boot, statistic, x = data)
}
else cat("No es posible calcular la variante MM (m debe ser menor que n)
")
}

j <- switch(variante, BWO=1L, MM=2L, all=c(1,2))


theta.boot <- theta.boot[j]

av <- structure(sapply(theta.boot, mean), names=c("BWO","MM")[j])


cat("\n\nMedia de las estimaciones bootstrap: ", paste(round(av, digits=5),
" (", names(av), ")", sep="", collapse=" "))

Var <- structure(sapply(theta.boot, var), names=c("BWO","MM")[j])


cat("\nEstimaci{\’o}n bootstrap de la varianza: ", paste(round(Var, digits
=5), " (", names(Var), ")", sep="", collapse=" "))

Sd <- structure(sapply(theta.boot, sd), names=c("BWO","MM")[j])

69
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

cat("\nError est{\’a}ndar: ", paste(round(Sd, digits=5), " (", names(Var), "


)", sep="", collapse=" "))

sesgo <- structure(av - theta0, names=c("BWO","MM")[j])


cat("\nEstimaci{\’o}n bootstrap del sesgo: ", paste(round(sesgo, digits=5),
" (", names(Var), ")", sep="", collapse=" "))

par(mfrow=c(length(theta.boot),1))

if (is.element(variante, c("BWO", "all"))){


hist(theta.boot$BWO, freq=TRUE, main="Distribuci{\’o}n de las
estimaciones bootstrap (BWO)", axes=FALSE, xlab = "", ylab="", col=
terrain.colors(20))
a <- diff(par()$usr[1:2])
axis(1, line = 0.25, at = round(seq(par()$usr[1]+0.04*a, par()$usr
[2]-0.04*a, length.out=5L), digits=2))
axis(2, line = 0.25, at = round(seq(0, par()$usr[4]/1.04, length.out=5L)
), las=1)
}

if (is.element(variante, c("MM", "all"))){


hist(theta.boot$MM, freq=TRUE, main="Distribuci{\’o}n de las
estimaciones bootstrap (MM)", axes=FALSE, xlab = "", ylab="", col=
terrain.colors(20))
a <- diff(par()$usr[1:2])
axis(1, line = 0.25, at = round(seq(par()$usr[1]+0.04*a, par()$usr
[2]-0.04*a, length.out=5L), digits=2))
axis(2, line = 0.25, at = round(seq(0, par()$usr[4]/1.04, length.out=5L)
), las=1)
}

cat("\n")

70
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

out <- list(t0 = theta0, t = theta.boot, mean = av, var = Var, sd = Sd, bias
= sesgo, data = data, st = statistic, N = N, m = m)

invisible(out)
}

71
Apéndice B
Diseños muestrales y estimadores usuales

Algunos diseños muestrales

srs wor muestreo aleatorio simple con reemplazamiento

srs wr muestreo aleatorio simple sin reemplazamiento

pps wor muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento

pps wr muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento

pps wr + srs wor Etapa 1: muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento

Etapa 2: muestreo aleatorio simple con reemplazamiento

pps wor + srs wor Etapa 1: muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento

Etapa 2: muestreo aleatorio simple con reemplazamiento

L strata muestreo estratificado

NOTA: En este documento todas las menciones a los estimadores usuales de la varianza hacen referencia

a los estimadores de la varianza de la siguiente tabla, a menos que se especifique lo contrario.

72
Diseño Estimador Varianza Estimador usual de la Varianza

S2 s2
V ar[Yb ] = N 2 · (1 − f ) · n v[Yb ] = N 2 · (1 − f ) · n
1
Pn
Yb = f · i=1 yi
srs wor 1
PN 2 1
Pn 2
S2 = N −1 i=1 Yi − Y s2 = n−1 · i=1 (yi − ȳ)
n
f= N
1 1
PN Pn
Y = N · i=1 Yi y= n · i=1 yi
Bootstrap en poblaciones finitas

σ2 s2
Pn V ar[Yb ] = N 2 · n v[Yb ] = N 2 · n
srs wr Yb = N · yi
i=1
1
PN 2 1
Pn 2
σ2 = N i=1 Yi − Y s2 = n−1 · i=1 (yi − ȳ)
 2  2
pps wor
Pn yi PN PN Yi Yj PN PN πi ·πj −πij yi yj
Yb = i=1 πi V ar[Yb ] = i=1 j>i (πi · πj − πij ) · πi − πj v[Yb ] = i=1 j>i πij · πi − πj

73
1
PN 2
V ar[Yb ] = n · i=1 pi · (Zi − Y )  2
1 yi 1
Pn Pn
pps wr Yb = · v[Yb ] = · zi − Yb
n i=1 pi n·(n−1) i=1
Yi
Zi = pi
 2
1 Yi.
Pn
V ar[Yb.. ] = n · i=1 pi · pi − Y.. +  2
1 Mi ·y i. 1 Mi ·y i.
Pn Pn
pps wr + srs wor Yb.. = · v[Yb.. ] = · − Yb..
n i=1 pi n·(n−1) i=1 pi
PN Mi2 Si2
+ n1 · i=1 pi · (1 − f2i ) · mi
 2  2
Pn Mi ·y i. PN PN Yi. Yj. Pn Pn πi ·πj −πij Mi ·y i. Mj ·y j.
Yb.. = i=1 πi V ar[Yb.. ] = i=1 j>i (πi · πj − πij ) · πi − πj + v[Yb.. ] = i=1 j>i πij · πi − πj +
pps wor + srs wor
PN Mi2 Si2 Pn Mi2 s2i
πi = n · pi + i=1 πi · (1 − f2i ) · mi + i=1 πi · (1 − f2i ) · mi

PL PL PL
L strata Yb = h=1 Ybh V ar[Yb ] = h=1 V ar[Ybh ] v[Yb ] = v[Ybh ]
h=1
Samuel Nicolás Gil Abreu
Bibliografı́a

[1] Arnold, S.F.- Gibbs Sampling. Handbook of Statistics 9: Computational Statistics. North
Holland. 1993.

[2] Beran, R.- Jackknife approximations to bootstrap estimates. Ann. Statist., 12, 101-118.
1984.

[3] Bickel, P.J., & Freedman, D.A.- Some asymptotic theory for the bootstrap. Ann. Statist.,
9, 1196-1217. 1981.

[4] Chambers, R.L. & Skinner, C.J. ed.- Analysis of Survey Data, Wiley Series in Survey
Methodology. Wiley. 2003.

[5] Davison, A.C. & Hinkley, D.V.- Bootstrap Methods and Their Applications. Cambridge
University Press. 1997.

[6] Diciccio, T.J., & Romano, J.P.- A review of bootstrap confidence intervals. J.R.S.S. B, 50,
338-354. 1988.

[7] Diciccio, T.J., & Efron, B.- Bootstrap confidence intervals. Stat. Science. 11, 189-228. 1996.

[8] Efron, B.- Bootstrap Methods: Another Look at the Jackknife. Ann. Statist., 7, 1-26. 1979.

[9] Efron, B.- Better bootstrap confidence intervals. J.A.S.A., 82, 171-200. 1987.

[10] Efron, B., & Tibshirani, R.J.- An introduction to the bootstrap. Chapman & Hall. 1993.

[11] Everitt, B. S. & Hothorn, T.- A Handbook of Statistical Analyses Using R. 2006.

74
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu

[12] Freedman, D.A.- Bootstrap regresion models. Ann. Statist., 9, 1218-1228. 1981.

[13] Gambino, J.G.- PPS: Functions for PPS sampling. 2005.

[14] Ghosh, M. et al.- A note on bootstrapping the sample median. Ann. Statist., 12, 1130-1135.
1984.

[15] Hall, P.- On the bootstrap and confidence intervals. Ann. Statists., 14, 1431-1452. 1986.

[16] Hinkley D. V.- Bootstrap methods. J.R.S.S. B, 50, 321-337. 1988.

[17] LePage, R. & Billard, L. eds.- Exploring the limits of boostrap. J. Wiley. 1992.

[18] Lumley, T.- Survey: analysis of complex survey samples. 2010.

[19] Maindonald, J. & Braun, J.- Data Analysis and Graphics Using R. Cambridge University
Press. 2007.

[20] Mooney, C.Z. & Duval, R.D.- Bootstrapping: A nonparametric approach to statistical
inference. Beverly Hill: Sage Publication. 1993.

[21] Rao, C.R. ed.- Handbook of Statistics 9: Computational Statistics. North-Holland. 1993.

[22] Rizzo, M.- Statistical Computing with R. Chapman & Hall. 2007.

[23] Thompson, M.E.- Theory of Sample Surveys. Chapman & Hall. 1997.

[24] Wu, C.F.J.- Jackknife, bootstrap and other resampling methods in regresion analysis. Ann.
Statist., 14, 1261-1295. 1986.

[25] Wolter, K. M.- Introduction to Variance Estimation. Springer, 5. 1985.

75

También podría gustarte