TFM Samuel Gil Abreu

Universidad de Granada
Departamento de Estadı́stica e Investigación Operativa
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Máster Oficial en Estadı́stica Aplicada
Granada, julio de 2014

Índice general
1. EL MÉTODO BOOTSTRAP 4
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Estimación bootstrap de la distribución del estimador de un parámetro de interés 6
1.3. Estimación bootstrap del error estándar . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Estimación bootstrap del sesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5. Intervalos de confianza bootstrap: Métodos de construcción . . . . . . . . . . . . 8
1.5.1. Intervalo de confianza bootstrap Normal estándar . . . . . . . . . . . . . 8
1.5.2. Intervalo de confianza bootstrap percentil . . . . . . . . . . . . . . . . . 9
1.5.3. Intervalo de confianza bootstrap básico . . . . . . . . . . . . . . . . . . . 10
1.5.4. Intervalo de confianza bootstrap t (estudentizado) . . . . . . . . . . . . . 11
1.5.5. Intervalo de confianza bootstrap mejorado, BCa . . . . . . . . . . . . . . 12
2. BOOTSTRAP EN POBLACIONES FINITAS 15

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2. Muestreo aleatorio simple con reemplazamiento . . . . . . . . . . . . . . . . . . 17
2.3. Muestreo aleatorio simple sin reemplazamiento . . . . . . . . . . . . . . . . . . . 19
2.3.1. Variante del factor de corrección (F) . . . . . . . . . . . . . . . . . . . . 21
2.3.2. Variante del reescalado (R) . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.3. Variante BWR (Replacement bootstrap) . . . . . . . . . . . . . . . . . . 22
2.3.4. Variante BWO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.5. Variante Mirror-Match (MM) . . . . . . . . . . . . . . . . . . . . . . . . 25
2
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
2.4. Muestreo con probabilidades proporcionales al tamaño muestral con reemplaza-

miento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5. Muestreo con probabilidades proporcionales al tamaño muestral sin reemplaza-
miento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6. Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.1. Muestreo aleatorio simple con y sin reemplazamiento en los estratos . . . 34
2.6.2. Muestreo con probabilidades proporcionales al tamaño muestral con re-
emplazamiento en los estratos . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6.3. Muestreo con probabilidades proporcionales al tamaño muestral sin re-
emplazamiento en los estratos . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7. Muestreo multietápico con estratificación . . . . . . . . . . . . . . . . . . . . . . 40
2.7.1. Muestreo con probabilidades proporcionales al tamaño muestral con re-
emplazamiento en la primera etapa . . . . . . . . . . . . . . . . . . . . . 40
2.7.2. Muestreo πps en la primera etapa . . . . . . . . . . . . . . . . . . . . . . 43
2.8. Estimadores no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3. Aplicaciones con R 52
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2. Muestreo aleatorio simple con reemplazamiento . . . . . . . . . . . . . . . . . . 52
3.3. Muestreo aleatorio simple sin reemplazamiento . . . . . . . . . . . . . . . . . . . 60
A. Funciones implementadas 67
B. Diseños muestrales y estimadores usuales 72
3
Capı́tulo 1
EL MÉTODO BOOTSTRAP
1.1. Introducción
El bootstrap fue introducido en 1979 por Bradley Efron, aunque experimentó avances en
años sucesivos gracias a aportaciones de otros autores como Robert Tibshirani, Michael Cher-
nick, Jun Shao o Anthony Davison.
Los métodos bootstrap son una clase de métodos Monte Carlo no paramétricos que
pretenden estimar la distribución de una población mediante remuestreo. Los métodos de
remuestreo tratan una muestra observada como una población finita, y generan muestras
aleatorias a partir de ella para estimar caracterı́sticas poblacionales y hacer inferencia sobre la
población muestreada. A menudo estos métodos se usan cuando no se conoce la distribución
de la población objetivo, de modo que la muestra es la única información disponible.
El término bootstrap puede referirse a bootstrap no paramétrico o bootstrap pa-

ramétrico. Los métodos de Monte Carlo que implican el muestreo a partir de una distribución
de probabilidad completamente especificada, son conocidos como bootstrap paramétrico. En el
caso no paramétrico la distribución no se especifica.
4
La distribución de la población finita representada por la muestra puede ser vista como
una pseudopoblación con caracterı́sticas similares a las de la verdadera población. Generando
repetidamente muestras aleatorias de esta pseudopoblación (remuestreo), se puede estimar la
distribución muestral de un estadı́stico. El remuestreo permite también estimar propiedades de
un estimador tales como su sesgo o su error estándar.
Cabe señalar que las estimaciones bootstrap de una distribución de muestreo son análogas
a la idea de estimación de la densidad. El histograma de una muestra proporciona una esti-
mación de la forma de la función de densidad. El histograma no es la densidad, pero desde el
punto de vista no paramétrico puede ser visto como una estimación razonable de la misma.
Existen métodos para generar muestras aleatorias de densidades completamente especificadas;
el bootstrap genera muestras aleatorias a partir de la distribución empı́rica de la muestra.
Supongamos que x = {x1 , . . . , xn } es una muestra aleatoria observada de una distribución

con función de distribución F (x). Si a partir de x se selecciona aleatoriamente X ∗ , entonces
1
P [X ∗ = xi ] = , i = 1, . . . , n
n
El remuestreo genera una muestra aleatoria X1∗ , . . . , Xn∗ mediante el muestreo con reempla-
zamiento de x. Las variables aleatorias Xi∗ son independientes e idénticamente distribuidas de
manera uniforme en el conjunto de {x1 , . . . , xn }.
La función de distribución empı́rica, Fn (x), es un estimador de F (x). Puede probarse que

Fn (x) es un estadı́stico suficiente de F (x); es decir, toda la información sobre F (x) contenida
en la muestra está también contenida en Fn (x). Aún más, Fn (x) es en sı́ misma la función de
distribución de una variable aleatoria, a saber, la variable aleatoria que se distribuye de manera
uniforme en el conjunto x = {x1 , . . . , xn }. Por tanto, la función de distribución empı́rica Fn es la
función de distribución de X ∗ . Ası́, en bootstrap, pueden considerarse dos aproximaciones. Por
una parte, Fn es una aproximación de FX ; y, por otra, la función de distribución empı́rica Fm∗ de
5
las réplicas bootstrap es una aproximación de Fn . El remuestreo a partir de x equivale a generar

muestras aleatorias de la distribución Fn (x). Las dos aproximaciones pueden ser representadas
mediante el diagrama
F → X → Fn
Fn → X ∗ → Fn∗
Para generar una muestra aleatoria bootstrap mediante remuestreo de x, basta generar n
números enteros aleatorios {i1 , . . . , in } uniformemente distribuidos en 1, . . . , n y seleccionar la
muestra bootstrap x∗ = {xi1 , . . . , xin }.
1.2. Estimación bootstrap de la distribución del estima-
dor de un parámetro de interés
Sea θ un parámetro poblacional de interés (que puede ser un vector) y θ̂ un estimador de

θ. Entonces, la estimación bootstrap de la distribución de θ̂ se obtiene como sigue:
1. Para cada réplica bootstrap, indexada por b = 1, . . . , B:
a) Generar la muestra x∗(b) = {x∗1 , . . . , x∗n } mediante muestreo con reemplazamiento a

partir de la muestra observada {x1 , . . . , xn }
b) Calcular la réplica b−ésima de θ̂(b) a partir de la b−ésima muestra bootstrap.
2. La estimación bootstrap de Fθ̂ (·) es la distribución empı́rica de las réplicas θ̂(1) , . . . , θ̂(B) .
6
1.3. Estimación bootstrap del error estándar
La estimación bootstrap del error estándar de un estimador θ̂ es la desviación estándar

muestral de las réplicas bootstrap θ̂(1) , . . . , θ̂(B) , dada por
v
u B
u 1 X (b)
σ
bθ̂∗ =t (θ̂ − θ̂∗ )2
B − 1 b=1
donde
B
1 X (b)
θ̂∗ = θ̂ .
B b=1
Según Efron y Tibshirani, el número de réplicas necesarias para obtener una buena esti-
mación del error estándar no es elevado; por lo general B = 50 es suficiente, y con escasa
frecuencia se precisa B > 200. En cambio, sı́ es necesario que B sea mucho mayor para la
estimación mediante intervalos de confianza.
1.4. Estimación bootstrap del sesgo
Si θ̂ es un estimador insesgado de θ, entonces E[θ̂] = θ. En general el sesgo de un estimador

θ̂ de θ está dado por
sesgo[θ̂] = E[θ̂ − θ] = E[θ̂] − θ .
Ası́, cada estadı́stico es un estimador insesgado de su valor esperado y, en particular, la media

muestral de una muestra aleatoria es un estimador insesgado de la media de la distribución.
La estimación bootstrap del sesgo utiliza las réplicas bootstrap de θ̂ para estimar la dis-
tribución muestral de θ.
b Para una población finita x = (x1 , . . . , xn ), el parámetro es θ̂(x) y
disponemos de B estimadores independientes e idénticamente distribuidos, θ̂(b) . Dado que la

media muestral de las réplicas {θ̂(b) } es insesgada para su valor esperado E[θ̂∗ ], la estimación
7
bootstrap del sesgo es:

esgo[θ̂] = θ̂∗ − θ̂
s\
1
PB
siendo θ̂∗ = B b=1 θ̂(b) y θ̂ = θ̂(x) la estimación obtenida a partir de la muestra observada x.
Cabe señalar que en bootstrap se muestrea Fn en lugar de FX , luego θ se reemplazará por

θ̂ a la hora de estimar el sesgo. Además, un sesgo positivo indicará que θ̂ tiende a sobreestimar
en media a θ, y un sesgo negativo indicará que θ̂ subestima a dicho parámetro.
1.5. Intervalos de confianza bootstrap: Métodos de cons-
trucción
En esta sección vamos a presentar diversas aproximaciones para construir intervalos de

confianza bootstrap para un parámetro de interés.
1.5.1. Intervalo de confianza bootstrap Normal estándar
Esta aproximación es la más simple, aunque no necesariamente la mejor. Sea θ̂ un estimador

del parámetro θ con error estándar σθ̂ . Si θ̂ es una media muestral y el tamaño muestral es
grande, entonces por el Teorema Central del Lı́mite se tiene que
θ̂ − E[θ̂]
Z=
σθ̂
se aproxima a una Normal estándar.
Por consiguiente, si θ̂ es insesgado para θ, resulta de forma aproximada que
θ̂ ± zα/2 · σθ̂
8
donde zα/2 = Φ−1 (1− α2 ), con Φ la función de distribución de la Normal estándar, es un intervalo
de confianza para θ al nivel de confianza 100(1 − α) %.
Este intervalo es fácil de calcular, aunque acabamos de ver que requiere varios supuestos. Por
un lado, θ̂ debe tener distribución normal o ser una media muestral y que el tamaño muestral
sea suficientemente grande; y, por otro, θ̂ debe ser insesgado para θ.
Además, aquı́ σθ̂ se ha tratado como un parámetro conocido, aunque en bootstrap es esti-
mado por la desviación estándar muestral de las réplicas bootstrap de θ̂, lo que proporciona el
intervalo
θ̂ ± zα/2 · σ
bθ̂∗ .
El sesgo puede ser estimado y utilizado para centrar el estadı́stico Z, lo que da lugar al
intervalo corregido por el sesgo
bθ̂∗ − (θ̂∗ − θ̂) = (2θ̂ − θ̂∗ ) ± zα/2 · σ

θ̂ ± zα/2 · σ bθ̂∗ ,
que está centrado en (2θ̂ − θ̂∗ ).
1.5.2. Intervalo de confianza bootstrap percentil
Utiliza la distribución empı́rica de las réplicas bootstrap como distribución de referencia. Los
cuantiles de la distribución empı́rica son estimadores de los cuantiles de la distribución muestral
de θ̂, con lo que estos cuantiles aleatorios reproducirán mejor la verdadera distribución cuando
la distribución de θ̂ no sea Normal.
Supóngase que θ̂(1) , . . . , θ̂(B) son las réplicas bootstrap del estadı́stico θ̂. A partir de la
α
función de distribución de las réplicas se calculan los cuantiles de órdenes 2
y 1 − α2 , θ̂ α2 y θ̂1− α2 ,
respectivamente, que definen el intervalo de confianza.
9
Efron y Tibshirani probaron que el intervalo Percentil presenta ventajas teóricas sobre el
intervalo normal estándar y un mejor comportamiento en la práctica.
1.5.3. Intervalo de confianza bootstrap básico
Este intervalo transforma la distribución de las réplicas bootstrap restando el estadı́stico

observado. Los cuantiles de la muestra transformada se usan para determinar los lı́mites de
confianza.
Considérese T un estimador de θ, y sea kα el cuantil de orden α de T − θ. Entonces:
P [T − θ > kα ] = 1 − α ⇒ P [T − kα > θ] = 1 − α
Ası́, un intervalo de confianza al nivel de confianza 100 · (1 − 2α) % con el mismo error α en
la cola inferior y superior, está dado por (t − k1−α , t − kα ).
En bootstrap, la distribución de T es habitualmente desconocida, pero los cuantiles pueden

ser estimados.
Sea θ̂α el cuantil de orden α calculado a partir de la función de distribución empı́rica de las
réplicas θ̂∗ . Y sea bα el cuantil de orden α de θ̂∗ − θ̂. Entonces b̂α = θ̂α − θ̂ es un estimador de
bα .
Por tanto, un lı́mite de confianza superior aproximado para un nivel de confianza del 100(1−
α) % está dado por
θ̂ − b̂α/2 = θ̂ − (θ̂α/2 − θ̂) = 2θ̂ − θ̂α/2 .
De un modo similar un lı́mite inferior de confianza aproximado está dado por
2θ̂ − θ̂1−α/2 .
10
Ası́, el intervalo de confianza bootstrap básico al nivel de confianza del 100(1 − α) % es
(2θ̂ − θ̂1−α/2 , 2θ̂ − θ̂α/2 )
1.5.4. Intervalo de confianza bootstrap t (estudentizado)

θ̂ − E[θ̂]
Incluso si θ̂ tiene distribución normal y θ̂ es insesgado para θ, el estadı́stico Z = no
σθ̂
sigue exactamente una distribución normal, dado que σθ̂ es estimada. Tampoco puede afirmarse
que se trate de un estadı́stico t de Student puesto que se desconoce la distribución del estimador
bootstrap σ
bθ̂ .
El intervalo de confianza bootstrap t, o estudentizado, no utiliza la distribución t de Student
como distribución de referencia, sino que genera mediante remuestreo la distribución muestral
de un estadı́stico de “tipo t”.
Sea x = (x1 , . . . , xn ) la muestra aleatoria observada. Se obtiene el correspondiente estadı́stico

observado θ̂. El intervalo de confianza bootstrap t al nivel de confianza 100(1 − α) % es
(θ̂ − t∗1−α/2 · σ
bθ̂ , θ̂ − t∗α/2 · σ
bθ̂ )
bθ̂ , t∗1−α/2 y t∗α/2 se calculan como sigue:

donde σ
1. Calcular θ̂ = θ̂(x).
2. Para cada réplica bootstrap, indexada por b = 1, . . . , B:
(b) (b)
a) Generar la b-ésima muestra bootstrap x(b) = (x1 , . . . , xn ) mediante muestreo con
reemplazamiento a partir de x
b) Calcular θ̂(b) a partir de la b-ésima muestra bootstrap x(b) .
bθ̂(b) remuestreando a partir de x(b) , no de x, de

c) Calcular o estimar el error estándar σ
forma independiente para cada muestra bootstrap.
11
d ) Obtener la b-ésima réplica del estadı́stico “t”,
θ̂(b) − θ̂
t(b) =
σ
bθ̂(b)
3. Obtener los cuantiles muestrales t∗α/2 y t∗1−α/2 de la muestra ordenada de réplicas t(b) , dado
que la muestra de réplicas t(1) , . . . , t(B) es la distribución de referencia para “t”.
bθ̂ como la desviación estándar muestral de las réplicas θ̂(b) .

4. Calcular σ
5. Determinar los lı́mites de confianza θ̂ − t∗1−α/2 · σ

bθ̂ y θ̂ − t∗α/2 · σ
bθ̂ .
La desventaja de este tipo de intervalos reside en que la estimación de los errores estándar
σ
bθ̂(b) debe obtenerse mediante bootstrap. Ası́, si B = 1000, el tiempo empleado en calcular el
intervalo de confianza bootstrap t es aproximadamente 1000 veces mayor que el empleado en
aplicar cualquiera de los otros métodos.
1.5.5. Intervalo de confianza bootstrap mejorado, BCa
Los intervalos de confianza bootstrap mejorados son una variante de los intervalos percentil
que poseen mejores propiedades teóricas y proporcionan un rendimiento superior en la práctica.
Para un nivel de confianza 100 · (1 − α) %, los habituales cuantiles de órdenes α/2 y 1 − α/2
son ajustados por dos factores: una corrección para el sesgo, y otra para la asimetrı́a o ajuste
de aceleración.
El intervalo de confianza bootstrap mejorado, que notamos BCa, está dado por
(θ̂α∗ 1 , θ̂α∗ 2 ) ,
donde los lı́mites de confianza están dados por los cuantiles muestrales de órdenes
12

ẑ0 + zα/2
α1 = Φ ẑ0 +
1 − â(ẑ0 + zα/2 )
y

ẑ0 + z1−α/2
α2 = Φ ẑ0 +
1 − â(ẑ0 + z1−α/2 )
de las réplicas bootstrap, donde

zα = Φ−1 (α) ,
B
!
1 X
ẑ0 = Φ−1 I(θ̂(b) < θ̂)
B b=1
y
Pn
i=1 (θ() − θ(i) )3
â = Pn q
6· i=1 ((θ() − θ(i) )2 )3/2
con I la función indicadora.
El factor de corrección del sesgo, ẑ0 , es en realidad una estimación de una medida del sesgo
mediano de las réplicas θ̂∗ de θ̂. Si θ̂ es la mediana de las réplicas bootstrap, entonces ẑ0 = 0.
El factor de aceleración, â, es una estimación de una medida de la asimetrı́a a partir de las
réplicas jackknife.
Cabe señalar que existen otros métodos para estimar la aceleración. El factor de aceleración â
debe su nombre a que estima la tasa de cambio del error estándar de θ̂ con respecto al parámetro
θ (en una escala normalizada). Al usar el intervalo de confianza bootstrap normal estándar se
supone que θ̂ es aproximadamente Normal con esperanza θ y varianza σ(2θ̂) independiente del
parámetro θ. Sin embargo, no siempre es cierto que la varianza de un estimador sea constante
con respecto al parámetro. El factor de aceleración tiene como objetivo ajustar los lı́mites
de confianza para tener en cuenta la posibilidad de que la varianza de los estimadores pueda
depender del verdadero valor del parámetro a estimar.
Los intervalos de confianza bootstrap BCa tienen dos importantes ventajas teóricas:
13
Son “invariantes” frente a transformaciones en el parámetro, es decir, si (θ̂α∗ 1 ; θ̂α∗ 2 ) es un

intervalo de confianza de este tipo para θ, y t(θ) es una transformación del parámetro θ,
entonces

t(θ̂α∗ 1 ), t(θ̂α∗ 2 )
es el intervalo correspondiente para t(θ).
Tienen precisión de segundo orden, esto es, su error tiende a 0 a la velocidad 1/n.
El intervalo de confianza bootstrap t tiene precisión de segundo orden, pero no es respetado

por las transformaciones. El intervalo de confianza bootstrap percentil sı́ es respetado por las
transformaciones, pero tiene precisión de primer orden (su error tiende a cero a la velocidad
p
1/ (n)). Y el intervalo de confianza bootstrap Normal no posee ninguna de estas propiedades.
14
Capı́tulo 2
BOOTSTRAP EN POBLACIONES FINITAS
2.1. Introducción
En este capı́tulo vamos a tratar el problema de estimación de la varianza en el muestreo en

poblaciones finitas mediante el método bootstrap.
Como sabemos el método bootstrap es un método de replicación. Otros métodos de repli-

n
cación son: el método de los grupos aleatorios, basado en réplicas de tamaño ; el método de
k
n
las semimuestras, que emplea réplicas de tamaño ; y el método jackknife, que trabaja con
2
réplicas de tamaño n − j. En comparación con los métodos anteriores, el método bootstrap
utiliza réplicas de cualquier tamaño n∗ .
Sea Y1 , . . . , Yn una muestra de una variables aleatorias independientes e idénticamente dis-

tribuidas con función de distribución F . Sea θ un parámetro desconocido de la distribución
que se desea estimar. Notaremos θb al estimador muestral de θ. En lo sucesivo trataremos el
problema de estimar la varianza de θ,
b V ar[θ],
b muestreando repetidamente.
Una muestra bootstrap es una muestra aleatoria simple con reemplazamiento de tamaño n∗
seleccionada a partir de una muestra inicial, que es considerada como una pseudopoblación
para este muestreo. Notaremos Y1∗ , . . . , Yn∗ a las observaciones bootstrap.
15
Sea θb∗ el estimador bootstrap de θ, que tiene la misma forma funcional que θb pero aplicado
a la muestra bootstrap en lugar de a la muestra de partida. Entonces, el estimador bootstrap
de V ar[θ]
b está definido por
b = V ar∗ [θb∗ ]
v1 [θ]
donde V ar∗ denota la varianza condicionada dada la muestra inicial o pseudopoblación.
El muestreo bootstrap repetido a partir de la muestra de partida genera muestras alter-

nativas que podrı́an haber sido seleccionadas como muestra de partida de F . Ası́, la idea de
este método es emplear la varianza en el muestreo bootstrap repetido para estimar la varianza,
V ar[θ].
b
En casos sencillos en los que θb es lineal es posible determinar la expresión de v1 [θ].

b Sin
embargo, en general, no se tiene la expresión exacta y es preciso recurrir a una aproximación.

Dicho método de aproximación consta de tres pasos:
1. Generar un número grande, A, de muestras bootstrap independientes a partir de la mues-

tra inicial.
2. Para cada muestra bootstrap calcular el correspondiente estimador θbα∗ , α = 1, . . . , A, del

parámetro de interés.
3. Determinar la varianza muestral de los valores θbα∗ , α = 1, . . . , A; esto es:
A
1 X b∗ b∗ 2
v2 [θ]
b = θ −θ
A − 1 α=1 α
con:
∗ A
1 X b∗
θ =
b θ
A α=1 α
Claramente v2 converge a v1 cuando A → ∞. Efron y Tybshirani (1986) comentan que un

valor de A entre 50 y 200 es adecuado en muchas situaciones.
16
La aproximación v2 de v1 es fácil de calcular en todos los casos. En lo que sigue vamos a

estudiar el estimador bootstrap para diseños muestrales sencillos y estimadores lineales, para
los que se dispone de resultados exactos. El método bootstrap funciona bien en estos casos, en
los que los estimadores habituales de la varianza también están disponibles, y este adecuado
comportamiento motiva su uso en diseños más complicados, para los que no disponemos de
los estimadores habituales de la varianza. Finalmente se considerarán diseños más complejos y
estimadores no lineales.
2.2. Muestreo aleatorio simple con reemplazamiento
Supóngase que se desea estimar la media poblacional Y de una variable y en estudio en una
población finita U de tamaño N . Se seleccionan n unidades en la población mediante muestreo
aleatorio simple con reemplazamiento. Sean y1 , . . . , yn los valores muestrales de y. Entonces, es
habitual estimar Y mediante la media muestral; esto es:
1X
y= yi
n
Es sabido que la varianza de este estimador y el estimador usual de la varianza vienen dados,
respectivamente, por:
σ2
V ar[y] =
n
y
s2
v[y] =
n
siendo:
N
2 1 X
σ = (Yi − Y )2
N i=1
17
y
n
21 X
s = (yi − y)2
n − 1 i=1
Además, v[y] es un estimador insesgado de V ar[y].
En este caso, la muestra bootstrap y1∗ , . . . , yn∗ ∗ es una m.a.s. con reemplazamiento de tamaño
n∗ obtenida a partir de la muestra inicial de tamaño n, y el correspondiente estimador para la
media poblacional es la media muestral
1 X ∗
y∗ = yi
n∗
1
Considérese, por ejemplo, y1∗ . Dado que P [y1∗ = yi ] =, i = 1, . . . , n, entonces la media y
n
la varianza condicionadas de y1∗ , dada la muestra de partida, están dadas por:
n
1X
E∗ [y1∗ ] = yi = y
n i=1
y
n
1X n−1 2
V ar∗ [y1∗ ] = (yi − y)2 = ·s
n i=1 n
respectivamente. Dado que las observaciones bootstrap y1∗ , . . . , yn∗ ∗ son independientes e idénti-
camente distribuidas por construcción, la media y la varianza condicionadas de y ∗ , dada la
muestra de partida, resultan ser:
n
1X
E∗ [y ∗ ] = E∗ [y1∗ ] = yi = y
n i=1
y
1 n − 1 s2
v1 [y] = V ar∗ [y ∗ ] = · V ar [y
∗ 1
∗
] = · ∗ (2.1)
n∗ n n
18
respectivamente. Ası́, en general, el estimador bootstrap de la varianza v1 [y] no coincide con el

estimador usual de la varianza v[y] y no es un estimador insesgado de V ar[y]. Esta deseable
propiedad se obtiene si y sólo si n∗ = n − 1.
Teorema 2.1 Dada una muestra aleatoria simple con reemplazamiento de tamaño n de una
población finita de tamaño N , el estimador bootstrap de la varianza, v1 [y], es un estimador
insesgado de V ar[y] si y sólo si el tamaño de la muestra bootstrap es una unidad menos que
el tamaño de la muestra original; es decir, n∗ = n − 1. Para n∗ = n el sesgo de v1 [y] como
estimador de V ar[y] está dado por
1
sesgo[v1 [y]] = − · V ar[y]
n
Para tamaños muestrales grandes, el sesgo no parece ser relevante, mientras que para ta-
maños muestrales pequeños podrı́a ser muy importante. Por ejemplo, si n = 2 y n∗ = n el sesgo
serı́a del 50 %.
2.3. Muestreo aleatorio simple sin reemplazamiento
El método bootstrap no se adecúa con facilidad a los diseños muestrales sin reemplazamien-
to, incluso en los casos más simples. En esta sección se describen algunas variaciones del método
estándar que pueden ser apropiados para el muestreo aleatorio simple sin reemplazamiento. El
parámetro de interés será la media poblacional Y .
Sea s la muestra de partida de tamaño n y s∗ la muestra bootstrap de tamaño n∗ . En

principio se supondrá que s∗ se ha obtenido a partir de s mediante muestreo aleatorio simple
con reemplazamiento. Más adelante se cambiará este supuesto.
19
La media muestral y es el estimador habitual de la media poblacional. Es fácil probar que

para el estimador bootstrap
1 X ∗
y∗ = yi
n∗
se tiene que:
1X
E∗ [y ∗ ] = E∗ [yi∗ ] = yi = y
n i∈s
y
1 1 1 X n − 1 s2
V ar∗ [y ∗ ] = V ar [y
∗ i
∗
] = · · (yi − y)2
= · ∗
n∗ n n∗ i∈s n n
Cabe señalar que estos resultados no se ven afectados por el diseño muestral de la muestra
de partida sino únicamente por el diseño de la muestra bootstrap, de modo que coinciden con
los obtenidos en la sección anterior para el muestreo aleatorio simple con reemplazamiento.
Teorema 2.2 Sea y1∗ , . . . , yn∗ ∗ una muestra bootstrap de tamaño n∗ obtenida mediante muestreo
aleatorio simple con reemplazamiento de la muestra de partida s, la cual a su vez es elegida de
la población mediante muestreo aleatorio simple sin reemplazamiento. Entonces, el estimador
bootstrap de V ar[y] está dado por
n − 1 s2
v1 [y] = V ar∗ [y ∗ ] = · ∗ (2.2)
n n
Por tanto, para el muestreo aleatorio simple sin reemplazamiento, el estimador v1 [y] de la
varianza
S2
V ar[y] = (1 − f ) ·
n
no coincide con el estimador insesgado usual
s2
v[y] = (1 − f ) ·
n
20
Y el sesgo de v1 [y] es
n − 1 S2 S2
sesgo[v1 [y]] = E[v1 [y]] − V ar[y] = · ∗ − (1 − f ) ·
n n n
En el caso particular n∗ = n − 1 se tiene que el estimador bootstrap
s2
v1 [y] =
n
es sesgado, con
S2 S2 S2
sesgo[v1 [y]] = − (1 − f ) · =f·
n n n
Si f es pequeño, el sesgo de v1 es despreciable. En lo que sigue presentamos cuatro variantes

del método bootstrap estándar para abordar situaciones en las que f no es pequeño.
2.3.1. Variante del factor de corrección (F)
Si n∗ = n − 1, un estimador insesgado de la varianza está dado simplemente por
v1F (y) = (1 − f ) · v1 [y]
2.3.2. Variante del reescalado (R)
Rao y Wu (1988) definieron el estimador bootstrap de la varianza en términos de las obser-

vaciones reescaladas r
p n∗
yi] =y+ 1−f · · (yi∗ − y)
n−1
La media bootstrap es ahora
n ∗ r
1 X ] p n∗
]
y = ∗ yi = y + 1 − f · · (y ∗ − y)
n i=1 n−1
21
y, en virtud del teorema 2.2, el estimador bootstrap de la varianza es
n∗ 1−f 2
v1R [y] = V ar∗ [y ] ] = (1 − f ) · · V ar∗ [y ∗ ] = ·s
n−1 n
Nótese que v1R coincide con el estimador usual de la varianza de y en muestreo aleatorio
simple sin reemplazamiento, que es insesgado.
Si se considera n∗ = n, entonces las observaciones reescaladas son
r
p n
yi] =y+ 1−f · · (yi∗ − y),
n−1
mientras que la elección n∗ = n − 1 proporciona
p
yi] = y + 1 − f · (yi∗ − y)
2.3.3. Variante BWR (Replacement bootstrap)
El método bootstrap con reemplazamiento, debido a McCarthy y Snowden (1985), pretende

eliminar el sesgo de V ar∗ [y ∗ ] haciendo una elección adecuada del tamaño muestral. Tomando
n−1
n∗ =
1−f
en v1 [y], resulta
1−f 2
v1BW R [y] = ·s ;
n
esto es, el estimador usual insesgado de V ar[y] en muestreo aleatorio simple sin reemplazamien-
to.
22
n−1
En la práctica, puesto que es muy probable que el cociente no sea un número entero,
−f
1
∗ 0 n−1
podemos tomar como tamaño n de la muestra bootstrap n = , n00 = n0 + 1, o una
1−f
aleatorización entre n0 y n00 , donde [[ ]] denota la función entero mayor. Wolter (1985) prefiere
la primera elección, n∗ = n0 , dado que devuelve un estimador conservador de la varianza y su
sesgo es suficientemente pequeño en muchas ocasiones.
2.3.4. Variante BWO
Gross (1980) introdujo este método bootstrap sin reemplazamiento en el que la muestra
bootstrap es obtenida por muestreo aleatorio simple sin reemplazamiento. Esto es, tanto la
muestra inicial como la bootstrap tienen en común que se obtienen sin reemplazamiento.
Esta variante supone un importante avance teórico, pero su implementación práctica en
muchos diseños es aparentemente complicada.
El procedimiento se resume en cuatro pasos:

N
1. Se toma k = y se copia cada elemento de la muestra inicial k veces para crear una nueva
n
N
pseudopoblación Us de tamaño N , cuyos elementos denotamos yj0 j=1 . Exactamente k
de estos valores yj0 coinciden con los yi , ∀ i = 1, . . . , n.
2. Construir la muestra bootstrap s∗ de tamaño n∗ a partir de Us mediante muestreo aleatorio

simple sin reemplazamiento
3. Determinar la media bootstrap:

n ∗
∗ 1 X ∗
y = ∗ y
n i=1 i
4. Calcular el estimador bootstrap teórico v1BW O (y) = V ar∗ [y ∗ ] o repetir los tres pasos
anteriores un gran número de veces A y calcular la versión de Monte Carlo:
 2
A A
1 y ∗α − 1
X X
v2BW O [y] = y ∗α0 
A − 1 α=1 A 0
α =1
23
Puesto que s∗ se obtiene mediante muestreo aleatorio simple sin reemplazamiento de Us , la

esperanza y la varianza condicionadas de y ∗ quedan en la forma habitual; esto es:
N
∗ 1 X 0 1 X k X k
E∗ [y ] = yj = kyi = yi = ny = y
N j=1 N i∈s N i∈s N
y
N N
!2
∗ ∗ s∗ 2 ∗ 1 1 X
0 1 X 0
V ar∗ [y ] = (1 − f ) · ∗ = (1 − f ) · ∗ · · yj − y0
n n N − 1 j=1 N j 0 =1 j
1 1 X
= (1 − f ∗ ) · · · k (yi − y)2
n∗ N − 1 i∈s
1 N k
= (1 − f ∗ ) · ∗
· · · (n − 1) · s2
n N −1 N
1 N 1
= (1 − f ∗ ) · ∗
· · · (n − 1) · s2
n N −1 n
donde:
n∗
f∗ =
N
y
1 X
s2 = · (yi − y)2
n − 1 i∈s
Por tanto, se concluye que, en general, el estimador bootstrap v1BW O [y] = V ar∗ [y ∗ ] ni es
insesgado ni coincide con el estimador usual de la varianza
s2
v[y] = (1 − f ) ·
n
n
con f = .
N
24
Si n∗ = n, entonces:

1−f 2 N n−1
v1BW O (y) = ·s · ·
n N −1 n
y el estimador bootstrap es sesgado por el factor:
N · (n − 1)
C=
n · (N − 1)
Para alcanzar la insesgadez puede redefinirse el estimador bootstrap multiplicándolo por C −1 ,
v1BW O = C −1 · V ar∗ [y ∗ ] ,
o trabajar con los valores reescalados
√
yi] = y + C · (yi∗ − y)
N
Otra de las dificultades es que k = no es en general un número entero. El método puede
n
0 N 00 0 0
modificarse para trabajar con k igual a k = , k = k + 1, o una aleatorización entre k
n
00 0 0
y k . Siguiendo el paso 1, esta aproximación crea pseudopoblaciones de tamaños N = n · k ,
00 00
N = n · k , o una aleatorización entre los dos.
2.3.5. Variante Mirror-Match (MM)
Este método fue introducido por Sitter (1992a, 1992b) para el caso en que la fracción de
muestreo f se grande (no sea despreciable). Se resume en los cuatro pasos siguientes:
1. Elegir una submuestra o grupo aleatorio de tamaño m ∈ Z, 1 ≤ m < n, de la muestra de

partida s mediante muestreo aleatorio simple sin reemplazamiento.
25
2. Repetir el paso anterior k veces, con
n 1−e
k= ·
m 1−f
m
donde e = . Ası́, la muestra bootstrap estará formada por los k grupos aleatorios
n
seleccionados y tendrá tamaño n∗ = m · k.
3. Determinar la media bootstrap
n ∗ k m k
∗ 1 X ∗ 1 XX ∗ 1 X ∗
y = ∗ y = y = y
n i=1 i k m j=1 r=1 i k j=1 j
siendo y ∗j la media muestral del j-ésimo grupo aleatorio seleccionado, j = 1, . . . , m.
4. Calcular el estimador bootstrap teórico v1M M (y) = V ar∗ [y ∗ ], o repetir los tres pasos
anteriores un gran número de veces, A, y calcular la versión de Monte Carlo:
 2
A A
1 X
y ∗α − 1
X
v2M M [y] = y ∗α0 
A − 1 α=1 A 0
α =1
El tamaño de la muestra bootstrap,
1−e
n∗ = n · ,
1−f
difiere del tamaño de la muestra de partida a través de la razón de dos factores de corrección
en poblaciones finitas. La elección m = f · n implica que la fracción de submuestreo e coincide
con la fracción principal de muestreo, f . En este caso, n∗ = n .
Por definición, las medias muestrales y ∗j , j = 1, . . . , m, son variables aleatorias independien-

tes e idénticamente distribuidas con medias y varianzas condicionadas:
E∗ [y ∗j ] = y
26
y
s2
V ar∗ [y ∗j ] = (1 − e) ·
m
respectivamente, con
n
1 X
s2 = (yi − y)2
n − 1 i=1
Por tanto, el estimador bootstrap de la varianza es
1 m 1−f s2 s2
v1M M (y) = · V ar∗ [y ∗j ] = · · (1 − e) · = (1 − f ) ·
k n 1−e m n
que es el estimador usual insesgado de la varianza V ar[y].
En la práctica, puesto que k no es habitualmente un número entero, puede redefinirse k

como

0 n 1−e
k = · ,
m 1−f
00 0 0 00
k = k + 1, o una aleatorización entre k y k . La primera elección devuelve un estimador
conservador de la varianza.
2.4. Muestreo con probabilidades proporcionales al ta-
maño muestral con reemplazamiento
Otro caso sencillo surge cuando se selecciona la muestra mediante muestreo con proba-
bilidades proporcionales al tamaño muestral con reemplazamiento. Supóngase ahora que se
desea estimar el total poblacional, Y , de una variable y, y que se dispone de los valores Xi ,
i = 1, . . . , n, de una variable auxiliar X en toda la población. Para formar la muestra se hace
uso de una medida del tamaño de Xi y de n valores aleatorios independientes rk , k = 1, . . . , n,
de una distribución U (0, 1).
27
Para el k-ésimo número aleatorio rk , se selecciona la única unidad i para la que Si−1 < rk ≤
Si , donde las sumas acumuladas están definidas por:
 i
 X


 p i0 i = 1, . . . , N
Si = 0
i =1


0

i=0
y
Xi
pi =
X
Sea yk el valor de la variable y para la unidad aleatoriamente seleccionada a partir de rk , e

Irk ∈(Si−1 ,Si ] la variable indicadora


 1 si rk ∈ (Si−1 , Si ]

Irk ∈(Si−1 ,Si ] =

 0 en otro caso

Entonces, el estimador insesgado estándar para el total poblacional está dado por
n n N n
1 X yk 1 XX Yi 1X
Yb = = Irk ∈(Si−1 ,Si ] · = zk
n k=1 pk n k=1 i=1 pi n k=1
con
N
X Yi
zk = Irk ∈(Si−1 ,Si ] ·
i=1
pi
Sea ahora r1∗ , . . . , rn∗ ∗ una muestra bootstrap obtenida de la pseudopoblación, r1 , . . . , rn ,

mediante muestreo aleatorio simple con reemplazamiento. El estimador de Y a partir de la
muestra bootstrap es
n N ∗
b∗ 1 XX Yi
Y = ∗ Irk∗ ∈(Si−1 ,Si ]
n k=1 i=1 pi
28
Obsérvese que Yb ∗ es la media de n∗ variables aleatorias independientes e idénticamente

distribuidas
N
X Yi
zk = Irk∗ ∈(Si−1 ,Si ] · ,
i=1
pi
con media y varianza condicionadas:
n
1X
E∗ [z1∗ ] = zk = Yb
n k=1
y
n
1 X 2
V ar∗ [z1∗ ] = zk − Yb ,
n k=1
respectivamente.
En consecuencia,
E∗ [Yb ∗ ] = E∗ [z1∗ ] = Yb
y
n
1 ∗ 1 1 X 2
V ar∗ [Yb ∗ ] = · V ar∗ [z1 ] = zk − Y
b
n∗ n∗ n k=1
(2.3)
" n
#
n−1 1 1 X
= ∗
· (zk − Yb )2
n n n−1 k=1
n−1
Ası́, el estimador bootstrap de la varianza de Yb es v1 [Yb ] = V ar∗ [Yb ∗ ], que resulta ser
n∗
veces el estimador usual de la varianza bajo muestreo con probabilidades proporcionales al
tamaño muestral con reemplazamiento. Si se construye una muestra bootstrap de tamaño n∗ =
n − 1, entonces v1 [Yb ] coincide con dicho estimador y es insesgado. Por otra parte, si n∗ = n, v1
es sesgado, aunque el sesgo es despreciable si n es grande.
29
2.5. Muestreo con probabilidades proporcionales al ta-
maño muestral sin reemplazamiento
Otro diseño muestral básico es el muestreo πps o muestreo con probabilidades proporcio-
nales al tamaño muestral sin reemplazamiento, en el que las probabilidades de inclusión son
proporcionales al tamaño de una variable auxiliar. Si Xi es la medida del tamaño para la i−ési-
ma unidad, entonces la probabilidad de inclusión de primer orden para una muestra de tamaño
fijo n es:
−1
X
πi = n · p i = X i ·
n
Las probabilidades de inclusión de segundo orden, que notaremos πij , vienen determinadas por
el algoritmo especı́fico de muestreo con probabilidades proporcionales utilizado.
En lo que sigue nos ocuparemos de la estimación del total poblacional, Y . El estimador de

Horvitz-Thompson habitual es
X yi X 1X
Yb = = wi · yi = ui
i∈s
πi i∈s
n i∈s
donde ui = n · wi · yi y los pesos wi son los inversos de las probabilidades de inclusión.
Nuestro objetivo es estimar la varianza de Yb utilizando un procedimiento bootstrap. En

este caso, el estimador usual (Yates-Grundy) de V ar[Yb ], es
n X n 2
X πi πj − πij yi yj
v[Yb ] = · −
i=1 j>i
π ij π i πj
Desafortunadamente, el método bootstrap encuentra grandes dificultades para hacer frente

a este tipo de diseños muestrales. En realidad, ninguna variante bootstrap proporciona un es-
timador insesgado de la varianza y suele recurrirse a una aproximación bien conocida, a saber,
tratar la muestra como si hubiera sido seleccionada mediante muestreo con probabilidades pro-
30
porcionales al tamaño muestral con reemplazamiento. Ası́, sea u∗1 , . . . , u∗n∗ la muestra bootstrap
obtenida mediante muestreo aleatorio simple con reemplazamientoa partir de la muestra de
partida s. Entonces, el estimador bootstrap del total es
n ∗
∗ 1 X ∗
Y = ∗
b u
n i=1 i
donde u∗i = (n · wi · yi )∗ son variables aleatorias independientes e idénticamente distribuidas

tales que
n
1X
E∗ [u∗1 ] = ui = Yb
n i=1
y !2 !2
n n n
1X X ui Yb X Yb
V ar∗ [u∗1 ] = (ui − Yb )2 = n − =n wi · yi −
n i=1 i=1
n n i=1
n
La definición de u∗i pretender preservar en la muestra bootstrap la relación entre wi e yi en la

muestra de partida.
Puesto que la varianza condicionada de Yb ∗ depende únicamente del diseño de la muestra boots-
trap, y no del diseño de la muestra inicial, resulta
n
!2
∗ 1 ∗ n X Yb
V ar∗ [Y ] = ∗ V ar∗ [u1 ] = ∗
b wi · yi − , (2.4)
n n i=1 n
que es el estimador bootstrap v1 [Yb ] de la varianza bajo muestreo con probabilidades propor-
cionales al tamaño muestral sin reemplazamiento.
Si se considera n∗ = n − 1 queda:
!2 n n 2
n X Yb 1 XX yi yj
v1 [Yb ] = wi · yi − = −
n − 1 i∈s n n − 1 i=1 j>i π i πj
que es el estimador usual insesgado de la varianza en muestreo con probabilidades proporcionales

al tamaño muestral con reemplazamiento.
31
v1 [Yb ] es un estimador sesgado de la varianza en muestreo con probabilidades proporcionales

al tamaño muestral sin reemplazamiento y para n∗ = n − 1 se tiene que
n
sesgo[v1 [Yb ]] = · V ar[Ywr ] − V ar[Y ]
b b
n−1
donde V ar[Ybwr ] es la varianza del total estimado en muestreo con probabilidades proporcionales
Ası́, el método bootstrap tiende a sobreestimar la varianza en muestreo con probabilida-

des proporcionales al tamaño muestral sin reemplazamiento siempre que la varianza sea menor
que la varianza en muestreo con probabilidades proporcionales al tamaño muestral con reem-
plazamiento. El sesgo es probablemente pequeño siempre que n y N sean ambos grandes. En
n
muestras pequeñas la sobreestimación está agravada por el factor ≥ 1.
n−1
Cuando n = 2, la sobreestimación de la varianza puede controlarse mediante reescalado. En

efecto, considerando los valores reescalados
12
π1 π2 − π12
u]i = Yb + (u∗i − Yb )
π12
el estimador bootstrap del total es

n ∗
b] 1 X ]
Y = ∗ u
n i=1 i
y el estimador bootstrap de la varianza está dado por
1 1 π1 π2 − π12
v1R (Yb ) = V ar∗ [Yb ] ] = ∗
V ar∗ [u]1 ] = ∗ V ar∗ [u∗1 ]
n n π12
Entonces, para n = 2 y n∗ = n − 1 resulta
π1 π2 − π12
v1R (Yb ) = (w1 y1 − w2 y2 )2 ,
π12
32
que coincide con el estimador usual insesgado de Yates-Grundy de la varianza. No obstante, el

reescalado sólo funciona cuando π1 π2 > π12 .
Desafortunadamente no está claro como extender esta variante del reescalado al caso de un
n cualquiera. Alternativamente, cuando n∗ = n − 1, se puede intentar corregir el sesgo de forma
aproximada introduciendo un factor de corrección en la forma
!2
n X Yb
v1F [Yb ] = (1 − f ) V ar∗ [Yb ∗ ] = (1 − f ) wi · yi − ,
n − 1 i∈s n
donde
n
1X
f= πi .
n i=1
Aunque esta corrección no ha sido aceptada por todos, proporciona una sencilla regla práctica
para reducir la sobreestimación de la varianza.
2.6. Muestreo estratificado
La extensión del método bootstrap a diseños muestrales estratificados es relativamente di-

recta. En primer lugar ha de tenerse en cuenta que las muestras bootstrap deben conformar
una muestra estratificada seleccionada de la muestra de partida. En lo que sigue, este método
se aplicará en los casos de muestreo aleatorio simple con reemplazamiento, muestreo aleatorio
simple sin reemplazamiento, muestreo con probabilidades proporcionales al tamaño muestral
con reemplazamiento y muestreo con probabilidades proporcionales al tamaño muestral sin re-
emplazamiento, dentro de los estratos. Los detalles de aplicación del bootstrap a estos diseños
muestrales ya han sido presentados en las secciones anteriores.
33
Supóngase que la población se divide en L estratos. Sea Nh el número de unidades de la

población que conforma el estrato h-ésimo, h = 1, . . . , L. El muestreo se lleva a cabo de forma
independiente en los diferentes estratos, y nh denota el tamaño muestral en el estrato h-ésimo.
Sean yhi , i = 1, . . . , nh , las observaciones muestrales en el estrato h-ésimo, h = 1, . . . , L. Y

∗
sea yhi , i = 1, . . . , n∗h , la muestra bootstrap en el estrato h-ésimo, h = 1, . . . , L.
En lo sucesivo, para simplificar, se considerará nh ≥ 2 y n∗h = nh − 1 en todos los estratos;

esto es, el tamaño de las muestras bootstrap es una unidad menos que el tamaño de las muestras
iniciales en cada estrato. Además se supone que las muestras bootstrap se obtienen de forma
independiente en cada estrato mediante muestreo aleatorio simple con reemplazamiento a partir
de la muestra inicial.
2.6.1. Muestreo aleatorio simple con y sin reemplazamiento en los
estratos
En los casos de muestreo aleatorio simple con reemplazamiento y muestreo aleatorio simple
sin reemplazamiento, el estimador estándar para el total poblacional es:
L
X
Yb = Ybh
h=1
donde
h n
Nh X
Ybh = · yhi ,
nh i=1
y su versión bootstrap es:

L
X
Yb ∗ = Ybh∗
h=1
donde ∗
nh
∗ Nh X
Yh = ∗ ·
b y ∗ = Nh y ∗h ,
nh i=1 hi
34
con ∗
nh
∗ 1 X
yh = ∗ · y∗ .
nh i=1 hi
Entonces, el estimador bootstrap para la varianza está dado por:
L
X L
X
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ] = Nh2 · V ar∗ [y ∗h ]
h=1 h=1
Y, teniendo en cuenta (2.1) y (2.2), se obtiene que
L
X s2h
v1 [Yb ] = Nh2 ·
h=1
nh
con
h n
1 X
s2h = (yhi − y h )2 .
nh − 1 i
Obsérvese que se trata del estimador usual insesgado para la varianza en el caso de muestreo
aleatorio simple con reemplazamiento.
Sin embargo, v1 [Yb ] es sesgado para el muestreo aleatorio simple sin reemplazamiento ya que
nh
omite los factores de corrección para poblaciones finitas. Si las fracciones de muestreo fh =
Nh
son insignificantes en todos los estratos, el sesgo será pequeño y v1 será suficientemente bueno.
En caso contrario, serı́a deseable reducir el sesgo de alguna forma.
La variante del factor de corrección no es factible aquı́ a menos que el tamaño muestral sea
asignado proporcionalmente a los estratos, en cuyo caso
1 − fh = 1 − f
para todos los estratos y

v1F [Yb ] = (1 − f ) · V ar∗ [Yb ∗ ]
35
vuelve a ser el estimador usual insesgado de la varianza.
La variante del reescalado también puede utilizarse para reducir el sesgo. A partir de las
observaciones bootstrap reescaladas
] 1
∗
yhi = y h + (1 − fh ) 2 (yhi − yh) ,
la versión bootstrap del total poblacional es
L
X
Yb ] = Ybh]
h=1
donde ∗
nh
] Nh
X
Ybh = ∗ · y] ,
nh i=1 hi
y el correspondiente estimador bootstrap de la varianza está dado por
L
X s2h
v1R [Yb ] = V ar∗ [Yb ] ] = Nh2 · (1 − fh ) · ,
h=1
nh
que reproduce el estimador usual insesgado de la varianza en el muestreo aleatorio simple sin
reemplazamiento.
2.6.2. Muestreo con probabilidades proporcionales al tamaño mues-
tral con reemplazamiento en los estratos
Si en los estratos se utiliza muestreo con probabilidades proporcionales al tamaño muestral

con reemplazamiento, el estimador del total poblacional es:
L
X
Yb = Ybh
h=1
36
donde
nh
1 X
Yh =
b zhi
nh i=1
con
yhi
zhi = .
phi
Su versión bootstrap es
L
X
Yb ∗ = Ybh∗
h=1
donde
nh
∗ 1 X ∗
Yh = ∗
b zhi
nh i=1
con
∗
∗ yhi
zhi = .
phi
Y el estimador bootstrap de la varianza está dado por
L
X
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ]
h=1
Entonces, por (2.3), resulta que
L h n
X 1 X 2
v1 [Yb ] = zhi − Ybh
h=1
nh · (nh − 1) i=1
que es el estimador usual insesgado de la varianza.
37
tral sin reemplazamiento en los estratos
Finalmente, si en los estratos se usa muestreo con probabilidades proporcionales al tamaño

muestral sin reemplazamiento, el estimador de Horvitz-Thompson del total poblacional es
L
X
Yb = Ybh
h=1
donde
nh
1 X
Ybh = uhi
nh i=1
con
uhi = nh · whi · yhi
y
1
whi = .
πhi
Su versión bootstrap es
L
X
Yb ∗ = Ybh∗
h=1
donde ∗
nh
1 X
Ybh∗ = ∗ u∗hi
nh i=1
con
u∗hi = (nh · whi · yhi )∗ .
Adoptando la aproximación de tratar la muestra como si hubiera sido seleccionada me-

diate muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento y
38
teniendo en cuenta (2.4), el estimador bootstrap de la varianza es
L L nh
!2
X X nh X Ybh
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ] = whi · yhi −
h=1 h=1
nh − 1 i=1
nh
Nótese que este estimador es sesgado para muestreo con probabilidades proporcionales al ta-
maño muestral sin reemplazamiento y, de hecho, sobreestima V ar[Yb ] en la medida en que la
auténtica varianza sea menor que la obtenida en muestreo con probabilidades proporcionales
En determinadas aplicaciones nh = 2, ∀ h = 1, . . . , L. En estos casos el sesgo en la estimación

de la varianza puede eliminarse trabajando con las observaciones reescaladas
12
πh1 πh2 − πh12
u]hi = Ybh + (u∗hi − Ybh )
πh12
Entonces, el estimador bootstrap del total es
L
X
Yb ] = Ybh]
h=1
donde ∗
nh
1 X
Ybh] = ∗ u]hi .
nh i=1
Y el estimador bootstrap de la varianza está dado por
L L
X X πh1 πh2 − πh12
v1R (Yb ) = V ar∗ [Ybh] ] = (wh1 yh1 − wh2 yh2 )2 .
h=1 h=1
πh12
39
2.7. Muestreo multietápico con estratificación
En esta sección vamos a abordar la estimación bootstrap de la varianza en muestreo estra-

tificado cuando en cada estrato se lleva a cabo un muestreo en dos o más etapas.
En la primera etapa, en cada estrato, haremos uso del muestreo con probabilidades pro-
porcionales al tamaño muestral, con o sin reemplazamiento, para seleccionar una muestra de
conglomerados o unidades primarias de muestreo (PSU). Posteriormente, dentro de cada uni-
dad primaria en cada estrato, se lleva a cabo submuestreo en varias etapas hasta seleccionar en
la última etapa las unidades últimas de muestreo (USU).
El muestreo se supone independiente de un estrato a otro, y el submuestreo dentro de cada

unidad primaria ha de ser independiente del efectuado en las demás.
El método del conglomerado último, introducido por Hansen, Hurwitz y Madow (1953),
permite obtener el estimador de la varianza del estimador del parámetro de interés considerando
el muestreo multietápico como un caso especial de muestreo por conglomerados con una sola
etapa.
Se denomina conglomerado último al conjunto de todas las unidades muestrales de última

etapa que pertenecen a la misma unidad primaria, independientemente de que se realicen una o
varias etapas de muestreo dentro de cada unidad primaria. La consideración del conglomerado
último simplifica considerablemente la estimación de la varianza porque no es necesario calcular
las componentes de la varianza atribuibles a las demás etapas de muestreo dentro de las PSU.
tral con reemplazamiento en la primera etapa
Consideremos L estratos y supongamos que en cada estrato se seleccionan nh , h = 1, . . . , L,

conglomerados o PSUs mediante muestreo con probabilidades proporcionales al tamaño mues-
40
tral con reemplazamiento siendo phi la probabilidad que tiene la i-ésima PSU de ser seleccionada
en cada extracción ( ni=1
P h
phi = 1) en el h-ésimo estrato.
Supongamos que estamos interesados en estimar el total poblacional, Y . Sea Yhi el total
poblacional dentro de la i-ésima PSU en el estrato h-ésimo, esto es, dentro de la (h, i)−ésima
PSU. Y sea Ybhi el estimador de Yhi en el conglomerado ultimo de la i-ésima unidad PSU en el
estrato h-ésimo.
La forma de Ybhi no es importante. Sin embargo, Ybhi deberı́a ser un buen estimador de
Yhi , lo que significa que deberı́a ser insesgado o aproximadamente insesgado. Además, deberı́a
emplearse el mismo estimador (con la misma forma funcional) para cada PSU dentro de un
estrato.
El total poblacional puede estimarse mediante
L
X
Yb = Ybh
h=1
donde
nh nh
1 X Ybhi 1 X
Ybh = = zhi
nh i=1 phi nh i=1
con
Ybhi
zhi = .
phi
Asumiendo muestreo con probabilidades proporcionales al tamaño muestral con reemplaza-

miento, es conocido que el estimador usual insesgado de la varianza V ar[Yb ] es
L L n h
X X 1 X 2
v[Yb ] = v[Ybh ] = zhi − Yh
b
h=1 h=1
nh · (nh − 1) i=1
41
Para llevar a cabo la estimación bootstrap, la muestra bootstrap puede construirse mediante
el siguiente procedimiento:
1. Seleccionar una muestra de n∗1 PSUs a partir de la muestra inicial (pseudopoblación) en

el primer estrato mediante muestreo aleatorio simple con reemplazamiento.
2. De manera independiente, tomar una muestra de n∗2 PSUs a partir de la muestra inicial
en el segundo estrato mediante muestreo aleatorio simple con reemplazamiento.
3. Repetir el paso 2 para los restantes estratos, h = 3, . . . , L.
4. Aplicar el método de los conglomerados últimos. Esto significa que cuando una PSU
es seleccionado en la muestra bootstrap, todas las unidades del conglomerado último
son incluidas en la muestra bootstrap. Ası́, la muestra bootstrap conforma una muestra
multietápica, estratificada, de la población. Su diseño es similar al de la muestra de
partida.
La versión bootstrap de Yb es
L
X
Yb ∗ = Ybh∗
h=1
donde ∗ ∗
nh nh
1 X Ybhi∗ 1 X
Ybh∗ = ∗ = ∗ z∗
nh i=1 phi nh i=1 hi
con Ybhi∗ la versión bootstrap de Ybhi en el conglomerado ultimo de la i-ésima unidad PSU en el
estrato h-ésimo, y
∗ Ybhi∗
zhi = .
phi
∗
En el h-ésimo estrato, las variables zhi , i = 1, . . . , n∗h , tienen esperanza y varianza condicio-
nadas comunes dadas por:
nh
∗ 1 X
E∗ [zhi ] = zhi = Ybh
nh i=1
42
y
nh
∗ 1 X 2
V ar∗ [zhi ] = zhi − Ybh .
nh i=1
Ası́, podemos dar el siguiente teorema:
Teorema 2.3 El estimador bootstrap ideal de la varianza está dado por
L L ∗ L nh
X X V ar∗ [zh1 ] X 1 1 X 2
v1 [Yb ] = V ar∗ [Ybh∗ ] = = · · zhi − Yh
b
h=1 h=1
n∗h n∗ nh i=1
h=1 h
Obsérvese que el estimador bootstrap coincide con el estimador usual insesgado de la varianza
cuando n∗h = nh − 1.
Para otros tamaños de la muestra bootstrap, tales como n∗h = nh , se tiene que v1 es sesgado
de V ar[Yb ]. El sesgo puede ser relevante para tamaños pequeños de nh .
2.7.2. Muestreo πps en la primera etapa
En lo que sigue vamos a centrar nuestra atención en el muestreo multietápico cuando las
nh PSUs son seleccionadas mediante algún esquema πps en cada estrato.
Sea Nh el número de PSUs en el estrato h-ésimo, y supongamos que la probabilidad de

seleccionar la i-ésima PSU en el estrato h-ésimo es
πhi = nh phi ,
PNh
con 0 < πhi < 1, i phi = 1 y phi proporcional al valor Xi de alguna variable auxiliar x.
Sea Yhi el total poblacional en la (h, i)-ésima PSU. Vamos a considerar un estimador del
total poblacional Y de la forma
L
X
Yb = Ybh
h=1
43
donde
nh nh
X Ybhi 1 X Ybhi
Ybh = =
i=1
πhi nh i=1 phi
con Ybhi un estimador de Yhi resultado del submuestreo en la segunda y sucesivas etapas.
Si Yhi = E(Ybhi | i), la varianza de Yb está dada por
L L
" nh
# Nh
!
X X X Yhi X σ2 2hi
V ar[Yb ] = V ar(Ybh ) = V ar +
h=1 h=1 i=1
πhi i=1
πhi
2
donde σ2hi = V ar(Ybhi | i) es la contribución a la varianza debida al muestreo en la segunda y
sucesivas etapas dentro de la (h, i)-ésima PSU.
El estimador Yb de este tipo más utilizado es
L
X nh X
L X
X
Yb = Ybh = whij · yhij
h=1 h=1 i=1 j∈shi
donde shi es el conjunto de USUs observadas resultado del submuestreo en la segunda y sucesivas
etapas dentro de la (h, i)−ésima PSU, y whij es el peso asociado a la (h, i, j)−ésima USU.
Yb puede escribirse como

L nh
X 1 X
Yb = uhi.
h=1
nh i=1
donde
X
uhi. = uhij ,
j∈shi
con
uhij = nh · whij · yhij
44
La versión bootstrap de Yb es
L
X nh X
L X
X
Yb ∗ = Ybh∗ = ∗
whij · yhij
h=1 h=1 i=1 j∈shi
donde los pesos bootstrap están dados por
∗ nh
whij = thi · · whij
n∗h
siendo thi el número de veces que la (h, i)-ésima PSU es seleccionado en la muestra bootstrap.
thi puede tomar los valores 0, 1, . . . , n∗hi . Para las PSUs no seleccionadas, thi = 0 y los corres-
∗
pondientes pesos bootstrap son también nulos, whij = 0. Para las PSUs seleccionadas pero no
duplicadas en la muestra bootstrap se tiene que thi = 1 y los pesos bootstrap
∗ nh
whij = · whij
n∗h
reflejan el producto del peso de la (h, i)-ésima PSU en la muestra inicial y el inverso de la fracción
de muestreo bootstrap. Para las PSUs seleccionados y duplicadas en la muestra bootstrap se
tiene que thi ≥ 2 y los pesos bootstrap reflejan el producto del peso de la (h, i)-ésima PSU en
la muestra inicial, el inverso de la fracción de muestreo bootstrap, y el número de veces que la
PSU ha sido seleccionada.
Yb ∗ también puede escribirse en la forma
nh ∗
L
∗
X 1 X
Y =
b
∗
u∗hi.
n
h=1 h i=1
con !∗
X
u∗hi. = nh · whij · yhij
j∈shi
la versión bootstrap de uhi. para i = 1, . . . , n∗h , h = 1, . . . , L.
45
Las variables u∗hi. son independientes e idénticamente distribuidas con varianza condicionada
nh
1 X 2
V ar∗ [u∗h1. ] = uhi. − Yh
b
nh i=1
Entonces, el estimador bootstrap de la varianza resulta ser ahora
L L
X X V ar∗ [u∗h1. ]
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ] =
h=1 h=1
n∗h
L nh
!2
X nh X X Ybh
= whij · yhij −
h=1
n∗h i=1 j∈shi
nh
Para n∗h = nh − 1, puede probarse que la esperanza del estimador bootstrap es
  !2  
L nh nh Nh
X
E  nh
X Yhi. 1 X Yhi0 . X σ2 2hi 
E[v1 [Yb ]] = − +
h=1
nh − 1 i=1
πhi nh i0 =1 πhi0 i=1
πhi
Comparando esta expresión con la varianza de Yb concluimos que el estimador bootstrap incluye
de forma adecuada las contribuciones a la varianza del submuestreo dentro de cada PSU.
2.8. Estimadores no lineales
En esta sección vamos a considerar la estimación bootstrap de la varianza para estimadores

no lineales.
Una cuestión clave es porqué cabrı́a esperar que el método bootstrap proporcione un esti-
mador de la varianza razonablemente bueno para un estimador no lineal. Hemos visto que el
método bootstrap funciona bien para estimadores lineales, ya que tiene la capacidad de repro-
ducir el estimador usual insesgado de la varianza. Una adecuada elección de n∗ y el método
46
del reescalado proporcionan la insesgadez. Puesto que el método funciona con estadı́sticos li-
neales, deberı́a funcionar también con estadı́sticos no lineales dado que localmente poseen un
comportamiento lineal.
Sea T un vector de dimensión p × 1 de totales poblacionales, y sea θ un parámetro general

de interés en una población finita, definido por
θ = g(T ) ,
donde g es continuamente diferenciable.
Si Tb es un estimador insesgado de T obtenido a partir de una muestra s determinada por

algún esquema general de muestreo, entonces el estimador de θ es
θ̂ = g(Tb)
El método bootstrap para estimar V ar(θ̂) se concreta en los siguientes pasos:
1. Obtener una muestra bootstrap s∗1 por los métodos vistos en las secciones anteriores.
2. Determinar T̂1∗ , la versión bootstrap de los totales estimados basada en la muestra boots-
trap.
3. Calcular la versión bootstrap del estimador θ̂1∗ = g(T̂1∗ )
4. Si es posible, determinar el estimador bootstrap ideal de la varianza, v1 [θ̂] = V ar∗ [θ̂1∗ ],

finalizando de este modo el procedimiento de estimación bootstrap. En caso contrario,
continuar con los siguientes pasos y emplear el método de Monte Carlo para aproximar
el estimador ideal bootstrap.
5. Tomar A − 1 muestras bootstrap más, s∗α , lo que da un total de A muestras. Las muestras
deben ser mutuamente independientes.
47
6. Determinar T̂α∗ , las versiones bootstrap de los totales estimados para α = 1, . . . , A.
7. Calcular las versiones bootstrap del estimador θ̂α∗ = g(T̂α∗ ) para α = 1, . . . , A.
8. Finalmente, calcular el estimador bootstrap de Monte Carlo de la varianza:
A
1 2
θ̂α∗ − θ̄ˆ∗
X
v2 [θ̂] = ·
A − 1 α=1
con:
A
1 X ∗
θ̄ˆ∗ = · θ̂
A α=1 α
Como alternativa conservadora se puede calcular v2 en términos de las diferencias al cua-

drado respecto de θ̂ en lugar de θ̄ˆ∗ .
A continuación vamos a mostrar, a modo de ejemplo, cómo puede aplicarse el método al

importante problema del estimador de razón.
Supondremos que se ha entrevistado a una muestra multietápica seleccionada dentro de L

estratos, obteniéndose ası́ observaciones yhij , xhij para la j−ésima unidad última de muestreo
(USU) seleccionada dentro de la i−ésima unidad primaria de muestreo (PSU) obtenida en el
h−ésimo estrato. Los estimadores usuales de los totales poblacionales son:
nh X
L X
X mhi
Yb = whij · yhij
h=1 i=1 j=1
y
nh X
L X
X mhi
X
b= whij · xhij
h=1 i=1 j=1
donde nh es el número de PSUs seleccionados dentro del estrato h-ésimo, mhi es el número de
USUs entrevistadas dentro de la (h, i)-ésimo PSU, y whij es el peso asignado a la (h, i, j)−ésima
USU. Dichos pesos reflejan los inversos de las probabilidades de inclusión y quizás otros factores,
48
y son especificados de modo que Yb y X

b sean estimadores insesgados o casi insesgados de los
correspondientes totales poblacionales Y y X.
A menudo resulta de interés en la investigación en encuestas la razón de los totales
θ = Y /X ,
que se estima habitualmente por

θ̂ = Yb /X
b.
Para estimar V ar(θ̂) debemos obtener de forma independiente A muestras bootstrap como
se indicó en la sección 2.7, y para cada una de ellas, α = 1, . . . , A, calcular las versiones
bootstrap de los totales poblacionales:
nh X
L X
X mhi
Ybα∗ = wαhij · yhij
h=1 i=1 j=1
y
nh X
L X
X mhi
b∗ =
X wαhij · xhij
α
h=1 i=1 j=1
donde los pesos bootstrap están dados por
nh
wαhij = tαhi · · whij
n∗h
siendo tαhi el número de veces que la (h, i)-ésima PSU de la muestra inicial es seleccionada
dentro de la α-ésima muestra bootstrap.
Entonces calcularemos las versiones bootstrap de la razón
θ̂α∗ = Ybα∗ /X
b∗
α
49
para α = 1, . . . , A.
Finalmente, evaluaremos el estimador bootstrap de Monte Carlo de la varianza
A
1 X
∗ ˆ ∗
2
v2 [θ̂] = · θ̂ − θ̄
A − 1 α=1 α
Otro importante parámetro de interés en la investigación en encuestas está definido como

la solución de la ecuación:
N
X
[Yi − µ(Xi θ)]Xi = 0
i=1
Si se considera una variable dependiente y dicotómica y
exθ
µ(xθ) = ,
1 + exθ
el parámetro θ se corresponde con aquél que define el modelo de regresión simple logı́stica;
mientras que para una variable dependiente y cualquiera y
µ(xθ) = xθ ,
el parámetro θ se corresponde con la pendiente en el modelo de regresión lineal simple sin

término constante.
Dado el plan de muestreo multietápico con estratificación considerado anteriormente, el

estimador θ̂ está definido como la solución de la ecuación
nh X
L X mhi
ˆ · xhij = 0
X
whij · [yhij − µ(xhij θ)]
h=1 i=1 j=1
50
El estimador θ̂ puede ser obtenido mediante el método iterativo de Newton-Raphson:
" L n m #−1 nh X
L X mhi
XX h X
hi X
(k+1) (k) 0 (k)
θ̂ = θ̂ + whij · µ (xhij θ̂ )· x2hij · whij · [yhij − µ(xhij θ̂(k) )] · xhij
h=1 i=1 j=1 h=1 i=1 j=1
siendo


µ(xθ) · [1 − µ(xθ)], para el problema de regresión simple logı́stica

µ0 (xθ) =

1, para el problema de regresión lineal simple

Para la α-ésima muestra bootstrap, la versión bootstrap θ̂α∗ del estimador θ̂ está definida
como la solución de la ecuación
nh X
L X
X mhi
wαhij · [yhij − µ(xhij θ̂α∗ )] · xhij = 0
h=1 i=1 j=1
donde los pesos bootstrap wαhij están definidos como se vio anteriormente. θ̂α∗ puede obtenerse
de nuevo mediante el método iterativo de Newton-Raphson. Finalmente, haciendo uso de las A
muestras bootstrap, el estimador bootstrap de la varianza de θ̂ es
A
1 2
θ̂α∗ − θ̄ˆ∗
X
v2 [θ̂] = ·
A − 1 α=1
El método puede extenderse de forma directa al caso multivariante, en el que θ es (p × 1) y

Xi es (1 × p).
51
Capı́tulo 3
Aplicaciones con R
3.1. Introducción
En este capı́tulo, como aplicación de los métodos estudiados, se presentan varias funciones
implementadas en el entorno de programación estadı́stica R con el propósito de obtener la
estimación bootstrap de Monte Carlo de la varianza del parámetro de interés, ası́ como su
sesgo, en el caso de emplear muestreo aleatorio simple.
También se analizan brevemente las funciones, de utilidad para nuestros propósitos, de la

librerı́a boot de R, en la que podemos encontrar los métodos y conjuntos de datos del libro
”Bootstrap Methods and Their Applications”, de A. C. Davison y D. V. Hinkley (1997).
Además, se desarrollan varios ejemplos con la ayuda de las funciones comentadas.
3.2. Muestreo aleatorio simple con reemplazamiento
La función BootSRSWR, de elaboración propia, proporciona el estimador bootstrap de Mon-

te Carlo del error estándar de un estadı́stico de interés y del sesgo de dicho estadı́stico, cuando
52
se emplea muestreo aleatorio simple con reemplazamiento para construir las muestras bootstrap
a partir de la muestra de partida.
Los argumentos de la función son:
data Objeto de tipo vector, matrix o dataframe. Si es un vector, cada componente corres-
ponde a una observación univariante de la muestra inicial; en caso contrario, cada fila
corresponde a una observación multivariante de la muestra inicial.
statistic Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico de
interés. Debe tener 2 argumentos: el primero corresponde a los datos originales (data);
y el segundo es un vector de ı́ndices que determinará la muestra bootstrap.
m Tamaño de las muestras bootstrap que se van a generar
A Número de muestras bootstrap que se van a generar.
El valor de la función es un objeto de tipo lista con elementos:
t0 El valor observado del estadı́stico de interés aplicado a data.
t Un vector con las réplicas bootstrap del estadı́stico de interés, resultado de aplicar la
función statistic.
mean La media de las réplicas bootstrap del estadı́stico de interés.
var La estimación bootstrap de la varianza del estadı́stico de interés.
sd La estimación bootstrap del error estándar del estadı́stico de interés.
bias La estimación bootstrap del sesgo del estadı́stico de interés.
data El objeto pasado a la función BootSRSWR como argumento data.
st El estadı́stico pasado a la función BootSRSWR como argumento statistic.
53
m El escalar pasado a la función BootSRSWR como argumento m.
Además, la función genera un histograma de la distribución de las estimaciones bootstrap del

estadı́stico de interés.
El código de la función se presenta en el Apéndice A.
Por otra parte, el paquete boot proporciona funciones útiles para llevar a cabo la estimación
bootstrap en este caso. En concreto, son de especial interés las funciones boot y boot.ci.
La función boot genera muestras bootstrap de un estadı́stico de interés a partir de unos

datos de partida, y proporciona la estimación bootstrap del error estándar del estadı́stico de
interés y de su sesgo.
A continuación resumimos los argumentos de la función que son de interés para nuestros propósi-
tos:
statistic Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico
de interés. Para el caso de bootstrap no paramétrico statistic debe tener 2 argumentos:
el primero corresponde a los datos originales (data); y el segundo será habitualmente
un vector de ı́ndices que determinará la muestra bootstrap.
R Número de muestras bootstrap a generar.
sim Cadena de caracteres que especifica el tipo de simulación requerida. Su valor por
defecto es ordinary, que corresponde al bootstrap no paramétrico.
54
El valor de la función es un objeto de clase boot. Se trata de una lista en la que destacamos los
elementos:
t Una matriz cuyas filas corresponden a las réplicas bootstrap del estadı́stico de interés,
resultado de aplicar la función statistic.
statistic El estadı́stico pasado a la función boot como argumento statistic.
R El escalar pasado a la función boot como argumento R.
data El objeto pasado a la función boot como argumento data.
La función boot.ci calcula hasta 5 tipos de intervalos de confianza bootstrap no paramétri-

cos, a saber, normal, básico, t, percentil y BCa. Sus argumentos más relevantes son:
boot.out Objeto de clase boot resultado de aplicar la función boot a unos datos observados.
conf Escalar o vector que especifica los niveles de confianza deseados.
type Vector de cadenas de caracteres especificando el tipo de intervalos de confianza reque-

ridos. Su valor debe ser un subconjunto de entre los valores c(“norm”, “basic”, “stud”,
“perc”, “bca”), o simplemente “all” si se quieren calcular los 5 tipos de intervalos.
El valor de la función es un objeto de tipo boot.ci. Se trata de una lista con elementos:
R El número de réplicas bootstrap en las que están basados los intervalos.
t0 El valor observado del estadı́stico de interés en la misma escala que los intervalos.
call La llamada a la función boot.ci.
normal Matriz de intervalos calculados usando la aproximación normal
55
basic Intervalos calculados por el método bootstrap básico.
student Intervalos calculados por el método bootstrap estudentizado.
percent Intervalos calculados por el método bootstrap del percentil.
bca Intervalos calculados por el método bootstrap BCa.
Ejemplo 3.1 En la librerı́a bootstrap de R podemos encontrar el conjunto de datos law. Se

trata de un dataframe que contiene las observaciones muestrales de la puntuación media en
las pruebas de admisión, LSAT , y del promedio de calificaciones en grado medio, GP A, en 15
Facultades de Derecho.
> library(bootstrap)
> law
LSAT GPA
1 576 339
2 635 330
3 558 281
4 578 303
5 666 344
6 580 307
7 555 300
8 661 343
9 651 336
10 605 313
11 653 312
12 575 274
13 545 276
14 572 288
15 594 296
56
Este conjunto de datos es una muestra aleatoria del conjunto de datos law82 que corresponde
a una población de 82 Facultades de Derecho. Se pretende estimar la correlación entre las
puntuaciones LSAT y GP A, y calcular el error estándar de la estimación bootstrap de la
correlación muestral.
La correlación poblacional y su estimación muestral, a partir de law, están dadas por
> cor(law82$LSAT,law82$GPA)
[1] 0.7599979
> cor(law$LSAT,law$GPA)
[1] 0.7763745
Vamos a hacer uso de la función BootSRSWR especificando muestras bootstrap del mis-
mo tamaño que la muestra inicial. A continuación se muestra el código necesario y la salida
proporcionada por R.
> BootSRSWR(law, function(x,i) cor(x[i,1], x[i,2]), 15, 2000)
Estimaci{\’o}n a partir de la muestra inicial: 0.77637
Media de las estimaciones bootstrap: 0.76913

Estimaci{\’o}n bootstrap de la varianza: 0.01873
Error est{\’a}ndar: 0.13684
Estimaci{\’o}n bootstrap del sesgo: -0.00725
La Figura 3.1 muestra la distribución de las estimaciones bootstrap obtenidas.
La estimación bootstrap puede obtenerse también haciendo uso de la función boot del pa-
quete boot. El código a ejecutar y la salida obtenida son los siguientes:
> boot.obj <- boot(data=law, statistic=function(x,i) cor(x[i,1], x[i,2]), R

=2000)
> boot.obj
57
Distribución de las estimaciones bootstrap
587
440
294
147
0.00 0.25 0.50 0.75 1.00
Figura 3.1: Distribución de las estimaciones bootstrap de la correlación lineal entre LSAT y
GP A
ORDINARY NONPARAMETRIC BOOTSTRAP
Call: boot(data = law, statistic = function(x, i) cor(x[i, 1], x[i, 2]), R =

2000)
Bootstrap Statistics :
original bias std. error
t1* 0.7763745 -0.005824032 0.1287397
Finalmente vamos a calcular los intervalos de confianza bootstrap para la correlación lineal
entre LSAT y GP A, al nivel de confianza del 95 %, mediante la función boot.ci.
> boot.ci(boot.obj, type="all")

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on 2000 bootstrap replicates
58
CALL : boot.ci(boot.out = boot.obj, type = "all")
Intervals : Level Normal Basic

95 % ( 0.5299, 1.0345 ) ( 0.5897, 1.0770 )
Level Percentile BCa

95 % ( 0.4757, 0.9631 ) ( 0.3647, 0.9398 )
Calculations and Intervals on Original Scale
Ejemplo 3.2 El conjunto de datos patch del paquete bootstrap contiene medidas de cierta hor-
mona en el caudal sanguı́neo de 8 individuos tras haber llevado tres parches médicos diferentes:
un parche placebo (placebo), un parche antiguo (old) y un parche nuevo (new).
> library(bootstrap)
> patch
subject placebo oldpatch newpatch z y
1 1 9243 17649 16449 8406 -1200
2 2 9671 12013 14614 2342 2601
3 3 11792 19979 17274 8187 -2705
4 4 13357 21816 23798 8459 1982
5 5 9055 13850 12560 4795 -1290
6 6 6290 9806 10157 3516 351
7 7 12412 17208 16570 4796 -638
8 8 18806 29044 26325 10238 -2719
Se considera el parámetro de interés θ definido como:
E[new] − E[old]
θ=
E[old] − E[placebo]
59
Si |θ| ≤ 0.2 se acepta la bioequivalencia de los parches antiguos y los nuevos; esto es,
se asumirá que a todos los efectos terapeúticos los parches producen el mismo efecto en los
pacientes. El estadı́stico es de la forma Y /Z, con Y = new − old y Z = old − placebo. Vamos a
determinar los estimadores bootstrap de la desviación estándar y del sesgo del estadı́stico razón
de bioequivalencia.
El código necesario, especificando muestras bootstrap del mismo tamaño que la muestra de
partida, y la salida proporcionada por R, se muestran a continuación:
> BootSRSWR(patch[,c("y","z")], function(x,i) mean(x[i,1])/mean(x[i,2]), 8,

2000)
Estimaci{\’o}n a partir de la muestra inicial: -0.07131
Media de las estimaciones bootstrap: -0.06659

Estimaci{\’o}n bootstrap de la varianza: 0.01075
Error est{\’a}ndar: 0.10368
Estimaci{\’o}n bootstrap del sesgo: 0.00472
3.3. Muestreo aleatorio simple sin reemplazamiento
La función BootSRSWOR, de elaboración propia, proporciona el estimador bootstrap de

Monte Carlo del error estándar de un estadı́stico de interés y del sesgo de dicho estadı́stico,
cuando se emplea muestreo aleatorio simple sin reemplazamiento para construir las muestras
bootstrap a partir de la muestra de partida. La función implementa las variantes BW O y M M .
Los argumentos de la función son:
60
Distribución de las estimaciones bootstrap
394
296
197
98
−0.30 −0.11 0.07 0.26 0.45
Figura 3.2: Distribución de las estimaciones bootstrap de la razón de bioequivalencia
variante Cadena de caracteres que especifica las variantes del método bootstrap que se van
a utilizar. Sus valores pueden ser: “BWO”, para la variante BW O; “MM”, para la
variante M M ; u “all”, si se van a utilizar las dos variantes.
statistic Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico de
interés. Debe tener 2 argumentos: el primero corresponde a los datos originales (data);
y el segundo es un vector de ı́ndices que determinará la muestra bootstrap.
N El tamaño de la población de la que se ha extraı́do la muestra inicial
m Vector o escalar, en función de variante. Si variante es “all”, m es un vector que

especifica el tamaño de las muestras bootstrap que se van a generar en la variante
BW O y el número de grupos aleatorios en los que se dividirá la muestra inicial en la
variante M M .
61
A Número de muestras bootstrap que se van a generar.
El valor de la función es un objeto de tipo lista con elementos:
t Lista con componentes BWO, MM, o ambas, según variante. Cada componente con-
tiene las réplicas bootstrap del estadı́stico de interés, resultado de aplicar la función
statistic, para la correspondiente variante.
mean El vector de medias de las réplicas bootstrap del estadı́stico de interés para variante.
var El vector de estimaciones bootstrap de la varianza del estadı́stico de interés para

variante.
sd El vector de estimaciones bootstrap del error estándar del estadı́stico de interés para
variante.
bias El vector de estimaciones bootstrap del sesgo del estadı́stico de interés para variante.
data El objeto pasado a la función BootSRSWOR como argumento data.
st El estadı́stico pasado a la función BootSRSWOR como argumento statistic.
N El escalar pasado a la función BootSRSWOR como argumento N
m El vector o escalar pasado a la función BootSRSWOR como argumento m.
Además, la función genera histogramas de la distribución de las estimaciones bootstrap del

estadı́stico.
El código de la función se encuentra en el Apéndice A.
62
Ejemplo 3.3 A partir de la muestra law del ejemplo 3.2, vamos a obtener las estimaciones
bootstrap de la media poblacional y de la correlación lineal entre ambas variables, mediante
muestreo aleatorio simple sin reemplazamiento BW O y M M .
Utilizaremos la función BootSRSWOR implementada. Para la variante BWO vamos a cons-

truir muestras bootstrap del mismo tamaño que la muestra de partida, 15. En el caso de la
variante M M vamos a considerar grupos aleatorios de tamaño 5 de la muestra de partida. A
continuación recogemos el código necesario y las salidas proporcionadas por R:
Medias poblacionales de LSAT y GP A.
La medias poblacionales y su estimaciones muestrales, a partir de law, están dadas por
> sapply(law82[,-1], mean)*c(1,100)

LSAT GPA
597.5488 313.4878
> sapply(law, mean)
LSAT GPA
600.2667 309.4667
Las estimaciones bootstrap de la varianza y el sesgo de la medias muestrales de LSAT y

GP A son:
> BootSRSWOR(law$LSAT, "all", function(x,i) mean(x[i]), 82, c(15,5), 2000)
Media de las estimaciones bootstrap: 600.26827 (BWO) 600.5931 (MM)

Estimaci{\’o}n bootstrap de la varianza: 92.6593 (BWO) 228.73238 (MM)
Error est{\’a}ndar: 9.62597 (BWO) 15.1239 (MM)
Estimaci{\’o}n bootstrap del sesgo: 0.0016 (BWO) 0.32643 (MM)
> BootSRSWOR(law$GPA, "all", function(x,i) mean(x[i]), 82, c(15,5), 2000)
63

Estimaci{\’o}n bootstrap del sesgo: 0.0407 (BWO) -0.15397 (MM)
Las Figuras 3.3 y 3.4 muestran la distribución de las estimaciones bootstrap obtenidas.
Distribución de las estimaciones bootstrap (BWO)
400
300
200
100
565.24 583.87 602.50 621.13 639.76
Distribución de las estimaciones bootstrap (MM)
263
197
132
66
560.27 581.39 602.50 623.61 644.73
Figura 3.3: Distribución de las estimaciones bootstrap de la media poblacional de LSAT
64
304
228
152
76
294.11 302.55 311.00 319.45 327.89
431
323
216
108
280.19 295.10 310.00 324.90 339.81
Figura 3.4: Distribución de las estimaciones bootstrap de la media poblacional de GP A
Correlación lineal entre LSAT y GP A.
> BootSRSWOR(law, "all", function(x,i) cor(x[i,1], x[i,2]), 82, c(15,5),

2000)

Estimaci{\’o}n bootstrap del sesgo: -0.00466 (BWO) -0.01565 (MM)
65
323
242
162
81
0.25 0.44 0.62 0.81 1.00
754
566
377
188
−0.30 0.03 0.35 0.67 1.00
Figura 3.5: Distribución de las estimaciones bootstrap de la correlación lineal entre LSAT y
GP A
66
Apéndice A
Funciones implementadas
BootSRSWR
function (data, statistic, m, A) {

n <- NROW(data)
index <- seq_len(n)
theta0 <- statistic(data, index)

cat("\nEstimaci{\’o}n a partir de la muestra inicial:", round(theta0, digits
=5))
Index.boot <- replicate(A, sample(index, m, replace=TRUE), simplify=FALSE)

theta.boot <- sapply(Index.boot, statistic, x = data)
av <- mean(theta.boot)
cat("\n\nMedia de las estimaciones bootstrap: ", round(av, digits=5))
Var <- var(theta.boot)

cat("\nEstimaci{\’o}n bootstrap de la varianza: ", round(Var, digits=5))
Sd <- sqrt(Var)
cat("\nError est{\’a}ndar: ", round(Sd, digits=5))
67
sesgo <- av - theta0

cat("\nEstimaci{\’o}n bootstrap del sesgo: ", round(sesgo, digits=5))
hist(theta.boot, freq=TRUE, main="Distribuci{\’o}n de las estimaciones

bootstrap", axes=FALSE, xlab = "", ylab="", col=terrain.colors(20))
a <- diff(par()$usr[1:2])
axis(1, line = 0.25, at = round(seq(par()$usr[1]+0.04*a, par()$usr[2]-0.04*a
, length.out=5L), digits=2))
axis(2, line = 0.25, at = round(seq(0, par()$usr[4]/1.04, length.out=5L)),
las=1)
cat("\n")
out <- list(t0 = theta0, t = theta.boot, mean = av, var = Var, sd = Sd, bias
= sesgo, data = data, st = statistic, m = m)
invisible(out)
}
BootSRSWOR
function (data, variante="all", statistic, N, m, A) {

n <- NROW(data)
index <- seq_len(n)
theta0 <- statistic(data, index)

cat("\nEstimaci{\’o}n a partir de la muestra inicial:", round(theta0, digits
=5))
theta.boot <- vector("list", 2)

names(theta.boot) <- c("BWO","MM")
68
if (is.element(variante, c("BWO", "all"))){

k <- round(N/n)
index.U <- rep(index, each=k)
Index.boot <- replicate(A, sample(index.U, m, replace=FALSE), simplify=
FALSE)
theta.boot$BWO <- sapply(Index.boot, statistic, x = data)
}
if (is.element(variante, c("MM", "all"))){

M <- switch(variante, MM=m[1], all=m[2])
if(M < n){
k <- ceiling(M*(1-M/n)/(M*(1-n/N)))
Index.boot <- replicate(A, unlist(replicate(k, sample(index, M,
replace=FALSE), simplify=FALSE)), simplify=FALSE)
theta.boot$MM <- sapply(Index.boot, statistic, x = data)
}
else cat("No es posible calcular la variante MM (m debe ser menor que n)
")
}
j <- switch(variante, BWO=1L, MM=2L, all=c(1,2))

theta.boot <- theta.boot[j]
av <- structure(sapply(theta.boot, mean), names=c("BWO","MM")[j])

cat("\n\nMedia de las estimaciones bootstrap: ", paste(round(av, digits=5),
" (", names(av), ")", sep="", collapse=" "))
Var <- structure(sapply(theta.boot, var), names=c("BWO","MM")[j])

cat("\nEstimaci{\’o}n bootstrap de la varianza: ", paste(round(Var, digits
=5), " (", names(Var), ")", sep="", collapse=" "))
Sd <- structure(sapply(theta.boot, sd), names=c("BWO","MM")[j])
69
cat("\nError est{\’a}ndar: ", paste(round(Sd, digits=5), " (", names(Var), "

)", sep="", collapse=" "))
sesgo <- structure(av - theta0, names=c("BWO","MM")[j])

cat("\nEstimaci{\’o}n bootstrap del sesgo: ", paste(round(sesgo, digits=5),
" (", names(Var), ")", sep="", collapse=" "))
par(mfrow=c(length(theta.boot),1))
if (is.element(variante, c("BWO", "all"))){

hist(theta.boot$BWO, freq=TRUE, main="Distribuci{\’o}n de las
estimaciones bootstrap (BWO)", axes=FALSE, xlab = "", ylab="", col=
terrain.colors(20))
axis(1, line = 0.25, at = round(seq(par()$usr[1]+0.04*a, par()$usr
[2]-0.04*a, length.out=5L), digits=2))
axis(2, line = 0.25, at = round(seq(0, par()$usr[4]/1.04, length.out=5L)
), las=1)
}
if (is.element(variante, c("MM", "all"))){

hist(theta.boot$MM, freq=TRUE, main="Distribuci{\’o}n de las
estimaciones bootstrap (MM)", axes=FALSE, xlab = "", ylab="", col=
terrain.colors(20))
axis(1, line = 0.25, at = round(seq(par()$usr[1]+0.04*a, par()$usr
[2]-0.04*a, length.out=5L), digits=2))
axis(2, line = 0.25, at = round(seq(0, par()$usr[4]/1.04, length.out=5L)
), las=1)
}
cat("\n")
70
out <- list(t0 = theta0, t = theta.boot, mean = av, var = Var, sd = Sd, bias
= sesgo, data = data, st = statistic, N = N, m = m)
invisible(out)
}
71
Apéndice B
Diseños muestrales y estimadores usuales
Algunos diseños muestrales
srs wor muestreo aleatorio simple con reemplazamiento
srs wr muestreo aleatorio simple sin reemplazamiento
pps wor muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento
pps wr muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento
pps wr + srs wor Etapa 1: muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento
Etapa 2: muestreo aleatorio simple con reemplazamiento
pps wor + srs wor Etapa 1: muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento
Etapa 2: muestreo aleatorio simple con reemplazamiento
L strata muestreo estratificado
NOTA: En este documento todas las menciones a los estimadores usuales de la varianza hacen referencia
a los estimadores de la varianza de la siguiente tabla, a menos que se especifique lo contrario.
72
Diseño Estimador Varianza Estimador usual de la Varianza
S2 s2
V ar[Yb ] = N 2 · (1 − f ) · n v[Yb ] = N 2 · (1 − f ) · n
1
Pn
Yb = f · i=1 yi
srs wor 1
PN 2 1
Pn 2
S2 = N −1 i=1 Yi − Y s2 = n−1 · i=1 (yi − ȳ)
n
f= N
1 1
PN Pn
Y = N · i=1 Yi y= n · i=1 yi
Bootstrap en poblaciones finitas
σ2 s2
Pn V ar[Yb ] = N 2 · n v[Yb ] = N 2 · n
srs wr Yb = N · yi
i=1
1
PN 2 1
Pn 2
σ2 = N i=1 Yi − Y s2 = n−1 · i=1 (yi − ȳ)
2 2
pps wor
Pn yi PN PN Yi Yj PN PN πi ·πj −πij yi yj
Yb = i=1 πi V ar[Yb ] = i=1 j>i (πi · πj − πij ) · πi − πj v[Yb ] = i=1 j>i πij · πi − πj
73
1
PN 2
V ar[Yb ] = n · i=1 pi · (Zi − Y ) 2
1 yi 1
Pn Pn
pps wr Yb = · v[Yb ] = · zi − Yb
n i=1 pi n·(n−1) i=1
Yi
Zi = pi
2
1 Yi.
Pn
V ar[Yb.. ] = n · i=1 pi · pi − Y.. + 2
1 Mi ·y i. 1 Mi ·y i.
Pn Pn
pps wr + srs wor Yb.. = · v[Yb.. ] = · − Yb..
n i=1 pi n·(n−1) i=1 pi
PN Mi2 Si2
+ n1 · i=1 pi · (1 − f2i ) · mi
2 2
Pn Mi ·y i. PN PN Yi. Yj. Pn Pn πi ·πj −πij Mi ·y i. Mj ·y j.
Yb.. = i=1 πi V ar[Yb.. ] = i=1 j>i (πi · πj − πij ) · πi − πj + v[Yb.. ] = i=1 j>i πij · πi − πj +
pps wor + srs wor
PN Mi2 Si2 Pn Mi2 s2i
πi = n · pi + i=1 πi · (1 − f2i ) · mi + i=1 πi · (1 − f2i ) · mi
PL PL PL
L strata Yb = h=1 Ybh V ar[Yb ] = h=1 V ar[Ybh ] v[Yb ] = v[Ybh ]
h=1
Samuel Nicolás Gil Abreu
Bibliografı́a
[1] Arnold, S.F.- Gibbs Sampling. Handbook of Statistics 9: Computational Statistics. North
Holland. 1993.
[2] Beran, R.- Jackknife approximations to bootstrap estimates. Ann. Statist., 12, 101-118.
1984.
[3] Bickel, P.J., & Freedman, D.A.- Some asymptotic theory for the bootstrap. Ann. Statist.,
9, 1196-1217. 1981.
[4] Chambers, R.L. & Skinner, C.J. ed.- Analysis of Survey Data, Wiley Series in Survey
Methodology. Wiley. 2003.
[5] Davison, A.C. & Hinkley, D.V.- Bootstrap Methods and Their Applications. Cambridge
University Press. 1997.
[6] Diciccio, T.J., & Romano, J.P.- A review of bootstrap confidence intervals. J.R.S.S. B, 50,
338-354. 1988.
[7] Diciccio, T.J., & Efron, B.- Bootstrap confidence intervals. Stat. Science. 11, 189-228. 1996.
[8] Efron, B.- Bootstrap Methods: Another Look at the Jackknife. Ann. Statist., 7, 1-26. 1979.
[9] Efron, B.- Better bootstrap confidence intervals. J.A.S.A., 82, 171-200. 1987.
[10] Efron, B., & Tibshirani, R.J.- An introduction to the bootstrap. Chapman & Hall. 1993.
[11] Everitt, B. S. & Hothorn, T.- A Handbook of Statistical Analyses Using R. 2006.
74
[12] Freedman, D.A.- Bootstrap regresion models. Ann. Statist., 9, 1218-1228. 1981.
[13] Gambino, J.G.- PPS: Functions for PPS sampling. 2005.
[14] Ghosh, M. et al.- A note on bootstrapping the sample median. Ann. Statist., 12, 1130-1135.
1984.
[15] Hall, P.- On the bootstrap and confidence intervals. Ann. Statists., 14, 1431-1452. 1986.
[16] Hinkley D. V.- Bootstrap methods. J.R.S.S. B, 50, 321-337. 1988.
[17] LePage, R. & Billard, L. eds.- Exploring the limits of boostrap. J. Wiley. 1992.
[18] Lumley, T.- Survey: analysis of complex survey samples. 2010.
[19] Maindonald, J. & Braun, J.- Data Analysis and Graphics Using R. Cambridge University
Press. 2007.
[20] Mooney, C.Z. & Duval, R.D.- Bootstrapping: A nonparametric approach to statistical
inference. Beverly Hill: Sage Publication. 1993.
[21] Rao, C.R. ed.- Handbook of Statistics 9: Computational Statistics. North-Holland. 1993.
[22] Rizzo, M.- Statistical Computing with R. Chapman & Hall. 2007.
[23] Thompson, M.E.- Theory of Sample Surveys. Chapman & Hall. 1997.
[24] Wu, C.F.J.- Jackknife, bootstrap and other resampling methods in regresion analysis. Ann.
Statist., 14, 1261-1295. 1986.
[25] Wolter, K. M.- Introduction to Variance Estimation. Springer, 5. 1985.
75

TFM Samuel Gil Abreu

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TFM Samuel Gil Abreu

Cargado por

Copyright:

Formatos disponibles

Universidad de Granada

Departamento de Estadı́stica e Investigación Operativa

Bootstrap en poblaciones finitas

Samuel Nicolás Gil Abreu

Máster Oficial en Estadı́stica Aplicada

Granada, julio de 2014

2. BOOTSTRAP EN POBLACIONES FINITAS 15

2.4. Muestreo con probabilidades proporcionales al tamaño muestral con reemplaza-

B. Diseños muestrales y estimadores usuales 72

El término bootstrap puede referirse a bootstrap no paramétrico o bootstrap pa-

Supongamos que x = {x1 , . . . , xn } es una muestra aleatoria observada de una distribución

La función de distribución empı́rica, Fn (x), es un estimador de F (x). Puede probarse que

las réplicas bootstrap es una aproximación de Fn . El remuestreo a partir de x equivale a generar

1.2. Estimación bootstrap de la distribución del estima-

dor de un parámetro de interés

Sea θ un parámetro poblacional de interés (que puede ser un vector) y θ̂ un estimador de

1. Para cada réplica bootstrap, indexada por b = 1, . . . , B:

a) Generar la muestra x∗(b) = {x∗1 , . . . , x∗n } mediante muestreo con reemplazamiento a

b) Calcular la réplica b−ésima de θ̂(b) a partir de la b−ésima muestra bootstrap.

1.3. Estimación bootstrap del error estándar

La estimación bootstrap del error estándar de un estimador θ̂ es la desviación estándar

1.4. Estimación bootstrap del sesgo

Si θ̂ es un estimador insesgado de θ, entonces E[θ̂] = θ. En general el sesgo de un estimador

Ası́, cada estadı́stico es un estimador insesgado de su valor esperado y, en particular, la media

disponemos de B estimadores independientes e idénticamente distribuidos, θ̂(b) . Dado que la

bootstrap del sesgo es:

Cabe señalar que en bootstrap se muestrea Fn en lugar de FX , luego θ se reemplazará por

1.5. Intervalos de confianza bootstrap: Métodos de cons-

En esta sección vamos a presentar diversas aproximaciones para construir intervalos de

1.5.1. Intervalo de confianza bootstrap Normal estándar

Esta aproximación es la más simple, aunque no necesariamente la mejor. Sea θ̂ un estimador

se aproxima a una Normal estándar.

Por consiguiente, si θ̂ es insesgado para θ, resulta de forma aproximada que

bθ̂∗ − (θ̂∗ − θ̂) = (2θ̂ − θ̂∗ ) ± zα/2 · σ

que está centrado en (2θ̂ − θ̂∗ ).

1.5.2. Intervalo de confianza bootstrap percentil

1.5.3. Intervalo de confianza bootstrap básico

Este intervalo transforma la distribución de las réplicas bootstrap restando el estadı́stico

Considérese T un estimador de θ, y sea kα el cuantil de orden α de T − θ. Entonces:

En bootstrap, la distribución de T es habitualmente desconocida, pero los cuantiles pueden

De un modo similar un lı́mite inferior de confianza aproximado está dado por

Ası́, el intervalo de confianza bootstrap básico al nivel de confianza del 100(1 − α) % es

(2θ̂ − θ̂1−α/2 , 2θ̂ − θ̂α/2 )

1.5.4. Intervalo de confianza bootstrap t (estudentizado)

Sea x = (x1 , . . . , xn ) la muestra aleatoria observada. Se obtiene el correspondiente estadı́stico

bθ̂ , t∗1−α/2 y t∗α/2 se calculan como sigue:

2. Para cada réplica bootstrap, indexada por b = 1, . . . , B:

b) Calcular θ̂(b) a partir de la b-ésima muestra bootstrap x(b) .

bθ̂(b) remuestreando a partir de x(b) , no de x, de

d ) Obtener la b-ésima réplica del estadı́stico “t”,

bθ̂ como la desviación estándar muestral de las réplicas θ̂(b) .

5. Determinar los lı́mites de confianza θ̂ − t∗1−α/2 · σ

1.5.5. Intervalo de confianza bootstrap mejorado, BCa

de las réplicas bootstrap, donde

con I la función indicadora.

Son “invariantes” frente a transformaciones en el parámetro, es decir, si (θ̂α∗ 1 ; θ̂α∗ 2 ) es un

es el intervalo correspondiente para t(θ).

El intervalo de confianza bootstrap t tiene precisión de segundo orden, pero no es respetado

En este capı́tulo vamos a tratar el problema de estimación de la varianza en el muestreo en

Como sabemos el método bootstrap es un método de replicación. Otros métodos de repli-

Sea Y1 , . . . , Yn una muestra de una variables aleatorias independientes e idénticamente dis-

donde V ar∗ denota la varianza condicionada dada la muestra inicial o pseudopoblación.