Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. EL MÉTODO BOOTSTRAP 4
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Estimación bootstrap de la distribución del estimador de un parámetro de interés 6
1.3. Estimación bootstrap del error estándar . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Estimación bootstrap del sesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5. Intervalos de confianza bootstrap: Métodos de construcción . . . . . . . . . . . . 8
1.5.1. Intervalo de confianza bootstrap Normal estándar . . . . . . . . . . . . . 8
1.5.2. Intervalo de confianza bootstrap percentil . . . . . . . . . . . . . . . . . 9
1.5.3. Intervalo de confianza bootstrap básico . . . . . . . . . . . . . . . . . . . 10
1.5.4. Intervalo de confianza bootstrap t (estudentizado) . . . . . . . . . . . . . 11
1.5.5. Intervalo de confianza bootstrap mejorado, BCa . . . . . . . . . . . . . . 12
2
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
3. Aplicaciones con R 52
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2. Muestreo aleatorio simple con reemplazamiento . . . . . . . . . . . . . . . . . . 52
3.3. Muestreo aleatorio simple sin reemplazamiento . . . . . . . . . . . . . . . . . . . 60
A. Funciones implementadas 67
3
Capı́tulo 1
EL MÉTODO BOOTSTRAP
1.1. Introducción
El bootstrap fue introducido en 1979 por Bradley Efron, aunque experimentó avances en
años sucesivos gracias a aportaciones de otros autores como Robert Tibshirani, Michael Cher-
nick, Jun Shao o Anthony Davison.
Los métodos bootstrap son una clase de métodos Monte Carlo no paramétricos que
pretenden estimar la distribución de una población mediante remuestreo. Los métodos de
remuestreo tratan una muestra observada como una población finita, y generan muestras
aleatorias a partir de ella para estimar caracterı́sticas poblacionales y hacer inferencia sobre la
población muestreada. A menudo estos métodos se usan cuando no se conoce la distribución
de la población objetivo, de modo que la muestra es la única información disponible.
4
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
La distribución de la población finita representada por la muestra puede ser vista como
una pseudopoblación con caracterı́sticas similares a las de la verdadera población. Generando
repetidamente muestras aleatorias de esta pseudopoblación (remuestreo), se puede estimar la
distribución muestral de un estadı́stico. El remuestreo permite también estimar propiedades de
un estimador tales como su sesgo o su error estándar.
Cabe señalar que las estimaciones bootstrap de una distribución de muestreo son análogas
a la idea de estimación de la densidad. El histograma de una muestra proporciona una esti-
mación de la forma de la función de densidad. El histograma no es la densidad, pero desde el
punto de vista no paramétrico puede ser visto como una estimación razonable de la misma.
Existen métodos para generar muestras aleatorias de densidades completamente especificadas;
el bootstrap genera muestras aleatorias a partir de la distribución empı́rica de la muestra.
1
P [X ∗ = xi ] = , i = 1, . . . , n
n
El remuestreo genera una muestra aleatoria X1∗ , . . . , Xn∗ mediante el muestreo con reempla-
zamiento de x. Las variables aleatorias Xi∗ son independientes e idénticamente distribuidas de
manera uniforme en el conjunto de {x1 , . . . , xn }.
5
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Fn → X ∗ → Fn∗
Para generar una muestra aleatoria bootstrap mediante remuestreo de x, basta generar n
números enteros aleatorios {i1 , . . . , in } uniformemente distribuidos en 1, . . . , n y seleccionar la
muestra bootstrap x∗ = {xi1 , . . . , xin }.
2. La estimación bootstrap de Fθ̂ (·) es la distribución empı́rica de las réplicas θ̂(1) , . . . , θ̂(B) .
6
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
v
u B
u 1 X (b)
σ
bθ̂∗ =t (θ̂ − θ̂∗ )2
B − 1 b=1
donde
B
1 X (b)
θ̂∗ = θ̂ .
B b=1
Según Efron y Tibshirani, el número de réplicas necesarias para obtener una buena esti-
mación del error estándar no es elevado; por lo general B = 50 es suficiente, y con escasa
frecuencia se precisa B > 200. En cambio, sı́ es necesario que B sea mucho mayor para la
estimación mediante intervalos de confianza.
La estimación bootstrap del sesgo utiliza las réplicas bootstrap de θ̂ para estimar la dis-
tribución muestral de θ.
b Para una población finita x = (x1 , . . . , xn ), el parámetro es θ̂(x) y
7
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
1
PB
siendo θ̂∗ = B b=1 θ̂(b) y θ̂ = θ̂(x) la estimación obtenida a partir de la muestra observada x.
trucción
θ̂ − E[θ̂]
Z=
σθ̂
θ̂ ± zα/2 · σθ̂
8
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
donde zα/2 = Φ−1 (1− α2 ), con Φ la función de distribución de la Normal estándar, es un intervalo
de confianza para θ al nivel de confianza 100(1 − α) %.
Este intervalo es fácil de calcular, aunque acabamos de ver que requiere varios supuestos. Por
un lado, θ̂ debe tener distribución normal o ser una media muestral y que el tamaño muestral
sea suficientemente grande; y, por otro, θ̂ debe ser insesgado para θ.
Además, aquı́ σθ̂ se ha tratado como un parámetro conocido, aunque en bootstrap es esti-
mado por la desviación estándar muestral de las réplicas bootstrap de θ̂, lo que proporciona el
intervalo
θ̂ ± zα/2 · σ
bθ̂∗ .
El sesgo puede ser estimado y utilizado para centrar el estadı́stico Z, lo que da lugar al
intervalo corregido por el sesgo
Utiliza la distribución empı́rica de las réplicas bootstrap como distribución de referencia. Los
cuantiles de la distribución empı́rica son estimadores de los cuantiles de la distribución muestral
de θ̂, con lo que estos cuantiles aleatorios reproducirán mejor la verdadera distribución cuando
la distribución de θ̂ no sea Normal.
Supóngase que θ̂(1) , . . . , θ̂(B) son las réplicas bootstrap del estadı́stico θ̂. A partir de la
α
función de distribución de las réplicas se calculan los cuantiles de órdenes 2
y 1 − α2 , θ̂ α2 y θ̂1− α2 ,
respectivamente, que definen el intervalo de confianza.
9
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Efron y Tibshirani probaron que el intervalo Percentil presenta ventajas teóricas sobre el
intervalo normal estándar y un mejor comportamiento en la práctica.
P [T − θ > kα ] = 1 − α ⇒ P [T − kα > θ] = 1 − α
Ası́, un intervalo de confianza al nivel de confianza 100 · (1 − 2α) % con el mismo error α en
la cola inferior y superior, está dado por (t − k1−α , t − kα ).
Sea θ̂α el cuantil de orden α calculado a partir de la función de distribución empı́rica de las
réplicas θ̂∗ . Y sea bα el cuantil de orden α de θ̂∗ − θ̂. Entonces b̂α = θ̂α − θ̂ es un estimador de
bα .
Por tanto, un lı́mite de confianza superior aproximado para un nivel de confianza del 100(1−
α) % está dado por
θ̂ − b̂α/2 = θ̂ − (θ̂α/2 − θ̂) = 2θ̂ − θ̂α/2 .
2θ̂ − θ̂1−α/2 .
10
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
(θ̂ − t∗1−α/2 · σ
bθ̂ , θ̂ − t∗α/2 · σ
bθ̂ )
1. Calcular θ̂ = θ̂(x).
(b) (b)
a) Generar la b-ésima muestra bootstrap x(b) = (x1 , . . . , xn ) mediante muestreo con
reemplazamiento a partir de x
11
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
θ̂(b) − θ̂
t(b) =
σ
bθ̂(b)
3. Obtener los cuantiles muestrales t∗α/2 y t∗1−α/2 de la muestra ordenada de réplicas t(b) , dado
que la muestra de réplicas t(1) , . . . , t(B) es la distribución de referencia para “t”.
La desventaja de este tipo de intervalos reside en que la estimación de los errores estándar
σ
bθ̂(b) debe obtenerse mediante bootstrap. Ası́, si B = 1000, el tiempo empleado en calcular el
intervalo de confianza bootstrap t es aproximadamente 1000 veces mayor que el empleado en
aplicar cualquiera de los otros métodos.
Los intervalos de confianza bootstrap mejorados son una variante de los intervalos percentil
que poseen mejores propiedades teóricas y proporcionan un rendimiento superior en la práctica.
Para un nivel de confianza 100 · (1 − α) %, los habituales cuantiles de órdenes α/2 y 1 − α/2
son ajustados por dos factores: una corrección para el sesgo, y otra para la asimetrı́a o ajuste
de aceleración.
El intervalo de confianza bootstrap mejorado, que notamos BCa, está dado por
(θ̂α∗ 1 , θ̂α∗ 2 ) ,
donde los lı́mites de confianza están dados por los cuantiles muestrales de órdenes
12
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
ẑ0 + zα/2
α1 = Φ ẑ0 +
1 − â(ẑ0 + zα/2 )
y
ẑ0 + z1−α/2
α2 = Φ ẑ0 +
1 − â(ẑ0 + z1−α/2 )
y
Pn
i=1 (θ() − θ(i) )3
â = Pn q
6· i=1 ((θ() − θ(i) )2 )3/2
El factor de corrección del sesgo, ẑ0 , es en realidad una estimación de una medida del sesgo
mediano de las réplicas θ̂∗ de θ̂. Si θ̂ es la mediana de las réplicas bootstrap, entonces ẑ0 = 0.
El factor de aceleración, â, es una estimación de una medida de la asimetrı́a a partir de las
réplicas jackknife.
Cabe señalar que existen otros métodos para estimar la aceleración. El factor de aceleración â
debe su nombre a que estima la tasa de cambio del error estándar de θ̂ con respecto al parámetro
θ (en una escala normalizada). Al usar el intervalo de confianza bootstrap normal estándar se
supone que θ̂ es aproximadamente Normal con esperanza θ y varianza σ(2θ̂) independiente del
parámetro θ. Sin embargo, no siempre es cierto que la varianza de un estimador sea constante
con respecto al parámetro. El factor de aceleración tiene como objetivo ajustar los lı́mites
de confianza para tener en cuenta la posibilidad de que la varianza de los estimadores pueda
depender del verdadero valor del parámetro a estimar.
Los intervalos de confianza bootstrap BCa tienen dos importantes ventajas teóricas:
13
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Tienen precisión de segundo orden, esto es, su error tiende a 0 a la velocidad 1/n.
14
Capı́tulo 2
BOOTSTRAP EN POBLACIONES FINITAS
2.1. Introducción
Una muestra bootstrap es una muestra aleatoria simple con reemplazamiento de tamaño n∗
seleccionada a partir de una muestra inicial, que es considerada como una pseudopoblación
para este muestreo. Notaremos Y1∗ , . . . , Yn∗ a las observaciones bootstrap.
15
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Sea θb∗ el estimador bootstrap de θ, que tiene la misma forma funcional que θb pero aplicado
a la muestra bootstrap en lugar de a la muestra de partida. Entonces, el estimador bootstrap
de V ar[θ]
b está definido por
b = V ar∗ [θb∗ ]
v1 [θ]
A
1 X b∗ b∗ 2
v2 [θ]
b = θ −θ
A − 1 α=1 α
con:
∗ A
1 X b∗
θ =
b θ
A α=1 α
16
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Supóngase que se desea estimar la media poblacional Y de una variable y en estudio en una
población finita U de tamaño N . Se seleccionan n unidades en la población mediante muestreo
aleatorio simple con reemplazamiento. Sean y1 , . . . , yn los valores muestrales de y. Entonces, es
habitual estimar Y mediante la media muestral; esto es:
1X
y= yi
n
Es sabido que la varianza de este estimador y el estimador usual de la varianza vienen dados,
respectivamente, por:
σ2
V ar[y] =
n
y
s2
v[y] =
n
siendo:
N
2 1 X
σ = (Yi − Y )2
N i=1
17
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
y
n
21 X
s = (yi − y)2
n − 1 i=1
En este caso, la muestra bootstrap y1∗ , . . . , yn∗ ∗ es una m.a.s. con reemplazamiento de tamaño
n∗ obtenida a partir de la muestra inicial de tamaño n, y el correspondiente estimador para la
media poblacional es la media muestral
1 X ∗
y∗ = yi
n∗
1
Considérese, por ejemplo, y1∗ . Dado que P [y1∗ = yi ] =, i = 1, . . . , n, entonces la media y
n
la varianza condicionadas de y1∗ , dada la muestra de partida, están dadas por:
n
1X
E∗ [y1∗ ] = yi = y
n i=1
y
n
1X n−1 2
V ar∗ [y1∗ ] = (yi − y)2 = ·s
n i=1 n
respectivamente. Dado que las observaciones bootstrap y1∗ , . . . , yn∗ ∗ son independientes e idénti-
camente distribuidas por construcción, la media y la varianza condicionadas de y ∗ , dada la
muestra de partida, resultan ser:
n
1X
E∗ [y ∗ ] = E∗ [y1∗ ] = yi = y
n i=1
y
1 n − 1 s2
v1 [y] = V ar∗ [y ∗ ] = · V ar [y
∗ 1
∗
] = · ∗ (2.1)
n∗ n n
18
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Teorema 2.1 Dada una muestra aleatoria simple con reemplazamiento de tamaño n de una
población finita de tamaño N , el estimador bootstrap de la varianza, v1 [y], es un estimador
insesgado de V ar[y] si y sólo si el tamaño de la muestra bootstrap es una unidad menos que
el tamaño de la muestra original; es decir, n∗ = n − 1. Para n∗ = n el sesgo de v1 [y] como
estimador de V ar[y] está dado por
1
sesgo[v1 [y]] = − · V ar[y]
n
Para tamaños muestrales grandes, el sesgo no parece ser relevante, mientras que para ta-
maños muestrales pequeños podrı́a ser muy importante. Por ejemplo, si n = 2 y n∗ = n el sesgo
serı́a del 50 %.
El método bootstrap no se adecúa con facilidad a los diseños muestrales sin reemplazamien-
to, incluso en los casos más simples. En esta sección se describen algunas variaciones del método
estándar que pueden ser apropiados para el muestreo aleatorio simple sin reemplazamiento. El
parámetro de interés será la media poblacional Y .
19
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
se tiene que:
1X
E∗ [y ∗ ] = E∗ [yi∗ ] = yi = y
n i∈s
y
1 1 1 X n − 1 s2
V ar∗ [y ∗ ] = V ar [y
∗ i
∗
] = · · (yi − y)2
= · ∗
n∗ n n∗ i∈s n n
Cabe señalar que estos resultados no se ven afectados por el diseño muestral de la muestra
de partida sino únicamente por el diseño de la muestra bootstrap, de modo que coinciden con
los obtenidos en la sección anterior para el muestreo aleatorio simple con reemplazamiento.
Teorema 2.2 Sea y1∗ , . . . , yn∗ ∗ una muestra bootstrap de tamaño n∗ obtenida mediante muestreo
aleatorio simple con reemplazamiento de la muestra de partida s, la cual a su vez es elegida de
la población mediante muestreo aleatorio simple sin reemplazamiento. Entonces, el estimador
bootstrap de V ar[y] está dado por
n − 1 s2
v1 [y] = V ar∗ [y ∗ ] = · ∗ (2.2)
n n
Por tanto, para el muestreo aleatorio simple sin reemplazamiento, el estimador v1 [y] de la
varianza
S2
V ar[y] = (1 − f ) ·
n
s2
v[y] = (1 − f ) ·
n
20
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Y el sesgo de v1 [y] es
n − 1 S2 S2
sesgo[v1 [y]] = E[v1 [y]] − V ar[y] = · ∗ − (1 − f ) ·
n n n
s2
v1 [y] =
n
es sesgado, con
S2 S2 S2
sesgo[v1 [y]] = − (1 − f ) · =f·
n n n
n ∗ r
1 X ] p n∗
]
y = ∗ yi = y + 1 − f · · (y ∗ − y)
n i=1 n−1
21
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
n∗ 1−f 2
v1R [y] = V ar∗ [y ] ] = (1 − f ) · · V ar∗ [y ∗ ] = ·s
n−1 n
Nótese que v1R coincide con el estimador usual de la varianza de y en muestreo aleatorio
simple sin reemplazamiento, que es insesgado.
r
p n
yi] =y+ 1−f · · (yi∗ − y),
n−1
p
yi] = y + 1 − f · (yi∗ − y)
n−1
n∗ =
1−f
en v1 [y], resulta
1−f 2
v1BW R [y] = ·s ;
n
esto es, el estimador usual insesgado de V ar[y] en muestreo aleatorio simple sin reemplazamien-
to.
22
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
n−1
En la práctica, puesto que es muy probable que el cociente no sea un número entero,
−f
1
∗ 0 n−1
podemos tomar como tamaño n de la muestra bootstrap n = , n00 = n0 + 1, o una
1−f
aleatorización entre n0 y n00 , donde [[ ]] denota la función entero mayor. Wolter (1985) prefiere
la primera elección, n∗ = n0 , dado que devuelve un estimador conservador de la varianza y su
sesgo es suficientemente pequeño en muchas ocasiones.
Gross (1980) introdujo este método bootstrap sin reemplazamiento en el que la muestra
bootstrap es obtenida por muestreo aleatorio simple sin reemplazamiento. Esto es, tanto la
muestra inicial como la bootstrap tienen en común que se obtienen sin reemplazamiento.
Esta variante supone un importante avance teórico, pero su implementación práctica en
muchos diseños es aparentemente complicada.
∗ 1 X ∗
y = ∗ y
n i=1 i
4. Calcular el estimador bootstrap teórico v1BW O (y) = V ar∗ [y ∗ ] o repetir los tres pasos
anteriores un gran número de veces A y calcular la versión de Monte Carlo:
2
A A
1 y ∗α − 1
X X
v2BW O [y] = y ∗α0
A − 1 α=1 A 0
α =1
23
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
N
∗ 1 X 0 1 X k X k
E∗ [y ] = yj = kyi = yi = ny = y
N j=1 N i∈s N i∈s N
y
N N
!2
∗ ∗ s∗ 2 ∗ 1 1 X
0 1 X 0
V ar∗ [y ] = (1 − f ) · ∗ = (1 − f ) · ∗ · · yj − y0
n n N − 1 j=1 N j 0 =1 j
1 1 X
= (1 − f ∗ ) · · · k (yi − y)2
n∗ N − 1 i∈s
1 N k
= (1 − f ∗ ) · ∗
· · · (n − 1) · s2
n N −1 N
1 N 1
= (1 − f ∗ ) · ∗
· · · (n − 1) · s2
n N −1 n
donde:
n∗
f∗ =
N
y
1 X
s2 = · (yi − y)2
n − 1 i∈s
Por tanto, se concluye que, en general, el estimador bootstrap v1BW O [y] = V ar∗ [y ∗ ] ni es
insesgado ni coincide con el estimador usual de la varianza
s2
v[y] = (1 − f ) ·
n
n
con f = .
N
24
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Si n∗ = n, entonces:
1−f 2 N n−1
v1BW O (y) = ·s · ·
n N −1 n
N · (n − 1)
C=
n · (N − 1)
v1BW O = C −1 · V ar∗ [y ∗ ] ,
√
yi] = y + C · (yi∗ − y)
N
Otra de las dificultades es que k = no es en general un número entero. El método puede
n
0 N 00 0 0
modificarse para trabajar con k igual a k = , k = k + 1, o una aleatorización entre k
n
00 0 0
y k . Siguiendo el paso 1, esta aproximación crea pseudopoblaciones de tamaños N = n · k ,
00 00
N = n · k , o una aleatorización entre los dos.
Este método fue introducido por Sitter (1992a, 1992b) para el caso en que la fracción de
muestreo f se grande (no sea despreciable). Se resume en los cuatro pasos siguientes:
25
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
n 1−e
k= ·
m 1−f
m
donde e = . Ası́, la muestra bootstrap estará formada por los k grupos aleatorios
n
seleccionados y tendrá tamaño n∗ = m · k.
n ∗ k m k
∗ 1 X ∗ 1 XX ∗ 1 X ∗
y = ∗ y = y = y
n i=1 i k m j=1 r=1 i k j=1 j
4. Calcular el estimador bootstrap teórico v1M M (y) = V ar∗ [y ∗ ], o repetir los tres pasos
anteriores un gran número de veces, A, y calcular la versión de Monte Carlo:
2
A A
1 X
y ∗α − 1
X
v2M M [y] = y ∗α0
A − 1 α=1 A 0
α =1
1−e
n∗ = n · ,
1−f
difiere del tamaño de la muestra de partida a través de la razón de dos factores de corrección
en poblaciones finitas. La elección m = f · n implica que la fracción de submuestreo e coincide
con la fracción principal de muestreo, f . En este caso, n∗ = n .
E∗ [y ∗j ] = y
26
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
y
s2
V ar∗ [y ∗j ] = (1 − e) ·
m
respectivamente, con
n
1 X
s2 = (yi − y)2
n − 1 i=1
1 m 1−f s2 s2
v1M M (y) = · V ar∗ [y ∗j ] = · · (1 − e) · = (1 − f ) ·
k n 1−e m n
Otro caso sencillo surge cuando se selecciona la muestra mediante muestreo con proba-
bilidades proporcionales al tamaño muestral con reemplazamiento. Supóngase ahora que se
desea estimar el total poblacional, Y , de una variable y, y que se dispone de los valores Xi ,
i = 1, . . . , n, de una variable auxiliar X en toda la población. Para formar la muestra se hace
uso de una medida del tamaño de Xi y de n valores aleatorios independientes rk , k = 1, . . . , n,
de una distribución U (0, 1).
27
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Para el k-ésimo número aleatorio rk , se selecciona la única unidad i para la que Si−1 < rk ≤
Si , donde las sumas acumuladas están definidas por:
i
X
p i0 i = 1, . . . , N
Si = 0
i =1
0
i=0
y
Xi
pi =
X
1 si rk ∈ (Si−1 , Si ]
Irk ∈(Si−1 ,Si ] =
0 en otro caso
Entonces, el estimador insesgado estándar para el total poblacional está dado por
n n N n
1 X yk 1 XX Yi 1X
Yb = = Irk ∈(Si−1 ,Si ] · = zk
n k=1 pk n k=1 i=1 pi n k=1
con
N
X Yi
zk = Irk ∈(Si−1 ,Si ] ·
i=1
pi
b∗ 1 XX Yi
Y = ∗ Irk∗ ∈(Si−1 ,Si ]
n k=1 i=1 pi
28
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
n
1X
E∗ [z1∗ ] = zk = Yb
n k=1
y
n
1 X 2
V ar∗ [z1∗ ] = zk − Yb ,
n k=1
respectivamente.
En consecuencia,
E∗ [Yb ∗ ] = E∗ [z1∗ ] = Yb
y
n
1 ∗ 1 1 X 2
V ar∗ [Yb ∗ ] = · V ar∗ [z1 ] = zk − Y
b
n∗ n∗ n k=1
(2.3)
" n
#
n−1 1 1 X
= ∗
· (zk − Yb )2
n n n−1 k=1
n−1
Ası́, el estimador bootstrap de la varianza de Yb es v1 [Yb ] = V ar∗ [Yb ∗ ], que resulta ser
n∗
veces el estimador usual de la varianza bajo muestreo con probabilidades proporcionales al
tamaño muestral con reemplazamiento. Si se construye una muestra bootstrap de tamaño n∗ =
n − 1, entonces v1 [Yb ] coincide con dicho estimador y es insesgado. Por otra parte, si n∗ = n, v1
es sesgado, aunque el sesgo es despreciable si n es grande.
29
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Otro diseño muestral básico es el muestreo πps o muestreo con probabilidades proporcio-
nales al tamaño muestral sin reemplazamiento, en el que las probabilidades de inclusión son
proporcionales al tamaño de una variable auxiliar. Si Xi es la medida del tamaño para la i−ési-
ma unidad, entonces la probabilidad de inclusión de primer orden para una muestra de tamaño
fijo n es:
−1
X
πi = n · p i = X i ·
n
Las probabilidades de inclusión de segundo orden, que notaremos πij , vienen determinadas por
el algoritmo especı́fico de muestreo con probabilidades proporcionales utilizado.
X yi X 1X
Yb = = wi · yi = ui
i∈s
πi i∈s
n i∈s
n X n 2
X πi πj − πij yi yj
v[Yb ] = · −
i=1 j>i
π ij π i πj
30
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
porcionales al tamaño muestral con reemplazamiento. Ası́, sea u∗1 , . . . , u∗n∗ la muestra bootstrap
obtenida mediante muestreo aleatorio simple con reemplazamientoa partir de la muestra de
partida s. Entonces, el estimador bootstrap del total es
n ∗
∗ 1 X ∗
Y = ∗
b u
n i=1 i
y !2 !2
n n n
1X X ui Yb X Yb
V ar∗ [u∗1 ] = (ui − Yb )2 = n − =n wi · yi −
n i=1 i=1
n n i=1
n
Puesto que la varianza condicionada de Yb ∗ depende únicamente del diseño de la muestra boots-
trap, y no del diseño de la muestra inicial, resulta
n
!2
∗ 1 ∗ n X Yb
V ar∗ [Y ] = ∗ V ar∗ [u1 ] = ∗
b wi · yi − , (2.4)
n n i=1 n
que es el estimador bootstrap v1 [Yb ] de la varianza bajo muestreo con probabilidades propor-
cionales al tamaño muestral sin reemplazamiento.
Si se considera n∗ = n − 1 queda:
!2 n n 2
n X Yb 1 XX yi yj
v1 [Yb ] = wi · yi − = −
n − 1 i∈s n n − 1 i=1 j>i π i πj
31
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
n
sesgo[v1 [Yb ]] = · V ar[Ywr ] − V ar[Y ]
b b
n−1
donde V ar[Ybwr ] es la varianza del total estimado en muestreo con probabilidades proporcionales
al tamaño muestral con reemplazamiento.
12
π1 π2 − π12
u]i = Yb + (u∗i − Yb )
π12
b] 1 X ]
Y = ∗ u
n i=1 i
1 1 π1 π2 − π12
v1R (Yb ) = V ar∗ [Yb ] ] = ∗
V ar∗ [u]1 ] = ∗ V ar∗ [u∗1 ]
n n π12
π1 π2 − π12
v1R (Yb ) = (w1 y1 − w2 y2 )2 ,
π12
32
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Desafortunadamente no está claro como extender esta variante del reescalado al caso de un
n cualquiera. Alternativamente, cuando n∗ = n − 1, se puede intentar corregir el sesgo de forma
aproximada introduciendo un factor de corrección en la forma
!2
n X Yb
v1F [Yb ] = (1 − f ) V ar∗ [Yb ∗ ] = (1 − f ) wi · yi − ,
n − 1 i∈s n
donde
n
1X
f= πi .
n i=1
Aunque esta corrección no ha sido aceptada por todos, proporciona una sencilla regla práctica
para reducir la sobreestimación de la varianza.
33
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
estratos
En los casos de muestreo aleatorio simple con reemplazamiento y muestreo aleatorio simple
sin reemplazamiento, el estimador estándar para el total poblacional es:
L
X
Yb = Ybh
h=1
donde
h n
Nh X
Ybh = · yhi ,
nh i=1
donde ∗
nh
∗ Nh X
Yh = ∗ ·
b y ∗ = Nh y ∗h ,
nh i=1 hi
34
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
con ∗
nh
∗ 1 X
yh = ∗ · y∗ .
nh i=1 hi
L
X L
X
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ] = Nh2 · V ar∗ [y ∗h ]
h=1 h=1
L
X s2h
v1 [Yb ] = Nh2 ·
h=1
nh
con
h n
1 X
s2h = (yhi − y h )2 .
nh − 1 i
Obsérvese que se trata del estimador usual insesgado para la varianza en el caso de muestreo
aleatorio simple con reemplazamiento.
Sin embargo, v1 [Yb ] es sesgado para el muestreo aleatorio simple sin reemplazamiento ya que
nh
omite los factores de corrección para poblaciones finitas. Si las fracciones de muestreo fh =
Nh
son insignificantes en todos los estratos, el sesgo será pequeño y v1 será suficientemente bueno.
En caso contrario, serı́a deseable reducir el sesgo de alguna forma.
La variante del factor de corrección no es factible aquı́ a menos que el tamaño muestral sea
asignado proporcionalmente a los estratos, en cuyo caso
1 − fh = 1 − f
35
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
La variante del reescalado también puede utilizarse para reducir el sesgo. A partir de las
observaciones bootstrap reescaladas
] 1
∗
yhi = y h + (1 − fh ) 2 (yhi − yh) ,
L
X
Yb ] = Ybh]
h=1
donde ∗
nh
] Nh
X
Ybh = ∗ · y] ,
nh i=1 hi
L
X s2h
v1R [Yb ] = V ar∗ [Yb ] ] = Nh2 · (1 − fh ) · ,
h=1
nh
que reproduce el estimador usual insesgado de la varianza en el muestreo aleatorio simple sin
reemplazamiento.
L
X
Yb = Ybh
h=1
36
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
donde
nh
1 X
Yh =
b zhi
nh i=1
con
yhi
zhi = .
phi
Su versión bootstrap es
L
X
Yb ∗ = Ybh∗
h=1
donde
nh
∗ 1 X ∗
Yh = ∗
b zhi
nh i=1
con
∗
∗ yhi
zhi = .
phi
L
X
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ]
h=1
L h n
X 1 X 2
v1 [Yb ] = zhi − Ybh
h=1
nh · (nh − 1) i=1
37
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
L
X
Yb = Ybh
h=1
donde
nh
1 X
Ybh = uhi
nh i=1
con
uhi = nh · whi · yhi
y
1
whi = .
πhi
Su versión bootstrap es
L
X
Yb ∗ = Ybh∗
h=1
donde ∗
nh
1 X
Ybh∗ = ∗ u∗hi
nh i=1
con
u∗hi = (nh · whi · yhi )∗ .
38
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
L L nh
!2
X X nh X Ybh
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ] = whi · yhi −
h=1 h=1
nh − 1 i=1
nh
Nótese que este estimador es sesgado para muestreo con probabilidades proporcionales al ta-
maño muestral sin reemplazamiento y, de hecho, sobreestima V ar[Yb ] en la medida en que la
auténtica varianza sea menor que la obtenida en muestreo con probabilidades proporcionales
al tamaño muestral con reemplazamiento.
12
πh1 πh2 − πh12
u]hi = Ybh + (u∗hi − Ybh )
πh12
L
X
Yb ] = Ybh]
h=1
donde ∗
nh
1 X
Ybh] = ∗ u]hi .
nh i=1
L L
X X πh1 πh2 − πh12
v1R (Yb ) = V ar∗ [Ybh] ] = (wh1 yh1 − wh2 yh2 )2 .
h=1 h=1
πh12
39
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
El método del conglomerado último, introducido por Hansen, Hurwitz y Madow (1953),
permite obtener el estimador de la varianza del estimador del parámetro de interés considerando
el muestreo multietápico como un caso especial de muestreo por conglomerados con una sola
etapa.
40
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
tral con reemplazamiento siendo phi la probabilidad que tiene la i-ésima PSU de ser seleccionada
en cada extracción ( ni=1
P h
phi = 1) en el h-ésimo estrato.
Supongamos que estamos interesados en estimar el total poblacional, Y . Sea Yhi el total
poblacional dentro de la i-ésima PSU en el estrato h-ésimo, esto es, dentro de la (h, i)−ésima
PSU. Y sea Ybhi el estimador de Yhi en el conglomerado ultimo de la i-ésima unidad PSU en el
estrato h-ésimo.
La forma de Ybhi no es importante. Sin embargo, Ybhi deberı́a ser un buen estimador de
Yhi , lo que significa que deberı́a ser insesgado o aproximadamente insesgado. Además, deberı́a
emplearse el mismo estimador (con la misma forma funcional) para cada PSU dentro de un
estrato.
L
X
Yb = Ybh
h=1
donde
nh nh
1 X Ybhi 1 X
Ybh = = zhi
nh i=1 phi nh i=1
con
Ybhi
zhi = .
phi
L L n h
X X 1 X 2
v[Yb ] = v[Ybh ] = zhi − Yh
b
h=1 h=1
nh · (nh − 1) i=1
41
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Para llevar a cabo la estimación bootstrap, la muestra bootstrap puede construirse mediante
el siguiente procedimiento:
2. De manera independiente, tomar una muestra de n∗2 PSUs a partir de la muestra inicial
en el segundo estrato mediante muestreo aleatorio simple con reemplazamiento.
4. Aplicar el método de los conglomerados últimos. Esto significa que cuando una PSU
es seleccionado en la muestra bootstrap, todas las unidades del conglomerado último
son incluidas en la muestra bootstrap. Ası́, la muestra bootstrap conforma una muestra
multietápica, estratificada, de la población. Su diseño es similar al de la muestra de
partida.
La versión bootstrap de Yb es
L
X
Yb ∗ = Ybh∗
h=1
donde ∗ ∗
nh nh
1 X Ybhi∗ 1 X
Ybh∗ = ∗ = ∗ z∗
nh i=1 phi nh i=1 hi
con Ybhi∗ la versión bootstrap de Ybhi en el conglomerado ultimo de la i-ésima unidad PSU en el
estrato h-ésimo, y
∗ Ybhi∗
zhi = .
phi
∗
En el h-ésimo estrato, las variables zhi , i = 1, . . . , n∗h , tienen esperanza y varianza condicio-
nadas comunes dadas por:
nh
∗ 1 X
E∗ [zhi ] = zhi = Ybh
nh i=1
42
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
y
nh
∗ 1 X 2
V ar∗ [zhi ] = zhi − Ybh .
nh i=1
L L ∗ L nh
X X V ar∗ [zh1 ] X 1 1 X 2
v1 [Yb ] = V ar∗ [Ybh∗ ] = = · · zhi − Yh
b
h=1 h=1
n∗h n∗ nh i=1
h=1 h
Obsérvese que el estimador bootstrap coincide con el estimador usual insesgado de la varianza
cuando n∗h = nh − 1.
Para otros tamaños de la muestra bootstrap, tales como n∗h = nh , se tiene que v1 es sesgado
de V ar[Yb ]. El sesgo puede ser relevante para tamaños pequeños de nh .
En lo que sigue vamos a centrar nuestra atención en el muestreo multietápico cuando las
nh PSUs son seleccionadas mediante algún esquema πps en cada estrato.
πhi = nh phi ,
PNh
con 0 < πhi < 1, i phi = 1 y phi proporcional al valor Xi de alguna variable auxiliar x.
Sea Yhi el total poblacional en la (h, i)-ésima PSU. Vamos a considerar un estimador del
total poblacional Y de la forma
L
X
Yb = Ybh
h=1
43
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
donde
nh nh
X Ybhi 1 X Ybhi
Ybh = =
i=1
πhi nh i=1 phi
con Ybhi un estimador de Yhi resultado del submuestreo en la segunda y sucesivas etapas.
L L
" nh
# Nh
!
X X X Yhi X σ2 2hi
V ar[Yb ] = V ar(Ybh ) = V ar +
h=1 h=1 i=1
πhi i=1
πhi
2
donde σ2hi = V ar(Ybhi | i) es la contribución a la varianza debida al muestreo en la segunda y
sucesivas etapas dentro de la (h, i)-ésima PSU.
L
X nh X
L X
X
Yb = Ybh = whij · yhij
h=1 h=1 i=1 j∈shi
donde shi es el conjunto de USUs observadas resultado del submuestreo en la segunda y sucesivas
etapas dentro de la (h, i)−ésima PSU, y whij es el peso asociado a la (h, i, j)−ésima USU.
donde
X
uhi. = uhij ,
j∈shi
con
uhij = nh · whij · yhij
44
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
La versión bootstrap de Yb es
L
X nh X
L X
X
Yb ∗ = Ybh∗ = ∗
whij · yhij
h=1 h=1 i=1 j∈shi
∗ nh
whij = thi · · whij
n∗h
siendo thi el número de veces que la (h, i)-ésima PSU es seleccionado en la muestra bootstrap.
thi puede tomar los valores 0, 1, . . . , n∗hi . Para las PSUs no seleccionadas, thi = 0 y los corres-
∗
pondientes pesos bootstrap son también nulos, whij = 0. Para las PSUs seleccionadas pero no
duplicadas en la muestra bootstrap se tiene que thi = 1 y los pesos bootstrap
∗ nh
whij = · whij
n∗h
reflejan el producto del peso de la (h, i)-ésima PSU en la muestra inicial y el inverso de la fracción
de muestreo bootstrap. Para las PSUs seleccionados y duplicadas en la muestra bootstrap se
tiene que thi ≥ 2 y los pesos bootstrap reflejan el producto del peso de la (h, i)-ésima PSU en
la muestra inicial, el inverso de la fracción de muestreo bootstrap, y el número de veces que la
PSU ha sido seleccionada.
nh ∗
L
∗
X 1 X
Y =
b
∗
u∗hi.
n
h=1 h i=1
con !∗
X
u∗hi. = nh · whij · yhij
j∈shi
45
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Las variables u∗hi. son independientes e idénticamente distribuidas con varianza condicionada
nh
1 X 2
V ar∗ [u∗h1. ] = uhi. − Yh
b
nh i=1
L L
X X V ar∗ [u∗h1. ]
v1 [Yb ] = V ar∗ [Yb ∗ ] = V ar∗ [Ybh∗ ] =
h=1 h=1
n∗h
L nh
!2
X nh X X Ybh
= whij · yhij −
h=1
n∗h i=1 j∈shi
nh
!2
L nh nh Nh
X
E nh
X Yhi. 1 X Yhi0 . X σ2 2hi
E[v1 [Yb ]] = − +
h=1
nh − 1 i=1
πhi nh i0 =1 πhi0 i=1
πhi
Comparando esta expresión con la varianza de Yb concluimos que el estimador bootstrap incluye
de forma adecuada las contribuciones a la varianza del submuestreo dentro de cada PSU.
Una cuestión clave es porqué cabrı́a esperar que el método bootstrap proporcione un esti-
mador de la varianza razonablemente bueno para un estimador no lineal. Hemos visto que el
método bootstrap funciona bien para estimadores lineales, ya que tiene la capacidad de repro-
ducir el estimador usual insesgado de la varianza. Una adecuada elección de n∗ y el método
46
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
del reescalado proporcionan la insesgadez. Puesto que el método funciona con estadı́sticos li-
neales, deberı́a funcionar también con estadı́sticos no lineales dado que localmente poseen un
comportamiento lineal.
θ = g(T ) ,
θ̂ = g(Tb)
1. Obtener una muestra bootstrap s∗1 por los métodos vistos en las secciones anteriores.
2. Determinar T̂1∗ , la versión bootstrap de los totales estimados basada en la muestra boots-
trap.
5. Tomar A − 1 muestras bootstrap más, s∗α , lo que da un total de A muestras. Las muestras
deben ser mutuamente independientes.
47
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
A
1 2
θ̂α∗ − θ̄ˆ∗
X
v2 [θ̂] = ·
A − 1 α=1
con:
A
1 X ∗
θ̄ˆ∗ = · θ̂
A α=1 α
nh X
L X
X mhi
Yb = whij · yhij
h=1 i=1 j=1
y
nh X
L X
X mhi
X
b= whij · xhij
h=1 i=1 j=1
donde nh es el número de PSUs seleccionados dentro del estrato h-ésimo, mhi es el número de
USUs entrevistadas dentro de la (h, i)-ésimo PSU, y whij es el peso asignado a la (h, i, j)−ésima
USU. Dichos pesos reflejan los inversos de las probabilidades de inclusión y quizás otros factores,
48
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
θ = Y /X ,
Para estimar V ar(θ̂) debemos obtener de forma independiente A muestras bootstrap como
se indicó en la sección 2.7, y para cada una de ellas, α = 1, . . . , A, calcular las versiones
bootstrap de los totales poblacionales:
nh X
L X
X mhi
Ybα∗ = wαhij · yhij
h=1 i=1 j=1
y
nh X
L X
X mhi
b∗ =
X wαhij · xhij
α
h=1 i=1 j=1
nh
wαhij = tαhi · · whij
n∗h
siendo tαhi el número de veces que la (h, i)-ésima PSU de la muestra inicial es seleccionada
dentro de la α-ésima muestra bootstrap.
θ̂α∗ = Ybα∗ /X
b∗
α
49
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
para α = 1, . . . , A.
A
1 X
∗ ˆ ∗
2
v2 [θ̂] = · θ̂ − θ̄
A − 1 α=1 α
exθ
µ(xθ) = ,
1 + exθ
el parámetro θ se corresponde con aquél que define el modelo de regresión simple logı́stica;
mientras que para una variable dependiente y cualquiera y
µ(xθ) = xθ ,
nh X
L X mhi
ˆ · xhij = 0
X
whij · [yhij − µ(xhij θ)]
h=1 i=1 j=1
50
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
" L n m #−1 nh X
L X mhi
XX h X
hi X
(k+1) (k) 0 (k)
θ̂ = θ̂ + whij · µ (xhij θ̂ )· x2hij · whij · [yhij − µ(xhij θ̂(k) )] · xhij
h=1 i=1 j=1 h=1 i=1 j=1
siendo
µ(xθ) · [1 − µ(xθ)], para el problema de regresión simple logı́stica
µ0 (xθ) =
1, para el problema de regresión lineal simple
Para la α-ésima muestra bootstrap, la versión bootstrap θ̂α∗ del estimador θ̂ está definida
como la solución de la ecuación
nh X
L X
X mhi
wαhij · [yhij − µ(xhij θ̂α∗ )] · xhij = 0
h=1 i=1 j=1
donde los pesos bootstrap wαhij están definidos como se vio anteriormente. θ̂α∗ puede obtenerse
de nuevo mediante el método iterativo de Newton-Raphson. Finalmente, haciendo uso de las A
muestras bootstrap, el estimador bootstrap de la varianza de θ̂ es
A
1 2
θ̂α∗ − θ̄ˆ∗
X
v2 [θ̂] = ·
A − 1 α=1
51
Capı́tulo 3
Aplicaciones con R
3.1. Introducción
En este capı́tulo, como aplicación de los métodos estudiados, se presentan varias funciones
implementadas en el entorno de programación estadı́stica R con el propósito de obtener la
estimación bootstrap de Monte Carlo de la varianza del parámetro de interés, ası́ como su
sesgo, en el caso de emplear muestreo aleatorio simple.
52
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
se emplea muestreo aleatorio simple con reemplazamiento para construir las muestras bootstrap
a partir de la muestra de partida.
data Objeto de tipo vector, matrix o dataframe. Si es un vector, cada componente corres-
ponde a una observación univariante de la muestra inicial; en caso contrario, cada fila
corresponde a una observación multivariante de la muestra inicial.
statistic Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico de
interés. Debe tener 2 argumentos: el primero corresponde a los datos originales (data);
y el segundo es un vector de ı́ndices que determinará la muestra bootstrap.
t Un vector con las réplicas bootstrap del estadı́stico de interés, resultado de aplicar la
función statistic.
53
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Por otra parte, el paquete boot proporciona funciones útiles para llevar a cabo la estimación
bootstrap en este caso. En concreto, son de especial interés las funciones boot y boot.ci.
A continuación resumimos los argumentos de la función que son de interés para nuestros propósi-
tos:
data Objeto de tipo vector, matrix o dataframe. Si es un vector, cada componente corres-
ponde a una observación univariante de la muestra inicial; en caso contrario, cada fila
corresponde a una observación multivariante de la muestra inicial.
statistic Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico
de interés. Para el caso de bootstrap no paramétrico statistic debe tener 2 argumentos:
el primero corresponde a los datos originales (data); y el segundo será habitualmente
un vector de ı́ndices que determinará la muestra bootstrap.
sim Cadena de caracteres que especifica el tipo de simulación requerida. Su valor por
defecto es ordinary, que corresponde al bootstrap no paramétrico.
54
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
El valor de la función es un objeto de clase boot. Se trata de una lista en la que destacamos los
elementos:
t Una matriz cuyas filas corresponden a las réplicas bootstrap del estadı́stico de interés,
resultado de aplicar la función statistic.
boot.out Objeto de clase boot resultado de aplicar la función boot a unos datos observados.
El valor de la función es un objeto de tipo boot.ci. Se trata de una lista con elementos:
t0 El valor observado del estadı́stico de interés en la misma escala que los intervalos.
55
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
> library(bootstrap)
> law
LSAT GPA
1 576 339
2 635 330
3 558 281
4 578 303
5 666 344
6 580 307
7 555 300
8 661 343
9 651 336
10 605 313
11 653 312
12 575 274
13 545 276
14 572 288
15 594 296
56
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Este conjunto de datos es una muestra aleatoria del conjunto de datos law82 que corresponde
a una población de 82 Facultades de Derecho. Se pretende estimar la correlación entre las
puntuaciones LSAT y GP A, y calcular el error estándar de la estimación bootstrap de la
correlación muestral.
> cor(law82$LSAT,law82$GPA)
[1] 0.7599979
> cor(law$LSAT,law$GPA)
[1] 0.7763745
Vamos a hacer uso de la función BootSRSWR especificando muestras bootstrap del mis-
mo tamaño que la muestra inicial. A continuación se muestra el código necesario y la salida
proporcionada por R.
La estimación bootstrap puede obtenerse también haciendo uso de la función boot del pa-
quete boot. El código a ejecutar y la salida obtenida son los siguientes:
57
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
587
440
294
147
Figura 3.1: Distribución de las estimaciones bootstrap de la correlación lineal entre LSAT y
GP A
Bootstrap Statistics :
original bias std. error
t1* 0.7763745 -0.005824032 0.1287397
Finalmente vamos a calcular los intervalos de confianza bootstrap para la correlación lineal
entre LSAT y GP A, al nivel de confianza del 95 %, mediante la función boot.ci.
58
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Ejemplo 3.2 El conjunto de datos patch del paquete bootstrap contiene medidas de cierta hor-
mona en el caudal sanguı́neo de 8 individuos tras haber llevado tres parches médicos diferentes:
un parche placebo (placebo), un parche antiguo (old) y un parche nuevo (new).
> library(bootstrap)
> patch
subject placebo oldpatch newpatch z y
1 1 9243 17649 16449 8406 -1200
2 2 9671 12013 14614 2342 2601
3 3 11792 19979 17274 8187 -2705
4 4 13357 21816 23798 8459 1982
5 5 9055 13850 12560 4795 -1290
6 6 6290 9806 10157 3516 351
7 7 12412 17208 16570 4796 -638
8 8 18806 29044 26325 10238 -2719
E[new] − E[old]
θ=
E[old] − E[placebo]
59
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Si |θ| ≤ 0.2 se acepta la bioequivalencia de los parches antiguos y los nuevos; esto es,
se asumirá que a todos los efectos terapeúticos los parches producen el mismo efecto en los
pacientes. El estadı́stico es de la forma Y /Z, con Y = new − old y Z = old − placebo. Vamos a
determinar los estimadores bootstrap de la desviación estándar y del sesgo del estadı́stico razón
de bioequivalencia.
El código necesario, especificando muestras bootstrap del mismo tamaño que la muestra de
partida, y la salida proporcionada por R, se muestran a continuación:
60
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
394
296
197
98
data Objeto de tipo vector, matrix o dataframe. Si es un vector, cada componente corres-
ponde a una observación univariante de la muestra inicial; en caso contrario, cada fila
corresponde a una observación multivariante de la muestra inicial.
variante Cadena de caracteres que especifica las variantes del método bootstrap que se van
a utilizar. Sus valores pueden ser: “BWO”, para la variante BW O; “MM”, para la
variante M M ; u “all”, si se van a utilizar las dos variantes.
statistic Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico de
interés. Debe tener 2 argumentos: el primero corresponde a los datos originales (data);
y el segundo es un vector de ı́ndices que determinará la muestra bootstrap.
61
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
t Lista con componentes BWO, MM, o ambas, según variante. Cada componente con-
tiene las réplicas bootstrap del estadı́stico de interés, resultado de aplicar la función
statistic, para la correspondiente variante.
mean El vector de medias de las réplicas bootstrap del estadı́stico de interés para variante.
sd El vector de estimaciones bootstrap del error estándar del estadı́stico de interés para
variante.
bias El vector de estimaciones bootstrap del sesgo del estadı́stico de interés para variante.
62
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Ejemplo 3.3 A partir de la muestra law del ejemplo 3.2, vamos a obtener las estimaciones
bootstrap de la media poblacional y de la correlación lineal entre ambas variables, mediante
muestreo aleatorio simple sin reemplazamiento BW O y M M .
63
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
Las Figuras 3.3 y 3.4 muestran la distribución de las estimaciones bootstrap obtenidas.
400
300
200
100
263
197
132
66
64
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
304
228
152
76
431
323
216
108
65
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
323
242
162
81
754
566
377
188
Figura 3.5: Distribución de las estimaciones bootstrap de la correlación lineal entre LSAT y
GP A
66
Apéndice A
Funciones implementadas
BootSRSWR
av <- mean(theta.boot)
cat("\n\nMedia de las estimaciones bootstrap: ", round(av, digits=5))
Sd <- sqrt(Var)
cat("\nError est{\’a}ndar: ", round(Sd, digits=5))
67
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
cat("\n")
out <- list(t0 = theta0, t = theta.boot, mean = av, var = Var, sd = Sd, bias
= sesgo, data = data, st = statistic, m = m)
invisible(out)
}
BootSRSWOR
68
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
69
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
par(mfrow=c(length(theta.boot),1))
cat("\n")
70
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
out <- list(t0 = theta0, t = theta.boot, mean = av, var = Var, sd = Sd, bias
= sesgo, data = data, st = statistic, N = N, m = m)
invisible(out)
}
71
Apéndice B
Diseños muestrales y estimadores usuales
pps wor muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento
pps wr + srs wor Etapa 1: muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento
pps wor + srs wor Etapa 1: muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento
NOTA: En este documento todas las menciones a los estimadores usuales de la varianza hacen referencia
72
Diseño Estimador Varianza Estimador usual de la Varianza
S2 s2
V ar[Yb ] = N 2 · (1 − f ) · n v[Yb ] = N 2 · (1 − f ) · n
1
Pn
Yb = f · i=1 yi
srs wor 1
PN 2 1
Pn 2
S2 = N −1 i=1 Yi − Y s2 = n−1 · i=1 (yi − ȳ)
n
f= N
1 1
PN Pn
Y = N · i=1 Yi y= n · i=1 yi
Bootstrap en poblaciones finitas
σ2 s2
Pn V ar[Yb ] = N 2 · n v[Yb ] = N 2 · n
srs wr Yb = N · yi
i=1
1
PN 2 1
Pn 2
σ2 = N i=1 Yi − Y s2 = n−1 · i=1 (yi − ȳ)
2 2
pps wor
Pn yi PN PN Yi Yj PN PN πi ·πj −πij yi yj
Yb = i=1 πi V ar[Yb ] = i=1 j>i (πi · πj − πij ) · πi − πj v[Yb ] = i=1 j>i πij · πi − πj
73
1
PN 2
V ar[Yb ] = n · i=1 pi · (Zi − Y ) 2
1 yi 1
Pn Pn
pps wr Yb = · v[Yb ] = · zi − Yb
n i=1 pi n·(n−1) i=1
Yi
Zi = pi
2
1 Yi.
Pn
V ar[Yb.. ] = n · i=1 pi · pi − Y.. + 2
1 Mi ·y i. 1 Mi ·y i.
Pn Pn
pps wr + srs wor Yb.. = · v[Yb.. ] = · − Yb..
n i=1 pi n·(n−1) i=1 pi
PN Mi2 Si2
+ n1 · i=1 pi · (1 − f2i ) · mi
2 2
Pn Mi ·y i. PN PN Yi. Yj. Pn Pn πi ·πj −πij Mi ·y i. Mj ·y j.
Yb.. = i=1 πi V ar[Yb.. ] = i=1 j>i (πi · πj − πij ) · πi − πj + v[Yb.. ] = i=1 j>i πij · πi − πj +
pps wor + srs wor
PN Mi2 Si2 Pn Mi2 s2i
πi = n · pi + i=1 πi · (1 − f2i ) · mi + i=1 πi · (1 − f2i ) · mi
PL PL PL
L strata Yb = h=1 Ybh V ar[Yb ] = h=1 V ar[Ybh ] v[Yb ] = v[Ybh ]
h=1
Samuel Nicolás Gil Abreu
Bibliografı́a
[1] Arnold, S.F.- Gibbs Sampling. Handbook of Statistics 9: Computational Statistics. North
Holland. 1993.
[2] Beran, R.- Jackknife approximations to bootstrap estimates. Ann. Statist., 12, 101-118.
1984.
[3] Bickel, P.J., & Freedman, D.A.- Some asymptotic theory for the bootstrap. Ann. Statist.,
9, 1196-1217. 1981.
[4] Chambers, R.L. & Skinner, C.J. ed.- Analysis of Survey Data, Wiley Series in Survey
Methodology. Wiley. 2003.
[5] Davison, A.C. & Hinkley, D.V.- Bootstrap Methods and Their Applications. Cambridge
University Press. 1997.
[6] Diciccio, T.J., & Romano, J.P.- A review of bootstrap confidence intervals. J.R.S.S. B, 50,
338-354. 1988.
[7] Diciccio, T.J., & Efron, B.- Bootstrap confidence intervals. Stat. Science. 11, 189-228. 1996.
[8] Efron, B.- Bootstrap Methods: Another Look at the Jackknife. Ann. Statist., 7, 1-26. 1979.
[9] Efron, B.- Better bootstrap confidence intervals. J.A.S.A., 82, 171-200. 1987.
[10] Efron, B., & Tibshirani, R.J.- An introduction to the bootstrap. Chapman & Hall. 1993.
[11] Everitt, B. S. & Hothorn, T.- A Handbook of Statistical Analyses Using R. 2006.
74
Bootstrap en poblaciones finitas Samuel Nicolás Gil Abreu
[12] Freedman, D.A.- Bootstrap regresion models. Ann. Statist., 9, 1218-1228. 1981.
[14] Ghosh, M. et al.- A note on bootstrapping the sample median. Ann. Statist., 12, 1130-1135.
1984.
[15] Hall, P.- On the bootstrap and confidence intervals. Ann. Statists., 14, 1431-1452. 1986.
[17] LePage, R. & Billard, L. eds.- Exploring the limits of boostrap. J. Wiley. 1992.
[19] Maindonald, J. & Braun, J.- Data Analysis and Graphics Using R. Cambridge University
Press. 2007.
[20] Mooney, C.Z. & Duval, R.D.- Bootstrapping: A nonparametric approach to statistical
inference. Beverly Hill: Sage Publication. 1993.
[21] Rao, C.R. ed.- Handbook of Statistics 9: Computational Statistics. North-Holland. 1993.
[22] Rizzo, M.- Statistical Computing with R. Chapman & Hall. 2007.
[23] Thompson, M.E.- Theory of Sample Surveys. Chapman & Hall. 1997.
[24] Wu, C.F.J.- Jackknife, bootstrap and other resampling methods in regresion analysis. Ann.
Statist., 14, 1261-1295. 1986.
75