Está en la página 1de 28

Departament

destadsticoa
Grup destadsticoa
Computacional

Introduccin a la
metodologa bootstrap
Jordi Ocaa
Departament destadsticoa
Secci Departamental de Biologia
Universitat de Barcelona

Puntos a tratar
Elementos de un problema de inferencia
estadsticoa
Determinacin de la distribucin muestral
(o de alguna de sus caractersticas)
Principio plug-in y bootstrap
Principio de Montecarlo y bootstrap
Necesaria correspondencia entre mundo
real y mundo bootstrap
Ejemplos
Departament

Elementos de un
problema de inferencia
estadstica

muestra
los datos
observa
da

F F

Modelo
probabilstico,
Estudio
mecanismo
experimental u
generador de
observacional
los datos

khi2(5)

0.05
0.0

Procesamient
o
Departament

0.10

0.15

t ( x) estadstic
os
de
R ( t, F , x) Medidas
precisin

8
y

10

12

14

Elementos de un
problema de I.E. Ejemplo
n
( x - m)
introductorio
-1 2
x = ( x1,K , xn )
f ( x; ms
, ) = ( s 2p ) e 2s
Medimos la presin
i

13.1,
12.2,
muestra
15.5,
...
aleatoria
simple
de
tamao
n
(x1n
x=
xi , t ( x) =

sanguinea sistlica
Normal de media
de una muestra
y varianza
aleatoria de
desconocidas
individuos de una
poblacin

m) n
s

0.2
0.1
0.0

t(20)

0.3

0.4

i =1

i =1

-4

-2

0
y

Departament

Distribucin exacta de la
media muestral
Llamemos G a la distribucin del
X , G = G(F(;,),...)
estadstico
Bajo fuerte suposicin sobre la forma
de F (normalidad), forma de G
conocida de manera exacta: N(,n),
para todo n
Dependiente de parmetros
2
vlida solamente

s
desconocidos:

.
En
la
prctica,

N
m
,

para estimar

aproximacin
n

Departament

var ( X )

Distribucin muestral
exacta del estadstico t
Llamemos H a la distribucin del
estadstico t(X), H = H(F(;,),...)
Bajo fuerte suposicin sobre la forma de
F (normalidad), conocida de forma
exacta: t de Student con n 1 g.d.ll
Gracias al carcter pivotal de t(x), no
depende de parmetros desconocidos
Pero que pasa bajo otras formas de F?
Departament

Distribucin muestral bajo


condicions ms generales
Segn el Teorema Central del
2
N ( ms
, / n ) ,en la prctica
Lmite, si nXgrande
, 2 / n ) (p.e. N ( x, s2 / n ) )
X N ( ms

Igualmente, segn el T. C. L., es


razonable la aproximacinn t
N(0,1)
n ( U ( X ) - ms
q)
Casos ms generales
U ( X) ,
,K
problemticos: s nU
Departament

0.5

0.3
0.4
0.2
0.3
0.2

d
n
o
rm
x,
) sd = 0.75)
dnorm(x, me
a
n
=
0(
.5

0.10.1

Ajuste de los
parmetros de la
distribucin

h
muestral,
G( , ,...)

0
.0
0
.0

Determinacin previa
de la forma de la
distribucin muestral,
G(,...)=G(F(;),...)

0.4

Esquema general de estas


aproximaciones

-4
-4

-2
-2

00
xx

Departament

2 2

Principio plug-in y
bootstrap (en sentido
amplio)
Fijmonos
en el paso G = G(F(;,),...)
Si F es una buena estimacin de
F a partir de los datos, parece
G (mediante
F,K )
razonable aproximar G

Principio plug-in
Metodologia bootstrap
inferencia basada en el
Principio plug-in
Departament

Ejemplo: aplicacin
automtica del Principio

F
A menudo
es la distribucin
plug-in

emprica, Fn, discreta, que


assigna probabilidad 1/n a cada
valor muestral y 0 a cualquier
otro
Si
interessa caracterstica
varF ( X )
concreta var
como
F (X ) =
n
Segn Principio plug-in: 2
varFn ( X )
s
varFn ( X ) =
=
n
n
Departament

Detalles del clculo


anterior
*
var
var
X
X
)=
FnFn( (

*2 2

E Fn ( X - - EEFnFn( (XX) ) ) )
*

nn

1
*
(
)
EEFnFn( XX ) = xi = x ( = E Fn ( X ) ) )
n
i =1
*

1
2
(
)
EEFnFn( XX - x ) = ( xi - x )
=s
n
i =1
*

2
2

Conveniencia de notacin X* en
lugar de X: no es la misma v.a
Departament

Dificultades en la
aplicacin del Principio
No tanplug-in
(o a veces nada) clara su
aplicacin en situaciones ms
complejas:

otras caractersticas de la distribucin


muestral, incluso para estadsticos
sencillos como la media muestral (p.e. un
cuantil, ...)
otros estadsticos que no sean medias ni
funciones senzilles de medias
determinacin de la distribucin muestral
completa

G ( ;F

Departament

El mtodo de Montecarlo

Modelo probabilstico,
completamente
2

p.e.
n
rplicas
N
ms
,
) iid
especificado (
(gran)
x1 = ( x11,K , x1n ) a U ( x1 ) = u1
muestra
x2 = ( x21,K , x2n ) a U ( x2 ) = u2
de m
valores
M
del
Leyes de
xm = ( xm1,K , xmn ) a U ( xm ) = um estadstic
olos
grandes
m
Generacin de m
1
2 nmeros
(
u
u
)
@ varF ( U )

muestras
j
m - 1 j =1
independientes (o
@G ( ;F ) , etc.
Departament G
no) segn F

Bootstrap y Montecarlo

estimacin del Modelo


1
*
probabilstico,
si
x
{ x1,K , xn }

* *
*

p.e. P X = x = n
0

x*

*
= ( x11
,K , x*1n ) a U ( x*1 ) = u1*

x*

= ( x*21 ,K , x*2n ) a U ( x*2 ) = u*2

x*

= ( x*B 1,K , x*Bn ) a U ( x*B

= u*B

en caso contrario

muestra
de B
valores
del
estadstic
Leyes
de
o
los

Generacin de B
grandes
B
1
remuestras de
*
* 2 nmeros
*
(
u
u
)
@
var
U
(
)

b
F
tamao n (muestras B - 1b=1
aleatorias con reemplazoDepartamentG
* @G ( ;F ) , etc.
de los elementos de x)

Qu estimamos a partir
del Montecarlo bootstrap?
Montecarlo
bootstrap

Plug-in

"Verdadero"
valor del
funcional

G* = G ( u1*,K , uB* )

G ( ; F )

G ( ;F )

E (U * )

EF (U )

var ( U * )

varF ( U )

1
u* = ub*
B b=1
* (U * )
var

2
1
*
=
u
u
( b *)
B - 1b
=1

# { ub* U ( x) }
(
)
P*
U U x =
B
*

Error de
aproximacin de

*
(
)
@ P
U
U ( x)
@ PF [U U x ]
F

Problema clsico
Departament
de precisin

Validez de la aproximacin
bootstrap
Resultado general (pero no muy til):

Segn Leyes de los grandes nmeros, Fn(x)


tiende (en diversos sentidos) hacia F(x).
Extensible a funciones suficientemente suaves

Validez: resultado sobre funcionales,


funciones globales de Fn (u otras
estimaciones) y de F: teoremas lmite sobre
distancias entre distribuciones
Ms inters prctico: comparacin entre
aproximacin bootstrap y otras, para n
finito
Departament

Caractersticas generales
de los ejemplos
Modelo probabilstico subyacente
conocido

Normal = 15, = 3, o bien


Exponencial = 1/ = 1/15

( distribucin muestral conocida)


Anlisis de nica muestra (pequea, n =
10), generada segn uno u otro modelo.

caso normal: 15.54, 21.06, 16.52, 13.62,


16.14, 10.98, 13.53, 16.02, 16.79, 15.90
caso exponencial: 8.51, 8.71, 69.19, 10.05,
23.64, 8.67, 1.51, 20.36, 1.23, 5.27

Departament

Caractersticas generales
de los ejemplos
estadsticos: media muestral y t
aproximaciones: normal, bootstrap no
paramtrico y bootstrap paramtrico
aproximaciones bootstrap: estima
kernel a partir de B = 1000 valores del
estadstico (media o t, segn el caso)
Cada uno de estos valores calculado
sobre una remuestra de tamao n = 10

Departament

Media muestral, caso


normal: n = 10, = 15, =
3 distribucin: X : N ( 15,3/ 10)
Verdadera
Aproximacin normal:
X N ( x = 15.62,s/ n = 2.63/ 10)
Bootstrap: 1000 valores x * = X ( x* )
para remuestras x* = ( x1*,K , x*n )

no paramtrico: cada xi* escogido con probabilidad


1/ n entre los de la muestra original
paramtrico: cada xi* generado segn N ( 15.62,2.63)
Departament

Media muestral, caso normal:

0.3
0.2
0.1
0.0

dend
s
d
e
.b
e
n
d
n
o
s
e
s
o
.b
.n
n
ts
s
o
o
tra
.v
o
rm
ts
e
p
rita
tra
A
.p
p
a
p
ro
tra
$
x
y
m$y

0.4

0.5

Verdadera densidad, aprox normal,


bootstrap no paramtrico y
paramtrico

12

13
13

14
14

15
15

16
16

dens.bootstrap$x
rang.xBarra
dens.bootstrap.param$x

Departament

17
17

18

Media muestral, caso


exponencial: = 1/ =
1/15
Verdadera distribucin: X : Gam( 10/ 15,10)
Aproximacin normal:
X N ( x = 15.71,s/ n = 20.13/ 10)
Bootstrap: B = 1000 valores xb* = X ( xb* )
remuestras xb* = ( x1*b,K , x*nb ) ,b = 1,K , B

*
no paramtrico: cada xib
elegido con probabilidad
1/ n entre los de la muestra original
*
paramtrico: xib
generados como Exp( 1/ 15.71)

Departament

verdadera densidad, aprox normal,


bootstrap no paramtrico y
paramtrico

0.06
0.04
0.02
0.0

dend
s
d
e
.b
e
n
d
n
o
s
e
s
o
.b
.n
n
ts
s
o
o
tra
.v
o
rm
ts
e
p
rita
A
tra
.p
p
a
p
ro
tra
$
x
y
m$y

0.08

0.10

Media muestral, exponencial:

10

15

20

dens.bootstrap.param$x
dens.bootstrap$x
rang.xBarra

Departament

25
25

Estadstico t, caso normal:


n = 10, = 15, = 3
Verdadera distribucin: t : t( n - 1 = 9)
Aproximacin normal: t N ( 0,1)
Bootstrap: 1000 valores t* = t ( x* )
para remuestras x* = ( x1*,K , x*n )

no paramtrico: cada xi* escogido con probabilidad


1/ n entre los de la muestra original
paramtrico: cada xi* generado segn N ( 15.62,2.63)
Departament

Detalle y justificacin del


proceso de remuestreo
"Mundo bootstrap"
"Mundo real"

= E ( X *, Fn )
x =m

m= E ( X , F )

Fn

x* = ( x1*,K , xn* )

x = ( x1,K , xn )

x * = X ( x* )

x = X ( x)
s = S ( x) =

t=

n
1
(xi - x )2
n - 1i = 1

s = S ( x
*

t* =

n ( x - m)
s

Departament

n
1
(xi* - x * )2
n - 1i = 1

n ( x* - x )
s*

Estadstico t, normal:

0.2
0.1
0.0

dend
s
d
e
.b
e
n
d
n
o
s
e
s
o
.b
.n
n
ts
s
o
o
tra
.v
o
rm
ts
e
p
rita
A
tra
.p
p
a
p
ro
tra
$
x
y
m$y

0.3

0.4

verdadera densidad, aprox


normal, bootstrap no paramtrico
y paramtrico

-4

-2

0
dens.bootstrap.param$x
dens.bootstrap$x
rang.t

Departament

Estadstico t, exponencial:
n = 10, = 1/ = 1/15
Verdadera distribucin:
estimada por simulacin
Aproximacin normal: t N ( 0,1)
Bootstrap: 1000 valores t* = t ( x* )
para remuestras x* = ( x1*,K , x*n )

no paramtrico: cada xi* escogido con probabilidad


1/ n entre los de la muestra original
paramtrico: cada xi* generado segn Exp( 1/ 15.62)
Departament

Estadstico t, exponencial:

0.2
0.1
0.0

dend
s
d
e
.b
d
e
n
n
e
o
s
s
n
o
.b
.n
s
ts
.v
o
o
tra
o
e
rm
ts
rita
p
A
tra
.p
p
t$
a
p
ro
ra
y
$
x
y
m$y

0.3

0.4

verdadera dens, aprox normal,


boot no paramtrico y
paramtrico

-4

-2

0
dens.bootstrap.param$x
dens.bootstrap$x
dens.veritat$x
rang.t

Departament

0.2
0.1
0.0

dend
s
d
e
.b
e
d
n
n
e
o
s
n
s
o
.b
.n
s
ts
.v
o
o
tra
o
e
rm
ts
rita
p
A
tra
.p
p
t$
a
p
ro
ra
y
$
x
y
m$y

0.3

0.4

Caso exponencial, t, n =
40

-4

-2

0
dens.bootstrap.param$x
dens.bootstrap$x
dens.veritat$x
rang.t

Departament