2 - BOOTSTRAP Cap2-Boots05

Universidad Técnica Federico Santa María
Temas de trabajo
Departamento de Informática
ILI-280
Modelos Bayesianos
Capítulo 2: Métodos de Kernel y CP
Máquinas de Vector de Soporte
Series Temporales
BOOTSTRAP Reglas de Inducción
Estadística Computacional Redes Neuronales Artificiales (FANN, autoorganizativas)
II Semestre 2005 Ensemble de ANN
Redes MANN
Lógica Difusa
Análisis de Clustrering
Prof. Héctor Allende
Cadenas de Markov Ocultas
Página : www.inf.utfsm.cl/~hallende Visualización
e-mail : hallende@inf.utfsm.cl
H. Allende, R Ñanculef
H. Allende R. Ñanculef 2
Tarea 1 INTRODUCCION
Leer y discutir el articulo de Hand Bradley Efron University Stanford (1979)

Algunas preguntas para responder:
Bootstrap : Método Computacional
¿Porqué análisis inteligente de datos ? de Inferencia Estadística Inspirada en la
Técnica de Jacknife
Como se modifica el IDA con las TI
¿Qué es un Modelo? Bootstrap es una técnica que nos permite
¿Qué es un Patrón ? estimar la distribución de una estadística
Modelo v/s Patrones (estimador o test) generando muestras con
reemplazo a partir de una muestra dada
H. Allende R. Ñanculef 3 H. Allende R. Ñanculef 4
Métodos Bootstrap Métodos Bootstrap

Bradley Efron 1979
¿Cómo podemos descubrir o aprender el comportamiento
probabilístico de una Estadística si tan sólo contamos con unas
pocas observaciones de la realidad?
Profesor: Rodrigo Salas 1

Convergencia Teorema central del Límite
• Convergencia en Distribución (CD): • A partir de la CD nace uno de los teoremas más

Una sucesión de v.a. X1,X2,…,Xn converge en importantes en estadística:
distribución a una v.a. X si Teorema Central del Límite (TCL):
Notación:
limn→∞ FX n ( x ) = FX ( x ) D Sea X1, X2, …, Xn una secuencia de v.a.i.i.d.,
X n → X con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i .
n
∀x donde FX (x ) es continua. Sea Entonces, ∀y ∈ ℜ :

 
  Y n → D
N ( 0 ,1)
X n − µ
Note que la convergencia se efectúa sobre las FX (x ) y Yn =  
 σ  Es decir: t2
no en las variables aleatorias, las cuales no requieren   y
1 −2
 n  limn→∞ FYn ( y ) = ∫ e dt
ser i.i.d., como en una muestra. − ∞ 2π
Teorema central del Límite

Teoremas Límites
• Ejemplo Suponga que X1, X2, …, Xn es una secuencia
• Considere r = 10, p = 1/2 y n = 30.
de v.a.i.i.d. de una distribución Binomial Negativa(r,p).
• Cálculo directo:
Entonces, Sabemos que
 30 
E [ X i ] = r (1 − p ) / p P( X ≤ 11) = P  ∑ X i ≤ 330 
V [X i ] = r (1 − p ) / p 2  i =1 
330 300 + x − 1

300
 1   1 
x
Obs:
El TCL declara que: (
n X n − r (1 − p ) / p ) D
→ N (0,1)
= ∑ 
x=0  x
   
2
    2 ∑ X i es una BN(nr,p)
r (1 − p ) / p 2 = .8916
 30 ( X − 10) 30 (11 − 10) 

• Usando el TCL: P( X ≤ 11) = P  ≤ 

 20 20 
Se pide calcular P ( X ≤ 11). Es mucho más fácil computar
≈ P (Y ≤ 1.2247 )
esta probabilidad mediante el TCL con N(0,1) que utilizar
= .8888
directamente la función de probabilidad de la distribución
Binomial Negativa. H. Allende R. Ñanculef 9 H. Allende R. Ñanculef 10
Teoremas Límites Teoremas Límites

• Convergencia en Probabilidad (CP): •Convergencia en probabilidad
Una sucesión de v.a. X1,X2,…,Xn converge en Ley Débil de los Grandes Números (LDGN):
probabilidad a una v.a. X si, ∀ε > 0 ,
limn →∞ P ( X n − X ≥ ε ) = 0 Notación: Sea X1,X2,…,Xn una secuencia de v.a.i.i.d.,
con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i .
n
P
Xn 
→ X
ó limn →∞ P ( X n − X < ε ) = 1 Entonces, ∀ε > 0 :
Note que las v.a. no requieren ser i.i.d. (

limn →∞ P X n − µ < ε ) = 1
es decir:
P D
Xn 
→ X ⇒ X n → X X n
P
→ µ


• Para demostrar el resultado anterior, debemos recurrir • Demo LDGN: Se quiere demostrar que:
a otro teorema muy utilizado en estadística:
(Tchebysheff):
(
limn →∞ P X n − µ < ε ) = 1
Ya que X n es una v.a. tal que E [X n ] = µ y V [X n ] = σ 2 / n
Sea X una v.a. con un función (densidad) de del Teo. Chebyshev se tiene que
probabilidad f (x ) tal que E [X ] = µ y V [X ] = σ 2 son finitas.
(
P Xn −µ ≥ε ≤
σ2
nε 2
)
σ2
Entonces ∀ε > 0 : P( X − µ ≥ ε ) ≤ como σ tiene valor finito, tomando límite en esta
2
ε2
expresión conforme n → ∞ , se tiene que
Entrega una cota de la probabilidad de que una v.a. se
aleje a lo más ‘k’ desviaciones estándar de su media. (
limn→∞ P X n − µ ≥ ε ) = 0 ó (
limn→∞ P X n − µ < ε ) = 1

• La LDGN es útil para estimar el tamaño necesario de • Ejemplo…:
una muestra para asegurar con determinar probabilidad Por Chebyshev tenemos que
que la media no se alejará más allá de una cantidad
específica de la media poblacional. (
P Xn −µ ≥ε ) ≤
σ2
nε 2
• Ejemplo: Considere un proceso aleatorio de varianza
conocida σ 2 = 10 y media µ desconocida. ¿Cuál debe ser (
P Xn −µ ≥2 ) ≤
10
n 22
= 1 − 0.9
el tamaño de la muestra para que la media X n se
encuentre dentro de un intervalo igual a dos unidades 10
respecto de la media poblacional, con probabilidad de al n= = 25
4 * 0.1
menos 0.9?

• Convergencia Casi Segura (CCS): • A partir de la CCS nace otro importante resultado:
También conocida como convergencia con Ley Fuerte de los Grandes Números (LFGN):
probabilidad 1. Es el tipo de convergencia más dura.
Una sucesión de v.a. X1,X2,…,Xn converge casi Sea X1,X2,…,Xn una secuencia de v.a.i.i.d.,
seguramente a una v.a. X si, ∀ε > 0 , con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i .
n
P (limn→∞ X n − X ≥ ε ) = 0 Notación: Entonces, ∀ε > 0 :

ó
P (limn→∞ X n − X < ε ) = 1
CS
X n → X (
P limn→∞ X n − µ < ε ) = 1
es decir:
Note que las v.a. no requieren ser i.i.d.
Además, X → CS
X ⇒ X  P
→ X X n
CS
→ µ
n n

APPROACHES DE BOOTSTRAP PROPUESTA del Método BOOTSTRAP

Problema: Describir la distribución de probabilidad del estadístico sin
1. Bootstrap No Paramétrico (1979) conocer el mecanismo probabilístico que genera la observaciones.
1 n Si no poseemos información
G( ⋅ ,F0 ) ≅ G∞ (⋅)
Fn = ∑ I ( X i ≤ x)
n i =1
F0 confiable acerca de la realidad,
dejemos que los datos hablen
Teoría Asintótica
Técnica Bootstrap
G( ⋅ ,F0 ) ≅ G (⋅, Fˆ0 )
Glivenko-Cantelli Theorem
La teoría asintótica reemplaza la distribución desconocida por G∞
n →∞
Fn ( x ; X n ) → F0 ( x)
a . s.
(
P lim Fn = F0 = 1
n →∞
) El Bootstrap reemplaza la distribución desconocida por F̂0
Dado el modelo probabilístico para la población, simulamos nuevas

observaciones para describir el objeto estadístico de interés.
Garantiza convergencia fuerte, convergencia en probabilidad y
convergencia en distribución. La Inferencia Estadística del Bootstrap utiliza los mismos principios del
aprendizaje estadístico de propósito general (Máquinas de “Inferencia” )
Método Bootstrap
Números Aleatorios
APPROACHES DE BOOTSTRAP
2. Bootstrap Paramétrico (1979) • Elemento Central en la Simulación digital.

• Definición formal controvertida.
F0 (⋅) = F (⋅ ,θ 0 ) Si poseemos información fiable acerca de la
realidad porqué no incluirla para descubrir el
• Elemento esencial en muchas áreas del conocimiento
comportamiento de objetos que depende de Ingeniería, Economía, Física, Estadística, etc.
Fˆ0 (⋅) = F (⋅ ,θˆn ) esa realidad
• Definición intuitiva: Una sucesión de números
θˆn θ0 Estimador consistente (Converge en Probabilidad) aleatorios puros, se caracteriza por que no existe
ninguna regla o plan que nos permita conocer sus
F ( x;θ n ) → F ( x;θ 0 ) ( C. Distribución) valores.
n→∞
• Los números aleatorios obtenidos a través de
El tipo de convergencia depende de como se defina la
consistencia del estimador
algoritmos computacionales recursivos se llaman
pseudo-aleatorios.
Definiciones de Números Aleatorios

Definiciones de Números Aleatorios
Un Número aleatorio es una realización de una variable aleatoria
• Kolmogorov (1987) [Complejidad Algorítmica] Una que tiene asociada una ley de probabilidades F, en un espacio o
sucesión de números es aleatoria sino puede modelo de Probabilidades (Ω, ℜ, P).
producirse eficientemente de una manera más corta
que la propia serie. Una particular Ley de Probabilidad base para la generación de
números pseudo-aleatorios es: u1 , u 2 ,...un :es la U (0 ; 1) ui ~ U(0,1).
• L’Ecuyer (1990) [Impredicibilidad] Una sucesión de
números es aleatoria si nadie que utilice recursos DEF: Una sucesión de números aleatorios { u1 , u2 ,...un } es una
computacionales razonables puede distinguir entre la sucesión de números U(0;1), si tiene las mismas propiedades
serie y una sucesión de números verdaderamente estadísticas relevantes que dicha sucesión de números aleatorios.
aleatoria de una forma mejor que tirando una moneda
legal para decidir cuál es cuál.

Uso de los números aleatorios Random Number Generator
Hay dos clases amplias de Familias de Random Number Generator (RNGs):

Disponer de un buen generador de números
aleatorios es clave en: Hardware o físicos: El primero corresponde a un dispositivo físico que
cuenta con fuentes externas como tiempos de decaimiento de un
Computación Aleatorizada material radiactivo ( Carbono 14) o los ruidos electrónicos ( blanco ,
Computación Evolutiva gaussiano) de dspositivos para generar números aleatorios, etc.
Algoritmos Aleatorizados
Verificación de Algoritmos Algorítmicos: es un programa determinístico, finito y autónomo, que
Validación de Algoritmos genera resultados a partir de una semilla. Los números aleatorios
Criptografía generados por un RNG algoritmico son llamados pseudo-aleatorios.
etc.
Métodos híbridos
Random Number Generator Números Aleatorios

Período máximo. Es útil que la secuencia que se genere sea la
larga posible, para que no se produzca una repetición durante la A las propiedades estadísticas usuales se deben
aplicación. El período máximo establece el número de muestras agregar otras propiedades relativas a la eficiencia
que se puede obtener antes de repetir la secuencia.
computacional:
• Velocidad de respuesta
Secuencia reproducible. Es importante poder repetir • Consumo de memoria
exactamente la misma aplicación para facilitar las tareas de
depuración y verificación de los programas. Además, podremos • Portabilidad
utilizar la misma secuencia para varias simulaciones y mejorar la
precisión de los resultados mediante técnicas de reducción de • Parsimonia
varianza. • Reproducibilidad
• Mutabilidad
• Período
Números Aleatorios Números Aleatorios

Métodos de Generación de Números Aleatorios
• La gran disponibilidad de generadores de números
aleatorios en muchos entornos y compiladores
puede llevarnos a pensar que para un usuario de
- Métodos Congruenciales
la simulación no sería necesario estudiar estas
- Método de registros desfasados
cuestiones.
[Semilla - Algoritmo - Validación] • Una lección del pasado reciente nos obliga a sacar
lecciones y actuar con mucho cuidado con dichos
P1 : Obtener semilla (valores iniciales)
generadores (RANDU - IBM).
P2 : Aplicación de Algoritmos recursivos • El Uso progresivo de modelos de simulación cada
P3 : Validación del conjunto de datos vez más detallados exige una mayor calidad de los
generados (Test de Aleatoriedad) generadores de números aleatorios.

Generador RANDU
Generadores Congruenciales
Histograma de generador randu, para muestra de 1000

La rutina RANDU, que IBM incorporada en sus equipos números.
consideraba un modelo congruencial multiplicativo con m
= 231 ; a = 65539 ; b = 0
Xn = 65539 Xn-1 mod (231)
¡ Este generador proporciona tripletas consecutivas de

números que caen en 15 planos ! Lo que sugiere cierta
previsiblidad en su salida (Mal Generador)
Generador RANDU Caso RANDU
Representación de los números, en 2-D

Representación en 3-D
Caso RANDU Método de Montecarlo
Representación en 3-D ordenada
Método de simulación estadística, esto es, se centra en

una secuencia de eventos aleatorios para desarrollar la
Claramente se simulación ( repeticiones ).
puede apreciar el Una característica positiva del método de Montecarlo,
agrupamiento de radica en que el proceso físico puede ser simulado
los números en
directamente, sin necesidad de llevar a cabo los
15 planos
paralelo contraste de otras aplicaciones, es decir sin contrastar
basado en métodos convencionales de discretización
numérica usado en EDO o EDP, para asegurarnos que
describan el fenómeno físico o matemático.


Método de Monte Carlo Método de Monte Carlo
Idea : Es la aproximación a la solución de un problema Caso 2:

por medio del muestreo de un proceso al azar.
Sea g(x) una función y supongamos que deseamos conocer
Esto no ayuda mucho lo que es el Método de Monte Carlo 1
pero podemos familiarizarnos por la vía de ejemplos: θ = ∫ g ( x ) dx
0
Problema determinista
Caso 1 y
Sea u ~ U(0,1) y sea x = u
∫∫ dx dx
R
1 2 =π Entonces 1
x
E[g(u)] = ∫ g (u) * f (u )du
{
R = ( x, y ) : x, y ∈ ℜ ∧ x 2 + y 2 ≤ 1 } 0
siendo f (u ) = (1−10 ) ; g (u ) = g ( x) y du = dx
Luego Es decir podemos resolver un problema determinístico por

1 medio del cálculo del valor esperado de una muestra
E[g(u)] = ∫ g ( x)dx = θ
0
grande.
Entonces transformamos la estimación de θ por el cálculo Algoritmo Valores iniciales, S1=0 ; S2 = 0
E[g(u)] por la vía de la ley de los grandes números. 1.- Generar ui (U(0,1))
k
g (ui ) 2.- Calcular g(ui)
∑
i =1 k
E[ g (u )] θ cuando k → ∞ 3.- Calcular
S1 = S1 + g(ui)
S2 = S2 + [g(ui)]2
4.- Repetir el cálculo k-veces
g (u )
∧
k ⋅S 2 2 −[ S1 ]2
5.- Calcular θ= S1 ; s2 =
Pr (| g (u ) − θ |> ε ) → 0 cuando k → ∞ k k ( k −1)
∧
6.- Calcular el I 0,95 (θ ) = [θ ± 1,96 S2
k ]
Caso 3 : Para θ = ∫ g ( x ) dx a≤ x≤b 1 1 1
Sea y=
x−a
a
dy =
dx
Caso 4 : θ = ∫ ∫ ... ∫ g ( x1 , x 2 ,..., x n )dx 1dx 2 ... dx n
0 0 0
b−a b−a ∧
θ puede ser calculado mediante θ = E[ g (u1 , u 2 ,..., un )]
1
θ = ∫ g [ a + ( b − a ) y ] ⋅ ( b − a ) dy
Entonces 0
donde U1, U2, ..., Un sucesiones v.a.i.i.d. U(0,1)
1
θ = ∫ h ( y ) dy
k
∑ g (u , u ,..., u )
0 i i i
h( y ) = (b − a ) ⋅ g (a + (b − a ) y ) ∧ 1 2 n
donde
Luego podemos estimar mediante el cálculo de E[h(y)]
θ= i =1
k

Método de Monte Carlo Tarea Método de

Monte Carlo
∞
Caso 5 : Para θ = ∫ g ( x ) dx
0 Tarea 2 : Usando el método de Monte Carlo resolver
1 dx
Sea y= dy = − = − y 2 dx 1 1 1
1+ x (1 + x) 2 2 2
∫ ∫ ∫
− x ( x + y )
1) e dx ; 2 ) e dxdy
1
g( 1 − 1) o 0 0
∫
y
Entonces θ = dy 0 ≤ y ≤1
0
y2 3) Derive un método aproximado para resolver el problema
de integración, vía Simulación de Monte Carlo y proponga
Luego θ = E[h( y )] siendo un Algoritmo ∞
θ = ∫ g ( x)dx
g ( 1 y − 1)
h( y ) = −∞
y2
CONSISTENCIA DEL BOOTSTRAP CONSISTENCIA DEL BOOTSTRAP

Definición de Consistencia: Fn → F0 Teorema de Mamenn(1992) (Condiciones Suficientes y Necesarias)
⇔ lim Pn sup Gn (τ ,.Fn ) − G∞ (τ , F0 ) > ε  = 0

Sea { X i : i = 1,....., n} una muestra aleatoria de una población.
Para una secuencia de funciones g n y una secuencia de números
n →∞  τ  t n y σ n , definamos
Pn Función de Probabilidad Conjunta para X n n
g n = n −1 ∑ g n ( X i ) y Tn =
(g n − tn )
i =1 σn *
Para la muestra de Bootstrap { X i : i = 1,....., n} , definamos
Teorema de Beran-Ducharme (1991) (Bajo Condiciones de Regularidad) n
(g * − gn )
g n* = n −1 ∑ g n ( X i* ) y Tn* = n
σn
lim Pn {ρ ( Fn , F0 ) > ε } = 0
i =1
1.
n →∞ * * * *
Sea Gn (τ ) = P (Tn ≤ τ ) y Gn (τ ) = P (Tn ≤ τ ) ,donde P es la distribución de
probabilidad inducida por el muestreo de Bootstrap. Entonces G n* (⋅)
2. G∞ (τ , F0 ) es una función continua de τ para cada F ∈ℑ
estima consistentemente a G n (⋅) sí y sólo si
3. Para cualquier τ y cualquier secuencia {H n } ∈ ℑ
lim ρ ( H n , F0 ) = 0 Gn (τ , H n ) → G∞ (τ , F0 )
Tn → N (0,1)
d
n→ ∞
Métodos Bootstrap para estimar Error Estándar Métodos Bootstrap para estimar Error Estándar
BOOTSTRAP PARA ERROR ESTÁNDAR BOOTSTRAP PARA ESTIMAR EL ERROR ESTÁNDAR

Estimación “ideal” de Bootstrap Algortimo BS-SE

= se Pˆ (θˆ ) = se Pˆ (θˆ( X * ))

*
seˆ BS 1. Seleccionar B muestras de Bootstrap independientes: X *1 , X *2 ..... X * B
de acuerdo al modelo estimador . Si P = F, entonces igual a la distribución muestral
P̂ F̂
empírica de F, muestra buenas propiedades. En este caso el proceso de Bootstrapping
1/ 2 consiste en generar conjuntos de n valores muestrados aleatoriamente con reemplazo
m  desde la data original.
se Pˆ (θˆ * ) = VAR[s ( z ) ] = ∑ w j {s( z j ) − s (⋅)}2 
1/ 2
2. Evaluar las replicaciones correspondientes a cada conjunto

 j =1 
m θˆ * (b) = θˆ( X *b ) = s ( X *b )
s(⋅) = ∑ w j s( z j ) 3.Estimar el error estándar mediante la desviación estándar de las B replicaciones:
j =1
1/ 2
B ˆ*
 B {θˆ * (b) − θˆ * (⋅)}2  θ (b)
seˆ BS = ∑ θˆ * (⋅) = ∑
wj Probabilidad de obtener el j-ésimo conjunto de BS
(dada por una distribución multinomial)  b=1 B −1

 b =1 B

Métodos Bootstrap para estimar Error Estándar Métodos Bootstrap para estimar Sesgo (BIAS)
BOOTSTRAP PARA ERROR ESTÁNDAR
θ = t (F ) θˆ = s ( x)
Lim seˆ BS = se Fˆ (θˆ * )
BIAS F = BIAS F (θ , θˆ) = E F [s ( x)] − t ( F )
B →∞
 mˆ
[ 
VAR( seˆB ) ≈ VAR mˆ 12 / 2 + E  2 (∆ˆ + 2) ]
 4B  Estimación Ideal
∆ˆ = mˆ / mˆ 2 − 3
4 2
OBS: 1- Un conjunto pequeño de replicaciones de Bootstrap, digamos B = 25 es suficientemente

BIAS BS = BIAS Fˆ (θ , θˆ) = E Fˆ s ( x * ) − t ( Fˆ ) [ ]
útil para darnos una idea del error estándar. Pero B = 50 es generalmente suficiente para
obtener buenas aproximaciones.
2.- Rara vez es necesario tomar más de B ≥ 200 re-muestras para estimar el error estándar. En la práctica se aproxima ese valor mediante una Simulación de Montecarlo
3.-La aproximación de Bootstrap se puede analizar como una simulación de Montecarlo.
4.- Siempre es posible hacer un análisis adecuado para determinar el B que garantiza
determinada precisión.
Algoritmo para Sesgo y Variancia BOOTSTRAP EN MODELOS DE REGRESION
1. Generar B muestras de Bootstrap independientes {x1 , x 2 ,..., x n } x i = (c i , y i )

*1 *2 *B
x , x ......., x Problema: El carácter no independiente de los datos. No puedo
2. Calcular las replicaciones de Bootstrap θˆ * (b) = s ( x *b ) b = 1,....., B Muestrar los predictores y las observaciones de manera independiente pura.
P
3. Aproximar E Fˆ [s( x )] por : θˆ (⋅) = ∑ θˆ (b ) / B
B
µ i = E ( yi | ci ) = ∑ cij β j β = ( β1 ,...., β p ) T ?
* * *
b =1
j =1
4. Computar el estimador de Plug-in : t (Fˆ )

5. Estimar el BIAS a partir de de 3 – 4: θˆ * − t ( Fˆ ) µ i = m(c ) Modelo general de regresión
Queremos describir el comportamiento probabilistico

1/ 2 del vector de parámetros
[ [ ]] 1 B
( 2
)
B
=  ∑ θ *b − θ * (⋅) 
1/ 2
VAR E Fˆ s ( x * ) θˆ * (⋅) = ∑θˆ * (b) / B
Bootstrapping No Paramétrico de Pares
 B i =1  b =1
Bootstrapping No Paramétrico de Residuos
Bootstrapping Paramétrico de Residuos
Suavización de estimaciones no Paramétricas
BOOTSTRAP EN MODELOS DE REGRESION BPor ejemplo si quiere estimar el error estándar de , calcule
Bootstrapping No Paramétrico de Pares Bootstrapping

OOTSTRAP ENNo Paramétrico
MODELOS de Residuos
DE REGRESION
* * *
Idea: Mantener los predictores fijos y gererar versiones
1. Construya B conjuntos de Bootstrap { x1 , x 2 ,..., x n } donde cada remuestradas de las observaciones, a partir de los residuos
elemento se obtiene muestreando de la distribución muestral
empírica de x
ε i = y i − ci βˆ
Para el i-ésimo conjunto calcule β i de acuerdo al modelo de
*
2.
minimización que esté considerando. 1. Calcule los observados usando βˆ
3. Estime el error estándar como 2. Muestree εi desde, obteniendo un conjunto de Boostrap {ε 1* , ε 2* ,..., ε n* }
B
( β i* − β * ) 2 B
β *i y i = ci βˆ + ε i
* *
se BNP = ∑ β* =∑ 3. Calcule
i =1 B −1 i =1 B
4. Calcule β̂
*
desde la versión remuestrada de la data, de acuerdo
{
VAR ( βˆ ) = σˆ F2 (C T ⋅ C ) −1 } G jj = diag G −1 = diag C T C ( ) al modelo de minimización que esté utilizando, por ejemplo minimización
de la mediana de errrores cuadráticos.
j j
5. Repita este proceso B veces y estime la cantidad de interés tratando

se( β ) = σˆ F G jj el conjunto de βˆ * obtenido como la población bajo estudio.

BOOTSTRAP EN MODELOS DE REGRESION BOOTSTRAP EN MODELOS DE REGRESION

Bootstrapping No Paramétrico de Residuos
Comparación
Por ejemplo si quiere estimar el error estándar de , calcule
El muestreo de pares garantiza dependencia de los errores residuales
B
( β i* − β * ) 2 B
β *i respecto de los predictores, de manera conceptualmente simple.
se BNP = ∑ β* =∑ El muestreo de residuos da estabilidad a los predictores, obviando sus
B −1 i =1 B
i =1 características de variable aleatoria.
Observado en la i-esima corrida de Bootstrap
β *i β̂ *
Muestreo de residuos, asumiendo dependencia de un predictor
Existen versiones Paramétricas del Bootstrapping de residuos,
Que trabajan con un modelo paramétrico para los errores y i = ci β + c ij ε i
Residuales. Por ejemplo si suponemos que los errores vienen
de una distribución normal,
ε i = ( y i − ci βˆ ) / cij Desde aquí remuestramos
P = (β , F ) (
Pˆ = βˆ , FˆNORM ( 0,1) )
y i = ci βˆ + cij ε i
* * Reconstrucción de las observaciones de BS
¿Qué es mejor, muestrar pares o residuos?
INTERVALOS DE CONFIANZA BASADOS EN BOOTSTRAP INTERVALOS DE CONFIANZA BASADOS EN BOOTSTRAP
Bootstrap-t Bootstrap-t
* * * *
1. Generar B muestras de Bootstrap de la forma X = {xi , x 2 ,... x n }
Técnica inspirada en los intervalos t-Student para la media de a partir de la data X = {x1 , x 2 ,...x n } .Como no estamos haciendo
poblaciones normales suposiciones paramétricas acerca de la población cada valor del conjunto
de Bootstrap ha sido obtenido muestrando con reemplazo de la data
original, de acuerdo a la función de distribución empírica. Si se desean
θˆ − θ Válido si el parámetro es la esperanza de una
hacer suposiciones paramétricas se puede cambiar el esquema de re-
Z= ~ t n −1 Población normal y el estimador es la media de
seˆ una muestra de tamaño n muestreo, utilizando otro estimador para distribución F de la data.
2.Para cada conjunto B, generado en (1), computar θˆ * (b) − θˆ

[θˆ − t (1−α )
n −1 ⋅ seˆ,θˆ − t n(α−1) ⋅ seˆ ] Intervalo de confianza con probabilidad
de cubrimiento 1− 2α
Z * (b ) =
seˆ * (b)
3. El 100i-ésimo percentil de es estimado por el valor de los
que satisface Z * (b ) tˆ (α )
Idea: Tenemos un arma para simular el comportamiento probabilístico
de un objeto estadístico. No haremos supuestos paramétricos ni { }
# Z * (b) ≤ tˆ (α ) / B = α
nos restringimos a un sólo estimador. Estimaremos directamente la 4. Finalmente, el intervalo de confianza “Bootstrap-t” para el estimador
distribución de queda dado por θˆ
Z=
θˆ − θ [θˆ − t (1−α )
n −1 ⋅ seˆ,θˆ − t n(α−1) ⋅ seˆ ]
seˆ
INTERVALOS DE CONFIANZA BASADOS EN BOOTSTRAP INTERVALOS DE CONFIANZA BASADOS EN BOOTSTRAP
Bootstrap-t Bootstrap percentiles

Problemas
1.- En general cada muestra de Bootstrap muestra distintos errores

estándares, por lo que es necesario calcularlo cada vez que
[θˆ − t (1−α )
n −1 ⋅ seˆ, θˆ − t n(α−1) ⋅ seˆ ] Intervalo BS-t
realizamos el paso
2.- Más allá de los problemas computacionales, las estimaciones con *

¿Porqué simular el comportamiento de la variable Z (b)
varianza inestable pueden resultar erráticas y poco confiables.
y no de θˆ * directamente ?
Soluciones: Transformaciones adecuadas
Idea: Estimar la distribución de θˆ : G

*
Buenas Propiedades
cup clo
[θˆ ,θˆ ] = [G
lo up
−1
(α ), G −1 (1 − α ) ]
Pr ob{θ > θˆup } = α + Pr ob{θ < θˆlo } = α +
n n

INTERVALOS DE CONFIANZA BASADOS EN BOOTSTRAP Tarea 3
Bootstrap percentiles 1.- Estudiar los métodos Bagging y Boosting en problemas de

clasificación y
1.Idem al anterior pronóstico.
2. Para cada conjunto b, generado en (1), computar θˆ * (b)
2.- En una instalación de bombillas eléctricas, todas las
3. Denotemos por Ĝ la distribución de probabilidad acumulativa bombillas están planeadas de ser reemplazadas
de θˆ * y sean Gˆ −1 (α ) y Gˆ −1 (1 − α ) el 100α ésimo percentil de Ĝ y regularmente después de 1200 horas. Para formarse una
el 100 (1 − α ) ésimo percentil de Ĝ respectivamente.
opinión acerca de esta estrategia. Construya un intervalo
4. Entonces el intervalo de confianza queda en la forma boostrap con 90% de confianza para estimar la
probabilidad de sobrevivencia. Use los resultados de
ensayos para 20 bombillas con los siguientes de tiempos
[θˆ
lo ] [
,θˆup = Gˆ −1 (α ), Gˆ −1 (1 − α ) ] de vida. {1354, 1552, 1766, 1325, 2183, 1354, 1299, 627,
695, 2586, 2420,71, 2195, 1825, 159, 1577, 3725, 884,
1014, 965}
3.- Estudie y comente el método Cross validation en la

validación de Modelos.
Bootstrap
Smoothed Bootstrap
Bootstrap Methods for Time series
ANN Bootstrap
Bootstrapping Regression Models
Bootstrap realizations of a stationary
process
H. Allende R. Ñanculef 63

2 - BOOTSTRAP Cap2-Boots05

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2 - BOOTSTRAP Cap2-Boots05

Cargado por

Copyright:

Formatos disponibles

Universidad Técnica Federico Santa María

Leer y discutir el articulo de Hand Bradley Efron University Stanford (1979)

H. Allende R. Ñanculef 3 H. Allende R. Ñanculef 4

Métodos Bootstrap Métodos Bootstrap

H. Allende R. Ñanculef 5 H. Allende R. Ñanculef 6

Profesor: Rodrigo Salas 1

Convergencia Teorema central del Límite

• Convergencia en Distribución (CD): • A partir de la CD nace uno de los teoremas más

∀x donde FX (x ) es continua. Sea Entonces, ∀y ∈ ℜ :

Teorema central del Límite

 30 ( X − 10) 30 (11 − 10) 

Teoremas Límites Teoremas Límites

Note que las v.a. no requieren ser i.i.d. (

Profesor: Rodrigo Salas 2

Teoremas Límites Teoremas Límites

Teoremas Límites Teoremas Límites

Teoremas Límites Teoremas Límites

P (limn→∞ X n − X ≥ ε ) = 0 Notación: Entonces, ∀ε > 0 :

Profesor: Rodrigo Salas 3

Métodos Bootstrap Métodos Bootstrap

APPROACHES DE BOOTSTRAP PROPUESTA del Método BOOTSTRAP

Dado el modelo probabilístico para la población, simulamos nuevas

H. Allende R. Ñanculef 19 H. Allende R. Ñanculef 20

2. Bootstrap Paramétrico (1979) • Elemento Central en la Simulación digital.

Definiciones de Números Aleatorios

H. Allende R. Ñanculef 23 H. Allende R. Ñanculef 24

Profesor: Rodrigo Salas 4

Uso de los números aleatorios Random Number Generator

Hay dos clases amplias de Familias de Random Number Generator (RNGs):

H. Allende R. Ñanculef 25 H. Allende R. Ñanculef 26

Random Number Generator Números Aleatorios

H. Allende R. Ñanculef 27 H. Allende R. Ñanculef 28

Números Aleatorios Números Aleatorios

H. Allende R. Ñanculef 29 H. Allende R. Ñanculef 30

Profesor: Rodrigo Salas 5

Histograma de generador randu, para muestra de 1000

Xn = 65539 Xn-1 mod (231)

¡ Este generador proporciona tripletas consecutivas de

H. Allende R. Ñanculef 31 H. Allende R. Ñanculef 32

Generador RANDU Caso RANDU

Representación de los números, en 2-D

H. Allende R. Ñanculef 33 H. Allende R. Ñanculef 34

Caso RANDU Método de Montecarlo

Representación en 3-D ordenada

Método de simulación estadística, esto es, se centra en

Profesor: Rodrigo Salas 6

Método de Monte Carlo Método de Monte Carlo

Idea : Es la aproximación a la solución de un problema Caso 2:

Método de Monte Carlo Método de Monte Carlo

Luego Es decir podemos resolver un problema determinístico por

Método de Monte Carlo Método de Monte Carlo

Caso 3 : Para θ = ∫ g ( x ) dx a≤ x≤b 1 1 1

Profesor: Rodrigo Salas 7

Método de Monte Carlo Tarea Método de

Métodos Bootstrap Métodos Bootstrap

CONSISTENCIA DEL BOOTSTRAP CONSISTENCIA DEL BOOTSTRAP

⇔ lim Pn sup Gn (τ ,.Fn ) − G∞ (τ , F0 ) > ε  = 0

BOOTSTRAP PARA ERROR ESTÁNDAR BOOTSTRAP PARA ESTIMAR EL ERROR ESTÁNDAR

2. Evaluar las replicaciones correspondientes a cada conjunto

H. Allende R. Ñanculef 47 H. Allende R. Ñanculef 48

Profesor: Rodrigo Salas 8

OBS: 1- Un conjunto pequeño de replicaciones de Bootstrap, digamos B = 25 es suficientemente