Está en la página 1de 11

Universidad Técnica Federico Santa María

Temas de trabajo
Universidad Técnica Federico Santa María
Departamento de Informática
ILI-280

Modelos Bayesianos
Capítulo 2: Métodos de Kernel y CP
Máquinas de Vector de Soporte
Series Temporales
BOOTSTRAP Reglas de Inducción
Estadística Computacional Redes Neuronales Artificiales (FANN, autoorganizativas)
II Semestre 2005 Ensemble de ANN
Redes MANN
Lógica Difusa
Análisis de Clustrering
Prof. Héctor Allende
Cadenas de Markov Ocultas
Página : www.inf.utfsm.cl/~hallende Visualización
e-mail : hallende@inf.utfsm.cl

H. Allende, R Ñanculef
H. Allende R. Ñanculef 2

Tarea 1 INTRODUCCION

Leer y discutir el articulo de Hand Bradley Efron University Stanford (1979)


Algunas preguntas para responder:
Bootstrap : Método Computacional
¿Porqué análisis inteligente de datos ? de Inferencia Estadística Inspirada en la
Técnica de Jacknife
Como se modifica el IDA con las TI
¿Qué es un Modelo? Bootstrap es una técnica que nos permite
¿Qué es un Patrón ? estimar la distribución de una estadística
 Modelo v/s Patrones (estimador o test) generando muestras con
reemplazo a partir de una muestra dada

H. Allende R. Ñanculef 3 H. Allende R. Ñanculef 4

Métodos Bootstrap Métodos Bootstrap


Bradley Efron 1979
¿Cómo podemos descubrir o aprender el comportamiento
probabilístico de una Estadística si tan sólo contamos con unas
pocas observaciones de la realidad?

H. Allende R. Ñanculef 5 H. Allende R. Ñanculef 6

Profesor: Rodrigo Salas 1


Universidad Técnica Federico Santa María

Convergencia Teorema central del Límite

• Convergencia en Distribución (CD): • A partir de la CD nace uno de los teoremas más


Una sucesión de v.a. X1,X2,…,Xn converge en importantes en estadística:
distribución a una v.a. X si Teorema Central del Límite (TCL):
Notación:
limn→∞ FX n ( x ) = FX ( x ) D Sea X1, X2, …, Xn una secuencia de v.a.i.i.d.,
X n → X con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i .
n

∀x donde FX (x ) es continua. Sea Entonces, ∀y ∈ ℜ :


 
  Y n → D
N ( 0 ,1)
X n − µ
Note que la convergencia se efectúa sobre las FX (x ) y Yn =  
 σ  Es decir: t2
no en las variables aleatorias, las cuales no requieren   y
1 −2
 n  limn→∞ FYn ( y ) = ∫ e dt
ser i.i.d., como en una muestra. − ∞ 2π
H. Allende R. Ñanculef 7 H. Allende R. Ñanculef 8

Teorema central del Límite


Teoremas Límites
• Ejemplo Suponga que X1, X2, …, Xn es una secuencia
• Considere r = 10, p = 1/2 y n = 30.
de v.a.i.i.d. de una distribución Binomial Negativa(r,p).
• Cálculo directo:
Entonces, Sabemos que
 30 
E [ X i ] = r (1 − p ) / p P( X ≤ 11) = P  ∑ X i ≤ 330 
V [X i ] = r (1 − p ) / p 2  i =1 
330 300 + x − 1

300
 1   1 
x
Obs:
El TCL declara que: (
n X n − r (1 − p ) / p ) D
→ N (0,1)
= ∑ 
x=0  x
   
2
    2 ∑ X i es una BN(nr,p)
r (1 − p ) / p 2 = .8916

 30 ( X − 10) 30 (11 − 10) 


• Usando el TCL: P( X ≤ 11) = P  ≤ 

 20 20 
Se pide calcular P ( X ≤ 11). Es mucho más fácil computar
≈ P (Y ≤ 1.2247 )
esta probabilidad mediante el TCL con N(0,1) que utilizar
= .8888
directamente la función de probabilidad de la distribución
Binomial Negativa. H. Allende R. Ñanculef 9 H. Allende R. Ñanculef 10

Teoremas Límites Teoremas Límites


• Convergencia en Probabilidad (CP): •Convergencia en probabilidad
Una sucesión de v.a. X1,X2,…,Xn converge en Ley Débil de los Grandes Números (LDGN):
probabilidad a una v.a. X si, ∀ε > 0 ,
limn →∞ P ( X n − X ≥ ε ) = 0 Notación: Sea X1,X2,…,Xn una secuencia de v.a.i.i.d.,
con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i .
n
P
Xn 
→ X
ó limn →∞ P ( X n − X < ε ) = 1 Entonces, ∀ε > 0 :

Note que las v.a. no requieren ser i.i.d. (


limn →∞ P X n − µ < ε ) = 1
es decir:
P D
Xn 
→ X ⇒ X n → X X n
P
→ µ
H. Allende R. Ñanculef 11 H. Allende R. Ñanculef 12

Profesor: Rodrigo Salas 2


Universidad Técnica Federico Santa María

Teoremas Límites Teoremas Límites


• Para demostrar el resultado anterior, debemos recurrir • Demo LDGN: Se quiere demostrar que:
a otro teorema muy utilizado en estadística:
(Tchebysheff):
(
limn →∞ P X n − µ < ε ) = 1
Ya que X n es una v.a. tal que E [X n ] = µ y V [X n ] = σ 2 / n
Sea X una v.a. con un función (densidad) de del Teo. Chebyshev se tiene que
probabilidad f (x ) tal que E [X ] = µ y V [X ] = σ 2 son finitas.
(
P Xn −µ ≥ε ≤
σ2
nε 2
)
σ2
Entonces ∀ε > 0 : P( X − µ ≥ ε ) ≤ como σ tiene valor finito, tomando límite en esta
2
ε2
expresión conforme n → ∞ , se tiene que
Entrega una cota de la probabilidad de que una v.a. se
aleje a lo más ‘k’ desviaciones estándar de su media. (
limn→∞ P X n − µ ≥ ε ) = 0 ó (
limn→∞ P X n − µ < ε ) = 1
H. Allende R. Ñanculef 13 H. Allende R. Ñanculef 14

Teoremas Límites Teoremas Límites


• La LDGN es útil para estimar el tamaño necesario de • Ejemplo…:
una muestra para asegurar con determinar probabilidad Por Chebyshev tenemos que
que la media no se alejará más allá de una cantidad
específica de la media poblacional. (
P Xn −µ ≥ε ) ≤
σ2
nε 2
• Ejemplo: Considere un proceso aleatorio de varianza
conocida σ 2 = 10 y media µ desconocida. ¿Cuál debe ser (
P Xn −µ ≥2 ) ≤
10
n 22
= 1 − 0.9
el tamaño de la muestra para que la media X n se
encuentre dentro de un intervalo igual a dos unidades 10
respecto de la media poblacional, con probabilidad de al n= = 25
4 * 0.1
menos 0.9?
H. Allende R. Ñanculef 15 H. Allende R. Ñanculef 16

Teoremas Límites Teoremas Límites


• Convergencia Casi Segura (CCS): • A partir de la CCS nace otro importante resultado:
También conocida como convergencia con Ley Fuerte de los Grandes Números (LFGN):
probabilidad 1. Es el tipo de convergencia más dura.
Una sucesión de v.a. X1,X2,…,Xn converge casi Sea X1,X2,…,Xn una secuencia de v.a.i.i.d.,
seguramente a una v.a. X si, ∀ε > 0 , con E [X i ] = µ y V [X i ] = σ 2 finitas. Sea X n = (1 / n )∑i =1 X i .
n

P (limn→∞ X n − X ≥ ε ) = 0 Notación: Entonces, ∀ε > 0 :


ó
P (limn→∞ X n − X < ε ) = 1
CS
X n → X (
P limn→∞ X n − µ < ε ) = 1
es decir:
Note que las v.a. no requieren ser i.i.d.
Además, X → CS
X ⇒ X  P
→ X X n
CS
→ µ
n n
H. Allende R. Ñanculef 17 H. Allende R. Ñanculef 18

Profesor: Rodrigo Salas 3


Universidad Técnica Federico Santa María

Métodos Bootstrap Métodos Bootstrap

APPROACHES DE BOOTSTRAP PROPUESTA del Método BOOTSTRAP


Problema: Describir la distribución de probabilidad del estadístico sin
1. Bootstrap No Paramétrico (1979) conocer el mecanismo probabilístico que genera la observaciones.

1 n Si no poseemos información
G( ⋅ ,F0 ) ≅ G∞ (⋅)
Fn = ∑ I ( X i ≤ x)
n i =1
F0 confiable acerca de la realidad,
dejemos que los datos hablen
Teoría Asintótica

Técnica Bootstrap
G( ⋅ ,F0 ) ≅ G (⋅, Fˆ0 )
Glivenko-Cantelli Theorem
La teoría asintótica reemplaza la distribución desconocida por G∞
n →∞
Fn ( x ; X n ) → F0 ( x)
a . s.
(
P lim Fn = F0 = 1
n →∞
) El Bootstrap reemplaza la distribución desconocida por F̂0

Dado el modelo probabilístico para la población, simulamos nuevas


observaciones para describir el objeto estadístico de interés.
Garantiza convergencia fuerte, convergencia en probabilidad y
convergencia en distribución. La Inferencia Estadística del Bootstrap utiliza los mismos principios del
aprendizaje estadístico de propósito general (Máquinas de “Inferencia” )

H. Allende R. Ñanculef 19 H. Allende R. Ñanculef 20

Método Bootstrap
Números Aleatorios
APPROACHES DE BOOTSTRAP

2. Bootstrap Paramétrico (1979) • Elemento Central en la Simulación digital.


• Definición formal controvertida.
F0 (⋅) = F (⋅ ,θ 0 ) Si poseemos información fiable acerca de la
realidad porqué no incluirla para descubrir el
• Elemento esencial en muchas áreas del conocimiento
comportamiento de objetos que depende de Ingeniería, Economía, Física, Estadística, etc.
Fˆ0 (⋅) = F (⋅ ,θˆn ) esa realidad
• Definición intuitiva: Una sucesión de números
θˆn θ0 Estimador consistente (Converge en Probabilidad) aleatorios puros, se caracteriza por que no existe
ninguna regla o plan que nos permita conocer sus
F ( x;θ n ) → F ( x;θ 0 ) ( C. Distribución) valores.
n→∞
• Los números aleatorios obtenidos a través de
El tipo de convergencia depende de como se defina la
consistencia del estimador
algoritmos computacionales recursivos se llaman
pseudo-aleatorios.
H. Allende R. Ñanculef 21 H. Allende R. Ñanculef 22

Definiciones de Números Aleatorios


Definiciones de Números Aleatorios
Un Número aleatorio es una realización de una variable aleatoria
• Kolmogorov (1987) [Complejidad Algorítmica] Una que tiene asociada una ley de probabilidades F, en un espacio o
sucesión de números es aleatoria sino puede modelo de Probabilidades (Ω, ℜ, P).
producirse eficientemente de una manera más corta
que la propia serie. Una particular Ley de Probabilidad base para la generación de
números pseudo-aleatorios es: u1 , u 2 ,...un :es la U (0 ; 1) ui ~ U(0,1).
• L’Ecuyer (1990) [Impredicibilidad] Una sucesión de
números es aleatoria si nadie que utilice recursos DEF: Una sucesión de números aleatorios { u1 , u2 ,...un } es una
computacionales razonables puede distinguir entre la sucesión de números U(0;1), si tiene las mismas propiedades
serie y una sucesión de números verdaderamente estadísticas relevantes que dicha sucesión de números aleatorios.
aleatoria de una forma mejor que tirando una moneda
legal para decidir cuál es cuál.

H. Allende R. Ñanculef 23 H. Allende R. Ñanculef 24

Profesor: Rodrigo Salas 4


Universidad Técnica Federico Santa María

Uso de los números aleatorios Random Number Generator

Hay dos clases amplias de Familias de Random Number Generator (RNGs):


Disponer de un buen generador de números
aleatorios es clave en:  Hardware o físicos: El primero corresponde a un dispositivo físico que
cuenta con fuentes externas como tiempos de decaimiento de un
 Computación Aleatorizada material radiactivo ( Carbono 14) o los ruidos electrónicos ( blanco ,
 Computación Evolutiva gaussiano) de dspositivos para generar números aleatorios, etc.
 Algoritmos Aleatorizados
 Verificación de Algoritmos  Algorítmicos: es un programa determinístico, finito y autónomo, que
 Validación de Algoritmos genera resultados a partir de una semilla. Los números aleatorios
 Criptografía generados por un RNG algoritmico son llamados pseudo-aleatorios.
 etc.
 Métodos híbridos

H. Allende R. Ñanculef 25 H. Allende R. Ñanculef 26

Random Number Generator Números Aleatorios


 Período máximo. Es útil que la secuencia que se genere sea la
larga posible, para que no se produzca una repetición durante la A las propiedades estadísticas usuales se deben
aplicación. El período máximo establece el número de muestras agregar otras propiedades relativas a la eficiencia
que se puede obtener antes de repetir la secuencia.
computacional:
• Velocidad de respuesta
 Secuencia reproducible. Es importante poder repetir • Consumo de memoria
exactamente la misma aplicación para facilitar las tareas de
depuración y verificación de los programas. Además, podremos • Portabilidad
utilizar la misma secuencia para varias simulaciones y mejorar la
precisión de los resultados mediante técnicas de reducción de • Parsimonia
varianza. • Reproducibilidad
• Mutabilidad
• Período

H. Allende R. Ñanculef 27 H. Allende R. Ñanculef 28

Números Aleatorios Números Aleatorios


Métodos de Generación de Números Aleatorios
• La gran disponibilidad de generadores de números
aleatorios en muchos entornos y compiladores
puede llevarnos a pensar que para un usuario de
- Métodos Congruenciales
la simulación no sería necesario estudiar estas
- Método de registros desfasados
cuestiones.
[Semilla - Algoritmo - Validación] • Una lección del pasado reciente nos obliga a sacar
lecciones y actuar con mucho cuidado con dichos
P1 : Obtener semilla (valores iniciales)
generadores (RANDU - IBM).
P2 : Aplicación de Algoritmos recursivos • El Uso progresivo de modelos de simulación cada
P3 : Validación del conjunto de datos vez más detallados exige una mayor calidad de los
generados (Test de Aleatoriedad) generadores de números aleatorios.

H. Allende R. Ñanculef 29 H. Allende R. Ñanculef 30

Profesor: Rodrigo Salas 5


Universidad Técnica Federico Santa María

Generador RANDU
Generadores Congruenciales

 Histograma de generador randu, para muestra de 1000


La rutina RANDU, que IBM incorporada en sus equipos números.
consideraba un modelo congruencial multiplicativo con m
= 231 ; a = 65539 ; b = 0

Xn = 65539 Xn-1 mod (231)

¡ Este generador proporciona tripletas consecutivas de


números que caen en 15 planos ! Lo que sugiere cierta
previsiblidad en su salida (Mal Generador)

H. Allende R. Ñanculef 31 H. Allende R. Ñanculef 32

Generador RANDU Caso RANDU

 Representación de los números, en 2-D


 Representación en 3-D

H. Allende R. Ñanculef 33 H. Allende R. Ñanculef 34

Caso RANDU Método de Montecarlo

 Representación en 3-D ordenada

 Método de simulación estadística, esto es, se centra en


una secuencia de eventos aleatorios para desarrollar la
Claramente se simulación ( repeticiones ).
puede apreciar el  Una característica positiva del método de Montecarlo,
agrupamiento de radica en que el proceso físico puede ser simulado
los números en
directamente, sin necesidad de llevar a cabo los
15 planos
paralelo contraste de otras aplicaciones, es decir sin contrastar
basado en métodos convencionales de discretización
numérica usado en EDO o EDP, para asegurarnos que
describan el fenómeno físico o matemático.

H. Allende R. Ñanculef 35 H. Allende R. Ñanculef 36

Profesor: Rodrigo Salas 6


Universidad Técnica Federico Santa María

Método de Monte Carlo Método de Monte Carlo

Idea : Es la aproximación a la solución de un problema Caso 2:


por medio del muestreo de un proceso al azar.
Sea g(x) una función y supongamos que deseamos conocer
Esto no ayuda mucho lo que es el Método de Monte Carlo 1
pero podemos familiarizarnos por la vía de ejemplos: θ = ∫ g ( x ) dx
0
Problema determinista
Caso 1 y
Sea u ~ U(0,1) y sea x = u
∫∫ dx dx
R
1 2 =π Entonces 1

x
E[g(u)] = ∫ g (u) * f (u )du
{
R = ( x, y ) : x, y ∈ ℜ ∧ x 2 + y 2 ≤ 1 } 0

siendo f (u ) = (1−10 ) ; g (u ) = g ( x) y du = dx
H. Allende R. Ñanculef 37 H. Allende R. Ñanculef 38

Método de Monte Carlo Método de Monte Carlo

Luego Es decir podemos resolver un problema determinístico por


1 medio del cálculo del valor esperado de una muestra
E[g(u)] = ∫ g ( x)dx = θ
0
grande.
Entonces transformamos la estimación de θ por el cálculo Algoritmo Valores iniciales, S1=0 ; S2 = 0
E[g(u)] por la vía de la ley de los grandes números. 1.- Generar ui (U(0,1))
k
g (ui ) 2.- Calcular g(ui)

i =1 k
 E[ g (u )]  θ cuando k → ∞ 3.- Calcular
S1 = S1 + g(ui)
S2 = S2 + [g(ui)]2
4.- Repetir el cálculo k-veces
g (u )

k ⋅S 2 2 −[ S1 ]2
5.- Calcular θ= S1 ; s2 =
Pr (| g (u ) − θ |> ε ) → 0 cuando k → ∞ k k ( k −1)

6.- Calcular el I 0,95 (θ ) = [θ ± 1,96 S2
k ]
H. Allende R. Ñanculef 39 H. Allende R. Ñanculef 40

Método de Monte Carlo Método de Monte Carlo

Caso 3 : Para θ = ∫ g ( x ) dx a≤ x≤b 1 1 1

Sea y=
x−a
a

dy =
dx
Caso 4 : θ = ∫ ∫ ... ∫ g ( x1 , x 2 ,..., x n )dx 1dx 2 ... dx n
0 0 0
b−a b−a ∧
θ puede ser calculado mediante θ = E[ g (u1 , u 2 ,..., un )]
1
θ = ∫ g [ a + ( b − a ) y ] ⋅ ( b − a ) dy
Entonces 0
donde U1, U2, ..., Un sucesiones v.a.i.i.d. U(0,1)
1
θ = ∫ h ( y ) dy
k

∑ g (u , u ,..., u )
0 i i i
h( y ) = (b − a ) ⋅ g (a + (b − a ) y ) ∧ 1 2 n
donde
Luego podemos estimar mediante el cálculo de E[h(y)]
θ= i =1
k
H. Allende R. Ñanculef 41 H. Allende R. Ñanculef 42

Profesor: Rodrigo Salas 7


Universidad Técnica Federico Santa María

Método de Monte Carlo Tarea Método de


Monte Carlo

Caso 5 : Para θ = ∫ g ( x ) dx
0 Tarea 2 : Usando el método de Monte Carlo resolver
1 dx
Sea y= dy = − = − y 2 dx 1 1 1
1+ x (1 + x) 2 2 2

∫ ∫ ∫
− x ( x + y )
1) e dx ; 2 ) e dxdy
1
g( 1 − 1) o 0 0


y
Entonces θ = dy 0 ≤ y ≤1
0
y2 3) Derive un método aproximado para resolver el problema
de integración, vía Simulación de Monte Carlo y proponga
Luego θ = E[h( y )] siendo un Algoritmo ∞
θ = ∫ g ( x)dx
g ( 1 y − 1)
h( y ) = −∞
y2
H. Allende R. Ñanculef 43 H. Allende R. Ñanculef 44

Métodos Bootstrap Métodos Bootstrap

CONSISTENCIA DEL BOOTSTRAP CONSISTENCIA DEL BOOTSTRAP


Definición de Consistencia: Fn → F0 Teorema de Mamenn(1992) (Condiciones Suficientes y Necesarias)

⇔ lim Pn sup Gn (τ ,.Fn ) − G∞ (τ , F0 ) > ε  = 0


Sea { X i : i = 1,....., n} una muestra aleatoria de una población.
Para una secuencia de funciones g n y una secuencia de números
n →∞  τ   t n y σ n , definamos
Pn Función de Probabilidad Conjunta para X n n
g n = n −1 ∑ g n ( X i ) y Tn =
(g n − tn )
i =1 σn *
Para la muestra de Bootstrap { X i : i = 1,....., n} , definamos
Teorema de Beran-Ducharme (1991) (Bajo Condiciones de Regularidad) n
(g * − gn )
g n* = n −1 ∑ g n ( X i* ) y Tn* = n
σn
lim Pn {ρ ( Fn , F0 ) > ε } = 0
i =1

1.
n →∞ * * * *
Sea Gn (τ ) = P (Tn ≤ τ ) y Gn (τ ) = P (Tn ≤ τ ) ,donde P es la distribución de
probabilidad inducida por el muestreo de Bootstrap. Entonces G n* (⋅)
2. G∞ (τ , F0 ) es una función continua de τ para cada F ∈ℑ
estima consistentemente a G n (⋅) sí y sólo si
3. Para cualquier τ y cualquier secuencia {H n } ∈ ℑ

lim ρ ( H n , F0 ) = 0 Gn (τ , H n ) → G∞ (τ , F0 )
Tn → N (0,1)
d
n→ ∞
H. Allende R. Ñanculef 45 H. Allende R. Ñanculef 46

Métodos Bootstrap para estimar Error Estándar Métodos Bootstrap para estimar Error Estándar

BOOTSTRAP PARA ERROR ESTÁNDAR BOOTSTRAP PARA ESTIMAR EL ERROR ESTÁNDAR


Estimación “ideal” de Bootstrap Algortimo BS-SE

= se Pˆ (θˆ ) = se Pˆ (θˆ( X * ))
  
*
seˆ BS 1. Seleccionar B muestras de Bootstrap independientes: X *1 , X *2 ..... X * B
de acuerdo al modelo estimador . Si P = F, entonces igual a la distribución muestral
P̂ F̂
empírica de F, muestra buenas propiedades. En este caso el proceso de Bootstrapping
1/ 2 consiste en generar conjuntos de n valores muestrados aleatoriamente con reemplazo
m  desde la data original.
se Pˆ (θˆ * ) = VAR[s ( z ) ] = ∑ w j {s( z j ) − s (⋅)}2 
1/ 2

2. Evaluar las replicaciones correspondientes a cada conjunto


 j =1   
m θˆ * (b) = θˆ( X *b ) = s ( X *b )
s(⋅) = ∑ w j s( z j ) 3.Estimar el error estándar mediante la desviación estándar de las B replicaciones:
j =1
1/ 2
B ˆ*
 B {θˆ * (b) − θˆ * (⋅)}2  θ (b)
seˆ BS = ∑ θˆ * (⋅) = ∑
wj Probabilidad de obtener el j-ésimo conjunto de BS
(dada por una distribución multinomial)  b=1 B −1

 b =1 B

H. Allende R. Ñanculef 47 H. Allende R. Ñanculef 48

Profesor: Rodrigo Salas 8


Universidad Técnica Federico Santa María

Métodos Bootstrap para estimar Error Estándar Métodos Bootstrap para estimar Sesgo (BIAS)
BOOTSTRAP PARA ERROR ESTÁNDAR
θ = t (F ) θˆ = s ( x)
Lim seˆ BS = se Fˆ (θˆ * )
BIAS F = BIAS F (θ , θˆ) = E F [s ( x)] − t ( F )
B →∞

 mˆ
[ 
VAR( seˆB ) ≈ VAR mˆ 12 / 2 + E  2 (∆ˆ + 2) ]
 4B  Estimación Ideal

∆ˆ = mˆ / mˆ 2 − 3
4 2

OBS: 1- Un conjunto pequeño de replicaciones de Bootstrap, digamos B = 25 es suficientemente


BIAS BS = BIAS Fˆ (θ , θˆ) = E Fˆ s ( x * ) − t ( Fˆ ) [ ]
útil para darnos una idea del error estándar. Pero B = 50 es generalmente suficiente para
obtener buenas aproximaciones.

2.- Rara vez es necesario tomar más de B ≥ 200 re-muestras para estimar el error estándar. En la práctica se aproxima ese valor mediante una Simulación de Montecarlo
3.-La aproximación de Bootstrap se puede analizar como una simulación de Montecarlo.

4.- Siempre es posible hacer un análisis adecuado para determinar el B que garantiza
determinada precisión.
H. Allende R. Ñanculef 49 H. Allende R. Ñanculef 50

Algoritmo para Sesgo y Variancia BOOTSTRAP EN MODELOS DE REGRESION

1. Generar B muestras de Bootstrap independientes {x1 , x 2 ,..., x n } x i = (c i , y i )


*1 *2 *B
x , x ......., x Problema: El carácter no independiente de los datos. No puedo
2. Calcular las replicaciones de Bootstrap θˆ * (b) = s ( x *b ) b = 1,....., B Muestrar los predictores y las observaciones de manera independiente pura.

P
3. Aproximar E Fˆ [s( x )] por : θˆ (⋅) = ∑ θˆ (b ) / B
B

µ i = E ( yi | ci ) = ∑ cij β j β = ( β1 ,...., β p ) T ?
* * *

b =1
j =1
4. Computar el estimador de Plug-in : t (Fˆ )

5. Estimar el BIAS a partir de de 3 – 4: θˆ * − t ( Fˆ ) µ i = m(c ) Modelo general de regresión

Queremos describir el comportamiento probabilistico


1/ 2 del vector de parámetros
[ [ ]] 1 B
( 2
)
B
=  ∑ θ *b − θ * (⋅) 
1/ 2
VAR E Fˆ s ( x * ) θˆ * (⋅) = ∑θˆ * (b) / B
Bootstrapping No Paramétrico de Pares
 B i =1  b =1
Bootstrapping No Paramétrico de Residuos
Bootstrapping Paramétrico de Residuos
Suavización de estimaciones no Paramétricas

H. Allende R. Ñanculef 51 H. Allende R. Ñanculef 52

BOOTSTRAP EN MODELOS DE REGRESION BPor ejemplo si quiere estimar el error estándar de , calcule

Bootstrapping No Paramétrico de Pares Bootstrapping


OOTSTRAP ENNo Paramétrico
MODELOS de Residuos
DE REGRESION

* * *
Idea: Mantener los predictores fijos y gererar versiones
1. Construya B conjuntos de Bootstrap { x1 , x 2 ,..., x n } donde cada remuestradas de las observaciones, a partir de los residuos
elemento se obtiene muestreando de la distribución muestral
empírica de x
ε i = y i − ci βˆ
Para el i-ésimo conjunto calcule β i de acuerdo al modelo de
*
2.
minimización que esté considerando. 1. Calcule los observados usando βˆ
3. Estime el error estándar como 2. Muestree εi desde, obteniendo un conjunto de Boostrap {ε 1* , ε 2* ,..., ε n* }
B
( β i* − β * ) 2 B
β *i y i = ci βˆ + ε i
* *
se BNP = ∑ β* =∑ 3. Calcule
i =1 B −1 i =1 B
4. Calcule β̂
*
desde la versión remuestrada de la data, de acuerdo

{
VAR ( βˆ ) = σˆ F2 (C T ⋅ C ) −1 } G jj = diag G −1 = diag C T C ( ) al modelo de minimización que esté utilizando, por ejemplo minimización
de la mediana de errrores cuadráticos.
j j

5. Repita este proceso B veces y estime la cantidad de interés tratando


se( β ) = σˆ F G jj el conjunto de βˆ * obtenido como la población bajo estudio.

H. Allende R. Ñanculef 53 H. Allende R. Ñanculef 54

Profesor: Rodrigo Salas 9


Universidad Técnica Federico Santa María

BOOTSTRAP EN MODELOS DE REGRESION BOOTSTRAP EN MODELOS DE REGRESION


Bootstrapping No Paramétrico de Residuos
Comparación
Por ejemplo si quiere estimar el error estándar de , calcule
El muestreo de pares garantiza dependencia de los errores residuales
B
( β i* − β * ) 2 B
β *i respecto de los predictores, de manera conceptualmente simple.
se BNP = ∑ β* =∑ El muestreo de residuos da estabilidad a los predictores, obviando sus
B −1 i =1 B
i =1 características de variable aleatoria.
Observado en la i-esima corrida de Bootstrap
β *i β̂ *
Muestreo de residuos, asumiendo dependencia de un predictor
Existen versiones Paramétricas del Bootstrapping de residuos,
Que trabajan con un modelo paramétrico para los errores y i = ci β + c ij ε i
Residuales. Por ejemplo si suponemos que los errores vienen
de una distribución normal,
ε i = ( y i − ci βˆ ) / cij Desde aquí remuestramos
P = (β , F ) (
Pˆ = βˆ , FˆNORM ( 0,1) )
y i = ci βˆ + cij ε i
* * Reconstrucción de las observaciones de BS
¿Qué es mejor, muestrar pares o residuos?

H. Allende R. Ñanculef 55 H. Allende R. Ñanculef 56

INTERVALOS DE CONFIANZA BASADOS EN BOOTSTRAP INTERVALOS DE CONFIANZA BASADOS EN BOOTSTRAP

Bootstrap-t Bootstrap-t
* * * *
1. Generar B muestras de Bootstrap de la forma X = {xi , x 2 ,... x n }
Técnica inspirada en los intervalos t-Student para la media de a partir de la data X = {x1 , x 2 ,...x n } .Como no estamos haciendo
poblaciones normales suposiciones paramétricas acerca de la población cada valor del conjunto
de Bootstrap ha sido obtenido muestrando con reemplazo de la data
original, de acuerdo a la función de distribución empírica. Si se desean
θˆ − θ Válido si el parámetro es la esperanza de una
hacer suposiciones paramétricas se puede cambiar el esquema de re-
Z= ~ t n −1 Población normal y el estimador es la media de
seˆ una muestra de tamaño n muestreo, utilizando otro estimador para distribución F de la data.

2.Para cada conjunto B, generado en (1), computar θˆ * (b) − θˆ


[θˆ − t (1−α )
n −1 ⋅ seˆ,θˆ − t n(α−1) ⋅ seˆ ] Intervalo de confianza con probabilidad
de cubrimiento 1− 2α
Z * (b ) =
seˆ * (b)
3. El 100i-ésimo percentil de es estimado por el valor de los
que satisface Z * (b ) tˆ (α )
Idea: Tenemos un arma para simular el comportamiento probabilístico
de un objeto estadístico. No haremos supuestos paramétricos ni { }
# Z * (b) ≤ tˆ (α ) / B = α
nos restringimos a un sólo estimador. Estimaremos directamente la 4. Finalmente, el intervalo de confianza “Bootstrap-t” para el estimador
distribución de queda dado por θˆ
Z=
θˆ − θ [θˆ − t (1−α )
n −1 ⋅ seˆ,θˆ − t n(α−1) ⋅ seˆ ]
seˆ

H. Allende R. Ñanculef 57 H. Allende R. Ñanculef 58

INTERVALOS DE CONFIANZA BASADOS EN BOOTSTRAP INTERVALOS DE CONFIANZA BASADOS EN BOOTSTRAP

Bootstrap-t Bootstrap percentiles


Problemas

1.- En general cada muestra de Bootstrap muestra distintos errores


estándares, por lo que es necesario calcularlo cada vez que
[θˆ − t (1−α )
n −1 ⋅ seˆ, θˆ − t n(α−1) ⋅ seˆ ] Intervalo BS-t

realizamos el paso

2.- Más allá de los problemas computacionales, las estimaciones con *


¿Porqué simular el comportamiento de la variable Z (b)
varianza inestable pueden resultar erráticas y poco confiables.
y no de θˆ * directamente ?
Soluciones: Transformaciones adecuadas

Idea: Estimar la distribución de θˆ : G


*

Buenas Propiedades

cup clo
[θˆ ,θˆ ] = [G
lo up
−1
(α ), G −1 (1 − α ) ]
Pr ob{θ > θˆup } = α + Pr ob{θ < θˆlo } = α +
n n

H. Allende R. Ñanculef 59 H. Allende R. Ñanculef 60

Profesor: Rodrigo Salas 10


Universidad Técnica Federico Santa María

INTERVALOS DE CONFIANZA BASADOS EN BOOTSTRAP Tarea 3

Bootstrap percentiles 1.- Estudiar los métodos Bagging y Boosting en problemas de


clasificación y
1.Idem al anterior pronóstico.
2. Para cada conjunto b, generado en (1), computar θˆ * (b)
2.- En una instalación de bombillas eléctricas, todas las
3. Denotemos por Ĝ la distribución de probabilidad acumulativa bombillas están planeadas de ser reemplazadas
de θˆ * y sean Gˆ −1 (α ) y Gˆ −1 (1 − α ) el 100α ésimo percentil de Ĝ y regularmente después de 1200 horas. Para formarse una
el 100 (1 − α ) ésimo percentil de Ĝ respectivamente.
opinión acerca de esta estrategia. Construya un intervalo
4. Entonces el intervalo de confianza queda en la forma boostrap con 90% de confianza para estimar la
probabilidad de sobrevivencia. Use los resultados de
ensayos para 20 bombillas con los siguientes de tiempos
[θˆ
lo ] [
,θˆup = Gˆ −1 (α ), Gˆ −1 (1 − α ) ] de vida. {1354, 1552, 1766, 1325, 2183, 1354, 1299, 627,
695, 2586, 2420,71, 2195, 1825, 159, 1577, 3725, 884,
1014, 965}

3.- Estudie y comente el método Cross validation en la


validación de Modelos.
H. Allende R. Ñanculef 61 H. Allende R. Ñanculef 62

Bootstrap

Smoothed Bootstrap
Bootstrap Methods for Time series
ANN Bootstrap
Bootstrapping Regression Models
Bootstrap realizations of a stationary
process

H. Allende R. Ñanculef 63

Profesor: Rodrigo Salas 11

También podría gustarte