Distribucion Beta

Demostración de la densidad
beta de la probabilidad predicha

de un clasificador binario
Kesber Angulo Sánchez
Fases para la demostración
1. Metodología bootstrap para generar la distribución de la
probabilidad predicha del clasificador binario
2. Determinación de los parámetros de la densidad beta para el ajuste
con la distribución de la probabilidad predicha del clasificador
binario
3. Demostración de la densidad beta de la probabilidad predicha del
el clasificador binario
4. Aplicación: Uso de la densidad beta para combinar probabilidades
de varios clasificadores binarios
Metodología Bootstrap Metodología para
determinar la forma de la
Se generaron B = 10,000 Muestra de distribución de la
muestras bootstrap entrenamiento
probabilidad predicha por
el clasificador binario
remuestra de remuestra de remuestra de
entrenamiento entrenamiento entrenamiento
⋮
1 2 10,000
Ajuste de la curva Beta
Se generaron B = 10,000 X: es la probabilidad predicha
muestras bootstrap por el clasificador binario con las
muestras bootstrap
Es ajuste de la curva beta (𝑋~𝐵𝑒𝑡𝑎(𝛼, 𝛽)) hacia
el histograma se hizo considerando:
𝛼 σ𝐵
𝑏=1 X𝑏
• 𝐸 𝑋 = = =ഥ
X
𝛼+𝛽 𝐵
𝛼𝛽 σ𝐵 ഥ 2
𝑏=1(X𝑏 −X)
• 𝑉 𝑋 = = = S2
𝛼+𝛽 2 (𝛼+𝛽+1) 𝐵−1
Del sistema se tiene que:
1−ഥ
X ഥ
X2 − ഥ
XS 2 (1 − ഥ
X) (1 − ഥ
X )ഥ
X2 − ഥ
XS 2
𝛼= 𝛽=
S2 ഥ
XS 2
Demostración de la densidad Beta de la probabilidad
predicha de un clasificar binario
Consideraciones:
Deseamos encontrar la densidad 𝑔X 𝐾 (𝑋) de la variable

aleatoria X (𝐾) = 𝑃(𝑌 = 1|𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑜𝑟𝑖𝑔𝑖𝑛𝑎𝑙), que no 𝑔X 𝐾 (𝑋)
es más que la probabilidad predicha por un clasificador
binario usando toda la muestra de entrenamiento, que
está en la posición K luego de ordenar una muestra 𝑋 𝑋 + 𝑑𝑋
aleatoria 𝑋1 , 𝑋2 , … , 𝑋𝑛 proveniente de la densidad 𝑋(1) 𝑋(2) … 𝑋(𝑘)
𝑓(𝑋) tal que 𝑋 ∈ 0,1
De la figura, el evento X (𝐾) ∈ [𝑋, 𝑋 + 𝑑𝑋] es equivalente al evento

𝑋𝑖 ∈ 𝑋, 𝑋 + 𝑑𝑋 ∩ 𝑋𝑟 , … , 𝑋𝑠 ∈ 0, 𝑋
𝐾−1 𝑜𝑏𝑠,
⇒𝑃 X 𝐾 ∈ 𝑋, 𝑋 + 𝑑𝑋 = 𝑃 𝑋𝑖 ∈ 𝑋, 𝑋 + 𝑑𝑋 ∩ 𝑋𝑟 , … , 𝑋𝑠 ∈ 0, 𝑋
𝑔𝑋 𝐾 (𝑋)
⇒ 𝑔X 𝐾 𝑋 𝑑𝑋 = 𝑃 𝑋𝑖 ∈ 𝑋, 𝑋 + 𝑑𝑋 𝑃 𝑋𝑟 , … , 𝑋𝑠 ∈ 0, 𝑋
⇒ 𝑔X 𝐾 𝑋 𝑑𝑋 = 𝐶1𝑛 𝑃 𝑋 ∈ 𝑋, 𝑋 + 𝑑𝑋 𝐶𝐾−1
𝑛−1
𝑃 𝐗<𝑋 𝐾−1 𝑃 𝐗>𝑋 𝑛−𝐾
𝑋 𝑋 + 𝑑𝑋
𝑋(1) 𝑋(2) … 𝑋(𝑘)
⇒ 𝑔X 𝐾 𝑋 𝑑𝑋 = 𝐶1𝑛 𝑓 𝑋 𝑑𝑋 𝑛−1
𝐶𝐾−1 𝐹(𝑋) 𝐾−1
1 − 𝐹(𝑋) 𝑛−𝐾
⇒ 𝑔X 𝐾 𝑋 = 𝐶1𝑛 𝐶𝐾−1
𝑛−1
𝐹(𝑋) 𝐾−1 1 − 𝐹(𝑋) 𝑛−𝐾 𝑓 𝑋
𝑛! 𝐾−1 𝑛−𝐾 𝑓
⇒ 𝑔X 𝐾 𝑋 = 𝐹(𝑋) 1 − 𝐹(𝑋) 𝑋
𝐾−1 ! 𝑛−𝐾 !
𝑛! 𝐾−1 𝑛−𝐾
⇒ 𝑔X 𝐾 𝑋 = 𝐹(𝑋) 1 − 𝐹(𝑋) 𝑓 𝑋
𝐾−1 ! 𝑛−𝐾 !
Dado que 𝑋 es una probabilidad, entonces podemos hacer que 𝑋 = 𝑃(𝐙 ≤ 𝑍), tal que 𝑍~ℎ(𝑍)
⇒ 𝑋 = 𝑃 𝐙 ≤ 𝑍 = 𝐻(𝑍) es una función monótona creciente, entonces se verifica que 𝑍 = 𝐻 −1 (𝑋)

⇒ 𝑋 = 𝑃 𝐙 ≤ 𝐻 −1 (𝑋)
⇒ 𝑋 = 𝑃 𝐻(𝐙) ≤ 𝑋
⇒𝑋=𝑃 𝐗≤𝑋
𝑑𝐹(𝑋) 𝑑𝑋
⇒𝑋=𝐹 𝑋 ⇒ = 𝑑𝑋 ⇒𝑓 𝑋 =1 ⇒ 𝑋~𝑈(0,1)
𝑑𝑋
Reemplazando en 𝑔X 𝐾 𝑋 , tenemos que:
𝑛!
𝑔X 𝐾 𝑋 = 𝑋 𝐾−1 (1 − 𝑋)𝑛−𝐾
𝐾−1 ! 𝑛−𝐾 !
Que corresponde a la densidad beta con parámetros 𝐾 y 𝑛 − 𝐾 + 1
Por lo tanto, X 𝐾 ~ 𝐵𝑒𝑡𝑎(𝛼 = 𝐾, 𝛽 = 𝑛 − 𝐾 + 1)

Uso de la densidad beta para
combinar probabilidades de
varios clasificadores binarios
Consideraciones
• Considerar que las probabilidades pronosticadas de los
clasificadores binarios son los valores esperados de
densidades beta.
• Considerar dichas probabilidades independientes (la
probabilidad predicha por un clasificador binario no influye
sobre la probabilidad predicha por otro clasificador
binario), para obtener la densidad conjunta.
• Finalmente, la probabilidad final es el valor esperado de la
densidad conjunta.
Ejemplo de probabilidades pronosticadas
por 3 clasificadores binarios
Para cualquier individuo

tenemos 3 probabilidades
pronosticadas
𝑝1 𝑝2 𝑝3 𝑝𝑗 𝑗 = 1,2,3
Consideraciones
• 𝑝𝑗 : probabilidad predicha por el clasificador j y será la esperanza de
la densidad beta,
𝛼𝑗
• Esperanza= 𝛼 = 𝑝𝑗
𝑗 +𝛽𝑗
𝛼𝑗 𝛽𝑗
• Varianza= 2 = 𝑣𝑗
𝛼𝑗 +𝛽𝑗 (𝛼𝑗 +𝛽𝑗 +1)
𝑣𝑗 se determinará mediante la metodología bootstrap

Resolviendo las ecuaciones
𝛼𝑗 𝛼𝑗 𝛽𝑗
Esperanza = 𝛼 = 𝑝𝑗 Varianza= 2 = 𝑣𝑗
𝑗 +𝛽𝑗 𝛼𝑗 +𝛽𝑗 (𝛼𝑗 +𝛽𝑗 +1)
1 − 𝑝𝑗 𝑝𝑗 2 − 𝑝𝑗 𝑣𝑗 (1 − 𝑝𝑗 ) (1 − 𝑝𝑗 )𝑝𝑗 2 − 𝑝𝑗 𝑣𝑗
𝛼𝑗 = 𝛽𝑗 =
𝑣𝑗 𝑝𝑗 𝑣𝑗
Los parámetros de la densidad beta en

función de su esperanza y varianza!
Ejemplo
𝐵𝑒𝑡𝑎(𝑝1 = 0.87, 𝑣1 = 0.008)
𝐵𝑒𝑡𝑎(𝛼1 = 11.43, 𝛽1 = 1.71)
𝐵𝑒𝑡𝑎(𝑝2 = 0.75, 𝑣2 = 0.010)

𝐵𝑒𝑡𝑎(𝛼2 = 13.31, 𝛽2 = 4.44)
Combinación de las densidades beta
• Se consideran que las 𝑃𝑗 son independientes con
𝑃~𝐵𝑒𝑡𝑎 𝛼𝑗 , 𝛽𝑗 . Para concentrar toda la información de
las 𝑝𝑗 , debemos usar la distribución conjunta de las 𝑝𝑗 , es
decir, 𝑗 = 1,2, … , 𝑘 (k clasificadores binarios)
𝑘 𝑘
𝐿 𝑃 = 𝑓 𝑃1 , … , 𝑃𝑘 = ෑ 𝑓(𝑃𝑗 ) ∝ ෑ 𝑃𝛼𝑗−1 1 − 𝑃 𝛽𝑗 −1
𝑗=1 𝑗=1
σ𝑘
𝑗=1 𝛼𝑗 −𝑘 σ𝑘
𝑗=1 𝛽𝑗 −𝑘
=𝑃 1−𝑃
𝑘 𝑘
𝐿 𝑃 = 𝐵𝑒𝑡𝑎 𝛼 = ෍ 𝛼𝑗 − 𝑘 + 1 , 𝛽 = ෍ 𝛽𝑗 − 𝑘 + 1
𝑗=1 𝑗=1
𝑃
La probabilidad final 𝐵𝑒𝑡𝑎(𝑝1 = 0.87, 𝑣1 = 0.008)
𝐵𝑒𝑡𝑎(𝛼1 = 11.43, 𝛽1 = 1.71)
• Estará representada por la esperanza de la
densidad conjunta
𝑘 𝑘
𝐿 𝑃 = 𝐵𝑒𝑡𝑎 𝛼 = ෍ 𝛼𝑗 − 𝑘 + 1 , 𝛽 = ෍ 𝛽𝑗 − 𝑘 + 1 𝐵𝑒𝑡𝑎(𝑝2 = 0.75, 𝑣2 = 0.010)

𝑗=1 𝑗=1
𝐵𝑒𝑡𝑎(𝛼2 = 13.31, 𝛽2 = 4.44)
• Es decir,
𝛼
Esperanza=
𝛼+𝛽
𝐵𝑒𝑡𝑎(𝛼 = 23.74, 𝛽 = 5.15)

Con una probabilidad
final de 0.82
Conclusiones
• Se logra demostrar la densidad beta de la probabilidad predicha de un
clasificador binario, que podrá usarse para fusionar las probabilidades
de varios clasificadores binarios.
• La metodología bootstrap es necesaria para calcular la varianza de la
densidad beta que servirá para calcular los parámetros de la beta.
• Se presenta el cálculo de la probabilidad final como el valor esperado
de la densidad conjunta del vector de variables 𝑃1 , … , 𝑃𝑘 , usando
como modelo para cada probabilidad pronosticada 𝑃𝑗 a la densidad
beta cuya esperanza es 𝑝𝑗 . Un método que pretende aprovechar el
comportamiento de una probabilidad con un modelo beta, como en
los modelos bayesianos.

Distribucion Beta

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Distribucion Beta

Cargado por

Copyright:

Formatos disponibles

Demostración de la densidad

beta de la probabilidad predicha

Del sistema se tiene que:

Deseamos encontrar la densidad 𝑔X 𝐾 (𝑋) de la variable

aleatoria 𝑋1 , 𝑋2 , … , 𝑋𝑛 proveniente de la densidad 𝑋(1) 𝑋(2) … 𝑋(𝑘)

𝑓(𝑋) tal que 𝑋 ∈ 0,1

De la figura, el evento X (𝐾) ∈ [𝑋, 𝑋 + 𝑑𝑋] es equivalente al evento

⇒ 𝑋 = 𝑃 𝐙 ≤ 𝑍 = 𝐻(𝑍) es una función monótona creciente, entonces se verifica que 𝑍 = 𝐻 −1 (𝑋)

Que corresponde a la densidad beta con parámetros 𝐾 y 𝑛 − 𝐾 + 1

Por lo tanto, X 𝐾 ~ 𝐵𝑒𝑡𝑎(𝛼 = 𝐾, 𝛽 = 𝑛 − 𝐾 + 1)

Para cualquier individuo

𝑣𝑗 se determinará mediante la metodología bootstrap

Los parámetros de la densidad beta en

𝐵𝑒𝑡𝑎(𝑝2 = 0.75, 𝑣2 = 0.010)

𝐿 𝑃 = 𝐵𝑒𝑡𝑎 𝛼 = ෍ 𝛼𝑗 − 𝑘 + 1 , 𝛽 = ෍ 𝛽𝑗 − 𝑘 + 1 𝐵𝑒𝑡𝑎(𝑝2 = 0.75, 𝑣2 = 0.010)

𝐵𝑒𝑡𝑎(𝛼 = 23.74, 𝛽 = 5.15)

También podría gustarte