Está en la página 1de 5

CONTENIDO

TEOREMA DE BAYES PARA EL CASO DISCRETO Y CONTINUO

El teorema de Bayes es uno de los resultados básicos de la teoría de la probabilidad. Se estudiará


su interpretación como mecanismo de aprendizaje sobre estas cantidades desconocidas.

sea {𝐴1 , 𝐴2 , … , 𝐴𝑖 , … , 𝐴𝑛 } un conjunto de sucesos mutuamente excluyentes y exhaustivos, y tales


que la probabilidad de cada uno de ellos es distinta de cero. Sea B un suceso cualquiera del que se
conocen las probabilidades condicionales 𝑃(𝐵|𝐴𝑖 ). Entonces, la probabilidad 𝑃(𝐴𝑖 |𝐵) viene dada
por la expresión:
𝑃(𝐵|𝐴𝑖 )𝑃(𝐴𝑖 )
𝑃(𝐴𝑖 |𝐵) =
𝑃(𝐵)
Donde:

• 𝑃(𝐴𝑖 ) son las probabilidades a priori.


• 𝑃(𝐵|𝐴𝑖 ) es la probabilidad de 𝐵 en la hipótesis 𝐴𝑖 .
• 𝑃(𝐴𝑖 |𝐵) son las probabilidades a posteriori.

DISTRIBUCION A PRIORI

En la estadística bayesiana se tienen dos tipos de cantidades: conocidas y desconocidas, de modo


que el objetivo es usar las cantidades conocidas, junto con un modelo paramétrico dado, para
hacer inferencias sobre las cantidades conocidas.

Por cantidades desconocidas se puede entender tanto parámetros del modelo como
observaciones missing(desaparecida).

Un parámetro es visto como una variable aleatoria a la que antes de la evidencia muestral se le
asigna una distribución a priori de probabilidad, con base en un cierto grado de creencia con
respecto al comportamiento aleatorio. Cuando se obtiene la evidencia muestral, la distribución a
priori es modificada y entonces surge una distribución a posteriori de probabilidad.

Consideramos un problema de inferencia estadística en el que las observaciones se toman de una


variable aleatoria X que sigue una distribución con función de densidad (o función de masa de
probabilidad) 𝑓(𝑥|𝜃), con 𝜃 ∈ 𝛩 para el caso continuo y una distribución con una probabilidad
𝑝(𝑥|𝜃) para el caso discreto. En ocasiones se dispone la información sobre el parámetro 𝜃 antes
de recoger los datos. Esta información puede ser de tipo histórico (si se han realizado
experimentos similares con anterioridad) o bien de tipo subjetivo (el investigador puede creer que
ciertos valores de 𝜃 ∈ 𝛩 son más aceptables que otros).

Una forma de recoger la información previa sobre 𝜃 es definir una distribución de probabilidad
sobre 𝛩, que se llama DISTRIBUCION A PRIORI de 𝜃, de forma que las regiones de 𝛩 más probables
a priori sean aquellas que contienen los valores de 𝜃 mas aceptables según la información previa
existente, antes de observar ningún valor de X

El concepto de distribución a priori es muy controvertido. Algunos estadísticos defienden que en


cualquier problema estadístico se puede definir siempre una ley a priori para 𝜃. Esta distribución
representa la información (histórica o subjetiva) del experimentador y se debe trabajar con ella
siguiendo las reglas de la probabilidad.

Otros estadísticos creen que en ocasiones no es apropiado hablar de una distribución de


probabilidad sobre 𝛩 porque 𝜃 es una cantidad fija desconocida para el investigador. Otro de los
aspectos de la inferencia bayesiana que a menudo recibe criticas es el grado de subjetividad a que
está expuesto por el hecho de que es el experimentador quien define la distribución a priori. En
cualquier caso, en lo que hay coincidencia es en que si hay información sobre 𝜃 esta tiene que ser
utilizada en la inferencia.

Existen distribuciones a priori no informativas que se construyen sin usar información a priori y
permiten hacer inferencia bayesiana objetiva. Para definirlas a veces es necesario recurrir a
DISTRIBUCIONES A PRIORI IMPROPIAS (distribuyen una probabilidad infinita sobre 𝛩). Pese a su
carácter impropio permiten hacer inferencias correctas.

Las distribuciones a priori no informativas son útiles cuando deseamos que la inferencia no se vea
afectada por información que no prevenga de los datos presentes. Estas distribuciones son
también apropiadas cuando tenemos muy poco conocimiento previo en comparación con la
información contenido en los nuevos datos.

En un modelo básico se tiene un parámetro de interés 𝜃 y unos datos observados X y se considera


una distribución de probabilidad conjunta para ambos que recoge como se relacionan: 𝑝(𝜃, 𝑥).
Aplicando la definición de probabilidad condicionada, se tiene que la densidad conjunta de X y 𝜃
es

𝑝(𝜃, 𝑥) = 𝜋(𝜃). 𝑝(𝑥|𝜃) sí X es discreta

𝑓(𝜃, 𝑥) = 𝑓(𝜃). 𝑓(𝑥|𝜃) sí X es discreta

• 𝜋(𝜃) se denomina distribución a priori de 𝜃.


• El segundo término es la función de verosimilitud: 𝑝(𝑥|𝜃).

FUNCION DE DENSIDAD

Sea 𝑋1 , … , 𝑋𝑛 una muestra aleatoria (no necesariamente simple) de una población X con función
de probabilidad 𝑃𝜃 (o con función de densidad 𝑓𝜃 ). Para cada muestra particular (𝑥1 , … , 𝑥𝑛 ), la
función de verosimilitud se define como la función de probabilidad (o de densidad) conjunta de
(𝑋1 , … , 𝑋𝑛 ) evaluada en (𝑥1 , … , 𝑥𝑛 ).

ℒ(𝜃) = ℒ(𝑥1 , … , 𝑥𝑛 ; 𝜃) = 𝑃𝜃 (𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 ) sí X es discreta

ℒ(𝜃) = ℒ(𝑥1 , … , 𝑥𝑛 ; 𝜃) = 𝑓𝜃 (𝑥1 , … , 𝑥𝑛 ) si X es continua

• La notación ℒ(𝜃) indica que es ℒ es una función de 𝜃 y no de (𝑥1 , … , 𝑥𝑛 ).


• 𝜃 puede ser un escalar o un vector (𝜃 = (𝜃1 , … , 𝜃𝑛 ).
• El subíndice 𝜃 en la función de probabilidad o de densidad indica que dicha función
depende del valor del parámetro.

La ley conjunta de 𝑋1 , … , 𝑋𝑛 se denomina DISTRIBUCION MUESTRAL (O VEROSIMILITUD de la


muestra) dado el valor de los parámetros:
𝑛

ℒ(𝑥|𝜃) = ∏ 𝑓(𝑥𝑖 |𝜃)


𝑖=1

Pasos para encontrar la máxima verosimilitud

paso 1

• Función de probabilidad

𝑓(𝑥|𝜃)
Paso 2

• Función de verosimilitud
𝑛

ℒ(𝜃) = ∏ 𝑓(𝑥𝑖 |𝜃)


𝑖=1

Paso 3

• Función de logaritmo natural verosimilitud


𝑛 𝑛

ℒ(𝜃) = ln (∏ 𝑓(𝑥1 |𝜃)) = ∑ ln(𝑓(𝑥𝑖 |𝜃))


𝑖=1 𝑖=1

Paso 4

• Derivada de la función de log-verosimilitud e igualar a cero


𝑑ℒ(𝜃)
=0
𝑑(𝜃)
Paso 5

• Despejar el parámetro

𝜃̂𝑀𝑉 = 𝜃
DISTRIBUCION MARGINAL

La distribución marginal proporciona la probabilidad de un subconjunto de valores del conjunto


sin necesidad de conocer los valores de las otras variables.

El factor de proporcionalidad que convierte en igualdad el ajuste del juicio a posteriori mediante la
verosimilitud y la a priori es la distribución marginal.

𝑚(𝑥) = ∫ ℒ(𝑥|𝜃)𝜋(𝜃)𝑑𝜃
𝛩

Em su versión continua. En el caso discreto, basta sustituir el operador integral por medio de la
sumatoria.
Definición 1. La distribución predictiva a priori es la distribución de los datos x para el modelo de
verosimilitud dado por ℒ(𝑥|𝜃) y la densidad a priori 𝜋(𝜃), definida por

𝑚(𝑥) = ∫ ℒ(𝑥|𝜃)𝜋(𝜃)𝑑𝜃
𝛩

Análogamente, para el caso de un nuevo conjunto de observaciones z independientes de las


anteriores, se definirá la distribución predictiva (a posteriori) por

𝑚(𝑧|𝑥) = ∫ ℒ(𝑧|𝜃)𝜋(𝜃|𝑥)𝑑𝜃
𝛩

DISTRIBUCION POSTERIORI

Por otro lado, la distribución a posteriori 𝑝(𝜃|𝑥) es, por la ley multiplicativa de la probabilidad, el
producto de la función de distribución de probabilidad 𝜋(𝜃) y la función de verosimilitud 𝑝(𝑥|𝜃).

Dicho de otro modo, la probabilidad a posteriori es aquella que resulta de aplicarle conjuntamente
de probabilidad a priori (probabilidad subjetiva) y la verosimilitud de los datos (transformación de
los datos experimentales en función de la probabilidad subjetiva), entre la probabilidad de los
propios datos experimentales.

En general, el análisis estadístico de unos datos observados X suele comenzar con una evaluación
descriptiva mediante la cual puede surgir algún modelo probabilístico {𝑓(𝑥|𝜃); 𝜃 ∈ Θ} que
represente, para algún valor (desconocido) de 𝜃, el mecanismo probabilístico que ha generado los
datos x observados. El paradigma bayesiano establece que es necesario asignar una distribución a
priori 𝜋(𝜃) sobre el espacio paramétrico Θ que describa el conocimiento disponible sobre el valor
𝜃 antes de haber observado los datos. Se sigue entonces que por la teoría de la probabilidad que,
si el modelo de probabilidad es correcto, toda la información disponible sobre el valor 𝜃 después
de observar a X estará contenida en la densidad a posteriori 𝜋(𝜃|𝑥) obteniendo mediante:
𝑓(𝑥|𝜃)𝜋(𝜃)
𝜋(𝜃|𝑥) = ,𝜃 ∈ Θ
𝑚(𝑥)
En inferencia bayesiana se usa esta distribución para realizar inferencias sobre 𝜃. Por ejemplo, un
estimador puntual de 𝜃 podría ser 𝐸(𝜃|𝑥).

La distribución a posteriori nos informa sobre la verosimilitud relativa de que el verdadero valor de
𝜃 este en las distintas regiones del espacio paramétrico Θ después de haber observado 𝑋1 , … , 𝑋𝑛 .

Obsérvese que 𝜋(𝜃|𝑥) es proporcional al producto de la verosimilitud por la a priori:

𝜋(𝜃|𝑥) ∝ 𝑓(𝑥|𝜃)𝜋(𝜃)
Ejemplo:

Sea X el tiempo de vida en horas de un nuevo modelo de la lampara fluorescente. Se supone que
1
𝑋~exp(𝜆), con µ = 𝐸(𝑋) = 𝜆. La información histórica acumulada sobre tiempos de vida de
lámparas similares indica que µ tiene media aproximadamente 5000 horas. De hecho, la
1
distribución que se propone como a priori para 𝜆 es igual a 𝜆~𝛾(𝛼0 , 𝛽0 ) con 𝐸(𝜆) = 𝛼0 𝛽0 = y
5000
𝑉(𝜆) = 𝛼0 𝛽02 = 0.0001, de donde se sigue que 𝛼0 𝛽0 = 0.0002 y 𝛼0 𝛽02 = 0.0001 ⟹ 𝛼0 = 4,
1
𝛽0 = 20000 .
1
Así, 𝜆~𝛾(4, )
20000

Y su función de densidad es
200004 3 −20000𝜆
𝜋(𝜆) = (4−1)!
𝜆 𝑒 , 𝜆 > 0.

Se hace una prueba de vida en la que se ponen a funcionar 25 lámparas del nuevo modelo hasta
que se funden. Los resultados son estos:
25

𝑋1 = 𝑥1 , … , 𝑋25 = 𝑥25 , ∑ 𝑥𝑖 = 150000


𝑖=1

Así, la verosimilitud es
25
25 −𝜆
𝑓(𝑥1 , … , 𝑥25 |𝜆) = 𝜆 𝑒 ∑ 𝑥𝑖
𝑖=1

Y la densidad a posteriori de 𝜆 es
𝑓(𝑥1 , … , 𝑥25 |𝜆)𝜋(𝜆)
𝜋(𝜆|𝑥1 , … , 𝑥25 ) = ∞
∫0 𝑓(𝑥1 , … , 𝑥25 |𝜆)𝜋(𝜆)𝑑𝜆

El numerador es
25
25
𝑓(𝑥1 , … , 𝑥25 |𝜆)𝜋(𝜆) = 𝜆 exp {−𝜆 (∑ 𝑥𝑖 + 20000)}
𝑖=1

También podría gustarte