Está en la página 1de 5

Teorema de Bayes

Ir a la navegaciónIr a la búsqueda

Un letrero de neón que muestra el enunciado del teorema de Bayes

El teorema de Bayes, en la teoría de la probabilidad, es una proposición


planteada por el matemático inglés Thomas Bayes (1702-1761)1 y publicada
póstumamente en 1763,2 que expresa la probabilidad condicional de un evento
aleatorio A dado B en términos de la distribución de probabilidad condicional
del evento B dado A y la distribución de probabilidad marginal de solo A.
En términos más generales y menos matemáticos, el teorema de Bayes es de enorme
relevancia puesto que vincula la probabilidad de A dado B con la probabilidad de B
dado A. Es decir, por ejemplo, que sabiendo la probabilidad de tener un dolor de cabeza
dado que se tiene gripe, se podría saber (si se tiene algún dato más), la probabilidad de
tener gripe si se tiene un dolor de cabeza. Muestra este sencillo ejemplo la alta
relevancia del teorema en cuestión para la ciencia en todas sus ramas, puesto que tiene
vinculación íntima con la comprensión de la probabilidad de aspectos causales dados los
efectos observados.

Sea   un conjunto de sucesos mutuamente excluyentes y exhaustivos, y tales que la


probabilidad de cada uno de ellos es distinta de cero (0). Sea B un suceso cualquiera del que

se conocen las probabilidades condicionales  . Entonces, la probabilidad   viene


dada por la expresión:

donde:

  son las probabilidades a priori,

  es la probabilidad de   en la hipótesis  ,

  son las probabilidades a posteriori.

Thomas Bayes (1763)

Índice
 1Fórmula de Bayes
 2Aplicaciones
 3Véase también
 4Enlaces externos
 5Referencias

Fórmula de Bayes[editar]

La visualización del teorema de Bayes por la superposición de dos árboles de decisión

Con base en la definición de probabilidad condicionada se obtiene la Fórmula


de Bayes, también conocida como Regla de Bayes:

Esta fórmula nos permite calcular la probabilidad condicional   de

cualquiera de los eventos   dado  . La fórmula   «ha originado


muchas especulaciones filosóficas y controversias».3

Aplicaciones[editar]
El teorema de Bayes es válido en todas las aplicaciones de la teoría de la
probabilidad. Sin embargo, hay una controversia sobre el tipo de probabilidades
que emplea. En esencia, los seguidores de la estadística tradicional solo
admiten probabilidades basadas en experimentos repetibles y que tengan una
confirmación empírica mientras que los llamados estadísticos bayesianos
permiten probabilidades subjetivas. El teorema puede servir entonces para
indicar cómo debemos modificar nuestras probabilidades subjetivas cuando
recibimos información adicional de un experimento. La estadística bayesiana
está demostrando su utilidad en ciertas estimaciones basadas en el
conocimiento subjetivo a priori y el hecho de permitir revisar esas estimaciones
en función de la evidencia empírica es lo que está abriendo nuevas formas de
hacer conocimiento. Una aplicación de esto son los clasificadores
bayesianos que son frecuentemente usados en implementaciones de filtros de
correo basura o spam, que se adaptan con el uso. Otra aplicación se encuentra
en la fusión de datos, combinando información expresada en términos de
densidad de probabilidad proveniente de distintos sensores.
Como observación, se obtiene la siguiente fórmula   y su demostración
resulta trivial.
Como aplicaciones puntuales:

1. El diagnóstico de cáncer.
2. Evaluación de probabilidades durante el desarrollo de un juego de bridge
por Dan F. Waugh y Frederick V. Waugh.
3. Probabilidades a priori y a posteriori.
4. Un uso controvertido en la Ley de sucesión de Laplace. 3
5. En el testeo de hipótesis en Ciencia Política cuando se usa
metodología process tracing.

Teorema de Karhunen-Loève
Ir a la navegaciónIr a la búsqueda
En la teoría de procesos estocásticos, el Teorema de Karhunen-Loève (así
llamado debido a Kari Karhunen y Michel Loève) es una representación de un
proceso estocástico como una combinación lineal infinita de funciones
ortogonales. Esta representación es análoga a la representación en series de
Fourier de una función definida en un intervalo acotado de números reales. A
diferencia de una serie de Fourier, en la cual los coeficientes son números
reales y la base de expansión está compuesta por funciones senoidales (es
decir, funciones seno y coseno), los coeficientes del teorema de Karhunen-
Loève son variables aleatorias y la base de expansión depende del proceso.
De hecho, la base de funciones ortogonales que se usa para la representación
queda determinada por la función de covarianza del proceso. Si vemos un
proceso estocástico como una función aleatoria F, es decir, una en la que el
valor aleatorio es una función en un intervalo [a, b], entonces este teorema
puede considerarse como una expansión ortonormal aleatoria de F.
En el caso de un proceso estocástico centrado {Xt} t ∈
[a, b] (donde centrado se refiere a que los valores esperados E(Xt) están
definidos y son iguales a 0 para todo t), el satisfacer una condición de
continuidad técnica, admite la descomposición

{\displaystyle \mathbf {X} _{t}=\sum _{k=1}^{\infty }\mathbf {Z} _{k}e_{k}(t).}


donde Zk son variables aleatorias no correlacionadas de a pares y las
funciones ek son funciones reales continuas en [a, b], ortogonales de a pares
en L2[a, b]. El caso general de un proceso no centrado puede representarse
expandiendo la función de expectación (que es un función no-aleatoria) en la
base ek.
Aún más, si el proceso es Gaussiano, entonces las variables aleatorias Zk son
Gaussianas y estocásticamente independientes. Este resultado generaliza
la transformada de Karhunen-Loève. Un ejemplo importante de un proceso
estocástico real centrado en [0,1] es el proceso de Wiener y el teorema de
Karhunen-Loève permite obtener una representación ortogonal canónica de
éste. En este caso, la expansión consiste de funciones senoidales.
A la expansión anterior en variables aleatorias no correlacionadas se la conoce
también como la expansión de Karhunen-Loève.
Formulación del teorema[editar]
Formulamos el teorema en el caso que las variables aleatorias sean reales,
aunque el teorema es válido aún para funciones con valores vectoriales.
Si X e Y son variables aleatorias, el producto interno está definido por
{\displaystyle \langle \mathbf {X} |\mathbf {Y} \rangle =\operatorname {E}

(\mathbf {X} \mathbf {Y} )}


El producto interno está bien definido en caso que X e Y tengan momentos de
segundo orden finitos, es decir, que X e Y sean de cuadrado integrable. El
producto interno tiene estrecha relación con la covariancia y la correlación. Por
ejemplo, para variables aleatorias cuyo valor esperado es nulo, la covariancia y
el producto interno son idénticos. Si {Xt}t es un proceso centrado, la función de
covariancia de {Xt}t es
{\displaystyle \operatorname {Cov} _{\mathbf {X} }(t,s)=\langle \mathbf {X}
_{t}|\mathbf {X} _{s}\rangle =\operatorname {Cov} (\mathbf {X} _{t},\mathbf {X}

_{s}).}
Nótese que si {Xt}t es un proceso centrado y t1, ≤ t2, ..., ≤ tN son puntos en el
intervalo [a, b], entonces
{\displaystyle \sum _{k,\ell }\operatorname {Cov} _{\mathbf {X} }
(t_{k},t_{\ell })=\operatorname {Var} \left(\sum _{k=1}^{N}\mathbf {X}

_{k}\right)\geq 0.}
Teorema. Consideremos un proceso estocástico {Xt}t en que el índice t recorre
el intervalo [a, b], y con función de covariancia CovX. Supongamos además
que la función CovX(t,s) sea conjuntamente continua en las variables t, s.
Entonces CovX puede ser considerado como un núcleo positivo definido. Por
el Teorema de Mercer, el operador integral T correspondiente que actúa en
L2[a,b] (relativo a la medida de Lebesgue en [a,b]) tiene una base
ortonormal de vectores propios. Sea {ei}i la secuencia de los vectores propios
de T correspondientes a los valores propios no nulos y definamos:

{\displaystyle \mathbf {Z} _{i}=\int _{a}^{b}\mathbf {X} _{t}e_{i}(t)dt.}


Entonces Zi son variables aleatorias centradas y ortogonales y

{\displaystyle \mathbf {X} _{t}=\sum _{i=1}^{\infty }e_{i}(t)\mathbf {Z} _{i}}


donde la convergencia es en media cuadrática y uniforme en t. Además
{\displaystyle \operatorname {Var} (\mathbf {Z} _{i})=\operatorname {E} (\mathbf

{Z} _{i}^{2})=\lambda _{i}.}


adonde λi es el valor propio correspondiente al vector propio ei.
En el enunciado del teorema, la integral que define Zi puede ser definida como
el límite en la media de sumas de Cauchy de variables aleatorias:
{\displaystyle \sum _{k=0}^{\ell -1}\mathbf {X} _{\xi _{k}}e_{i}(\xi _{k})(t_{k+1}-

t_{k}),}
donde
{\displaystyle a=t_{0}\leq \xi _{0}\leq t_{1}\leq \cdots \leq \xi _{\ell -1}\leq t_{n}=b}

Dado que el límite en la media de variables aleatorias Gaussianas conjuntas es


Gaussiana conjunta, y dado que las variables aleatorias Gaussiana conjuntas
(centradas) son independientes si y solo si son ortogonales, podemos concluir
que:
Teorema. Las variables Zi tienen una distribución Gaussiana conjunta y son
estocásticamente independientes si el proceso original {Xt}t es Gaussiano.
En el caso Gaussiano, dado que las variables Zi son independientes, podemos
agregar:
{\displaystyle \lim _{N\rightarrow \infty }\sum _{i=1}^{N}e_{i}(t)\mathbf {Z} _{i}

(\omega )=\mathbf {X} _{t}(\omega )}


casi seguramente.
Nótese que al generalizar el teorema de Mercer, podemos reemplazar el
intervalos [a, b] con otros espacios compactos C y la medida de Lebesgue en
[a, b] con una medida de Borel que tenga soporte en C.
El proceso de Wiener[editar]
Existen varias caracterizaciones equivalentes al proceso de Wiener, que es una
formalización matemática de movimiento browniano. Aquí lo veremos cómo el
proceso Gaussiano centrado {Bt} con función de covarianza

{\displaystyle \operatorname {Cov} _{\mathbf {B} }(t,s)=\min(s,t).}


Es sencillo determinar los vectores propios del núcleo de la covarianza. Ellos
son

{\displaystyle e_{k}(t)={\sqrt {2}}\sin \left(k-{\frac {1}{2}}\right)\pi t}


con los siguientes valores propios correspondientes:

{\displaystyle \lambda _{k}={\frac {4}{(2k-1)^{2}\pi ^{2}}}.}


Esto nos da la siguiente representación del proceso de Wiener:
Teorema. Existe una secuencia {Wi}i de variables aleatorias Gaussianas
independientes con media nula y varianza unitaria tal que:
{\displaystyle \mathbf {B} _{t}={\sqrt {2}}\sum _{k=1}^{\infty }\mathbf {W} _{k}

{\frac {\sin \left(k-{\frac {1}{2}}\right)\pi t}{\left(k-{\frac {1}{2}}\right)\pi }}.}


La convergencia es uniforme en t y en la norma L2, es decir
{\displaystyle \operatorname {E} \left(\mathbf {B} _{t}-{\sqrt {2}}\sum
_{k=1}^{n}\mathbf {W} _{k}{\frac {\sin \left(k-{\frac {1}{2}}\right)\pi t}{\left(k-{\frac

{1}{2}}\right)\pi }}\right)^{2}\rightarrow 0}
uniformemente en t.

También podría gustarte