Documentos de Académico
Documentos de Profesional
Documentos de Cultura
e Inferencia
Construyendo modelos bajo incerteza
Este libro está cubierto por una licencia Creative Commons BY-ND 4.0.
Usted puede copiar y redistribuir este libro en cualquier medio o formato
para cualquier finalidad, incluso comercial, bajo las condiciones siguientes:
https://creativecommons.org/licenses/by-nd/4.0/deed.es_ES
I
Prefacio
II
Público objetivo: Es mi aspiración que el contenido de este libro pueda ser
cubierto en mayor o menor profundidad en un curso de un semestre pa-
ra estudiantes de últimos años de carreras STEM(1) . Para la lectura de
este libro es requisito únicamente un conocimiento de cálculo en varias
variables y algo de álgebra lineal. El tratamiento matemático no es ex-
cesivamente formal, dada la formación en Física del autor, sin embargo
hay demostraciones importantes expuestas de forma simplificada. En
particular no se usa el lenguaje de la teoría de la medida.
III
Convenciones y notación: Escribiremos las integrales, tanto definidas como
indefinidas, con el diferencial a la izquierda, como en
Z ∞
Z= dx f ( x ).
0
IV
Como estudiante, las fórmulas destacadas en recuadros deberían resul-
tarle familiares —o al menos conocer de su existencia y dónde encon-
trarlas — al final de una lectura completa del libro. Similarmente los
teoremas y definiciones se encuentran destacados y en un índice en la
página XI.
Aspectos técnicos de esta edición: La tipografía del libro fue realizada con
LATEX bajo la distribución TeX Live (https://tug.org/texlive) en el siste-
ma operativo Debian GNU/Linux (https://debian.org). Las figuras fue-
ron generadas usando la librería Matplotlib (https://matplotlib.org) pa-
ra Python y el paquete TikZ (https://ctan.org/pkg/pgf) de LATEX. Se reco-
mienda leer este documento PDF en un software habilitado para seguir
hipervínculos, los cuales son usados en las referencias a ecuaciones, bi-
bliografía y glosario.
Errata: La edición que está leyendo probablemente aún tiene muchos errores.
Si desea reportarlos, puede hacerlo a sergdavis@gmail.com con el asunto
«Errata EPI».
S ERGIO D AVIS
El Bosque, Santiago, Chile.
23 de febrero de 2024 (versión 1.07)
V
Índice general
1 D EDUCCIÓN E INFERENCIA 1
1.1. Deducción: todas las cartas sobre la mesa . . . . . . . . . . . . 2
1.2. Inferencia: la mejor apuesta con lo que sabemos . . . . . . . . 3
1.3. Inferencia como modelos actualizables . . . . . . . . . . . . . . 5
1.3.1. Modelos versus la realidad . . . . . . . . . . . . . . . . 8
1.3.2. Hacia una teoría de inferencia . . . . . . . . . . . . . . . 8
2 L ÓGICA PROPOSICIONAL 9
2.1. Proposiciones lógicas . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Operaciones lógicas . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Métodos de demostración . . . . . . . . . . . . . . . . . . . . . 15
2.3.1. La regla de resolución . . . . . . . . . . . . . . . . . . . 15
2.3.2. Inducción matemática . . . . . . . . . . . . . . . . . . . 17
2.3.3. Prueba por contradicción . . . . . . . . . . . . . . . . . 18
Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3 H ERRAMIENTAS MATEMÁTICAS 25
3.1. Función escalón de Heaviside . . . . . . . . . . . . . . . . . . . 25
3.2. Delta de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.1. Representaciones de la delta de Dirac . . . . . . . . . . 32
3.2.2. Composición de la delta de Dirac . . . . . . . . . . . . . 33
3.2.3. Derivadas de la delta de Dirac . . . . . . . . . . . . . . 34
3.3. Cambios de variable y la delta de Dirac . . . . . . . . . . . . . 35
3.3.1. Cambios de variable en integrales simples . . . . . . . 35
3.3.2. Cambios de variables en integrales múltiples . . . . . . 37
3.3.3. Densidad de puntos . . . . . . . . . . . . . . . . . . . . 39
3.4. Derivada dentro de una integral . . . . . . . . . . . . . . . . . 41
3.5. Funciones especiales . . . . . . . . . . . . . . . . . . . . . . . . 42
3.6. Método de los multiplicadores de Lagrange . . . . . . . . . . . 45
VI
Índice general
5 E STIMACIÓN 72
5.1. Los postulados de la estimación . . . . . . . . . . . . . . . . . . 73
5.2. Estimación de variables discretas . . . . . . . . . . . . . . . . . 77
5.3. Estimación de variables continuas . . . . . . . . . . . . . . . . 79
5.4. Invarianza de la estimación . . . . . . . . . . . . . . . . . . . . 81
Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6 P ROBABILIDAD 84
6.1. Probabilidad bayesiana y frecuentista . . . . . . . . . . . . . . 85
6.2. La regla de la suma y el producto . . . . . . . . . . . . . . . . . 85
6.3. El principio de indiferencia . . . . . . . . . . . . . . . . . . . . 88
6.4. La regla de marginalización . . . . . . . . . . . . . . . . . . . . 89
6.5. El teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.5.1. El problema de Monty Hall . . . . . . . . . . . . . . . . 96
6.5.2. Teorías conspirativas y la navaja de Ockham . . . . . . 98
6.6. Modelos probabilísticos . . . . . . . . . . . . . . . . . . . . . . 101
6.7. Probabilidad y frecuencia de eventos . . . . . . . . . . . . . . . 101
6.8. Probabilidades en ausencia de incerteza . . . . . . . . . . . . . 105
6.9. Otras interpretaciones del concepto de probabilidad . . . . . . 107
6.9.1. La probabilidad según Kolmogorov . . . . . . . . . . . 107
6.9.2. Probabilidad desde la expectación de Whittle . . . . . . 107
6.9.3. Probabilidad bayesiana según Cox . . . . . . . . . . . . 108
Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
VII
Índice general
VIII
Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
B IBLIOGRAFÍA 246
F IGURAS
1.1. Un laberinto del cual podemos encontrar la salida usando la lógica. 2
1.2. Un modelo bajo incerteza . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Esquema de inferencia. . . . . . . . . . . . . . . . . . . . . . . . . . 7
IX
Otros índices
D EFINICIONES
2.1. Proposiciones mutuamente excluyentes . . . . . . . . . . . . . 20
2.2. Proposiciones exhaustivas . . . . . . . . . . . . . . . . . . . . . 20
3.1. Función escalón de Heaviside . . . . . . . . . . . . . . . . . . . 25
3.2. Función rectangular . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3. Delta de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4. Densidad de puntos de una función . . . . . . . . . . . . . . . 40
3.5. Función gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.6. Función beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1. Función indicador . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1. Densidad de probabilidad . . . . . . . . . . . . . . . . . . . . . 81
6.1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.2. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . 103
X
Otros índices
T EOREMAS
2.1. Regla de resolución . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1. Teorema de convolución . . . . . . . . . . . . . . . . . . . . . . 59
5.1. Invarianza de la estimación . . . . . . . . . . . . . . . . . . . . 82
6.1. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1. Ley de los grandes números . . . . . . . . . . . . . . . . . . . . 136
8.2. Teorema central del límite . . . . . . . . . . . . . . . . . . . . . 141
9.1. Ley de los grandes números (revisitada) . . . . . . . . . . . . . 155
10.1. Desigualdad de Jensen . . . . . . . . . . . . . . . . . . . . . . . 169
10.2. Propiedad de proyección de la función indicador . . . . . . . . 170
10.3. Propiedad de proyección de la delta de Dirac . . . . . . . . . . 171
XI
Otros índices
R ECUADROS
1.1. Elementos de una teoría de inferencia . . . . . . . . . . . . . . 8
2.1. Dos reglas de deducción clásicas . . . . . . . . . . . . . . . . . 14
3.1. Aproximación de Laplace . . . . . . . . . . . . . . . . . . . . . 55
3.2. Aproximación de Stirling . . . . . . . . . . . . . . . . . . . . . 57
5.1. Notación para las probabilidades . . . . . . . . . . . . . . . . . 78
6.1. Álgebra de probabilidades . . . . . . . . . . . . . . . . . . . . . 86
6.2. El principio de indiferencia . . . . . . . . . . . . . . . . . . . . 89
6.3. Teorema de Bayes para dos hipótesis alternativas . . . . . . . . 93
6.4. Marilyn vos Savant . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.5. La navaja de Ockham . . . . . . . . . . . . . . . . . . . . . . . . 100
6.6. Los axiomas de Kolmogorov . . . . . . . . . . . . . . . . . . . . 107
6.7. Los axiomas de Cox . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.1. Media y varianza de la distribución normal . . . . . . . . . . . 130
9.1. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . 150
9.2. Método de máximo a posteriori . . . . . . . . . . . . . . . . . . 150
9.3. Método de los mínimos cuadrados . . . . . . . . . . . . . . . . 160
9.4. Mínimos cuadrados para la regresión lineal . . . . . . . . . . . 161
12.1. El principio de máxima entropía . . . . . . . . . . . . . . . . . 201
14.1. Generación de eventos con probabilidad p . . . . . . . . . . . . 237
14.2. Generación de eventos con probabilidades dadas . . . . . . . . 238
14.3. Método de aceptación y rechazo . . . . . . . . . . . . . . . . . 239
14.4. Algoritmo Metropolis (pseudocódigo) . . . . . . . . . . . . . . 241
14.1. Las programadoras del algoritmo Metropolis . . . . . . . . . . 241
14.5. Algoritmo Metropolis . . . . . . . . . . . . . . . . . . . . . . . . 242
14.6. Algoritmo de Gibbs (pseudocódigo) . . . . . . . . . . . . . . . 244
14.7. Algoritmo de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . 245
XII
Lista de Notaciones
?
a=b Por determinar si a es igual a b IV
XIII
Lista de Notaciones
T Verdadero 10
F Falso 10
¬A Negación de A 10
A∨B Disyunción de A y B 11
A∧B Conjunción de A y B 11
A⇒B A implica B 13
A⇔B A es equivalente a B 15
X Vector de variables 80
ω Función de prueba 31
X I
Expectación (estimación) de X en el estado de conocimiento I 73
XIV
C APÍTULO 1
Deducción e inferencia
Bertrand Russell
1
Deducción: todas las cartas sobre la mesa
2
Inferencia: la mejor apuesta con lo que sabemos
Teorema: Una afirmación que puede deducirse a partir de uno o más axio-
mas u otras afirmaciones demostradas previamente, es decir, es la
conclusión de una deducción.
3
Inferencia: la mejor apuesta con lo que sabemos
guntas más abstractas como las referentes a alguna propiedad del Universo,
por ejemplo la naturaleza de la energía oscura, o preguntas acerca de una
estructura conceptual como podría serlo una teoría científica, tales como si
existe una posible teoría que unifique la física cuántica y la relatividad gene-
ral, también quedan fuera del alcance de la deducción, como también ocurre
con otras preguntas de naturaleza filosófica, por ejemplo la existencia del li-
bre albedrío.
En resumen, podríamos estar en una de tres situaciones:
4
Inferencia como modelos actualizables
distintas explicaciones a los síntomas, las que literalmente van siendo anota-
das y eliminadas del pizarrón hasta que se confirma un diagnóstico.
El razonamiento de Holmes o de House esencialmente busca explicacio-
nes, pero además de éste existe otra categoría por excelencia donde se realiza
inferencia: la que se centra en la predicción de eventos futuros y tiene que ver
fundamentalmente con el azar y los fenómenos aleatorios (también denomi-
nados fenómenos estocásticos).
Consideraremos los fenómenos aleatorios como casos donde es imposible
en la práctica adquirir la información necesaria porque hay detalles micros-
cópicos del fenómeno que están permanentemente fuera de nuestro control,
lo cual evita que puedan ser tratados de forma determinista. Por ejemplo, en
el caso del lanzamiento de una moneda, si pudiéramos conocer la distribu-
ción de masa de ésta, su vector velocidad inicial con completa exactitud, y
a la vez conocer todo el detalle de las corrientes de aire que la rodea y del
campo gravitacional terrestre, podríamos en principio calcular el resultado
del lanzamiento como cara o sello con completa exactitud.
5
Inferencia como modelos actualizables
6
Inferencia como modelos actualizables
Nueva Respuestas
información
¿Acuerdo sí
no con la
realidad?
sí
Modelo ¿Nuevas
final no preguntas?
el piso la vaca al caer desde un segundo piso, pero no para entender por qué
este año la producción de leche fue menor que el año pasado.
Si un modelo M da una respuesta R que no está de acuerdo con la reali-
dad, hemos adquirido nueva información que no está incluida en I, y te-
nemos la oportunidad de incorporarla, en cuyo caso pasamos de un estado
de conocimiento I a uno diferente, I ′ , en el que construimos un modelo ac-
tualizado M′ = M ( I ′ ). Por supuesto, si la información nueva es irrelevante,
podríamos preferir no incluirla en el modelo.
Así entramos en un ciclo de refinamientos sucesivos de un modelo, en el
que vamos iterativamente incorporando nueva información, y nos mante-
nemos en este ciclo «desafiando» al modelo a contestar nuevas preguntas y
contrastarlas con la realidad, hasta que decidimos que el modelo captura lo
suficiente, como se muestra en la Figura 1.3.
7
Inferencia como modelos actualizables
(4) Actualizar un modelo cuando hay desacuerdo con la realidad. (5) El significado de la masa en
el entendimiento moderno de la
física es mucho más complejo.
El cómo llegar a estas reglas sin ambigüedades será el objetivo de los si- Así lo hace ver Frank Wilczek
(2008), quien afirma que la ma-
guientes capítulos, y para esto en primer lugar revisaremos los fundamentos sa es una propiedad emergente.
de la lógica proposicional a continuación.
8
C APÍTULO 2
Lógica proposicional
Si esto es cierto, entonces se sigue que esto otro debe ser cierto.
9
Operaciones lógicas
A = T,
B = F.
donde la igualdad es cierta para cualquier valor que tomen las variables a y
b, existen identidades lógicas que son válidas para cualquier valor de verdad
de las proposiciones involucradas. Por ejemplo, la regla
es una identidad lógica, que podremos escribir de manera simbólica una vez
introducidas las operaciones lógicas, a continuación.
10
Operaciones lógicas
Por otro lado la disyunción entre A y B, también conocida como or, y que
denominaremos A ∨ B, representa la afirmación
A ∧ B = B ∧ A, (2.3a)
A ∨ B = B ∨ A, (2.3b)
y asociativas,
A ∧ ( B ∧ C ) = ( A ∧ B) ∧ C = A ∧ B ∧ C, (2.4a)
A ∨ ( B ∨ C ) = ( A ∨ B) ∨ C = A ∨ B ∨ C, (2.4b)
A ∧ ( B ∨ C ) = ( A ∧ B ) ∨ ( A ∧ C ), (2.5a)
A ∨ ( B ∧ C ) = ( A ∨ B ) ∧ ( A ∨ C ). (2.5b)
11
Operaciones lógicas
A ∧ T = A. (2.7)
A ∨ (¬ A) = T, (2.8)
que nos indica que A debe ser cierta, o debe ser falsa, y no hay otras alternati-
vas. Veámoslo caso a caso: si A = F, entonces ¬ A = T y tenemos F ∨ T = T,
mientras que si A = T, se tiene ¬ A = F y entonces T ∨ F = T. En am-
bos casos hay exactamente un factor que es verdadero, haciendo la expresión
completa verdadera.
A ∨ (¬ A).
¬( A ∧ B) = (¬ A) ∨ (¬ B), (2.9a)
¬( A ∨ B) = (¬ A) ∧ (¬ B), (2.9b)
A ∧ (¬ A) = F, (2.10)
que nos dice que es imposible que A sea cierta y a la vez sea falsa. De nuevo,
viéndolo caso a caso tenemos T ∧ F = F si A es verdadera, mientras que
obtenemos F ∧ T = F si A es falsa.
12
Operaciones lógicas
A ⇒ B := (¬ A) ∨ B. (2.11)
A⇒B
,→ (¬ A) ∨ B
(2.12)
usando (2.2) ,→ (¬ A) ∨ (¬[¬ B])
usando (2.9a) ,→ ¬( A ∧ ¬ B)
x>5⇒x>3 (2.13)
( x ≤ 5) ∨ ( x > 3) (2.14)
(2) En latín, ex falso quodlibet.
13
Operaciones lógicas
A⇒B
,→ (¬ A) ∨ B
(2.15)
,→ B ∨ (¬ A)
,→ (¬ B) ⇒ (¬ A)
con lo que vemos que si A implica B, entonces puede concluirse que la ne-
gación de B implica la negación de A. Es importante notar que si A ⇒ B es
cierto, de allí no se sigue que ¬ A ⇒ ¬ B.
La manera correcta de sacar conclusiones a partir de una implicación es-
tá plasmada en dos reglas de deducción, cuyo origen es muy anterior a la
formulación simbólica de la lógica.
¬ A ⇒ ¬ B.
14
Métodos de demostración
Ejemplo 2.2.2. Veamos algunos ejemplos para ilustrar estas tres definiciones.
(a) Tener 18 años o más es una condición necesaria para poder tener licencia de
conducir. Si se tiene licencia de conducir, entonces se tiene 18 años o más.
Esta no es una condición suficiente, porque además de tener 18 años o más se
requiere haber aprobado ciertas pruebas psicomotoras.
(b) Que esté lloviendo es condición suficiente para que la tierra esté mojada. No-
temos que no es condición necesaria, ya que por ejemplo si el patio fue regado
también la tierra estará mojada, aunque no haya llovido.
(c) Tener nota igual o superior a la nota mínima (por ejemplo 4.0) es condición
necesaria y suficiente para aprobar un curso. Podemos decir que el curso se
aprueba si y sólo si se obtiene una nota igual o superior a la mínima, y también
podremos decir que aprobar el curso es equivalente a tener nota igual o superior
a la mínima.
A ∨ C, (R1 )
B ∨ (¬C ), (R2 )
(¬C ) ⇒ A, (R1 )
C ⇒ B. (R2 )
15
Métodos de demostración
( A ∨ C ) ∧ ( B ∨ (¬C )) = T, (2.16)
A ∨ B = T, (2.17)
(A ∨
C) ∧ (B ∨
(¬
C))
,→ A ∨ B.
A1 ∨ C ∨ A2 , (R1 ′ )
B1 ∨ (¬C ) ∨ B2 , (R2 ′ )
A1 ∨ C ∨ A2 = ( A1 ∨ A2 ) ∨ C = A ∨ C, (R1 ′ )
B1 ∨ (¬C ) ∨ B2 = ( B1 ∨ B2 ) ∨ (¬C ) = B ∨ (¬C ), (R2 ′ )
( A1 ∨ C ∨ A2 ) ∧ ( B1 ∨ (¬C ) ∨ B2 ) = T (2.18)
A1 ∨ A2 ∨ B1 ∨ B2 = T (2.19)
R ∧ ( R ⇒ S) = ( R ∨ T) ∧ (R ∨ S) = T ∨ S = S,
¬ (2.20)
(¬S) ∧ ( R ⇒ S) = (S ∨ T) ∧ (¬ R ∨
¬ S) = T ∨ ¬ R = ¬ R. (2.21)
16
Métodos de demostración
A1 ∧ A2 ∧ A3 ∧ . . . = T. (2.22)
de A1 ∧ ( A1 ⇒ A2 ) = T se sigue que A2 = T,
de A2 ∧ ( A2 ⇒ A3 ) = T se sigue que A3 = T,
de A3 ∧ ( A3 ⇒ A4 ) = T se sigue que A4 = T,
de A4 ∧ ( A4 ⇒ A5 ) = T se sigue que A5 = T,
..
.
d n
( x ) = nx n−1 (2.23)
dx
para n ≥ 1. Para esto, en primer lugar verificamos que (2.23) es cierta para n = 1,
ya que
dx
= 1.
dx
El siguiente paso es suponer que (2.23) es cierta para n − 1, es decir, suponer que
d n −1
( x ) = ( n − 1 ) x n −2 , (2.24)
dx
y a partir de esta suposición, probar que (2.23) es cierta para n. Esto lo conseguimos
separando x n = x · x n−1 y usando la regla de Leibniz para desarrollar
d n d
(x ) = ( x · x n−1 ) = x n−1 + x (n − 1) x n−2 = nx n−1 . (2.25)
dx dx
17
Métodos de demostración
A1 ∧ A2 ∧ . . . ∧ An ∧ (¬ B) = F. (2.27)
R ∧ (¬ B) = F
,→ T ∧ (¬ B) = F
,→ B = T ¥
Para lograr probar (2.27) son válidas todas las reglas de la lógica que he-
mos visto, en particular puede usarse repetidamente modus ponens, modus to-
llens, resolución o las identidades como (2.8) y (2.10).
A1 = R,
A2 = ( R ⇒ S ),
R∧( R ⇒ S) ∧ (¬S)
,→ R ∧ ([¬ R] ∨ S) ∧ (¬S)
:F
( R∧[¬
,→ ( R ]) ∨ ( R ∧ S)) ∧ (¬S)
,→ ( R ∧ S) ∧ (¬S)
:F
)) = F,
,→ R ∧
(S∧(¬
S (2.28)
que por tanto es una contradicción, y hemos mostrado que S se sigue de R ∧ ( R ⇒ S).
18
Métodos de demostración
S ⇒ M, (2.30a)
M ⇒ R, (2.30b)
(¬S) ⇒ I, (2.30c)
I ⇒ R. (2.30d)
(S ⇒ M) ∧ ( M ⇒ R) ∧ ([¬S] ⇒ I ) ∧ ( I ⇒ R) ∧ (¬ R) = F. (2.31)
(S ⇒ M) ∧ ( M ⇒ R) ∧ ([¬S] ⇒ I ) ∧ ( I ⇒ R) ∧ (¬ R)
,→ (¬S ∨ M) ∧ (¬ M ∨ R) ∧ (S ∨ I ) ∧ (¬ I ∨ R) ∧ (¬ R)
:F
,→ (¬S ∨ M) ∧ (¬ M ∨ R) ∧ (S ∨ I ) ∧ ((¬ I ∧ ¬ R) ∨
( R∧¬R))
,→ (¬S ∨ M) ∧ (¬ M ∨ R) ∧ (S ∨ I ) ∧ (¬ I ) ∧ (¬ R)
:F
,→ (¬S ∨ M) ∧ ((¬ M ∧ ¬ R) ∨
( R∧¬R)) ∧ (S ∨ I ) ∧ (¬ I )
,→ (¬S ∨ M) ∧ (¬ M) ∧ (¬ R) ∧ (S ∨ I ) ∧ (¬ I )
:F
,→ (((¬S) ∧ (¬ M)) ∨
(M∧
¬M )) ∧ (¬ R) ∧ (S ∨ I ) ∧ (¬ I )
,→ (¬S) ∧ (¬ M) ∧ (¬ R) ∧ (S ∨ I ) ∧ (¬ I )
:F
,→ (¬S) ∧ (¬ M) ∧ (¬ R) ∧ ((S ∧ ¬ I ) ∨ ∧¬
( I I ))
,→ (¬S) ∧ (¬ M) ∧ (¬ R) ∧ S ∧ (¬ I )
:F
(3) Cualquier parecido con la
,→
((¬ ∧ S) ∧ (¬ M) ∧ (¬ R) ∧ (¬ I )
S)
realidad es solamente coinci-
,→ F ∧ (¬ M) ∧ (¬ R) ∧ (¬ I ) = F, (2.32) dencia
con lo que hemos llegado a una contradicción. Notemos que la contradicción se pro-
duce, en la penúltima línea, porque se forma la expresión (¬S) ∧ S que es falsa por
el principio de no contradicción. Luego podemos interpretar el significado de la de-
mostración como el hecho que hay dos caminos de deducción separados, suponer ¬ R
lleva, por un lado, a demostrar S y por otro lado lleva a demostrar ¬S.
19
Métodos de demostración
que es equivalente a
B ⇒ (¬ A). (2.34)
¬( A ∧ B).
A1 ∨ A2 ∨ . . . ∨ A n , (2.35)
es decir, al menos una de ellas debe ser verdadera. Dicho de otra ma-
nera, no es posible que todas sean falsas, es decir,
(¬ A1 ) ∧ (¬ A2 ) ∧ . . . ∧ (¬ An ) = F. (2.36)
20
Métodos de demostración
es un conjunto exhaustivo.
Un ejemplo por excelencia del uso de la regla de Sherlock Holmes («cuan-
do se ha eliminado lo imposible, lo que queda debe ser la verdad») es el
puzzle denominado sudoku. Ahí efectivamente se pueden evaluar todas las
alternativas y eliminar todas excepto una, que resulta ser la solución. En la
Figura 2.1 se muestra un puzzle sudoku de 4×4, cuya solución en términos de
proposiciones lógicas veremos en el siguiente ejemplo.
Ejemplo 2.3.4 (Sudoku). Para resolver el puzzle en la Figura 2.1, escribamos las
restricciones iniciales para las 12 proposiciones lógicas que describen las posibles so-
luciones, donde por ejemplo a3 = «la casilla a contiene el valor 3». Eliminaremos como
falsas las proposiciones que son prohibidas por las cuatro casillas dadas del puzzle,
para esto reconociendo las restricciones que impone cada casilla ocupada, como se
muestra en (2.37) a continuación.
21
Métodos de demostración
2 4 1 3
s t y z
Enseguida escribiremos los valores posibles para cada una de las doce casillas
desconocidas en la forma de conjuntos exhaustivos de proposiciones, para luego ir
eliminando los valores prohibidos de acuerdo a (2.37),
F
1 ∨ a2 ∨ a3 ∨ a4 = T,
a
> (2.38a)
F F
b1 ∨ b2 ∨ b3 ∨ = T,
b4 (2.38b)
7
7
F F F
1 ∨
c
> 2 ∨ c3 ∨
c
> 4 = T,
c
> (2.38c)
F
2 ∨ d3 ∨ d4 = T,
d1 ∨ d (2.38d)
F F
e1 ∨ 2 ∨
e
> 3 ∨ e4 = T,
e
> (2.38e)
F F F
1 ∨
f
7 2 ∨
f
7 3 ∨ f 4 = T,
f
7 (2.38f)
F F F
1 ∨ r2 ∨
r r
> 4 = T,
3 ∨ r (2.38g)
F F
1 ∨ s2 ∨ s3 ∨
s
> 4 = T,
s
> (2.38h)
F
t1 ∨ t2 ∨ t3 ∨ 4 = T,
t
7 (2.38i)
F F F
x1 ∨ 2 ∨
x
> 3 ∨
x
> 4 = T,
x
> (2.38j)
F F
y1 ∨ y 3 ∨ y4 = T,
2 ∨ y (2.38k)
F
z1 ∨ z2 ∨ 3 ∨ z4 = T.
z
> (2.38l)
( a4 ∧ s3 ) ∨ ( a3 ∧ s4 ) = T, (2.39a)
(b2 ∧ t1 ) ∨ (b1 ∧ t2 ) = T, (2.39b)
(d3 ∧ y4 ) ∨ (d4 ∧ y3 ) = T, (2.39c)
(e1 ∧ z2 ) ∨ (e2 ∧ z1 ) = T. (2.39d)
22
Métodos de demostración
P ROBLEMAS
Problema 2.1. Si A, B ∈ {T, F}, ¿cuántas operaciones unarias f ( A) existen?
¿Cuántas operaciones binarias g( A, B) existen? Entre las binarias, cuántas de ellas
son conmutativas?
¬ P ∨ Q,
Q ⇒ (¬ R) ∧ (¬ P) ,
P ∨ R.
escribiéndola como un argumento con premisas y una conclusión y usando los sím-
bolos ¬, ∧ y ∨. ¿Es la deducción correcta?
Problema 2.9. En una expedición, Lara Croft encuentra tres cajas cerradas, cada
una con una inscripción como sigue.
23
Métodos de demostración
Sólo una de estas inscripciones es cierta, las otras dos son falsas. ¿Cuál caja tiene
el oro?
Problema 2.10. Demuestre usando inducción matemática que, para x > −1, se
cumple
(1 + x )n ≥ 1 + nx (2.40)
para n ≥ 1.
24
C APÍTULO 3
Herramientas matemáticas
25
Función escalón de Heaviside
26
Función escalón de Heaviside
lo cual nos lleva a definir el producto de funciones escalón como una nueva
función discontinua, la función rectangular, que se muestra en la Figura 3.2.
Lema 3.1.
rect( x; a, b) = Θ(b − x ) − Θ( a − x ). (3.11)
27
Delta de Dirac
Θ(b − x ) − Θ( a − x ) = 0.
Θ(b − x ) − Θ( a − x ) = 0.
Θ(b − x ) − Θ( a − x ) = 1 ¥
28
Delta de Dirac
Θ( x + ∆2 ) − Θ( x − ∆2 )
" #
d
δ( x ) = Θ( x ) = lı́m , (3.14)
dx ∆ →0 ∆
1h i 1
Θ x + ∆2 − Θ x − ∆2 = rect x; − ∆2 , ∆2
∆ ∆
∆1 si − ∆2 < x ≤ ∆2
(3.16)
=
0 en caso contrario.
δ(− x ) = δ( x ), (3.18)
Z ∞
dx f ( x )δ( x ) = f (0) (3.19)
−∞
29
Delta de Dirac
Más precisamente,
Z 1 si x0 ∈ U,
dxδ( x − x0 ) = (3.25)
U
0 en caso contrario.
30
Delta de Dirac
para toda función de prueba ω ( x). Por ejemplo, es directo demostrar la iden-
tidad
f ( x ) δ ( x − x0 ) = f ( x0 ) δ ( x − x0 ), (3.28)
δ( x )
δ(αx ) = (3.30)
|α|
para α ̸= 0.
δ( x )
δ(αx ) = , α > 0. (3.34)
α
El caso α < 0 se obtiene directamente, por la paridad de la delta de
Dirac según (3.18) y la propiedad recién demostrada. Como α < 0,
podemos escribir α = −|α| y luego
δ( x )
δ(−|α| x ) = δ(|α| x ) = . (3.35)
|α|
31
Delta de Dirac
calculamos la integral del límite en (3.36) con una función de prueba, obte-
niendo
Z ∞
1 ∞
1 x x
Z
dxω ( x ) lı́m η = lı́m dxω ( x )η
−∞ ε →0 ε ε ε →0 ε − ∞ ε
Z ∞ x
1
usando (3.38) = lı́m ω (0) dxη (3.39)
ε →0 ε −∞ ε
Z *1
∞
(usando u = x/ε) = lı́m ω (0)
(u) = ω (0),
duη
ε →0 ∞
−
de lo cual se sigue (3.36). Por ejemplo, la función gaussiana
1
ϕ(u) = √ exp(−u2 /2) (3.40)
2π
Z ∞
con duϕ(u) = 1 nos lleva la siguiente representación de la delta de Dirac,
−∞
(2) A estos límites que condu-
cen a la delta de Dirac se les
1 x2
δ( x ) = lı́m √ exp − 2 . (3.41) denomina aproximaciones a la
ε →0 2πε 2ε identidad.
Z ∞
1
δ( x ) = dk exp(ikx ). (3.46)
2π −∞
δ ( x − x0 )
δ( f ( x )) = ∑ | f ′ ( x )|
(3.48)
x0
df
donde f ′ ( x ) = es la derivada de f y donde x0 son los puntos tales que
dx
f ( x0 ) = 0.
−∞
dxω ( x )δ( f ( x )) = ∑ x0 − ∆
dxω ( x )δ( f ( x )), (3.49)
x0
donde x0 son los puntos tales que f ( x0 ) = 0, que de hecho son los
únicos puntos que contribuyen a la integral, y donde ∆ es un número
positivo suficientemente pequeño. Expandiendo f ( x ) a primer orden
33
Delta de Dirac
δ ( x − x0 )
δ( f ( x)) = ∑ |∇ f |
, (3.53)
x0
∂ f ( x)
donde ∇ f = y x0 son los puntos tales que f ( x0 ) = 0.
∂x
34
Cambios de variable y la delta de Dirac
35
Cambios de variable y la delta de Dirac
a ≤ T (u) ≤ b,
36
Cambios de variable y la delta de Dirac
Si f (t) crece siempre con t dentro del intervalo t ∈ [ a, b], entonces f ′ (t) ≥
0 y podemos reemplazar | f ′ (t)| = f ′ (t), además en ese caso u1 = f ( a) y
u2 = f (b). Por otro lado, si f (t) decrece siempre con t en el intervalo t ∈ [ a, b],
se tendrá f ′ (t) ≤ 0 con lo que reemplazamos | f ′ (t)| = − f ′ (t) y además se
cumplirá u1 = f (b) y u2 = f ( a). En este último caso, el signo en − f ′ (t) per-
mite invertir los límites de integración, y ambos casos pueden unirse como
Z b Z f (b)
duG (u)
dtG ( f (t)) = , (3.70)
a f ( a) f ′ ( T (u))
37
Cambios de variable y la delta de Dirac
y la transformación inversa de v a u es
∂u
du → dv
∂v
∂u ∂ ( u1 , u2 , u3 )
= = v21 sin v2 = r2 sin θ, (3.77)
∂v ∂ ( v1 , v2 , v3 )
por lo que
Z Z
dxdydz G ( x, y, z) → drdθdϕ (r2 sin θ ) G̃ (r, θ, ϕ). (3.78)
Para ver cómo surge la ecuación (3.75) podemos hacer el mismo análisis
que nos llevó a (3.70). Tomemos la integral original de G (u) en las variables
u y agreguemos un 1 como la integral de una delta de Dirac en las nuevas
variables v,
Z Z Z
duG (u) = du dvδ(v − V (u)) G (u). (3.79)
=1
38
Cambios de variable y la delta de Dirac
u0 = U ( v ),
por lo tanto
0 ) + Jvu · ( u − u0 )
δ(v − V (u)) = δ
v− V (
u
= δ(Jvu · (u − U (v))) (3.82)
δ(u − U (v))
=
|Jvu |
y se tiene
Z 1 ∂u
du δ(v − V (u)) = = . (3.83)
Jvu u=U (v) ∂v
Reemplazando (3.83) en (3.80) obtenemos (3.75).
39
Cambios de variable y la delta de Dirac
Es decir, tenemos(3)
Z Z ∞
duG ( f (u)) = dF D( F ) G ( F ), (3.88)
−∞
1
D( F ) = ∑ (3.90)
uF |∇ f (u F )|
∂ f (u)
donde u F son los puntos que cumplen f (u F ) = F y donde ∇ f = .
∂u
du → dF D( F )
40
Derivada dentro de una integral
por lo que la densidad radial de puntos D(r ) en 3 dimensiones es D(r ) = 4πr2 , que
precisamente corresponde al área de la esfera de radio r,
Z ∞ Z ∞ Z ∞ q
D(r ) = 4πr2 = dx dy dz δ x 2 + y2 + z2 − r . (3.93)
−∞ −∞ −∞
Aquí también es claro ver que la interpretación de D(r ) como una densidad tiene
sentido, ya que su integral entre R1 y R2 ,
4πR2 3 4πR1 3
Z R2
dr 4πr2 = − (3.94)
R1 3 3
es precisamente el volumen de la región que se encuentra entre los radios R1 y R2 .
41
Funciones especiales
42
Funciones especiales
Γ ( n ) = ( n − 1) ! . (3.108)
n! = n(n − 1)!
se sigue que
Γ ( n + 1) = n Γ ( n ). (3.109)
Γ ( k − 1) = ( k − 2) ! (3.111)
43
Funciones especiales
∂(t, s)
= z, (3.115)
∂(z, u)
para obtener
Z ∞ Z ∞
Γ( x )Γ(y) = dt ds exp(−t − s)t x−1 sy−1
0 0
Z ∞ Z 1
= du z exp(−z(
dz u + 1 − u))(zu) x−1 (z(1 − u))y−1
0Z ∞ 0 Z 1
x + y −1 x −1 y −1
= dz exp(−z)z duu (1 − u)
0 0
= Γ( x + y) B( x, y) ¥
44
Método de los multiplicadores de Lagrange
d2 f ( x )
′′
f ( x0 ) : = >0
dx2 x = x0
45
Método de los multiplicadores de Lagrange
de forma que x0 sólo será un máximo o mínimo si las componentes Hij tienen
igual signo para todo i, j.
Supongamos ahora que queremos encontrar ya sea los máximos o míni-
mos de f ( x), pero tales que cumplan la restricción
g( x) = G (3.122)
∇ f ( x0 ) = λ ∇ g ( x0 ), (3.125)
46
Método de los multiplicadores de Lagrange
lo cual garantiza que los gradientes de f y g son colineales. Por otro lado,
también debe cumplirse
∂ f˜
= 0, (3.126)
∂λ
que es precisamente la restricción (3.122), en la forma g( x0 ) − G = 0.
De esta forma, sólo debemos preocuparnos de buscar los extremos de f˜
considerada como una función de x, y luego buscar el (único) valor de λ que
asegura que se cumpla la restricción.
Ejemplo 3.6.1. Encontremos los puntos ( x, y) en el cuadrante x > 0, y > 0 tal que
el valor de la función f ( x, y) = α ln( xy) con α > 0 es máximo pero el punto está a
una distancia R del origen.
Solución. Nuestra función ampliada es
x = R cos θ, (3.133)
y = R sin θ (3.134)
Tenemos
dh i cos θ0 sin θ0
α ln( R2 sin θ · cos θ ) = α − =0 (3.135)
dθ sin θ0 cos θ0
con lo que se obtiene (tan θ0 )2 = 1, con solución θ0 = π
4, que precisamente corres-
ponde al punto en (3.132).
47
Funcionales y cálculo de variaciones
g j ( x) = Gj (3.136)
δF [ x ]
,
δx (t)
(5) A veces denominada primera
que representa el cambio en el valor que entrega el funcional F [ x ] cuando la variación.
48
Funcionales y cálculo de variaciones
x ( a ) = x1 , (3.141a)
x (b) = xn . (3.141b)
t : = a + ( i − 1) ∆ n , (3.143a)
b−a
∆n := , (3.143b)
n−1
de forma que ∆n → 0 cuando n → ∞. En tal caso tenemos que (3.140) se
reduce a
δF [ x ]
1 ∂ f ( x)
= lı́m (3.144)
δx (t) n→∞ ∆n ∂xi
t
49
Funcionales y cálculo de variaciones
f ( x + ϵη) ≈ f ( x) + ϵη · ∇ f ( x) (3.146)
1
lı́m f ( x + ϵη) − f ( x) = η · ∇ f ( x) (3.147)
ϵ →0 ϵ
y entonces se tiene
1
lı́m F [ x + ϵ · η ] − F [ x ] = lı́m η · ∇ f ( x). (3.148)
ϵ →0 ϵ n→∞
(3.150)
1 Z b
1 ∂ f ( x)
lı́m F [x + ϵ · η ] − F [x] = dt η (t) lı́m (3.151)
ϵ →0 ϵ a n→∞ ε n ∂xi
t
50
Funcionales y cálculo de variaciones
con lo que
Z 1
F1 [ x + ϵ · η ] − F1 [ x ] = 2ϵ dt x (t)η (t) (3.153)
0
y entonces
Z 1
δF [ x ]
Z Z
dt η (t) = 2 dt x (t)η (t) = 2 dt x (t)η (t) rect(t; 0, 1). (3.154)
δx (t) 0
δF [ x ]
Z
dt η (t) − 2x (t) rect(t; 0, 1) = 0 (3.155)
δx (t)
para todo η (•), y por lo tanto el paréntesis cuadrado debe ser idénticamente
cero. Se sigue entonces que
δF [ x ]
= 2x (t) rect(t; 0, 1) para todo t. (3.156)
δx (t)
δF [ x ]
dL
= , (3.158)
δx (t) dx x= x(t)
δx (t′ )
Z Z
δ ′ ′ ′ dL dL
dt L( x (t )) = dt = (3.159)
δx (t) dx x= x(t′ ) δx (t) dx x= x(t)
δx (t′ )
= δ ( t ′ − t ). (3.160)
δx (t)
51
Funcionales y cálculo de variaciones
luego
1 dL
Z
F [x + ϵ · η ] − F [x] = dt η (t) , (3.162)
ϵ dx x = x (t)
δF [ x ]
dL
= ¥
δx (t) dx x = x (t)
δx (t′ ) 1
Z
′
dt η (t) = lı́m x (t ) + ϵη (t′ ) −
x (′
t ) = η ( t ′ ). (3.163)
δx (t) ϵ →0 ϵ
se cumple
δF [ x ] d
= ∂1 L( x (t), ẋ (t)) − ∂2 L( x (t), ẋ (t)) (3.165)
δx (t) dt
con
∂L( x, v) ∂L( x, v)
∂1 L( x, v) := , ∂2 L( x, v) := , (3.166)
∂x ∂v
y la condición de extremo del funcional F [ x ] es la renombrada ecuación de
Euler-Lagrange,
d
∂1 L( x (t), ẋ (t)) = ∂2 L( x (t), ẋ (t)) . (3.167)
dt
δ ẋ (t′ )
= δ ′ ( t ′ − t ), (3.168)
δx (t)
δ ẋ (t′ ) 1
Z
′
dt η (t) = lı́m ẋ (t ) + ϵη̇ (t′ ) −
ẋ (′
t ) = η̇ (t′ ). (3.169)
δx (t) ϵ →0 ϵ
52
Funcionales y cálculo de variaciones
luego se obtiene
1 Z
F [x + ϵ · η ] − F [x] = dt η (t)∂1 L( x (t), ẋ (t))
ϵ (3.171)
+ η̇ (t)∂2 L( x (t), ẋ (t)) .
1 d
Z
F [x + ϵ · η ] − F [x] = dt η (t) ∂1 L − ∂2 L (3.173)
ϵ dt
y luego (3.165).
δF [ x ] ∂ p d∂ p
= x 1 + v2 − x 1 + v2
δx (t) ∂x x = x (t),v= ẋ (t) dt ∂v x = x (t),v= ẋ (t)
d
q ∂ p
= 1 + ẋ (t)2 − x 1 + v2
dt ∂v x = x (t),v= ẋ (t)
(3.175)
!
q
ẋ ( t ) 2 d ẋ ( t )
= 1 + ẋ (t)2 − p − x (t) p
1 + ẋ (t)2 dt 1 + ẋ (t)2
1 + ẋ (t)2 − x (t) ẍ (t)
= p 3
1 + ẋ (t)2
1 + ẋ (t)2
ẍ (t) = . (3.176)
x (t)
53
La aproximación de Laplace
f ( x ) = exp(ln f ( x )) (3.179)
54
La aproximación de Laplace
55
La aproximación de Stirling
Vemos que la función f (u) := exp(n[ln u − u]) para n → ∞ está cada vez
más concentrada en u0 = 1, ya que
1
∂
ln f (u) =n − 1 = 0, (3.192)
∂u u = u0 u0
luego u0 = 1, y
∂2
n
ln f (u) =− = −n (3.193)
∂u2 u = u0 u20
con lo que se obtiene que s2 = 1/n. Entonces, usando la aproximación de
Laplace, encontramos que
Z ∞ √
r
2π
du exp(n[ln u − u]) ≈ 2πs f (u0 ) = exp(−n), (3.194)
0 n
y reemplazando en (3.191) obtenemos
Z ∞ √
n! = exp(n ln n)n du exp(n[ln u − u]) ≈ 2πn exp(n ln n − n). (3.195)
0
56
Funciones generadoras
√
pero para n → ∞ se tiene que n + 1
≈ n y el término constante ln 2π es
2
despreciable, luego obtenemos la forma más conocida de la aproximación de
Stirling.
ln (n!) ≈ n ln n − n. (3.197)
dF d ∞
dt n∑
= f n tn
dt =0
∞
= ∑ n f n t n −1 (3.199)
n =1
∞
(usando m = n − 1) = ∑ ( m + 1 ) f m +1 t m ,
m =0
y en general
∞
dk F
n!
tk
dtk
= ∑ (n − k)!
f n tn . (3.203)
n =0
57
Funciones generadoras
Ejemplo 3.10.2. Queremos encontrar una forma cerrada para los ck que cumplen la
relación de recurrencia
ck
c k +1 = b , c0 = 2. (3.205)
k+1
Escribimos la relación de recurrencia usando como índice la variable n, de la forma
tenemos
∞ ∞
bF (t) = ∑ c n +1 ( n + 1 ) t n = ∑ cn ntn−1
n =0 n =1
∞
d d
dt n∑
= cn tn = F ( t ). (3.209)
=0 dt
Finalmente tenemos
bn
c n = F (0) , n = 0, 1, 2, . . . (3.213)
n!
donde usamos la condición inicial c0 = F (0) = 2 para escribir
n
b
cn = 2 . (3.214)
n!
58
Transformadas integrales y convolución
K ( x + y; k ) = K ( x; k )K (y; k ) (3.217a)
entonces se tiene
T [ f ∗ g ] = T [ f ] · T [ g ], (3.217b)
Demostración.
Z ∞
T [ f ∗ g] = dzK (z)( f ∗ g)(z)
−∞
Z ∞ Z ∞
= dzK (z) dx f ( x ) g(z − x )
−∞ −∞
Z ∞ Z ∞
= dz dxK (z + x − x ) f ( x ) g(z − x )
−∞ −∞
=0
Z ∞ Z ∞
(usando y = z − x ) = dx dyK ( x + y) f ( x ) g(y)
−∞ −∞
Z ∞ Z ∞
usando (3.217a) = dx dyK ( x )K (y) f ( x ) g(y)
∞ −∞
−
Z ∞ Z ∞
= dxK ( x ) f ( x ) · dyK (y) g(y)
−∞ −∞
= T [ f ] · T [ g] ¥
(3.218)
59
Transformadas integrales y convolución
tal que Z ∞
dkK † (k; x )K ( x ′ ; k) = δ( x − x ′ ), (3.221)
−∞
de forma que se cumpla que la transformada inversa de la transformada de
cualquier función f sea la misma función f ,
h i Z ∞ Z ∞
T −1 T [ f ] ( x ) = dkK † (k; x ) dzK (z; k ) f (z)
−∞ −∞
Z ∞ Z ∞
= dz f (z) dkK † (k; x )K (z; k ) = f ( x ). (3.222)
−∞ −∞
=δ(z− x )
K ( x; k ) := exp(ikx ) (3.224a)
1
K † (k; x ′ ) := exp(−ikx ′ ), (3.224b)
2π
que además cumple
K ( x + y; k) = exp(ik ( x + y))
= exp(ikx ) exp(iky) (3.225)
= K ( x; k)K (y; k),
60
Transformadas integrales y convolución
P ROBLEMAS
Problema 3.1. Exprese la función signo,
1 si x > 0,
sgn( x ) = (3.228)
−1 si x < 0,
61
Transformadas integrales y convolución
Problema 3.8. Muestre que la función beta (3.112) tiende a concentrarse en torno
a un valor único cuando α → ∞ y β → ∞. Determine dicho valor y obtenga la
aproximación de Laplace para B(α, β) en esos límites.
k
para n → ∞ y k → ∞ con p := ∈ [0, 1].
n
Problema 3.11. Demuestre que xδ( x ) = 0.
√
Problema 3.12. Demuestre que Γ 1/2 = π.
a n +2 = a n +1 + a n
Problema 3.16. Demuestre la relación (3.203) para una función generadora F (t)
definida según (3.198).
62
C APÍTULO 4
Variables discretas y continuas
Q( A ∧ B ) = Q( A )Q( B ). (4.3)
63
Funciones indicador
n=m Q( n = m ) δ(n, m)
x≥a Q( x ≥ a ) Θ( x − a)
x≤b Q( x ≤ b ) Θ(b − x )
x ∈ [ a, b] Q( x ∈ [ a, b]) rect( x; a, b)
Q( A ∨ B) = 1 − Q(¬( A ∨ B))
= 1 − Q((¬ A) ∧ (¬ B))
= 1 − Q(¬ A)Q(¬ B) (4.4)
= 1 − (1 − Q( A))(1 − Q( B))
n o
= 1 − 1 − Q( A) − Q( B) + Q( A)Q( B) ,
por lo tanto,
Q( A ∨ B ) = Q( A ) + Q( B ) − Q( A ∧ B ), (4.5)
que podemos verificar que está en acuerdo con la Tabla 2.1. La función indi-
cador de la implicación es
Q( A ⇒ B) = Q((¬ A) ∨ B) = 1 − Q( A) 1 − Q( B) + Q( B), (4.6)
Usando las propiedades (4.2), (4.3) y (4.5) podemos crear nuevas funcio-
nes indicador. Por ejemplo, a partir de la función indicador (4.7) fácilmente
construimos
64
Funciones indicador
es
Q( A) = Q(Y ≥ 0)Q(Y ≤ exp( X )) = Θ(Y )Θ(exp( X ) − Y ). (4.9)
pero por otro lado Q( x ∈ [b, c]) = rect( x; b, c) por lo que obtenemos
Q ( e1 + . . . + e n = k ) .
65
Funciones indicador
Notando que
∞
F1 (t) = ∑ C(k, 1)tk = C(0, 1) + C(1, 1)t = 1 + t (4.18)
k =0
vemos que
∞
Fn (t) = ∑ C(k, n)tk = (1 + t)n (4.19)
k =0
*1 n
n k n
Fn (t) = (1 + t) = ∑ 1 −k
n
t (4.20)
k =0
k
66
Cambios de dominio de integración
:1 :0
Z Z Z
dx f ( x)Q( x ∈ U ) = Q Q
∈U ) + ∈U )
dx f ( x) ( x dx f ( x) ( x
Ω Ω −U
ZU
= dx f ( x), (4.22)
U
Z Z
Si U ⊂ Ω, entonces dx f ( x) = dx f ( x)Q( x ∈ U ). (4.23)
U Ω
Además de poder unificar (3.5), (3.6), (3.10) y (3.12), esta propiedad nos per-
mite escribir (3.25) como
Z Z
dxδ( x − x0 ) = dxδ( x − x0 )Q( x ∈ U ) = Q( x0 ∈ U ), (4.24)
U Ω
a f ( a ) = a f (1). (4.26)
67
De proposiciones a variables
Q( x = x0 ) f ( x ) = Q( x = x0 ) f ( x0 ), (4.28)
X1 ∨ . . . ∨ Xn = T, (4.30)
Q( X1 ∨ . . . ∨ Xn ) = Q(T) = 1, (4.31)
pero
Q ( X1 ∨ . . . ∨ X n ) = Q ( X1 ) + Q ( X2 ∨ . . . ∨ X n ) − Q ( X1 ∧ [ X2 ∨ . . . ∨ X n ] )
=F
= Q ( X1 ) + Q ( X2 ∨ . . . ∨ X n ) , (4.32)
y por lo tanto
n
∑ Q(Xi ) = 1. (4.34)
i =1
n
∑ Q(X = xi ) = 1. (4.35)
i =1
68
De proposiciones a variables
n
∑ Q( X = x i ) x i = X (4.38)
i =1
que nos dice que cualquier variable discreta puede escribirse como la suma
de sus valores posibles, ponderados por la función indicador. Es inmediato
ver que también se cumple, para cualquier función f ( X ),
n
∑ Q( X = x i ) f ( x i ) = f ( X ). (4.39)
i =1
i−1
xi : = a + ( b − a ) = a + ( i − 1) ∆ n (4.40)
n−1
con
b−a
∆n := , (4.41)
n−1
69
De proposiciones a variables
70
De proposiciones a variables
es decir,
1 ∆
δ( X − x ) = lı́m Q |X − x| ≤ , (4.47)
∆ →0 ∆ 2
P ROBLEMAS
Problema 4.1. Escriba la función indicador Q(C ) para el punto x = ( x, y, z) aso-
ciada a la proposición
C = “El punto x está dentro de una esfera de radio R y centro (0, 0, 0)”.
Problema 4.3. Usando funciones indicador, traduzca la afirmación lógica “dos en-
teros a y b iguales a un tercero c son iguales entre sí” a una propiedad de la función
delta de Kronecker.
Problema 4.5. Escriba la función indicador para la condición «el número entero n es
impar y está entre 30 y 40». Exprese el resultado en términos de la delta de Kronecker
y la función escalón de Heaviside.
A ∧ (¬ A) = F.
71
C APÍTULO 5
Estimación
Por esto mismo, la operación que buscamos deberá ser objetiva, en el sen-
tido de que dos personas en el mismo estado de conocimiento I deberán asig-
nar la misma estimación a una cantidad.
72
Los postulados de la estimación
Queremos generalizar esta idea al caso donde no tenemos todos los valo-
res necesarios para producir un número como respuesta. Por ejemplo, ¿qué
sucedería si sólo conocemos X = 3 y no el valor de Y? Tendríamos algo como
X 2 + 3Y = 9 + 3Y, (5.2)
X =3
I = A1 ∧ A2 ∧ . . . A n (5.3)
73
Los postulados de la estimación
X+Y I
= X I
+ Y I
para todo I. (5.5)
Notemos que este postulado de inmediato nos dice dos cosas. Primero, si
a = 0 entonces
b I
= b,
es decir, la estimación de una función constante es la propia constante. Por
otro lado, si b = 0, entonces se tiene que
aX I
= a X I,
74
Los postulados de la estimación
Una notación más explícita, pero por lo mismo más difícil de leer a prime-
ra vista, permite indicar en el estado de conocimiento que las cantidades A y
B son conocidas y tienen valores a y b respectivamente. Con ella el postulado
(5.7) queda como
AX + B A= a,B=b,I
=a X A= a,B=b,I
+ b, (5.8)
AX A= a,I
=a X A= a,I
. (5.9)
75
Los postulados de la estimación
Yp ( x ) := Y X = x,I
(5.18)
(1) Y por tanto constituyen lo
que nos lleva de x a la estimación de Y sabiendo que X = x y el conocimiento que se podría denominar una
axiomatización del concepto de
I. Como Yp es una función (de un argumento), podemos estimarla usando el estimación.
conocimiento I, y debemos obtener
Yp I
= Y I. (5.19)
Estos cuatro postulados, 5.1 a 5.4, son suficientes para determinar la forma
que tiene la operación estimación(1) , como veremos en las siguientes seccio-
nes.
76
Estimación de variables discretas
pi := ⟨Q( X = xi )⟩ I . (5.21)
Q( X = x i ) I
≥ 0, (5.22a)
Q( X = x i ) I
≤ 1, (5.22b)
por lo tanto
0 ≤ pi ≤ 1, i = 1, 2, . . . , n. (5.23)
77
Estimación de variables discretas
p i : = Q( X = x i ) I , i = 1, 2, . . . , n, (5.26a)
0 ≤ pi ≤ 1, i = 1, 2, . . . , n, (5.26b)
n
∑ pi = 1, (5.26c)
i =1
n
f I
= ∑ p i f ( x i ), (5.26d)
i =1
P ( X = xi | I )
o incluso como
n
f I
= ∑ P ( x i | I ) f ( x i ), (5.28)
i =1
78
Estimación de variables continuas
p( x ) := δ( X − x ) I . (5.30)
δ( X − x ) ≥ 0,
p( x ) ≥ 0, x ∈ [ a, b] (5.31)
79
Estimación de variables continuas
P( X = x | I )
donde
1
Z
p0 : = dx′ p( x′ ), (5.38a)
V V ( x)
Z
V := dx′ (5.38b)
V ( x)
80
Invarianza de la estimación
1
P( X = x| I ) := lı́m P( X ∈ V ( x)| I ), (5.41)
V →0 V
81
Invarianza de la estimación
v 7 → U ( v ),
de forma que podemos definir una función alternativa f˜(v) de las nue-
vas variables según
f˜(v) := f (U (v)).
La demostración es la siguiente.
p u ( u ) : = P (U = u | I ) , (5.44a)
p v ( v ) : = P (V = v | I ), (5.44b)
82
Invarianza de la estimación
P ROBLEMAS
Problema 5.1. Demuestre usando sólo el postulado (5.5) que
(a) 0 I
= 0 para todo I,
(b) nX I
=n X I
para n entero y todo I.
1
exp − λ( x2 + y2 + z2 )
P( x, y, z|λ) = (5.48)
Z (λ)
83
C APÍTULO 6
Probabilidad
I⇒A
84
Probabilidad bayesiana y frecuentista
85
La regla de la suma y el producto
P( A| I ) + P(¬ A| I ) = 1, (6.3)
P ( A ∧ B | I ) = P ( A | I ) P ( B | A ∧ I ), (6.4)
P ( A ∨ B | I ) = P ( A | I ) + P ( B | I ) − P ( A ∧ B | I ). (6.5)
Q(¬ A) = 1 − Q( A),
es decir,
P(¬ A| I ) = 1 − P( A| I ), (6.7)
que es la regla de la suma. Esto es, mientras más probable es A, menos pro-
bable es su negación ¬ A, y viceversa.
Para ver cómo eliminar la disyunción en P( A ∨ B| I ), también podemos
hacer uso directamente de la propiedades de la función indicador, en este
caso, de la identidad (4.5),
Q( A ∨ B ) = Q( A ) + Q( B ) − Q( A ∧ B ).
Q( A ∨ B ) I
= Q( A ) I
+ Q( B ) I
− Q( A ∧ B ) ,
(6.8)
esto es,
P ( A ∨ B | I ) = P ( A | I ) + P ( B | I ) − P ( A ∧ B | I ). (6.9)
86
La regla de la suma y el producto
α 7→ ab a=α,I
con α ∈ {0, 1}.
α 7→ α b a=α,I
,
α 7→ α b a=1,I
.
ab I
= ⟨ aβ⟩ I = a I
β= a I
b a=1,I
. (6.11)
Q( A )Q( B ) I
= Q( A ) I
Q( B ) A,I
, (6.12)
Q( A ∧ B ) I
= Q( A )Q( B ) I
= Q( A ) I
Q( B ) A,I
, (6.13)
P ( A ∧ B | I ) = P ( A | I ) P ( B | A ∧ I ). (6.14)
Las propiedades (6.3) y (6.4) son de hecho las que definen la probabilidad
en términos bayesianos, y de las cuales es posible deducir toda la estructura
de la probabilidad, con lo que hemos validado entonces nuestra definición en
(6.1). Más aún, ahora que podemos afirmar que los coeficientes
pi = P ( X = xi | I )
87
El principio de indiferencia
pi := P( Ai | I0 )
deberíamos asignar?
Claramente, si sólo conocemos el número de alternativas, no tenemos pre-
ferencia por ninguna de ellas sobre las otras, y por tanto, no se justifica que
entre dos probabilidades pi y p j con i ̸= j una de ellas sea mayor que la otra.
Dicho de otra manera, si por ejemplo hemos asignado p2 > p3 , ¿qué nos hizo
preferir A2 por sobre A3 si todas las proposiciones Ai son equivalentes en I0 ?
En términos de la idea de simetría, las etiquetas 2 y 3 fueron asignadas de
forma arbitraria, por lo que podríamos haber llamado A3 a la proposición A2
y viceversa, y obtendríamos ahora p3 > p2 .
Por supuesto, la única alternativa que refleja nuestro honesto desconoci-
miento de las proposiciones más allá de su número es que todas las probabi-
lidades pi sean iguales, es decir, debemos asignar
1
P( Ai | I0 ) =
n
para que además se cumpla la condición de normalización (6.16). A esta regla se
le denomina el principio de indiferencia.
88
La regla de marginalización
= Q( A )Q( B ) I
+ Q( A)Q(¬ B) I
= P( A ∧ B| I ) + P( A ∧ [¬ B]| I ), (6.18)
es decir, tenemos
P ( A | I ) = P ( A ∧ B | I ) + P ( A ∧ ¬ B | I ), (6.19)
lo cual nos indica que para eliminar una proposición a la derecha de la barra
condicional hay que sumar sobre todos sus valores pero multiplicando por
las probabilidades respectivas.
89
La regla de marginalización
Ejemplo 6.4.1. Supongamos que voy de la casa al trabajo usando una de dos op-
ciones: voy en bus (B) o en metro (M). Como ir en bus significa no ir en metro y
viceversa, se tiene M = (¬ B) y la probabilidad de llegar atrasado (A) al trabajo es
entonces
P( A| I ) = P( A| B, I ) P( B| I ) + P( A| M, I ) P( M| I ),
P( B| A, I ) + P(¬ B| A, I ) = 1 (6.21)
P( A| I ) P( B| A, I ) + P( A| I ) P(¬ B| A, I ) = P( A| I ), (6.22)
= P( A,B| I ) = P( A,¬ B| I )
=1
m
= ∑ Q ( X = x i ) Q (Y = y j ) I
j =1
m
= ∑ P ( x i , y j | I ), (6.23)
j =1
m
P ( X = xi | I ) = ∑ P ( X = x i , Y = y j | I ). (6.24)
j =1
90
El teorema de Bayes
91
El teorema de Bayes
A ∧ B = B ∧ A.
P( E| I0 ) P( T | E, I0 ) = P( T | I0 ) P( E| T, I0 ). (6.30)
P( T | I0 ) P( E| T, I0 )
P( T | E, I0 ) = .
P( E| I0 )
P( E| T, I0 )
R( T; E) := (6.31)
P( E| I0 )
Ejemplo 6.5.1. Consideremos el caso en que una persona, pretendiendo que tiene
poderes sobrenaturales, hace la predicción de que lloverá mañana. Si es invierno,
no sería para nada raro que lloviera por lo que la predicción tiene una importancia
mínima. Si fuera verano en un clima seco, entonces la predicción acertada de lluvia
adquiere mucho más peso, porque algo que difícilmente hubiéramos esperado (antes
de oír la predicción) resulta cierto. Por otro lado, si la predicción es que mañana
lloverán langostas, y efectivamente así ocurre, entonces no nos queda otra opción que
maravillarnos ante las capacidades de dicha persona.
92
El teorema de Bayes
P( T | I0 ) P( E| T, I0 )
P( T | E, I0 ) = . (6.34)
P( T | I0 ) P( E| T, I0 ) + 1 − P( T | I0 ) P( E|¬ T, I0 )
93
El teorema de Bayes
P( T1 | I0 ) P( E| T1 , I0 )
= 1, (6.36)
P( T1 | I0 ) P( E| T1 , I0 ) + ∑in=2 P( Ti | I0 ) P( E| Ti , I0 )
,→ P( Ti | I0 ) P( E| Ti , I0 ) = 0
>0
P( Ti | E, I0 ) = 0 para i = 2, . . . , n.
P( T | E, I0 ) ≫ P( T | I0 ),
94
El teorema de Bayes
Ejemplo 6.5.2. La reciente enfermedad COVID-19 tiene, para cierto test en una re-
gión, una tasa de positividad de 5.1 %. Además, sabemos que la tasa de incidencia en
la población mundial es de 1.3 %. La tasa de falsos positivos del test en cuestión es de
4 %. Si me realizo el test y obtengo un resultado positivo, ¿cuál es la probabilidad de
que realmente tenga la enfermedad?
P(C | I0 ) P(t|C, I0 )
P(C |t, I0 ) = . (6.37)
P(t| I0 )
Vemos que un único test positivo en este caso no es por sí mismo evidencia sufi-
ciente para inferir que se tiene la enfermedad, principalmente debido a la alta tasa de
falsos positivos.
95
El teorema de Bayes
1
P( G1 | I ) = P( G2 | I ) = P( G3 | I ) = . (6.41)
3
Una vez que el animador abre una de las puertas distinta a la 2, diga-
mos la puerta 3, para revelar que ahí no está el premio, tenemos información
adicional R3 . Usando el teorema de Bayes, tenemos
P( Gi | I ) P( R3 | Gi , I )
P( Gi | R3 , I ) = , (6.42)
P ( R3 | I )
96
El teorema de Bayes
P( R3 | I ) = P( G1 | I ) P( R3 | G1 , I ) + P( G2 | I ) P( R3 | G2 , I ) + P( G3 | I ) P( R3 | G3 , I )
=1/3 =1/3 =1/3
1
= P( R3 | G1 , I ) + P( R3 | G2 , I ) + P( R3 | G3 , I ) . (6.43)
3
Hasta aquí la situación parece simétrica a simple vista. Sin embargo, no-
temos que es imposible para el animador abrir la puerta que contiene el premio, por
lo tanto se tiene que
P( R3 | G3 , I ) = 0. (6.44)
1
P( R1 | G2 , I ) = P( R3 | G2 , I ) = . (6.46)
2
Reemplazando (6.41), (6.43), (6.44), (6.45) y (6.46) en el teorema de Bayes
(6.42) tenemos
( 13 ) P( R3 | Gi , I ) 2
P( Gi | R3 , I ) = = P( R3 | Gi , I ), (6.47)
1 1
(3) 2 + 1 3
2
P( G1 | R3 , I ) = , (6.48a)
3
1
P( G2 | R3 , I ) = , (6.48b)
3
P( G3 | R3 , I ) = 0. (6.48c)
97
El teorema de Bayes
T = T1 ∧ T2 ∧ T3 ∧ . . . ∧ Tm , (6.49)
98
El teorema de Bayes
P( T | I0 ) = P( T1 , . . . , Tm | I0 )
= P( T1 | I0 ) P( T2 , . . . , Tm | T1 , I0 )
(6.50)
= P( T1 | I0 ) P( T2 | T1 , I0 ) P( T3 , . . . , Tm | T1 , T2 , I0 )
..
.
ρi ≤ 1.
1 m
m i∑
L := ln ρi ≤ 0 (6.54)
=1
podemos escribir
1 qm
P( T | E, I0 ) = exp(−m| L|) = (6.55)
η η
con
q := exp(−| L|) ≤ 1.
99
El teorema de Bayes
esto, es, «las entidades no deben multiplicarse sin necesidad». El nombre «na-
vaja» es justamente porque pretende cortar los elementos innecesarios de una
explicación. Nosotros enunciaremos el principio de la siguiente forma.
Dr. House: Ninguna condición explica todos estos síntomas. Pero el naranja
y el verde lo abarcan todo.
Dr. Chase: ¿El naranja y el verde? ¿Dos condiciones contraídas simultánea-
mente?
Dr. Foreman: La navaja de Occam. La explicación más simple es siempre la
mejor.
Dr. House: ¿Y crees que uno es más simple que dos?
Dr. Cameron: Seguro que lo es, sí.
Dr. House: Se aparece un bebé. Chase te dice que dos personas intercambia-
ron fluidos para hacer a la criatura. Yo les digo que una cigüeña dejó
caer al pequeño en un pañal. ¿Van a ir por dos o por uno?
Dr. Foreman: Creo que su argumento es engañoso.
(3) Frase atribuida a William of
Dr. House: Creo que tu corbata es fea. ¿Por qué es uno más simple que dos?
Ockham (1287 - 1347), fraile
¿Es más bajo? ¿Más solitario? ¿Es más simple? Cada una de esas con- franciscano inglés, cuyo apelli-
diciones tiene una posibilidad en mil, lo que significa que ambas ocu- do es a veces escrito como Oc-
cam.
rriendo a la vez es de una en un millón. Chase dice que la infección
cardíaca es de una en 10 millones, entonces mi idea es diez veces mejor
que la suya.
100
Modelos probabilísticos
sentido comparar cuál involucra más suposiciones. Por otro lado, el cálculo
respecto a las dos enfermedades ocurriendo simultáneamente es precisamen-
te el tipo de regla que hemos obtenido en (6.55).
P( X | M(θ)) → P( X |θ)
1 1
P( X = x |µ, σ) = √ exp − 2 ( x − µ)2 (6.56)
2πσ σ
donde µ y σ son los parámetros θ1 , θ2 del modelo. Diremos que X ∼ N (µ, σ),
entendiendo que la parte de nuestro estado de conocimiento que es relevante
a la variable X se encuentra condensada en los parámetros µ, σ. La misma
notación será usada para variables discretas, por ejemplo diremos que una
variable entera k ∈ {0, 1, 2, . . .} es descrita por un modelo de Poisson si su
probabilidad es
exp(−λ)λk
P(k|λ) = , (6.57)
k!
donde toda la información relevante a k queda capturada en el parámetro λ,
y en este caso escribiremos k ∼ Pois(λ).
101
Probabilidad y frecuencia de eventos
P( | I ) = P(¬ | I ) = 1 − p.
E = D1 ∨ D2 ∨ . . . ∨ Dm
P(k | p, n) = P( D1 , . . . , Dm |k, p, n)
m
= ∑ P( Di |k, p, n) (6.59)
i =1
m
n k
= ∑ p k (1 − p ) n − k =
k
p (1 − p ) n − k ,
i =1
102
Probabilidad y frecuencia de eventos
es el coeficiente binomial.
P( p| I0 ) P(k | p, n)
P( p|k, n) =
P(k|n)
rect( p; 0, 1) n k
= p (1 − p ) n − k
P(k|n) k
p k (1 − p ) n − k
= rect( p; 0, 1) , (6.63)
η (k, n)
p k (1 − p ) n − k
P( p|k, n) = con p ∈ [0, 1] (6.65)
B(k + 1, n − k + 1)
la cual se conoce como la distribución beta.
X α −1 (1 − X ) β −1
P( X |α, β) = , (6.66)
B(α, β)
103
Probabilidad y frecuencia de eventos
por lo tanto el valor más probable de p según P( p|k, n), denotado por p∗ , es
tal que
∂
ln P( p|k, n) = 0, (6.69)
∂p p= p∗
es decir,
∂ f 1− f
0= f ln p + (1 − f ) ln(1 − p) = ∗− , (6.70)
∂p p= p∗ p 1 − p∗
por lo que se obtiene el notable resultado
p∗ = f (6.71)
104
Probabilidades en ausencia de incerteza
y por tanto
1 k
Z
lı́m P( |k, n) = lı́m dp P( | p) P( p|k, n) = f = . (6.75)
n→∞ n→∞ 0 n
=p =δ( p− f )
ω( f ) u=u0 ,I
= ω ( f (u0 )) (6.77)
δ( f − F ) u=u0 ,I
= δ( F − f (u0 )) (6.78)
105
Probabilidades en ausencia de incerteza
P ( X = x | X = x k , I ) = Q( x = x k ) (6.81)
para todo I.
Ejemplo 6.8.1. La altura h(t) de un cuerpo en caída libre desde una altura inicial
h(0) = H es
h(t; g, H ) = H − 12 gt2 ,
p
con t ≤ 2H/g. (6.82)
1 ∞
Z
P(h|t, g, I ) = dHP(h|t, g, H ) p( H )Θ( H − 12 gt2 )
Z ( g, t) 0
Z ∞
1
= dH p( H )δ H − h − 21 gt2 Θ(h) (6.86)
Z ( g, t) 0
p(h + 12 gt2 )Θ(h)
= .
Z ( g, t)
106
Otras interpretaciones del concepto de probabilidad
107
Otras interpretaciones del concepto de probabilidad
postulados son equivalentes a los nuestros, como (5.5) y (5.10). Sin embargo,
Whittle llega a una definición frecuentista de probabilidad inspirada en la
operación promedio, donde el estado de conocimiento no juega papel, y por
esto al igual que Kolmogorov al conjunto de sus cinco postulados debe añadir
como una definición adicional la expectación condicional, que para nosotros
(como para cualquier «bayesianista») es un elemento ineludible.
P( A ∧ B| I ) = F ( P( B| A ∧ I ), P( A| I )) , (6.87)
F ( x, y) = xy, (6.89a)
S( x ) = 1 − x, (6.89b)
vale decir, cualquier otra elección de F y S compatible con los axiomas puede
ser reducida a (6.89), que por supuesto son las reglas del producto (6.4) y de
la suma (6.3), respectivamente.
108
Otras interpretaciones del concepto de probabilidad
P ROBLEMAS
Problema 6.1. Deduzca la regla extendida de la suma (6.9) a partir de la regla de la
suma (6.3), la regla del producto (6.4) y las leyes de De Morgan.
Problema 6.3. En un juego de azar comenzamos con cero pesos, y a cada lanzamien-
to de un dado, que supondremos balanceado, ganamos 500 pesos si el dado sale 3 o 5,
y perdemos 500 pesos si sale 1, 2, 4, o 6. Si perdemos 500 pesos cuando tenemos cero
en nuestro total, el juego termina. Cuál es la probabilidad de que nuestro juego dure
4 lanzamientos?
Problema 6.4. Las cartas Zener se utilizan para poner a prueba supuestas habilida-
des paranormales (percepción extrasensorial, o ESP). Estas cartas tienen 5 posibles
diseños: círculo, cruz, líneas onduladas, cuadrado, estrella. El sujeto a prueba debe
adivinar un cierto número de veces la cara de la carta sin mirar. Si ud. observa a
una persona adivinar 5 de 5 intentos, y su probabilidad previa de que esta persona
presente habilidades perfectas de adivinación es de 0.1, cuál debiera ser su nueva pro-
babilidad? Considere sólo dos posibles hipótesis, T si el individuo presenta habilidades
paranormales, y ¬ T si sólo es resultado del azar.
Problema 6.6. Supongamos tres cartas, idénticas en forma, excepto que la primera
carta tiene ambas caras rojas, la segunda tiene ambas caras negras, y la tercera tiene
una cara roja y otra negra. Se nos muestra una de las cartas extraída al azar, cuyo
lado visible es rojo. ¿Cuál es la probabilidad de que la cara oculta sea negra?
Problema 6.7. Use el teorema de Bayes para explicar por qué no debemos creer en al-
guien que hace predicciones y acierta, si estas predicciones son vagas, por ejemplo que
ocurrirá un terremoto en algún lugar del mundo con magnitud mayor a 7 durante
2023.
Problema 6.8. En Chile las patentes de automóviles consisten en cuatro letras del
alfabeto latino (de la A a la Z) seguidas por dos dígitos (del 0 al 9). ¿Qué probabilidad
asignaría a elegir al azar una patente cuyas cuatro letras formen un palíndromo? Por
ejemplo, la patente HY-YH-37. Considere que existen 26 letras posibles, ya que no se
incluye la Ñ.
109
Otras interpretaciones del concepto de probabilidad
Problema 6.9. Imagine una caja con R bolitas rojas y A bolitas azules, con R ≥ 4
y A ≥ 4.
(a) Si sacamos 3 bolitas al azar, sin volver a meter ninguna a la caja, ¿qué proba-
bilidad asignaría a que la cuarta bolita que saquemos de la caja sea azul?
Problema 6.10. En una liquidación de una tienda, una máquina nos entrega un
juguete al azar, el cual será a mitad de precio. Nos dicen que la máquina sólo contiene
soldados y aviones de guerra, en total N juguetes. Si sacamos n juguetes de la má-
quina y resultan ser todos soldados, ¿qué probabilidad asignaría a que en realidad la
máquina sólo contenía soldados?
110
C APÍTULO 7
Distribuciones de probabilidad
111
Medidas centrales
112
Medidas centrales
∂ ∂
0= ⟨Q( X ̸= x̂ )⟩ I = 1 − Q( X = x̂ ) I
∂ x̂ ∂ x̂
∂
= 1 − P( X = x̂ | I ) (7.8)
∂ x̂
∂
= − P( X = x̂ | I ),
∂ x̂
es decir,
∂
P( X = x | I ) = 0, (7.9)
∂x x = x̂
lo cual nos lleva a definir la moda de una distribución como sigue.
L( X, x̂ ) = | X − x̂ |. (7.11)
0 = sgn( X − x̂ ) I
= 2 Q( X > x̂ ) I
− 1, (7.14)
y por lo tanto
D E 1
Q( X > x̂ )
= P( X > x̂ | I ) = , (7.15)
I 2
lo cual nos lleva a definir la mediana de una distribución como el valor que
divide el espacio de valores permitidos en dos regiones, cada una con proba-
bilidad 1/2.
113
Medidas centrales
C ( x0 | I ) := P( X ≤ x0 | I ) = ⟨Q( X ≤ x0 )⟩ I . (7.17)
114
Medidas centrales
luego se tiene
∂ ∂
P ( X ≤ x0 | I ) = Θ ( x0 − X ) = ⟨δ( x0 − X )⟩ I (7.21)
∂x0 ∂x0 I
que es (7.18) ¥
115
Incerteza e intervalos de credibilidad
C (b| I ) − C ( a| I ) = p. (7.24)
2
(δX )2 I
:= X 2 I
− X I. (7.27)
116
Momentos de una distribución
X0 = X I , (7.29a)
p = P(| X − X0 | ≤ ∆X | I ), (7.29b)
con p un valor que se asume implícito dependiendo de ∆X. Por ejemplo, para
una distribución normal, ∆X = σI corresponde a
√
p = erf(1/ 2) ≈ 0.682689.
µn ( I ) := X n I
para n ≥ 0. (7.30)
y se tiene que
∞ ∞
* +
g I
= ∑ Cn X n = ∑ Cn µn ( I ). (7.32)
n =0 I n =0
117
Momentos de una distribución
∂
X I
= κ1 = ln MX (t) , (7.37a)
∂t t =0
2
∂
(δX )2 = κ2 = ln MX (t) . (7.37b)
I ∂t2 t =0
x2
exp( x ) ≈ 1 + x + , (7.38)
2
x2
ln(1 + x ) ≈ x − (7.39)
2
para x ≪ 1, con las que obtenemos
t2 2
exp(tX ) I
≈ 1+t X I
+ X I, (7.40)
2
y luego
t2 2
K I (t) ≈ ln 1 + t X X I
I
+
2
t2 2 1 t2 2 2
≈t X I+ X I− t X I+ X I (7.41)
2 2 2
t2
=t X I+ (δX )2 I + O(t3 ),
2
118
Momentos de una distribución
pi : = P ( X = xi | I )
Notemos que G (t; I ) puede ser escrita como una expectación si definimos
ind( X ) ∈ {1, 2, . . . , n}
G (1; I ) = 1 I
= 1, (7.46)
119
Parámetros de escala, posición y forma
120
Parámetros de escala, posición y forma
1
η ( x/ε)
ε
que llevan a representaciones de la delta de Dirac según (3.36). Este hecho
nos dice lo siguiente: cualquier distribución de probabilidad con un paráme-
tro de escala tendiendo a cero se reduce a una distribución de conocimiento
completo.
Ahora construyamos una nueva variable y desplazando z una cantidad r,
es decir,
y := z + r.
La distribución de y es
121
Independencia y correlación
1 x − r
P( X = x |s, r, I ) = ρ , (7.59)
s s
entonces la variable reducida
X−r
Z :=
s
tiene una distribución universal
La demostración es directa.
Demostración.
X − r
P( Z = z|s, r, I ) = δ z −
s s,r,I
Z ∞
1 x − r x − r (7.61)
= dx ρ δ z−
−∞ s s s
Z ∞
x − r
(usando z′ := ) = dz′ ρ(z′ )δ(z − z′ ) = ρ(z) ¥
s −∞
122
Independencia y correlación
δXδY I
:= XY I
− X I
Y I. (7.67)
= X I
Y I, (7.68)
X := cos(ϕ), (7.69a)
Y := sin(ϕ), (7.69b)
1 2π Z
X I0
= dϕ cos(ϕ) = 0, (7.71a)
2π 0
Z 2π
1
Y I0
= dϕ sin(ϕ) = 0. (7.71b)
2π 0
tal que los elementos de la diagonal Σii corresponden a las varianzas (δXi )2 I .
123
Transformación de distribuciones
pero como esto debe cumplirse para toda función g, se sigue que
P( f = F | I ) = ⟨Q( f = F )⟩ I . (7.77)
124
Transformación de distribuciones
m
P( f = F | I ) = ∑ P(X = x∗j | I ), (7.81)
j =1
Ejemplo 7.6.1. Sea n una variable discreta n ∈ {−2, −1, 0, 1, 2} con distribución
p0
P(n| I ) = , (7.84)
1 + n2
y sea f (n) = 2n(n − 1). ¿Qué distribución sigue f ?
125
Transformación de distribuciones
P( f = F | I ) = P(n1∗ | I ) + P(n2∗ | I )
p0 p0
= 1
√ + 1
√ . (7.86)
1 + 2 (1 + F + 1 + 2F ) 1 + 2 (1 + F − 1 + 2F )
P( f = F | I ) = ⟨δ( f − F )⟩ I , (7.87)
P( f = F | X = x, I ) = δ( f ( x ) − F ), (7.89)
y reemplazando tenemos
Z ∞
P( f = F | I ) = dxδ( f ( x ) − F ) P( X = x | I )
−∞ (7.90)
= ⟨δ( f − F )⟩ I ¥
pero δ( X − x ∗ ) I
= P( X = x ∗ | I ) entonces se tiene finalmente
P( X = x∗ | I )
P( f = F | I ) = ∑∗ | f ′ ( x ∗ )|
. (7.92)
x
126
Transformación de distribuciones
x ∗ = f −1 ( F ) = X ( F ),
P ROBLEMAS
Problema 7.1. Determine la distribución de Z = X + Y, donde X ∼ Exp(λ) y
Y ∼ Gamma(k, θ ).
127
Transformación de distribuciones
⟨δωδσ⟩ I = 0 (7.99)
Problema 7.6. Dos variables x ∈ [0, ∞), y ∈ [0, ∞) son descritas por un modelo
1
P( x, y|µ) = exp(−µ( x + y))( x + y)4 . (7.101)
Z (µ)
Problema 7.9. Calcule la función generadora de momentos MX (t) para una va-
riable X ∼ Gamma(k, θ ). Usando la expansión en serie de Taylor de la función
generadora de momentos obtenida, verifique que los momentos X m k,θ
para m =
0, 1, 2, 3, . . . coinciden con los obtenidos en el Problema 7.8.
128
Transformación de distribuciones
Problema 7.13. Una máquina pinta cuadrados al azar con áreas A que siguen una
distribución exponencial, A ∼ Exp(λ) con λ = 10 cm−2 . ¿Qué distribución sigue el
√
lado L = A de cada cuadrado?
k X k
P( X |k, λ) = exp(−( X/λ)k ) (7.104)
λ λ
129
C APÍTULO 8
La distribución normal
1 ( x − µ )2
P( X = x |µ, σ) = √ exp − , (8.1)
2πσ 2σ2
X µ,σ
= µ, (8.2a)
(δX )2 µ,σ
= σ2 . (8.2b)
130
La distribución normal como aproximación
Si x0 es un máximo de p( x ), entonces
∂
ln p( x0 ) = 0 (8.4)
∂x0
y se tiene
1 ∂2
ln p( x ) ≈ ln p( x0 ) + ( x − x0 )2 2 ln p( x0 ). (8.5)
2 ∂x0
Definiendo −1
∂2
2
σ := − 2 ln p( x0 ) (8.6)
∂x0
tenemos 1
p( x ) ∝ exp − 2 ( x − x0 )2 (8.7)
2σ
que podemos normalizar usando la integral gaussiana como
Z ∞ 1 √
dx exp − 2 ( x − x0 )2 = 2πσ, (8.8)
−∞ 2σ
llegando de esta forma a la distribución normal según (8.1).
131
La distribución normal como aproximación
(δx )2 µ,σ2
= x2 µ,σ2
− µ2
= (σz + µ)2 µ,σ2
− µ2
= σ 2 z2 +
µ2 + 2σµz µ,σ2
µ2
−
0
*1
= σ2z
2
I
+ 2σµ z
I
>
= σ2 ,
132
La distribución normal multivariable
1
ln p( x) ≈ ln p( x0 ) + ( x − x0 ) · ∇ ln p( x0 ) + ( x − x0 )⊺ H( x − x0 ) (8.13)
2
con H la matriz hessiana, se tiene que si repetimos el mismo procedimiento
anterior, el equivalente a la distribución normal es la distribución normal mul-
tivariable.
X − µX
ZX : = , (8.18a)
σX
Y − µY
ZY := , (8.18b)
σY
las componentes de la matriz de covarianza son
133
Suma de variables
δXδY µ,Σ
ρ XY := (8.20)
σX σY
con i=1, 2. Con estas definiciones es inmediato ver que la media de la suma
cumple
X1 + X2 I
= X1 I
+ X2 I
= 2x0 , (8.24)
134
Suma de variables
Z I
= n x0 , (8.27a)
(δZ )2 I
= n s2 . (8.27b)
1 n Z
X n := ∑
n i =1
Xi = ,
n
(8.29)
vemos que
Z I
Xn I
= = x0 , (8.30a)
n
(δZ )2 s2
(δX n )2 I
= I
= , (8.30b)
n2 n
donde hemos usado la propiedad
2 2
δ[αZ ] I
= (αZ )2 I
− αZ I
= α2 (δZ )2 I
(8.31)
135
Funciones características
lı́m P( X n = x | I ) = δ( x − x0 ), (8.32)
n→∞
1 n
lı́m
n→∞ n
∑ Xi = X I . (8.33)
i =1
P ( X = x | I ) = p ( x ), (8.34)
P (Y = y | I ) = q ( y ) , (8.35)
ρ(z) = P( X + Y = z| I )
D E
= δ( X + Y − z)
I
Z ∞ Z ∞
= dx dyP( x, y| I )δ( x + y − z) (8.36)
−∞ −∞
Z ∞ Z ∞
= dxP( x | I ) dyP(y| I )δ(y − [z − x ])
−∞ −∞
Z ∞
= dxp( x )q(z − x ),
−∞
136
Funciones características
con inversa
Z ∞
1
P( X = x | I ) = dtφ X (t) exp(−itx ). (8.40)
2π −∞
137
Funciones características
Demostración.
* +
n
φ Z (t) = exp(itZ ) I
= exp it ∑ Xi
i =1 I
* +
n
= ∏ exp(itXi )
i =1 I
n
(8.43)
= ∏ exp(itXi ) I
i =1
n
= exp(itX ) I
= φ X (t)n ¥
138
El teorema central del límite
| φ X (t)| = exp(itX ) I
q
2 2
= cos(tX )
+ sin(tX ) I
I
sD E
= cos(tX )2 + sin(tX )2 − (δ cos(tX ))2 I
− (δ sin(tX ))2 I
I
=1
q
= 1 − (δ cos(tX ))2 I
− (δ sin(tX ))2 I
≤ 1.
(8.51)
X1 + X2 I
= 2x0 , (8.52a)
2 2
(δ[ X1 + X2 ]) I
= 2s . (8.52b)
X′ I
= 0, (8.54a)
(δX ′ )2 I
= s2 , (8.54b)
X̃ I
= 0, (8.55a)
(δ X̃ )2 I
= s2 . (8.55b)
139
El teorema central del límite
p ( x ) : = P ( X1 = x | I ) = P ( X2 = x | I )
140
El teorema central del límite
P ( Xi = x | I ) = p ( x )
1 1
P( Z = z|µ, σ) = √ exp − 2 (z − µ)2 , (8.65)
2πσ 2σ
con µ = n X I
y σ2 = n (δX )2 I .
Xn = X I,
I
(8.67a)
1
(δX n )2 I = (δX )2 I , (8.67b)
n
y es de esta forma que, en el límite n → ∞ de (8.67), se recupera (8.32) como
lı́m P( X n = x | I ) = δ x − X I . (8.68)
n→∞
141
El teorema central del límite
∂ 1 ∂ i exp(itx ) x I
L1 ( t ) = ln φ x (t) = exp(itx ) I
= , (8.72)
∂t φ x (t) ∂t φ x (t)
!2
∂2 1 ∂2 exp(itx ) x I
L2 (t) = 2 ln φ x (t) = exp(itx ) − i
∂t φ x (t) ∂t2 I φ x (t)
!2
1 exp(itx ) x
=− exp(itx ) x2 I
+ I
. (8.73)
φ x (t) φ x (t)
Evaluando en t = 0 tenemos
L1 (0) = i x I , (8.74a)
2
L2 (0) = − x 2 I
+ x I
= − (δx )2 I , (8.74b)
z I
= n x I, (8.76a)
(δz)2 I
= n (δx )2 I
¥ (8.76b)
142
Propagación de incerteza en modelos normales
f ( x ) ≈ F0 + ( x − x0 ) f ′ ( x0 ), con F0 := f ( x0 ). (8.78)
143
La distribución lognormal
f I
= f ( X I ), (8.81)
df 2
( δ f )2 I
= (δx )2 I
. (8.82)
dx x = x0
Usando la notación
q
∆X := (δX )2 I , (8.83a)
q
∆ f := ( δ f )2 I
(8.83b)
df
∆ f = ∆X , (8.84)
dx x = x0
Ejemplo 8.6.1. Un ángulo θ sigue una distribución normal con µ = π/3 y σ = 0.02.
¿Qué distribución sigue X := cos θ?
Solución. Sabemos por el resultado anterior que X será también normal, con media
1
X = cos(π/3) = , (8.85)
µ,σ 2
y varianza
(δX )2 µ,σ
= (0.02)2 × sin(π/3)2 = 0.0003. (8.86)
| f ′ (z0 )| = | f (z0 )| = | x | = x,
144
La distribución lognormal
y finalmente
1 (ln X − µ)2
P( X |µ, σ ) = √ exp − , (8.89)
2πσX 2σ2
145
La distribución lognormal
P ROBLEMAS
Problema 8.1. Calcule la función característica asociada a la distribución Gamma(k, θ ).
Problema 8.8. Demuestre que para una variable X ∼ N (µ, σ2 ) se cumple que
D E
( X − µ)2k+1 = 0, k = 0, 1, 2, 3, . . . (8.91)
µ,σ
146
C APÍTULO 9
Inferencia de parámetros
D : = ( x1 , . . . , x n ). (9.1)
P(θ| I0 ) P( D |θ, I0 )
P(θ| D, I0 ) = . (9.2) (1)
P( D | I0 ) A veces a esta cantidad se
le denomina la evidencia, con la
Para el problema de inferencia de parámetros podemos considerar la pro- evidente confusión con el signi-
ficado de evidencia como una
babilidad previa de los datos(1) P( D | I0 ) como una simple constante de nor- proposición que favorece o per-
malización, dada por judica a una hipótesis.
Z
P( D | I0 ) = dθP(θ| I0 ) P( D |θ, I0 ), (9.3)
147
Máximo a posteriori y máxima verosimilitud
P(θ|∅) P( D |θ, ∅)
P(θ| D, ∅) = , (9.5)
P( D |∅)
148
Máximo a posteriori y máxima verosimilitud
es decir
1 n
n i∑
µ̂ = xi . (9.13)
=1
luego se tiene
1 n
n i∑
σ̂2 = ( xi − µ̂)2 . (9.15)
=1
µ̂ = x, (9.16a)
σ̂2 = ( x − µ̂)2 , (9.16b)
µ= x µ,σ
,
σ 2 = ( x − µ )2 µ,σ
.
149
Máximo a posteriori y máxima verosimilitud
∂ ∂ :0
ln P(θ| D, I0 ) = ln P(θ| I0 ) + ln P( D |θ, I0 ) +ln
P
(D | I0) (9.21)
∂θ ∂θ
=L D (θ)
150
El prior no informativo de Jeffreys
P( X = x |∅) = f ( x ), (9.22a)
P(αX = z|∅) = f (z). (9.22b)
f′ 1 1
=− , con solución general f (u) ∝ .
f u u
Finalmente entonces, nuestra distribución previa es de la forma
1
P( X = x |∅) ∝ , (9.26)
x
P( X = x |∅) = f ( x ), (9.27a)
P( X + β = z|∅) = f (z). (9.27b)
151
El prior no informativo de Jeffreys
f (z) = f (z − β) (9.29)
para todo z, β, por lo tanto f (z) = constante para todo z, y se sigue que
Ejemplo 9.2.1. Los tiempos de viaje t en un recorrido de buses desde inicio a final
siguen una distribución exponencial
P ( D | λ ) = P ( t1 , t2 , . . . , t n | λ )
n
= ∏ P ( ti | λ )
i =1
n
(9.34)
=λ n
∏ exp(−λti )
i =1
n
= λ exp(−nλt),
y con
1 n
n i∑
t := ti (9.35)
=1
el promedio aritmético de las observaciones t1 , t2 , . . . , tn . Por lo tanto, la distribución
posterior de λ es
λn−1 exp(−nλt)
P(λ| D ) = (9.36)
η (n, t)
la cual es completamente caracterizada por el número de observaciones n y el valor
promedio t, por lo que podemos escribirla como P(λ|n, t). Esta es una distribución
gamma, por lo que de inmediato sabemos su normalización,
λn−1 exp(−nλt)
P(λ|n, t) = . (9.37)
Γ(n)(nt)−n
La media y varianza de λ están dadas por
n 1
=
λ n,t
= , (9.38a)
nt
t
n 1
(δλ)2 =
n,t 2
= 2, (9.38b)
2
n t nt
152
La ley de los grandes números revisitada
(δλ)2 n,t
→0
1
vemos que λ toma un valor único, λ0 = , y entonces la distribución de λ se vuelve
t
de conocimiento completo,
1
lı́m P(λ|n, t) = δ λ − . (9.39)
n→∞ t
Notemos que la contribución del prior de Jeffreys es corregir el factor λn a λn−1 ,
con lo que dicha contribución se hace despreciable cuando n → ∞, y entonces los mé-
todos de máximo a posteriori y máxima verosimilitud se hacen equivalentes. Además,
como sabemos que si t ∼ Exp(λ) se cumple
Z ∞
1
t λ
= dtλ exp(−λt)t = (9.40)
0 λ
se tendrá que
1
lı́m t n,t
= t = = t. (9.41)
n→∞ λ0 λ0
153
La ley de los grandes números revisitada
donde Z ∞
η (λ) =
U
dx exp ∑ λn ϕn ( x) (9.46)
n =0
es ahora una función de los coeficientes λ. De esta forma, las distintas funcio-
nes P( x| I ) normalizables quedan representadas por los distintos conjuntos
de coeficientes λ.
Ahora consideremos un conjunto de N observaciones D = ( x1 , . . . , x N )
independientes, para las cuales queremos encontrar la mejor función P( x| D, I0 )
que las representa, esto es, el mejor conjunto de coeficientes λ. De acuerdo al
teorema de Bayes, tenemos
P(λ| I0 ) · P( D |λ, I0 )
P(λ| D, I0 ) =
P( D | I0 )
N
P(λ| I0 )
=
P( D | I0 ) ∏ P(xi |λ, I0 )
i =1
P(λ| I0 ) N
1 ∞
= ∏ η (λ)
P( D | I0 )
exp ∑ n n
λ ϕ ( x ) (9.47)
i =1 n =0
P(λ| I0 ) N ∞
= exp ∑ ∑ λn ϕn ( xi ) − N ln η (λ)
P( D | I0 ) i =1 n =0
h ∞
!
1 i
= exp N ∑ λn ϕn − ln η (λ) + ln P(λ| I0 ) ,
P( D | I0 ) n =0
luego tenemos
h i ∂
N ϕk − ϕk I + ln P(λ| I0 ) = 0. (9.50)
∂λk
Para N → ∞ nos damos cuenta que el primer término domina, y luego se
debe cumplir
lı́m ϕk = ϕk D,I0
para todo k. (9.51)
N →∞
Como la base es completa, cualquier función de prueba ω ( x) puede des-
componerse en términos de ella,
∞
ω ( x) = ∑ µn ϕn (x), (9.52)
n =0
154
La ley de los grandes números revisitada
Con esto hemos recuperado la ley de los grandes números, en una nueva
interpretación.
155
La ley de los grandes números revisitada
y más aún,
f ( A) := lı́m f N ( A). (9.58)
N →∞
P( x ∈ Ej | D, I0 ) = lı́m f N ( x ∈ Ej ) = f ( x ∈ Ej ), j = 1, . . . , m, (9.59)
N →∞
P ( x ∈ E j | D ) = f ( x ∈ E j ), j = 1, . . . , m. (9.60)
En el Ejemplo 9.3.1 vemos cómo usar la ley de los grandes números pa-
ra estimar numéricamente el área de una región. Esta es la idea central de
los llamados métodos de Monte Carlo, que veremos en mayor detalle en el
Capítulo 14.
156
La ley de los grandes números revisitada
= ⟨Q( x ∈ S)⟩∅ · L2 ,
esto es,
A
= ⟨Q( x ∈ S)⟩∅ = P( x ∈ S|∅). (9.64)
L2
Al usar la ley de los grandes números (9.60) con D un conjunto de N → ∞ puntos
en el cuadrado C, y usando m = 2, E1 = S, y E2 = C − S tenemos
A
P( x ∈ S| D ) =
= f ( x ∈ S) (9.65)
L2
donde f ( x ∈ S) es la fracción de puntos en C que caen dentro de la región S, en el
límite de infinitos puntos. Usando A = πR2 esto nos da una aproximación para π,
L 2
π = lı́m f N ( x ∈ S ), (9.66)
N →∞ R
en el caso de que S sea un círculo de radio R contenido íntegramente dentro de la
región cuadrada C, como se ve en la Figura 9.2.
157
El problema de la regresión
D = {( x1 , y1 ), ( x2 , y2 ), . . . , ( xn , yn )}, (9.68)
yi = αxi + β + ε i (9.69)
1 ε2
P(ε|σ) = √ exp − 2 . (9.70)
2πσ 2σ
Nuestras cantidades desconocidas son entonces α, β y σ, y como ya he-
mos visto en los casos anteriores, debemos calcular la distribución posterior
P(α, β, σ| D, I0 ) usando el teorema de Bayes,
P(α, β, σ | I0 ) P( D |α, β, σ, I0 )
P(α, β, σ| D, I0 ) = . (9.71)
P( D | I0 )
158
El problema de la regresión
donde ZD es una constante, por ahora sin importancia, que sólo depende de
los datos D. La función log-verosimilitud para nuestro problema es entonces,
" #
n
1
L D (α, β, σ) = − 2
2σ ∑ (yi − [αxi + β]) 2
− n ln σ − ln ZD . (9.77)
i =1
159
El problema de la regresión
P(θ| I0 ) = constante.
Combinando (9.82) y (9.84) obtenemos una ecuación para α̂ que sólo in-
volucra los datos,
α̂x2 + (y − α̂x ) x = xy, (9.85)
160
El problema de la regresión
xy − x · y
α̂ = , (9.86)
x2 −x2
xy − x · y
β̂ = y − x . (9.87)
x2 − x2
dado que son los coeficientes de los únicos términos que incluyen α2 , β2 y
2αβ, respectivamente. De expandir los términos con K11 y K12 vemos que
debe cumplirse
es decir
α∗ x2 + β∗ x = xy. (9.95)
161
El problema de la regresión
Haciendo lo mismo para la expansión de los términos con K22 y K12 que con-
tienen β vemos que
es decir
β∗ + α∗ x = y. (9.97)
α∗ = α̂, (9.98a)
β∗ = β̂. (9.98b)
162
El problema de la regresión
y dividiendo cada una de ellas por P(σ| D ) en (9.101), obtenemos las distri-
buciones para α y β dado σ como
√
sx n (α − α̂)2
P(α|σ, D ) = √ exp − ns2x , (9.107)
2πσ 2σ2
√ 2
sx n s ( β − β̂)2
P( β|σ, D ) = p exp − n x , (9.108)
2πx2 σ x2 2σ2
σ2
(δα)2 = , (9.109a)
σ,D ns x 2
σ2 x2
(δβ)2 = . (9.109b)
σ,D ns x 2
El valor más probable de σ dados los datos está dado por
∂ γ n−1
ln P(σ| D ) = 3
− =0 (9.110)
∂σ σ=σ̂ (σ̂) σ̂
n 2
σ̂2 = s (1 − ρ2XY ). (9.111)
n−1 y
Γ(z − 12 ) 1 1 1
→ exp (z − ) ln(z − ) − z + − z ln z + z
Γ(z) 2 2 2
1 1 1
≈ exp − (1 + ln z) + + z ln
z −
z ln
z ≈ √ → 0.
2 2 z
163
El problema de la regresión
sy (1 − ρ2XY )
2
(δα) D
= , (9.114a)
sx n−4
sy (1 − ρ2XY ) x2
2
(δβ) D
= . (9.114b)
sx n−4
K
Σ −1 = (9.118)
ns2y (1 − ρ2XY )
164
El problema de la regresión
P ROBLEMAS
Problema 9.1. Muestre que (9.115) tiende a P(θ, σ = σ̂| D ) según (9.99) con σ̂
dado en (9.111) cuando n → ∞.
Problema 9.4. La energía en un sistema crítico está descrita por una distribución
tipo ley de potencia,
1
P ( E | ϵ0 , b ) ∝ , (9.120)
( ϵ0 + E ) b
con parámetros ϵ0 > 0 y b > 1. Se tienen n mediciones de energía independientes
( E1 , . . . , En ). Utilizando el prior de Jeffreys para ϵ0 y un prior constante para b,
encuentre
Problema 9.5. En una encuesta se intenta estimar la edad del habitante de ma-
yor edad de la ciudad, llamémosla em . Se muestrean N personas obteniéndose edades
e1 , . . . , e N independientemente, las cuales son números reales no negativos. Conside-
re un modelo en que todas las edades menores a em son equiprobables y es imposible
tener una edad e > em . Es decir,
P ( e | e m ) ∝ Θ ( e m − e ), (9.121)
(a) Demuestre que la probabilidad posterior para em dadas las muestras, está dada
por una distribución de Pareto,
Θ ( em − E )
P ( e m | e1 , . . . , e N ) ∝ . (9.122)
( e m ) α +1
¿Qué valores toman α y E?
165
C APÍTULO 10
Otras propiedades de la
expectación
166
Desigualdad de Jensen
p i = P ( X = x i | I ),
−∞
dxP( X̃ = x | I ) = ∑ dxδ( x − xi ) pi = ∑ pi = 1. (10.5)
i =1 − ∞ i =1
Demostración. Imponemos
ω ( X̃ ) I
= ω(X) I
para todo ω (10.6)
P( X̃ = x | I ) = δ( X̃ − x ) I
= δ( X − x ) I (10.7)
n
= ∑ P ( X = xi | I ) δ ( xi − x ) ¥
i =1
f ( X ) = aX + b
f (X) I
= aX + b I
=a X I
+ b = f ( X I ).
f ( X I ) ̸= f I
. (10.8)
167
Desigualdad de Jensen
S := f I
− f ( X I) (10.9)
y si ahora suponemos además que es una función convexa, con lo que f ′ (t)
es monótonamente creciente con t, tendremos para el caso X ≥ E que
168
Desigualdad de Jensen
donde la igualdad ocurre para X = E. Por otro lado, para el caso X < E se
tiene
f ′ (t) ≤ f ′ ( E) para t ≤ E, (10.16)
f (X) I
≥ f ( X I ),
f (X) I
≥ f ( X I) (10.19)
169
Proyección de expectaciones
ω Q( E ) I
ω = . (10.20)
E,I Q( E ) I
= ∑ P(ω | E, I ) P( E| I ) ω = Q( E) I
ω E,I
¥
ω
= Q( E )
I
170
Proyección de expectaciones
= ω E,I
Q( E ) I
¥
ω Q( f = F ) I
= ω f = F,I
P ( f = F | I ). (10.25)
⟨ω δ( f − F )⟩ I = ω f = F,I
P ( f = F | I ), (10.28)
171
Desigualdad de Chebyshev
Demostración.
Z Z
′
ω δ( f − F ) I
= df dωP(ω, f = f ′ | I )ω δ( f ′ − F )
Z
= dωP(ω, f = F | I )ω
Z
= dωP(ω | f = F, I ) P( f = F | I )ω (10.29)
Z
= P( f = F | I ) dωP(ω | f = F, I )ω
= P( f = F | I ) ω f = F,I
¥
g(| X |) I
P(| X | ≥ α| I ) ≤ (10.30)
g(α)
g(| X |) | X |≥α,I
≥ g(α) (10.35)
172
Derivada de una expectación
173
Derivada de una expectación
Demostración.
Z
∂ ∂
ω θ,I
= dxP( x|θ, I )ω ( x, θ )
∂θ ∂θ U
Z
∂
= dx P( x|θ, I )ω ( x, θ )
U ∂θ
∂ω ( x, θ ) P( x|θ, I )
Z ∂
= dx P( x|θ, I ) + ω ( x, θ ) P( x|θ, I )×
U ∂θ ∂θ P( x|θ, I )
∂ω ( x, θ )
Z ∂
= dx P( x|θ, I ) + ω ( x, θ ) P( x|θ, I ) ln P( x|θ, I )
∂θ ∂θ
U
∂ω ∂
= + ω ln P( X |θ, I ) ¥ (10.40)
∂θ θ,I ∂θ θ,I
0 * 0
∂ >
∂(1) k λ
1 λ = + −1 (10.42)
∂λ
∂λ λ λ
por lo tanto k λ
= λ. Por otro lado, si usamos ω (k, λ) = k vemos que
1 0
>
∂ > k2
∂k
k = + −k , (10.43)
∂λ λ
∂λ λ λ λ
luego
k2
1= λ
−λ (10.44)
λ
y se tiene k2 λ
= λ(λ + 1). La varianza de k estará dada por
2
(δk)2 λ
= k2 λ
− k λ
= λ(λ + 1) − λ2 = λ. (10.45)
Vemos que hemos obtenido tanto la media como la varianza de una distribución
discreta sin calcular ninguna suma.
174
Derivada de una expectación
∂ ∂ω ∂
ω θ,I
= + ω ln P( X |θ, I ) . (10.46)
∂θk ∂θk θ,I ∂θk θ,I
donde ∂ ∂
∇θ := ,..., , (10.48)
∂θ1 ∂θm
y ω = ( ω1 , . . . , ω m ) .
∂ ∂ √ ( x − µ )2
ln P( X |µ, σ2 ) = − ln( 2πσ) −
∂µ ∂µ 2σ2 (10.49)
1
= 2 ( x − µ)
σ
y por tanto podemos escribir
∂ D ∂ω E 1D E
ω µ,σ2
= + ω ( X − µ ) . (10.50)
∂µ ∂µ µ,σ 2 σ2 µ,σ2
0 0
∂ D ∂(1
)
7
E 1D E X µ,σ2 − µ
(1) = + 2
( X − µ ) = (10.51)
∂µ
∂µ µ,σ 2 σ µ,σ2 σ2
es decir, X µ,σ2
= µ, mientras que usando ω = ( X − µ) tenemos
∂ : 0 ∂( X − µ) 1D
D E E
2
X− −
µ 2 = + ( X µ ) . (10.52)
∂µ µ,σ ∂µ µ,σ2 σ2 µ,σ2
=−1
esto es,
( X − µ )2 µ,σ2
= σ2 . (10.53)
175
Expectaciones vía integración por partes
176
Expectaciones vía integración por partes
Con la elección
ω ( x ) = x (1 − x ) (10.59)
obtenemos
1 − 2X α,β
= ( X − 1)(α − 1) + X ( β − 1) α,β
,→ 1 − 2 X α,β
= 1 − α + (α − 1 + β − 1) X α,β
,→ α = (α + β) X α,β
, (10.60)
luego
α
X = . (10.61)
α,β α+β
177
Expectaciones vía integración por partes
vemos que
∂ω ∂
∇·ω → , ω · ∇ ln p → ω ln p
∂Xk ∂Xk
y podemos escribir
∂ω ( X ) D ∂ E
+ ω(X ) ln P( X | I ) = 0. (10.69)
∂Xk I ∂Xk I
1
exp − A( X 2 + Y 2 − BXY )
P( X, Y | A, B) = (10.70)
Z ( A, B)
µ := X A,B
= Y A,B
,
(10.71)
σ2 := (δX )2 A,B
= (δY )2 A,B
.
178
Expectaciones vía integración por partes
1 = 2A X 2 A,B
− AB XY A,B
, (10.73)
1 = 2A Y 2 A,B
− AB XY A,B
, (10.74)
2 X A,B
=B Y A,B
, (10.75)
2 XY A,B
= B Y2 A,B
, (10.76)
2
y restando B Y A,B
escrito como 2 X A,B
Y A,B
a ambos lados de (10.76) tenemos
2 XY A,B
−2 X A,B
Y A,B
= B Y2 A,B
−2 X A,B
Y A,B
= Bσ2 , (10.77)
δXδY A,B
ρ := ,
σ2
definido en (8.20). Reemplazando la covarianza y la varianza en (10.73) vemos que
2
1 = 2Aσ2 +
(
X A,B − AB δXδY −(
(
2A A,B
AB X(A,B
(( ((Y( ,
A,B
(10.79)
1
A= . (10.80)
2σ2 1 − ρ2
1 ( X − Y )2
P( X, Y | A, B = 2) = lı́m exp − 2 = δ( X − Y ), (10.81)
ρ →1 Z ( A, 2) 2σ (1 − ρ2 )
con lo que ambas variables son idénticas, pero P( X, Y | A, B) deja de ser normalizable.
179
Expectaciones vía integración por partes
D E
⟨∇ · ω⟩ I + ⟨ω · ∇ ln P( X | I )⟩ I = ω · ∇ B · P( B = B0 | I ). (10.86)
B= B0 ,I
Para poder ver con mayor claridad que el lado derecho de (10.85) coincide
con el término de borde que despreciamos en la demostración en (10.67), uti-
lizamos la propiedad (3.53) de composición de la delta de Dirac para escribir
δ( x − x∗ )
δ( B0 − B( x)) = ∑∗ |∇ B|
, (10.87)
x
y entonces escribir
D E Z D ∇B E
(ω · ∇ B)δ( B0 − B) = ds δ( X − x)ω( X ) ·
I ∂Ω |∇ B| I
=n
(10.88)
Z
= dsω( x) · n( x) δ( X − x) I
Z∂Ω
= dsω( x) · n( x) p( x).
∂Ω
▶ Para más detalles sobre el uso de los teoremas (10.46) y (10.68), ver
Davis y Gutiérrez (2012) y Davis y Gutiérrez (2016).
180
Expectaciones vía integración por partes
P ROBLEMAS
Problema 10.1. ¿Cuál es mayor, la expectación V I
del volumen de una esfera, o
el volumen de una esfera que tiene el radio esperado R I ? Considere
4π 3
V ( R) = R .
3
Problema 10.2. Para una variable A > 0 y una proposición E tal que
E ⇒ A ≥ A0 ,
demuestre la desigualdad
A I
P( E| I ) ≤ , (10.89)
A0
más general que (10.30).
1 n
n i∑
f := f ( x i ), (10.90)
=1
ω D
=ω (10.91)
181
Expectaciones vía integración por partes
Problema 10.8. Muestre que para una región Ω arbitraria con borde ∂Ω la genera-
lización de (10.85) es
D E D E D E
∇ · ω + ω · ∇ ln P( X | I ) = − ω · ∇Q( X ∈ Ω) , (10.94)
I I I
x0 = x k,θ
,
L0 = ln x k,θ
,
α = x ln x k,θ
.
182
C APÍTULO 11
Comparación de modelos
George E. P. Box
Una vez que hemos hecho uso del teorema de Bayes para realizar infe-
rencia, y explorado la manera de realizar estimación de los parámetros de
un modelo, queda pendiente otro de los problemas comunes en inferencia, el
de decidir entre dos modelos M1 y M2 cuando ambos son enfrentados a un
conjunto de datos D observados. ¿Qué criterio deberíamos usar para decidir
cuál de los dos modelos favorecer a la luz de los datos?
183
El factor de Bayes
P( X = x | M2 , λ) = λ exp(−λx ), (11.10)
184
El factor de Bayes
= Q( L ≥ L ∗ ) = Θ ( L − L ∗ ), (11.13)
P( D | M1 ) a0 (nx )n a0 nx n
K ( M1 , M2 ; D ) = = = . (11.16)
P( D | M2 ) b0 n(n − 1)!( L∗ )n b0 n! L∗
ya que ln( a0 /b0 ) se puede despreciar frente a los términos que crecen con n. Esto es,
x
K ( M1 , M2 ; D ) ≈ exp n ln −1 . (11.19)
L∗
185
Criterio de información bayesiano (BIC)
Más aún, aquí recordamos que L∗ es el máximo de los valores observados, luego
el promedio aritmético x es menor o igual que dicho máximo y se debe cumplir
x
ln ≤ 0, (11.20)
L∗
con lo que determinamos que
lı́m K ( M1 , M2 ; D ) = 0. (11.21)
n→∞
Es decir, el modelo exponencial (M2 ) debe ser preferido para un número muy
grande de observaciones.
donde
L D (θ) 1 n
L(θ) := = ∑ ln P( xi |θ, M) (11.23)
n n i =1
es la función log-verosimilitud del modelo M dividida en el número n de
observaciones. Para n suficientemente grande, el término ln P(θ| I0 ) es des-
preciable y podemos aproximar
Z Z
P( D | M, I0 ) = dθ exp (nL(θ) + ln P(θ| I0 )) ≈ dθ exp (nL(θ)) . (11.24)
186
Criterio de información bayesiano (BIC)
k̂ θ̂ = x, (11.32a)
ln x − ln θ̂ = ψ(k̂ ). (11.32b)
187
La divergencia de Kullback-Leibler
P( D | M)
1 p p
lı́m ln ′
= lı́m ln = ln . (11.36)
n→∞ n P( D | M ) n → ∞ q q M
P( D | M)
′
K ( M, M ; D ) = = exp n DKL ( p||q) . (11.38)
P( D | M′ )
cuya gráfica se muestra en la Figura 11.1. Vemos que DKL (λ||λ0 ) siempre es positi-
va, y es cero únicamente cuando λ = λ0 .
188
La divergencia de Kullback-Leibler
− ln X I
≥ − ln X I
(11.41)
,→ ln X I
≤ ln X I
D q E D q E Z
*1
ln ≤ ln = ln ( x) = 0,
dxq (11.42)
p p p p
por lo tanto,
p E p( x)
D Z
ln = dxp( x) ln ≥0 ¥ (11.43)
q p q( x)
189
Información y Entropía
190
Información y Entropía
Si p = 1, entonces I( p) = 0. (11.47)
dI( p)
< 0. (11.48)
dp
I( p1 p2 ) = I( p1 ) + I( p2 ) (11.49)
Con esto tenemos todos los elementos necesarios para determinar la fun-
ción I( p) de una vez por todas. Si escribimos el postulado (11.49) como
I( xy) = I( x ) + I(y)
191
Información y Entropía
∂
I( xy) = I ′ ( xy)y = I ′ ( x ) (11.50)
∂x
que no depende de y, luego podemos escribir
α( x )
I ′ ( xy) = . (11.51)
y
e integrando llegamos a
I(1) = α(1) ln 1 + h = h,
donde k > 0 es una constante, en principio arbitraria, que nos fija las unida-
des en que mediremos la información. Como k > 0 automáticamente tenemos
que I( p) ≥ 0, y para simplificar la notación, vamos a elegir k = 1, con lo que
tenemos la definición de la información de Shannon.
I( A| I ) := − ln P( A| I ). (11.55)
DKL ( p||q) = ln p( X ) − ln q( X ) M
= ln P( X | M) − ln P( X | M′ ) M
(11.56)
= I( X | M′ ) − I( X | M) M
192
Información y Entropía
I( X | M′ ) M
≥ I( X | M) M
.
para pi = P( Ai | I ).
que hace que la suma en (11.57) sea bien comportada para probabilidades
cercanas a cero.
193
Información y Entropía
S A ( I ) = − p ln p − (1 − p) ln(1 − p) (11.59)
1 1 1 1
− ln − ln = ln 2
2 2 2 2
que corresponde a un bit de información. En otras palabras, cuando somos
completamente ignorantes acerca de la respuesta a una pregunta de tipo sí
o no, significa que nos falta un bit de información.
Cuando se trata de un conjunto de n proposiciones, o equivalentemente,
una variable discreta que toma uno de n valores posibles, la definición de
entropía es clara y libre de ambigüedades. Sin embargo, al momento de ge-
neralizar a variables continuas hay algunos puntos a considerar. En primer
lugar, para una variable discreta X ∈ { x1 , . . . , xn } cuyos valores son equipro-
bables en un estado ∅, esto es,
1
P( X = xi |∅) =
n
se tiene que la entropía es
n
1 1
S X (∅) = − ∑ ln = ln n, (11.60)
i =1
n n
194
Información y Entropía
P( x| I )
Z
S X ( I0 → I ) := − dxP( x | I ) ln . (11.64)
P( x| I0 )
al transformar se tendrá
q(y) J xy
( y)
Z
SY ( I0 → I ) = − dy q(y) ln
Ω′ q0 (y) J xy
( y)
(11.66)
q(y)
Z
=− dy q(y) ln
Ω′ q0 ( y )
lo cual nos indica que el estado I0 contiene menos información que el estado
I y justifica nuestra elección de notación I0 → I, ya que vamos de un estado
previo a otro posterior.
Otro argumento para llegar a la definición de entropía relativa es el que
da Jaynes (2003, pág. 375), comenzando desde la entropía de Shannon (11.57)
195
Entropía y correlación de variables
p i : = P ( X = x i | I ), (11.69a)
1
p0 := P( X = xi |∅) =
. (11.69b)
n
Definiremos densidades de probabilidad p( x ) y m( x ) asociadas a los es-
tados I y ∅, respectivamente, usando (10.3) en la forma
n
1
m( x ) =
n ∑ δ ( x − x j ), (11.70a)
j =1
n
p( x ) = ∑ p i δ ( x − x j ). (11.70b)
j =1
196
Entropía y correlación de variables
SY |X ( x; I0 → I ) → SY ( I0 → I ), (11.79)
S XY ( I0 → I ) = S X ( I0 → I ) + SY ( I0 → I ). (11.80)
S X ( I0 → I ) ≥ S XY ( I0 → I ), (11.81)
P( X, Y | I )
I( X; Y ) := ln ≥ 0. (11.82)
P ( X | I ) P (Y | I ) I
197
Entropía y correlación de variables
λ
P( X = x, Y = y|λ) = exp(−λ( xy)). (11.83)
Gλ
con X ≥ 1, Y ≥ 1, donde
Z ∞
Gλ := dt exp(−t)t−1 (11.84)
λ
exp(−λx )
P( X = x |λ) = , (11.85a)
xGλ
exp(−λy)
P (Y = y | λ ) = , (11.85b)
yGλ
donde
198
Entropía y correlación de variables
P ROBLEMAS
Problema 11.1. Calcule la entropía relativa para una variable X desde un modelo
X ∼ Exp(λ) hasta un modelo X ∼ Gamma(k, θ ), ambos modelos con igual media.
Verifique que su resultado
¿Cuál modelo es más probable en cada caso y cuánto es la razón entre las proba-
bilidades?
199
C APÍTULO 12
El principio de máxima
entropía
Richard P. Feynman
p( x)
Z
S X ( I0 → I ) = − dxp( x) ln ≤0
Ω p0 ( x )
donde
p ( x ) : = P ( X = x | I ),
p0 ( x) := P( X = x| I0 ),
200
¿Por qué maximizar entropía?
Máximo valor de S( I0 → I )
Máximo absoluto de S( I0 → I ) compatible con R
I = I0 ∧ R
p( x)
Z
S X ( I0 → I ) = − dxp( x) ln (12.1)
Ω p0 ( x )
Esta es una versión más moderna del principio de máxima entropía, ori-
ginalmente enunciado por Edwin T. Jaynes (1957) en base a maximizar la
201
Solución general para variables discretas
La entropía relativa es
n
pi
S( I0 → I ) = − ∑ pi ln = S( p1 , . . . , pn ) (12.3)
i =1
qi
202
Solución general para variables discretas
exp(−λ f ( xi ))
P( xi | I ) = P( xi | I0 ) . (12.11)
Z (λ)
203
Solución general para variables discretas
∂
− ln Z (λ) = F. (12.13)
∂λ
n R
= n0 . (12.14)
= q + q2 + q3 + q4 + q5 , (12.18)
204
Solución general para variables discretas
p1 + p2 = 0.204319,
aproximadamente de un 20 %.
y finalmente obtenemos
m
P( xi | I0 )
P ( xi | I ) = exp − ∑ λ j f j ( xi ) (12.27)
Z (λ) j =1
∂
− ln Z (λ) = Fj para j = 1, . . . , m. (12.29)
∂λ j
205
Solución general para variables discretas
P( A| I ) = 0.4, (R1 )
P( A, B| I ) = 0.26. (R2 )
Q( A ) I
= 0.4, (R1 ′ )
Q( A )Q( B ) I
= 0.26. (R2 ′ )
= 1 + 1 + exp(−λ − µ) + exp(−λ)
h i
= 2 + exp(−λ) 1 + exp(−µ) , (12.31)
P ( B | I ) = Q( B ) I
1 1
= ∑ ∑ bP(a, b| I )
a =0 b =0
1
1
=
Z (λ, µ) ∑ exp(−λa − µa) (12.33)
a =0
1
= 1 + exp(−λ − µ) ,
Z (λ, µ)
1 + exp(−λ − µ)
= = 0.56.
2 + exp(−λ) [1 + exp(−λ)]
206
Variables y restricciones continuas
P ( A ∨ B | I ) = Q( A ∨ B ) I
1
= [1 · 0 + 1 · 1 + exp(−λ) · 1 + exp(−λ − µ) · 1]
Z (λ, µ)
1 + exp(−λ) [1 + exp(−µ)]
= = 0.7, (12.34)
2 + exp(−λ) [1 + exp(−µ)]
que precisamente coincide con la regla extendida de la suma,
luego el resultado de máxima entropía nos dice que A y B dejan de ser independientes
luego de las restricciones (R1 ) y (R2 ).
con lo que obtenemos para una variable continua X la llamada familia expo-
nencial de distribuciones.
207
Variables y restricciones continuas
tal que
X x0
= x0 . (12.38)
Usando (12.36) con un prior P( X |∅) ∝ Θ( X ) tenemos
Θ( x )
P ( X = x | x0 ) = exp(−λx ) (12.39)
Z (λ)
con Z ∞
*1 1
Z (λ) = Θ
dx ( x ) exp(−λx ) = (12.40)
0 λ
y
∂ ∂ 1
x0 = − ln Z (λ) = ln λ = , (12.41)
∂λ ∂λ λ
así que tenemos
Θ( x )
P ( X = x | x0 ) =
exp(− x/x0 ) (12.42)
x0
que es la distribución exponencial X ∼ Exp(1/x0 ). Si además de la restric-
ción en (12.38) incorporamos una restricción nueva sobre la expectación del
logaritmo de X, de forma que tenemos
X x0 ,L0
= x0 , (12.43a)
ln X x0 ,L0
= L0 , (12.43b)
X x0 ,(∆x )2
= x0 , (12.47a)
( X − x0 )2 x0 ,(∆x )2
= (∆x )2 , (12.47b)
entonces se tiene
1
P ( X = x | λ1 , λ2 ) = exp(−λ1 x − λ2 ( x − x0 )2 )
Z ( λ1 , λ2 )
1 h λ1 i
= exp − λ2 x2 − 2x0 x + x02 + 2 x
Z ( λ1 , λ2 ) 2λ2
1 h λ1 i2
= exp −λ2 x − x0 −
η ( λ1 , λ2 ) 2λ2
(12.48)
208
Variables y restricciones continuas
∂ ∂ :0
λ1
x0 = − ln Z (λ1 , λ2 ) = − ln
η 1 , λ2 ) + x0 −
(λ (12.51)
∂λ1 ∂λ1
2λ2
∂ 1 ∂ 1
(∆x )2 = − ln Z (λ2 ) = ln λ2 = (12.52)
∂λ2 2 ∂λ2 2λ2
así que finalmente
1
λ2 =
2(∆x )2
y podemos escribir nuestra distribución como
1 1 x − x 2
0
P( X = x | x0 , (∆x )2 ) = √ exp − , (12.53)
2π |∆x | 2 |∆x |
=µ(t)
Z 1
= dtµ(t)λ(t) f ( X; t).
0
209
Variables y restricciones continuas
Z 1
!
P( X = x | I0 )
P( X = x |R, I0 ) = exp − dtλ(t) f ( x; t) . (12.55)
Z [λ] 0
f ( X; t) R
= F (t) para todo t ∈ [0, 1] (12.57)
δ
− ln Z [λ] = F (t) para todo t ∈ [0, 1]. (12.58)
δλ(t)
Es importante notar que los límites del parámetro t ∈ [0, 1] son arbitrarios,
y en efecto nada importante cambia si simplemente los reemplazamos por
otros, digamos t ∈ [ a, b] o incluso t ∈ R.
P( X 2 = z|R, I0 ) = δ( X 2 − z) R,I0
= p(z) para todo z ≥ 0, (12.59)
p(z) = δ( X 2 − z) R,I0
exp(−λ(z)) ∞
Z
= dxP( x | I0 )δ( x2 − z) (12.61)
Z [λ] 0
exp(−λ(z))
= p0 ( z )
Z [λ]
210
Identidades diferenciales para modelos de máxima entropía
2x p( x2 )
P( x |R, I0 ) = x |
P( )
I0 = 2x p( x2 ) (12.64)
P (
x |
I0
)
que es exactamente la solución que obtendríamos transformando de acuerdo a (7.92),
ya que 2x es la derivada de la función x 7→ x2 . Alternativamente, podemos verificar
el resultado simplemente operando con expectaciones y la delta de Dirac,
2x p( x2 ) = 2x δ( X 2 − x2 ) R,I0
= 2x δ( X 2 − x2 ) R,I
0
D δ( X − x ) E
=
2x
(12.65)
|2x
| R,I0
= δ( X − x ) R,I0
= P( x |R, I0 ).
=δ f k λ,I0
ωδ f I
= δωδ f I
(12.67)
211
Entropía y priors no informativos
∂ ∂ω D E
ω λ,I0
= − δωδ f k . (12.68)
∂λk ∂λk λ,I0 λ,I0
m
∇·ω λ,I0
+ ω · ∇ ln P( X |λ, I0 ) λ,I0
= ∑ λj ω · ∇ fj λ,I0
. (12.71)
j =1
p( x; θ ) = P( x |θ, M)
P( x, θ | M )
= (12.72)
P(θ | M)
⟨ ( X − x )δ(Θ − θ )⟩ M
δ
=
⟨δ(Θ − θ )⟩ M
212
Entropía y priors no informativos
213
Entropía y priors no informativos
con Z
Z= dθP(θ |∅) exp S x|θ (θ ) . (12.83)
Ejemplo 12.5.1. Para X ∼ Exp(λ) y priors planos P(λ, x |∅) y P(λ|∅), determi-
nar una distribución P(λ| M) que incorpore el hecho de que λ es el parámetro de un
modelo exponencial.
Solución. La entropía de X dado λ es simplemente
D E
S x|λ (λ) = − ln λ exp(−λX ) = 1 − ln λ (12.84)
λ
ya que X λ
= 1/λ, y se tiene
1
exp(S x|λ (λ)) ∝ ,
λ
con lo que reemplazando en (12.82) tenemos simplemente
1
P(λ| M) ∝ , (12.85)
λ
que coincide con el prior de Jeffreys.
P ROBLEMAS
Problema 12.1. Sea un dado de 6 caras, que en un promedio de muchos lanzamien-
tos obtiene n = 2.1. ¿Cuál es la probabilidad de obtener un 6?
214
Entropía y priors no informativos
(c) ¿Cuál es la probabilidad de que el navío esté en la coordenada (20x̂ + 10ŷ) km?
Problema 12.4. Un rociador dispara gotas de agua verticalmente, con una velocidad
inicial v0 desconocida (y de hecho variable en el tiempo, es decir, distinta para cada
lanzamiento). Sin embargo, se ha conseguido medir el promedio de la altura máxi-
ma que alcanzan las gotas, dado por h. Recordando que la altura máxima para un
lanzamiento está dada por h(v0 ) = v20 /2g, y considerando que v0 nunca supera un
p
máximo de vmax = 2gH,
215
C APÍTULO 13
Procesos Estocásticos
ρ t ( x ) : = P ( X t = x | I ). (13.1)
P ( Xt = x′ | I ) = ∑ P ( X t = x ′ , X0 = x 0 | I )
x0
= ∑ P ( X0 = x 0 | I ) P ( X t = x ′ | X0 = x 0 , I ) (13.2)
x0
ρt ( x′ ) = ∑ ρ0 ( x0 ) K t ( x0 → x ′ ). (13.3)
x0
216
Cadenas de Markov
K t ( x 0 → x ′ ) : = P ( X t = x ′ | X0 = x 0 , I ) . (13.4)
217
Cadenas de Markov
P ( X k +1 = x k +1 | X0 = x 0 , . . . , X k = x k , I )
= P( Xk+1 = xk+1 | Xk = xk , I ), (13.6)
( x0 , x1 , . . . , x N )
Mt ( x → x′ ) := P( Xt+1 = x′ | Xt = x, I )
P ( X t +1 = x ′ | I ) = ∑ P ( X t +1 = x ′ , X t = x | I )
x
= ∑ P( Xt+1 = x′ | Xt = x, I ) P( Xt = x| I ), (13.8)
x
ρ t +1 ( x ′ ) = ∑ Mt ( x → x ′ ) ρ t ( x ) . (13.9)
x
218
Cadenas de Markov
ρ∗ ( x′ ) = ∑ Mt ( x → x ′ ) ρ ∗ ( x ) , (13.12)
x
ρ ∗ ( x ′ ) ∑ Mt ( x ′ → x ) = ∑ Mt ( x → x ′ ) ρ ∗ ( x ) , (13.13)
x x
ρ ∗ ( x ′ ) Mt ( x ′ → x ) = ρ ∗ ( x ) Mt ( x → x ′ ) . (13.15)
ρ t + 1 ( x ) − ρ t ( x ) = − ρ t ( x ) + ∑ Mt ( x ′ → x ) ρ t ( x ′ )
x′
= − ρ t ( x ) ∑ Mt ( x → x ′ ) + ∑ Mt ( x ′ → x ) ρ t ( x ′ ) . (13.16)
x′ x′
ρt+∆t ( x) − ρt ( x) Mt ( x → x ′ )
= −ρt ( x) ∑
∆t x′ ̸= x
∆t
(13.17)
Mt ( x ′ → x )
+ ∑ ρ t ( x ′ ),
′
x ̸= x
∆t
219
Cadenas de Markov
∂ρ( x; t)
= −ρ( x; t) ∑ Wt ( x → x′ ) + ∑ Wt ( x′ → x)ρ( x′ ; t). (13.18)
∂t x′ ̸= x x′ ̸= x
Wt ( x → x ′ ) = ω ( x; −ε), (13.20a)
′
Wt ( x → x ) = ω ( x − ε; ε) (13.20b)
220
Cadenas de Markov
Definiendo
Z
µ( x ) := dεεω ( x; ε), (13.24a)
1
Z
D ( x ) := dεε2 ω ( x; ε) (13.24b)
2
podemos escribir finalmente la ecuación de Fokker-Planck,
∂ρ( x; t) ∂ ∂2
=− µ( x ) p( x; t) + 2 D ( x ) p( x; t) . (13.25)
∂t ∂x ∂x
esto es,
DX
t+∆t − Xt E
µ( x ) = lı́m . (13.27)
∆t→0 ∆t Xt = x,I
1 1 D E
D(x) = lı́m ( Xt+∆t − Xt )2 , (13.29)
2 ∆t→0 ∆t Xt = x,I
221
Caminatas al azar
222
Caminatas al azar
1 ( x − x )2
0
P ( X t = x | X0 = x 0 , I ) = √ exp − , (13.40)
4πDt 4Dt
223
Caminatas al azar
Xt X = x ,I = x0 , (13.42a)
D E 0 0
2
( X t − X0 ) = 2Dt, (13.42b)
X0 = x0 ,I
t = n∆t
(∆X )i I
= 0, (13.46)
(∆X )2i I
= σ2 . (13.47)
224
Caminatas al azar
X n − X0 I
= n ∆X I
= 0, (13.51)
( X n − X0 ) 2 I
= nσ2 = 2D∆t n = 2Dt, (13.52)
y entonces se obtiene
1 ( x − x )2
0
P ( X t = x | X0 = x 0 , I ) = √ exp − , (13.53)
4πDt 4Dt
Dado que las d componentes son independientes entre sí, las propiedades
de los desplazamientos (∆X )i son
(∆X )i I = 0, (13.55)
D E
(∆Xi )2 = dσ2 = 2d D∆t. (13.56)
I
225
Caminatas al azar
d (e · [ x − x ])2 o
n 1
∏ 4πDt
α 0
P ( X t = x | X0 = x 0 , I ) = exp √−
α =1
4Dt
1 1
4Dt ∑
2
= √ exp − ( e α · [ x − x 0 ])
( 4πDt)d α
1 ( x − x )2
0
= √ exp − , (13.57)
( 4πDt) d 4Dt
∂ √ d 1 D E
ln( 4πDt)d = = ( X t − X 0 ) 2
, (13.60)
∂t 2t 4Dt2 I
esto es,
( X t − X0 ) 2 I
= 2dDt, (13.61)
226
Caminatas al azar
P(rn = r | I ) = ⟨δ(rn − r )⟩ I
n (13.64)
= ∑ P(∆r1 , . . . , ∆rn | I )δ r0 + ∑ (∆r )i − r
{∆r } i =1
donde
∑ f (∆r1 , . . . , ∆rn ) = ∑ . . . ∑ f (∆r1 , . . . , ∆rn )
{∆r } ∆r1 ∆rn
n
P (r n = r | I ) = ∑ ∏ P(∆ri | I )
{∆r } i =1
" #
n
1
Z
× dk exp − ik · r − r0 − ∑ (∆r ) j (13.67)
(2π )d j =1
227
Caminatas al azar
1
Z
dk exp − ik · (r − r0 ) λ(k)n .
P (r n = r | I ) = (13.69)
(2π )d
la cual se reduce a
∞
1
Z
∑ zn λ(k)n
F (z; r ) = dk exp − ik · (r − r0 )
(2π )d n =0
" # (13.73)
1
Z
exp − ik · (r − r0 )
usando (15) = dk .
(2π )d 1 − zλ(k)
228
Caminatas al azar
P ( X ( t ) = x | I ).
Como llegar a la coordenada x puede suceder antes del primer paso (si x =
x0 ), o entre el primer y el segundo paso, o entre el segundo y el tercer paso y
así sucesivamente, definiendo la proposición
tendremos que
P( X (t) = x | I ) = P( A1 ( x, t) ∨ A2 ( x, t) ∨ A3 ( x, t) ∨ . . . | I )
∞ (13.77)
= ∑ P( An (x, t)| I )
n =0
229
Caminatas al azar
∞
P( X (t) = x | I ) = ∑ P(Xn = x| I ) P(Tn ≤ t < Tn+1 | I ). (13.78)
n =0
con lo que reemplazando (13.80) en (13.78) hemos llegado a una forma más
explícita para calcular P( X (t) = x | I ),
∞ Z t Z ∞
P( X (t) = x | I ) = ∑ P ( Xn = x | I )
0
dt′ P( Tn = t′ | I )
t−t′
duP(∆t = u| I ).
n =0
(13.81)
λn exp(−λx ) x n−1
P ( Xn = x | I ) = , (13.83a)
( n − 1) !
exp(−t/τ )tn−1
P( Tn = t| I ) = , (13.83b)
(n − 1)!τ n
con X0 = 0 y T0 = 0 por simplicidad; luego, usando
Z ∞ Z ∞
1
dsP(∆t = s| I ) = ds exp(−s/τ ) = exp (t′ − t)/τ
(13.84)
t−t ′ τ t−t′
tenemos que n
exp(−t/τ ) t
P( Tn ≤ t < Tn+1 | I ) = , (13.85)
n! τ
230
Caminatas al azar
P ( X0 = x | I ) = δ ( x ) , (13.87a)
P( T0 ≤ t < T1 | I ) = P(∆t > t| I ) = exp(−t/τ ), (13.87b)
esto es,
" r r !#
t exp(−λx ) λxt λxt
P( X (t) = x | I ) = exp − δ( x ) + I1 2 ,
τ x τ τ
(13.88)
con I1 (•) la función de Bessel modificada de primer tipo de orden uno. Esta distribu-
ción está relacionada con la distribución de tiempos de espera para cruzar un umbral
x = x ∗ por primera vez (Olguín-Arias, Davis y Gutiérrez 2021),
r !
1 tw αtw
P(tw |α, τ ) = exp − α − I0 2 , (13.89)
τ τ τ
231
Caminatas al azar
λ(k ) := exp(ik∆X ) I
Z ∞ Z ∞
1 − ψ(s)
dx dtP( X (t) = x | I ) exp(ikx − st) = . (13.96)
−∞ 0 s 1 − λ(k)ψ(s)
232
Caminatas al azar
donde
Z ∞
" #
1 1 − ψ(s)
P ( x, s) := dk exp(−ikx ) . (13.98)
2π −∞ s 1 − λ(k)ψ(s)
P ROBLEMAS
Problema 13.1. Calcule, usando (13.73), la probabilidad de estar en el origen al paso
n para una caminata al azar en una red unidimensional de paso a, con
P(∆X = a| I ) = P(∆X = − a| I ) = 12 .
Xi+1 = Xi + (∆X )i
233
C APÍTULO 14
Simulación Monte Carlo
Isaac Asimov
f ( x ) = p ( x ) A ( x ),
234
Números pseudoaleatorios
m = 231 , (14.4a)
a = 1103515245, (14.4b)
c = 12345. (14.4c)
235
Generación de eventos con probabilidades dadas
236
Generación de eventos con probabilidades dadas
def EscogerEvento ( p ) :
r = random ()
if r < p : return 1
else : return 0
def EscogerEvento ( p ) :
r = random ()
if r < p [0]: return 0
elif r − p [0] < p [1]: return 1
elif r − p [0] − p [1] < p [2]: return 2
...
elif r − sum ( p [ i ] for i in range (n −3) ) < p [n −2]: return (n −2)
else : return (n −1)
237
Método de la aceptación y rechazo
def EscogerEvento ( p ) :
r = random ()
n = len ( p )
for k in range ( n ) :
if r < p [ k ]: return k
else : r = r − p [ k ]
238
Algoritmo Metropolis
def GeneraMuestras (N , a , b , p , p0 ) :
muestras = list ()
while len ( muestras ) < N :
x = (b − a ) ∗ random () + a
r = random ()
if r ∗ p0 < p ( x ) : muestras . append ( x )
return muestras
239
Algoritmo Metropolis
f n va como
A n
p
fn ≈ , (14.6)
Lp0
con A p < Lp0 , se sigue que para n muy grande la fracción f n va rápidamente
a cero. Por ejemplo, si A p ≈ 31 Lp0 , entonces para n = 10 tendríamos
f n ≈ 1.7 · 10−5 ,
esto es, para conseguir un punto aceptado deberíamos intentar más de 59 mil
veces. Para n = 100 ¡sólo 1 puntos por cada 1047 intentos serían aceptados!
A este fenómeno se le denomina la maldición de la dimensionalidad: la difi-
cultad de muestrear un espacio aumenta exponencialmente con el número de
dimensiones. Una solución a este problema se conoce como el algoritmo Me-
tropolis, presentado por primera vez en el artículo “Equation of state calcu-
lations by fast computing machines” (1953), y que se basa en la construcción
de una cadena de Markov tal que en su estado estacionario las frecuencias de
los estados x visitados por ésta se aproximan a la probabilidad
p( x) := P( X = x| I )
deseada.
El algoritmo Metropolis consiste en la propuesta sucesiva de estados
p( x′ )
′
A M ( x → x ) := mı́n 1, . (14.8)
p( x)
240
Algoritmo Metropolis
1: x ← x0
2: repetir
3: Proponer un cambio ∆x desde una distribución uniforme
4: x′ ← x + ∆x
5: si p( x′ ) > p( x) entonces
6: se acepta la propuesta
7: de otra forma si r < p( x′ )/p( x) con r ∼ U(0, 1) entonces
8: se acepta la propuesta
9: de otra forma
10: se rechaza la propuesta
11: fin si
12: si la propuesta fue aceptada entonces
13: x ← x′
14: fin si
15: Guardar la muestra x
16: hasta tener suficientes muestras
241
Algoritmo Metropolis
242
Algoritmo de Gibbs
∆x = x′ − x
p( x′ ) · G ( x; x′ )
A MH ( x → x′ ) := mı́n 1, . (14.14)
p( x) · G ( x′ ; x)
Es fácil ver por qué, siguiendo la misma idea que en el caso de Metropolis.
Escribimos la condición de distribución estacionaria como
p( x′ ) G ( x; x′ )
p( x) ∑ G ( x ; x) mı́n 1,
′
x′
p( x) G ( x′ ; x)
p( x) G ( x′ ; x)
= ∑ G ( x; x ) mı́n 1,
′
′ ) G ( x; x′ )
p( x′ ). (14.15)
x ′ p ( x
∑′ mı́n p( x) G ( x′ ; x), p( x′ ) G ( x; x′ )
x
= ∑ mı́n p( x′ ) G ( x; x′ ), p( x) G ( x′ ; x) , (14.16)
x′
( x i , y i ) → ( x i , y i +1 ),
243
Algoritmo de Gibbs
P ( x i , y i +1 | I ) G ( x i , y i ; x i , y i +1 )
A(( xi , yi ) → ( xi , yi+1 )) = mı́n 1,
P ( x i , y i | I ) G ( x i , y i +1 ; x i , y i )
P ( y i +1 | x i , I ) G ( x i , y i ; x i , y i +1 )
= mı́n 1, , (14.17)
P ( y i | x i , I ) G ( x i , y i +1 ; x i , y i )
donde hemos cancelado P( xi | I ). Aquí podemos ver inmediatamente que, si
elegimos G ( x, y′ ; x, y) para cambios en y manteniendo x de acuerdo a
G ( x, y′ ; x, y) = P(y′ | x, I ), (14.18)
( x i , y i ) → ( x i +1 , y i ),
G ( x ′ , y; x, y) = P( x ′ |y, I ), (14.19)
1: ( x, y) ← ( x0 , y0 )
2: i←0
3: repetir
4: Elegir yi+1 desde la distribución P(y| xi , I ).
5: Elegir xi+1 desde la distribución P( x |yi+1 , I ).
6: i ← i+1
7: hasta tener suficientes muestras
244
Algoritmo de Gibbs
245
Bibliografía
246
Bibliografía
247
Bibliografía
248
Algunas definiciones útiles
DISTRIBUCIÓN DE P OISSON
Una variable entera k ≥ 0 sigue una distribución de Poisson si
exp(−λ)λk
P(k|λ) = . (2)
k!
La notación estándar es k ∼ Pois(λ).
DISTRIBUCIÓN GAMMA
DISTRIBUCIÓN EXPONENCIAL
DISTRIBUCIÓN LOGNORMAL
249
Algunas definiciones útiles
DISTRIBUCIÓN UNIFORME
DISTRIBUCIÓN NORMAL
1 ( x − µ )2
P( X = x |µ, σ) = √ exp − . (7)
2πσ 2σ2
DISTRIBUCIÓN BETA
x α −1 (1 − x ) β −1
P( X = x |α, β) = . (8)
B(α, β)
DISTRIBUCIÓN BINOMIAL
FUERZA BRUTA
FUNCIÓN CONVEXA
Z ∞ n − 1 1− n
A
dσ exp − 2 σ−n = 2(n−3)/2 Γ A 2 . (11)
0 2σ 2
250
Algunas definiciones útiles
INTEGRAL GAUSSIANA
PUNTO DE ENSILLADURA
RAZONAMIENTO BAYESIANO
REGLA DE L EIBNIZ
Para dos funciones f ( x ) y g( x ),
d d f (x) dg( x )
f ( x ) g( x ) = g( x ) + f (x) . (14)
dx dx dx
REGLA MNEMOTÉCNICA
Regla visual, de lenguaje o simbólica que nos sirve como pista para
ayudarnos a recordar una pieza de información.
SEMÁNTICA
SERIE GEOMÉTRICA
∞
1
∑ zn = 1 − z para |z| ≤ 1. (15)
n =0
SUMA DE R IEMANN
n Z b
lı́m
n→∞
∑ ∆ n · f ( xi ) = a
dx f ( x ), (16)
i =1
b−a
con xi = a + (i − 1)∆n , y ∆n := .
n−1
251
Algunas definiciones útiles
TEOREMA DE LA DIVERGENCIA
n
n k n−k
( a + b) = ∑
n
a b . (18)
k =0
k
252
Índice alfabético
A BIC, 187
aceptación y rechazo binomial
método de, 238 coeficiente, 44, 65
advección distribución, 102
coeficiente de, 221 binomio
aleatorio teorema del, 66
fenómeno, 5 bit, 194
analítica
función, 117
C
cadenas
aproximación
de Markov, 217, 218, 240, 242
asintótica, 186
caminata al azar, 217, 222
de Laplace, 55, 234
Chapman-Kolmogorov
de Stirling, 56, 57
ecuación de, 218
axioma, 2
Chebyshev
de Cox, 108
desigualdad de, 172
de Kolmogorov, 107
coeficiente
azar, 5
binomial, 65
B condición
balance detallado, 219 necesaria, 14
Bayes suficiente, 14
factor de, 184 conspirativa
teorema de, 91 teoría, 98
Thomas, 85, 91 contradicción
bayesiano prueba por, 18
criterio de información, véase BIC convolución, 59, 137
Bernoulli teorema de, 59, 138
Jacob, 85 corolario, 3
beta correlación, 123, 197, 198, 222
distribución, 103 coeficiente de, 133, 161, 179
función, 43 covarianza, 123
253
desigualdad de la, 134 lognormal, 145
matriz de, 123, 133, 226 normal, 130
Cox normal multivariable, 133
axiomas de, 108 posterior, 147
credibilidad previa, 147
intervalo de, 116 divergencia
criterio de Kullback-Leibler, 188, 201
de información bayesiano, véase BIC teorema de la, 176, 178
cumulantes, 118
E
cuántica
ecuación
física, 4, 5, 8
de Euler-Lagrange, 52
teoría, 5
ensilladura
D punto de, 46
deducción, 2 entropía, 193
lógica, véase deducción de información, 193
delta de Shannon, 193
de Dirac, 28 de Shannon-Jaynes, véase entropía relativa
de Kronecker, 64 relativa, 195
densidad equivalencia, 15
de probabilidad, 80 estado de conocimiento, 6
de puntos, 40, 196 estimación, 72
derivada de Fermi, 72
funcional, 48 estocástico
desigualdad fenómeno, 5
de Chebyshev, 172 proceso, 216
de Gibbs, 189 Euler-Lagrange
de Jensen, 169, 189 ecuación de, 52
de la covarianza, 134 evidencia, 4
desviación estándar, 117 expectación, 88
diagnóstico diferencial, 4 F
difusión factor
coeficiente de, 221 de Bayes, 184
Dirac de estructura, 227
delta de, 28 familia exponencial, 207
discretización, 70 Fermi
distribución estimación de, 72
acumulada, 114 Fisher
beta, 103 Ronald A., 85
binomial, 102 Fokker-Planck
de probabilidad, 111 ecuación de, 221
gamma, 152 frecuencia, 85, 104, 105, 155, 156, 235–237, 239,
gaussiana, véase normal 240
254
frecuentista hessiana
probabilidad, 85, 108 matriz, 46, 133
funcional, 48 histograma, 155
de partición, 210 Holmes
derivada, 48 regla de Sherlock, 21, 94
función Sherlock, 1, 4, 21
analítica, 117 House
beta, 43 Gregory, 4, 100
característica, 137
de prueba, 31
I
inducción matemática, 17, 43
gamma, 42
inferencia, 2
generadora, 57
de parámetros, 147
de probabilidad, 119
información
generadora de momentos, 117
de Shannon, 192
indicador, 63
entropía de, 193
partición, 203
mutua, 197
pérdida, 111
intuición, 1
rectangular, 27, 29, 36, 65, 71, 232
invarianza
signo, 113
de escala, 151
verosimilitud, 147
de la estimación, 81
física
traslacional, 151
cuántica, 4, 5, 8
fórmula J
de Montroll-Weiss, 232 jacobiana
de Pascal, 66 matriz, 38, 44
Jensen
G
desigualdad de, 169, 189
gamma
distribución, 152 K
función, 42 kernel, 59
generador lineal congruente, 235 Kolmogorov
generadora de momentos axiomas de, 107
función, 117 Kronecker
geométrica delta de, 64
serie, 228
Gibbs L
desigualdad de, 189 Laplace
grandes números aproximación de, 55, 234
ley de los, 136, 153, 155 Pierre-Simon de, 85
transformada de, 231
H lema, 3
Heaviside ley
función escalón de, 25 de los grandes números, 136, 155, 234
255
natural, 8 mínimos cuadrados, 160
libre albedrío, 4
N
M natural
maestra ley, 8
ecuación, 220 navaja de Ockham, 99
maldición de la dimensionalidad, 240, 244 normal
MANIAC I, 241 bivariante, distribución, 133
mansplaining, véase Vos Savant, Marilyn
mapa, 63
P
partición
Markov
funcional de, 210
cadenas de, 217, 218, 240, 242
función, 203
markoviano
parámetro
modelo, 217
de escala, 120
matriz
de forma, 121
de covarianza, 123, 133, 226
de posición, 121
hessiana, 46, 133
Pascal
jacobiana, 38, 44
fórmula de, 66
media, 112
Pearson
mediana, 113
Karl, 85
Metropolis
plausibilidad, 4
algoritmo de, 240
postulado, véase axioma
Nicholas, 234
de aditividad de la estimación, 74
moda, 113
de conservación del orden, 75
modelo, 6
de doble estimación, 76
markoviano, 217
de transformación lineal constante, 74
probabilístico, 111
predicción, 3
modus ponens y modus tollens, 16
principio
momento, 117, 119, 128, 181
de indiferencia, 88, 96
Monte Carlo
de máxima entropía, 201
simulación, 234
prior
Montroll-Weiss
de Jeffreys, 151
fórmula de, 232
probabilidad, 5
Monty Hall, 96
definición de, 84
movimiento browniano, 222
densidad de, 80
mutua
distribución de, 111
información, 197
promedio aritmético, 135, 181
máxima
propagación de errores, 144
verosimilitud, 149
proposiciones
máxima entropía
exhaustivas, 20
principio de, 201
mutuamente excluyentes, 20
máximo
proyección
a posteriori, 150
256
de la delta de Dirac, 171 T
de la función indicador, 170 Teller
pseudoaleatorio Augusta, 241
número, 234 teorema, 2
punto central del límite, 141
de ensilladura, 46 de Bayes, 91
de convolución, 59, 138
R de fluctuación-disipación, 173
racionalidad, 91
de la divergencia, 176, 178
razonamiento
de variables conjugadas, 176
bayesiano, 5
del binomio, 66
rectangular
teoría
función, 27, 29, 36, 65, 71, 232
conspirativa, 98
regla
cuántica, 5
de la suma, 86
transformada
de marginalización, 89
de Fourier, 60
del producto, 87
de Laplace, 231
extendida de la suma, 86
integral, 59
relatividad general, 4
trayectoria, 218
retrodicción, 3
Riemann V
suma de, 50, 70 valor esperado, 88, véase expectación
Rosenbluth valor medio, 112
Arianna, 241 variable booleana, 9
variación, 48
S varianza, 116, 132, 136, 152, 163
serie
verosimilitud
geométrica, 228
función, 147
sesgo, 201
Vos Savant
Shannon
Marilyn, 98
Claude, 190
entropía de, 193 Z
información de, 192 z-score, 132
si y sólo si, 14
sigmoide
función, 114, 115
sorpresa, 93
Stirling
aproximación de, 57
sudoku, 2, 21
suma
de Riemann, 50, 70
257