Está en la página 1de 82

Preliminar - Clases Probabilidad - 2o C 2018

Ing. Ignacio Bello


rev08d - octubre 2018

Índice
1. Consideraciones previas 5
1.1. *Antecedentes históricos . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Bibliografı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Sobre los ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Repaso mı́nimo y ejemplos disparador 7


2.1. Fórmulas para tener a mano . . . . . . . . . . . . . . . . . . . . . 7
2.2. Integrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. Ejemplos disparadores . . . . . . . . . . . . . . . . . . . . . . . . 7

3. Grundbegriffe 8
3.1. Espacio de probabilidad - Axiomas K . . . . . . . . . . . . . . . . 8
3.2. *Relación axiomas K - frecuencia relativa . . . . . . . . . . . . . 10
3.3. *Interludio: álgebra de eventos . . . . . . . . . . . . . . . . . . . 10
3.4. Corolarios, teoremas, propiedades... . . . . . . . . . . . . . . . . . 12
3.5. Espacios discretos . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5.1. Espacios discretos (finitos o numerables) . . . . . . . . . . 13
3.5.2. Equiprobabilidad - Fórmula de Laplace . . . . . . . . . . 14
3.5.3. Espacios numerables . . . . . . . . . . . . . . . . . . . . . 15
3.6. Introducción a espacios continuos . . . . . . . . . . . . . . . . . . 16

4. Independencia y probabilidad condicional 18


4.1. Independencia estocástica . . . . . . . . . . . . . . . . . . . . . . 18
4.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . 19
4.3. Probabilidad total, Bayes . . . . . . . . . . . . . . . . . . . . . . 21
4.4. Independencia condicional . . . . . . . . . . . . . . . . . . . . . . 22

5. Bonustrack: Análisis combinatorio 23


5.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2. Mecánica estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2.1. Estadı́stica de Maxwell-Boltzmann . . . . . . . . . . . . . 24
5.2.2. Estadı́stica de Bose-Einstein . . . . . . . . . . . . . . . . . 25
5.2.3. *Estadı́stica de Fermi-Dirac . . . . . . . . . . . . . . . . . 25
5.2.4. Modelo equivalente: Maxwell-Boltzmann . . . . . . . . . . 25
5.2.5. Modelo equivalente: Bose-Einstein . . . . . . . . . . . . . 25
5.2.6. Comparación . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1
6. Variables aleatorias (unidimensionales) 29
6.1. Definición de V.A., distribución . . . . . . . . . . . . . . . . . . . 29
6.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . 29
6.3. Clasificación, funciones de probabilidad y de densidad . . . . . . 30
6.3.1. Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6.3.2. Continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6.4. Intensidad de fallas, Cuantiles . . . . . . . . . . . . . . . . . . . . 32
6.5. V.A. truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

7. Simulación 35
7.1. Definiciones y teoremas . . . . . . . . . . . . . . . . . . . . . . . 35
7.2. Números aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.3. Simulación de VA discretas . . . . . . . . . . . . . . . . . . . . . 36
7.4. Simulación de VA continuas y mixtas . . . . . . . . . . . . . . . . 38

8. Funciones para análisis de datos 39

9. Variables aleatorias n-dimensionales 42


9.1. Definiciones, distribución conjunta . . . . . . . . . . . . . . . . . 42
9.2. Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
9.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

10.Momentos 46
10.1. Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
10.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
10.3. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
10.4. Recta de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . 49
10.5. Desigualdades, Ley débil de grandes números . . . . . . . . . . . 49

11.Transformaciones de V.A. 51
11.1. Definiciones y aclaraciones previas . . . . . . . . . . . . . . . . . 51
11.2. Teoremas para transformaciones de V.A. . . . . . . . . . . . . . . 51

12.Condicionales 55
12.1. Variables condicionales . . . . . . . . . . . . . . . . . . . . . . . . 55
12.2. Modelos discreto continuos . . . . . . . . . . . . . . . . . . . . . 56
12.3. Momentos y función de regresión . . . . . . . . . . . . . . . . . . 57

13.Esperanza condicional 60
13.1. Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
13.2. Iterpretación geométrica . . . . . . . . . . . . . . . . . . . . . . . 61
13.3. Ejemplos varios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

14.Proceso Bernoulli 64
14.1. Procesos y proceso Bernoulli . . . . . . . . . . . . . . . . . . . . 64
14.2. Distribuciones asociadas . . . . . . . . . . . . . . . . . . . . . . . 65
14.3. Proceso Bernoulli generalizado . . . . . . . . . . . . . . . . . . . 66
14.4. Miscelánea tóxica . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2
15.Proceso de Poisson 71
15.1. Procesos puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . 71
15.2. Proceso puntual de Poisson . . . . . . . . . . . . . . . . . . . . . 72
15.3. Pérdida de memoria . . . . . . . . . . . . . . . . . . . . . . . . . 74
15.4. Más propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

16.Variable normal y TCL 79


16.1. La variable normal univariada . . . . . . . . . . . . . . . . . . . . 79
16.2. Teoremas lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
16.3. La variable normal bivariada . . . . . . . . . . . . . . . . . . . . 81

3
Burocracia y otras hierbas
Nota aclaratoria
Estas notas se escribieron para uso personal, como ayuda para dar la clase,
y están en continua evolución. Le faltan consistencia en la notación, gráficos,
ejemplos, y una profunda revisión. Se sugiere leerlas con cuidado, si no asistió a
la clase compararlas con las notas tomadas por algún compañero o compañera,
y completarlas con lo dado en el pizarrón.
No tienen intención de reemplazar la clase ni mucho menos un buen libro
(como los que se sugieren en la bibliografı́a), el objetivo es simplemente ahorrarle
al que lo considere conveniente la toma de apuntes; y facilitarle un poco la
cursada a aquellos con problemas para asistir.

Asistencia
Se tomará lista todas las clases solo con fines estadı́sticos, necesitamos
saber cuándo vienen y cuándo dejan de venir, y cómo se relaciona la asis-
tencia con los resultados de los exámenes. No se dejará libre a ningún
alumno. Intentaremos usar la asistencia también para un control temprano
de abandono.

Los condicionales y cambios de curso deben avisar en el curso al que van


a asistir para que se los incorpore.

Evaluación
Se toma un parcial de 5 ejercicios, con al menos 3 bien se aprueba. El par-
cial tiene 2 instancias de recuperación. Se agregan las fechas diferidas que
hagan falta para quienes presenten certificado de examen o enfermedad.
Con alta probabilidad se tomará un trabajo práctico. La consigna se dará
en la 5ta o 6ta semana y se entregará pasado el primer parcial. La idea es
que lo hagan antes del parcial, pero que si no llegan no quite tiempo de
estudio. El TP incluye una simulación y gráficos de función histograma y
función de distribución empı́rica. Se dará alguna ayuda para los que les
cueste programar.
Quien aprueba el parcial (y el tp si hubiere) aprueba la cursada y tiene
derecho a rendir coloquio. El coloquio consta de 5 ejercicios, se aprueba
con al menos 3 ejercicios bien y al menos 1 de los últimos 2 ejercicios (los
que corresponden a temas de estadı́stica) bien.

4
1. Consideraciones previas
1.1. *Antecedentes históricos
Armar lı́nea de tiempo central con los probabilistas, en paralelo rigor y teorı́a
de medida, unirlas en Kolmogorov.
Fuentes: Grimmet, Jacovkis, biografı́as de Wikipedia

300 A.C. Euclides, Elementos


250 A.C. Arquı́medes, El método de los teoremas mecánicos

1550 (pero publicado en 1663) Gerolamo Cardano (Ita) (el de ecuación cúbica),
Liber de ludo aleae (sobre los juegos de azar)
1654 Blaise Pacal (Fra) y Pierre de Fermat (Fra) discuten por carta el problema
de los puntos, luego en 1657 Huygens (Hol) publica De ratiociniis in ludo
aleae (Razonamientos en los juegos de azar). Introducen el concepto de
valor esperado
1713 de Jacob Bernoulli (Sui) (el que descubrió e, muerto en 1705) publican (un
sobrino) Ars conjectandi (Arte de la conjetura). Fruto de leer Huygens y
discutir con Leibniz (Ale) y con su hermano Johann, incluye el Teorema
de Bernoulli: la primera ley de los grandes números

1718 Abraham de Moivre (Fra) publica The Doctrine of Chances: a method


of calculating the probabilities of events in play. En la reedición de 1756
aparece la primera versión del TCL.
1812 Pierre-Simon Laplace (Fra) publica Théorie analytique des probabilités
prueba también el TCL

18xx Por los mismos años: Leonhard Euler (Ale), Carl Friedrich Gauss (Ale),
Joseph-Louis de Lagrange (Ita), Adrien-Marie Legendre (Fra), Siméon De-
nis Poisson (Fra)
1919 Richard von Mises (Aus-Hun) introduce el espacio muestral y define la
probabilidad como la frecuencia relativa.
18xx Rigor matemático Durante el s.XIX comienza a formalizarse con rigor
la matemática, comenzando por los trabajos de euclides. Augustin-Louis
Cauchy (Fra), Bernhard Riemann (Ale), Karl Weierstrass (Ale) (no tuvo
tı́tulo universitario)

19xx Teorı́a de medida A principios del s.XX la desarrollan Émile Borel (Fra),
Henri Lebesgue (Fra), Johann Radon (Aus), Maurice René Fréchet (Fra)
1933 Andrey Kolmogorov (Rus), Grundbegriffe der Wahrscheinlichkeitsrech-
nung

5
1.2. Bibliografı́a
La historia es como cosa sagrada, porque ha de ser verdadera, y
donde está la verdad, está Dios, en cuanto a verdad; pero, no
obstante esto, hay algunos que ası́ componen y arrojan libros de sı́
como si fuesen buñuelos
—No hay libro tan malo —dijo el bachiller—, que no tenga algo
bueno.
—No hay duda en eso —replicó don Quijote—, pero muchas veces
acontece que los que tenı́an méritamente granjeada y alcanzada
gran fama por sus escritos, en dándolos a la estampa la perdieron
del todo o la menoscabaron en algo.

Miguel de Cervantes Saavedra

Se recomienda intentar seguir las clases con los apuntes, vamos a dar todo
lo necesario para tener una buena base teórica y poder hacer los ejercicios.
Si hace falta, consultar los contenidos con los Borradores de Grynberg o el
Maronna. El Maronna es más conciso, es un libro publicado (menos errores),
pero en algunos temas no presenta todo lo que damos en el curso y en algunas
cosas puntuales usa otra notación. Los borradores son borradores, pero tienen
la ventaja de cubrir todos los temas del curso y casi en el mismo orden y estilo
que seguirán las clases.
Los dos textos mencionados y el Grinstead-Snell son de distribución libre y
gratuita.

Para el curso
Ambos textos son de distribución libre y gratuita.
Grynberg, S. Borradores, Curso 23. Buenos Aires: [digital], 2013
Maronna, R. Probabilidad y Estadı́stica Elementales para Estudiantes de
Ciencia. 1ra ed. La Plata: [digital], 1995

Otros
El de Snell-Grinstead es de distribución libre y gratuita. El de Jacovkis lo
publica Eudeba, es barato. Los de Feller creo que están agotados.
(El clásico t.I): Feller, W. An Introduction to Probability Theory and Its
Applications, Vol. I 2da ed. New York: John Wiley & Sons, 1957.
(El clásico t.II): Feller, W. An Introduction to Probability Theory and
Its Applications, Vol. II 2da ed. New York: John Wiley & Sons, 1971.
(Muy interesante, lleno de simulaciones y gráficos): Grinstead,
C., Snell, J. Grinstead and Snell’s Introduction to Probability. 1ra. ed.
[digital]:[digital] 2006.
(Para profundizar): Grimmet, G., Stirzaker, D. Probability and Random
Processes. 3ra. ed. Gran Bretaña: Oxford University Press, 2001.
(Para formalizar duro): Billingsley, P. Probability and Measure. 3ra.
ed. Estados Unidos: John Wiley & Sons, 1995.

6
(De difusión): Jacovkis, P. Azar, Ciencia y Sociedad. 1ra. ed. Buenos
Aires: Eudeba, 2012

1.3. Sobre los ejercicios


Leer atentamente los enunciados
Traducir con cuidado del lenguaje coloquial al formal

Siempre tener la teorı́a a mano. Al usar un teorema revisar las hipótesis


para ver si corresponde la aplicación
Tratar de hacer toda la guı́a en orden, rehacer los dados en clase. Si no
hay tiempo o le resulta fácil hacer sólo los STOP. Si hizo toda la guı́a use
exámenes viejos.

2. Repaso mı́nimo y ejemplos disparador


2.1. Fórmulas para tener a mano
Sumatoria y serie Geométrica:
n ∞ ∞
X 1 − rn+1 X 1 X rk
ri = ri = ri = |r| < 1
i=0
1−r i=0
1−r 1−r
i=k

Número e:  n ∞
1 X 1
e = lı́m 1+ =
n→∞ n i=0
i!

Series para funciones exponencial e hiperbólicas:


∞ ∞ ∞
X xi X x2i X x2i+1
ex = cosh(x) = sinh(x) =
i=0
i! i=0
(2i)! i=0
(2i + 1)!

Fórmula de Stirling:
√  n n
n! ∼ 2πn cuando n → ∞
e

2.2. Integrales
Repasar integrales en R2 y esas cosas (sobre todo los más viejos).

2.3. Ejemplos disparadores


Dar ejemplos de experimentos (moneda una vez, moneda hasta primera cara,
el [0, 1)). Concepto de experimento conceptual y espacio muestral Ω (Feller [3],
tı́tulo I.3), concepto de “evento elemental” ω. Idea de probabilidad como medida
o peso relativo P(ωi ), necesidad de σ-álgebra y “eventos conpuestos” para definir
P : A → R.

7
3. Grundbegriffe
3.1. Espacio de probabilidad - Axiomas K
Definición 3.1 (Espacio muestral). Llamaremos espacio muestral a un conjun-
to no vacı́o Ω. A sus elementos ω ∈ Ω los llamaremos eventos elementales. Nota:
algunos autores llaman al espacio muestral S (por sample space). Kolmogorov
lo llamó E en sus Grundbegriffe.

Definición 3.2 (σ-álgebra). Una familia A de subconjuntos de Ω es una σ-


álgebra (o σ-field, ver Grimmet [5], subtı́tulo 1.2 definición 5) si contiene a Ω y
es cerrada por complementos y por uniones finitas o numerables. Formalmente,
debe cumplir:

(a) Ω ∈ A
(b) A ∈ A ⇒ Ac ∈ A
(c) A1 , A2 ∈ A ⇒ A1 ∪ A2 ∈ A
S∞
(d) A1 , A2 , A3 . . . ∈ A ⇒ i=1 Ai ∈ A
(solo es necesario exigir (d) si Ω tiene infinitos elementos)

Teorema 3.3 (Sobre las σ-álgebra). Ası́ definidas, se demuestra que son cerra-
das por intersecciones (finitas o numerables)
(e) A, B ∈ A ⇒ A ∩ B ∈ A
T∞
(f) A1 , A2 , A3 . . . ∈ A ⇒ i=1 Ai ∈ A
(solo tiene gracia la propiedad (f) si Ω tiene infinitos elementos)
Nota 3.4 (Sobre σ-álgebras). La definición y teorema que le sigue puede pen-
sarlas juntas, una σ-álgebra es una familia de subconjuntos de Ω con buenas
propiedades de cierre (las propiedades indicadas de (a) hasta (f)).
A los subconjuntos de Ω que estén en el σ-álgebra, A ∈ A, los llamaremos
eventos aleatorios o simplemente eventos.
Ejemplo 3.5 (σ-Álgebras - conceptual). Algunos ejemplos sencillos
La σ-álgebra trivial para todo Ω es A = {∅, Ω}
Si agregamos un evento A: A = {∅, A, Ac , Ω}

y agregamos otro evento B: A = {∅, A, Ac , B, B c , A ∪ B, A ∪ B c , Ac ∪


B, Ac ∪ B c , (A ∪ B)c , (A ∪ B c )c , (Ac ∪ B)c , (Ac ∪ B c )c , Ω} –revisar–
Si modelamos el lanzamiento de un dado y tomamos como eventos elemen-
tales a los seis posibles resultados, |Ω| = 6, la mayor álgebra que podemos
armar contendrá al vacı́o (1), a los eventos elementales (6), a todos los pa-
res posibles (15), a todas la ternas (20), las cuaternas (15), los quintetos
(6) y el mismo ómega (1): en total 64 subconjuntos.
Ejemplo 3.6 (σ-Álgebras - práctico). En la libreta de Ignacio todas las notas
son 2, 4 o 5. Realizamos el experimento: se elige una materia y le preguntamos
qué nota sacó. Indique los posibles resultados y construya una σ-álgebra lo más

8
chica posible, una que sirva para distinguir si aprobó, y por último una lo más
grande posible.
Solución: Para resolver primero definimos el espacio muestral Ω = {2, 4, 5}.
El álgebra más pequeña posible siempre es la que tiene a vacı́o y al propio
espacio muestral
A1 = {∅, {2, 4, 5}}
Esa σ-álgebra no nos sirve para responder ninguna pregunta, si queremos saber
si aprobó debemos incluir el subconjunto {4, 5}, y si incluimos ese subconjunto
debemos también incluir su complemento y luego las posibles uniones que apa-
rezcan para satisfacer los requerimientos (a) hasta (c) de la definición (a (d) no
le damos bola porque tenemos Ω finito). Nos queda:

A2 = {∅, {2, 4, 5}, {4, 5}, {2}}

Si por último queremos poder saber la nota exacta que sacó, debemos agregar
el 4 y el 5 sueltos (pero como subconjuntos), y sus complementos y uniones.
Queda (reordenando términos):

A3 = {∅, {2}, {4}, {5}, {4, 5}, {2, 5}, {2, 4}, {2, 4, 5}}

Notar que A3 tiene 8 subconjuntos, y que es la σ-álgebra más grande que po-
demos formar con el Ω dado.
Convención 3.7 (Partes de Ω). En el curso usaremos cuando no se aclare en
el ejercicio la σ-álgebra lo más grande posible. A estará compuesta por todos
los subconjuntos que existan de Ω, con sus uniones e intersecciones (finitas
o numerables) y sus complementos; incluyendo al subconjunto vacı́o ∅ y a Ω
mismo. Usaremos la notación 2Ω y el nombre partes de Omega para referirnos
a esa σ-álgebra. (ver Grimmet [5] power set, subtı́tulo 1.2 ejemplo 8).
Si Ω es un conjunto finito vale que |2Ω | = 2|Ω| .

Definición 3.8 (Medida de probabilidad). Una medida de probabilidad P sobre


(Ω, A) es una función P : A → R que satisface los siguientes axiomas (axiomas
de Kolmogorov):
1. Para cada A ∈ A se cumple P(A) ≥ 0

2. P(Ω) = 1
3. Aditividad: Si los eventos A y B no tienen elementos en común (son dis-
juntos, A ∩ B = ∅), se cumple P(A ∪ B) = P(A) + P(B)
4. Continuidad: Para cada sucesión decreciente de eventos tal que al inter-
sectarlos todos obtenemos el conjunto vacı́o

\
A1 ⊃ A2 ⊃ A3 ⊃ . . . , Ai = ∅
i=1

se cumple que el lı́mite de la probabilidad es cero

lı́m P(An ) = 0
n→∞

9
Definición 3.9 (Espacio de probabilidad). Un espacio de probabilidad es una
terna (Ω, A, P) formada por un conjunto no vacı́o Ω llamado espacio muestral,
una σ-álgebra A de subconjuntos de Ω a los que llamamos eventos aleatorios, y
una medida P que satisface los axiomas de Kolmogorov.
Nota 3.10 (Nota histórica). : Kolmogorov publica en sus Grundbegriffe 5 axio-
mas, los primeros 2 definen la sigma-álgebra F sobre el espacio muestral E, y los
3 axiomas siguientes son los que enunciamos 1 a 3. Luego en el segundo capı́tulo
de la publicación extiende la teorı́a a espacios infinitos con el sexto axioma de
continuidad.
Nota 3.11 (Sobre el axioma de continuidad). Si la cantidad de eventos ele-
mentales ω ∈ Ω es finita, el 4to axioma no es necesario (se vuelve redundante,
se puede demostrar a partir de los primeros tres). El axioma de continuidad
es esencial para espacios muestrales infinitos. Su redacción es complicada, pero
veremos algunos teoremas que quizás sean más claros.

3.2. *Relación axiomas K - frecuencia relativa


No se da en clase. Los axiomas 1 a 3 atrapan el concepto de frecuencia
relativa. Notar que si se realizan una cantidad fija n experimentos, se llama
N (A) a la cantidad de observaciones del evento A, y se define P(A) := N (A)/n,
entonces P cumple los primeros tres axiomas.
En sus Fundaciones, Kolmogorov dedica un par de páginas a deducir empı́ri-
camente los axiomas. Una traducción al castellano se encuentra en [1], Espacios
de Probabilidad, sección 1.2.

3.3. *Interludio: álgebra de eventos


En clase sólo se mencionarán las leyes de De Morgan, el resto se supone que
los alumnos ya lo saben. Por si acaso se sube al campus un hojita con todas las
definiciones y teoremas.
Los eventos aleatorios A ∈ A son subconjuntos de Ω, vale el álgebra de
subconjuntos. En la definición y teorema siguientes, usaremos A, B, C, Ai ⊂ Ω
eventos.
Definición 3.12 (Definiciones varias). Se definen:

Unión: A ∪ B := {ω ∈ Ω : ω ∈ A ∨ ω ∈ B}
Intersección: A ∩ B := {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}
Complemento: Ac = A := {ω ∈ Ω : ω ∈
/ A}
Disjuntos (n): Diremos Ai disjuntos si Ai ∩ Aj = ∅ ∀i 6= j

Disjuntos (2): Diremos A, B disjuntos si A ∩ B = ∅


Sustracción: A \ B := A ∩ B c = {ω ∈ Ω : ω ∈ A ∧ ω ∈
/ B}
[n]
Partición: Si Ai disjuntos y Ui=1 Ai = Ω diremos que {Ai }i=1...[n] es una
partición de Ω.

10
Teorema 3.13 (Propiedades varias). Demostraciones a cargo del lector. Recor-
dar que dos conjuntos son iguales si todo evento del primero está necesariamente
en el segundo y vice versa.
Conmutativa 1: A ∪ B = B ∪ A
Conmutativa 2: A ∩ B = B ∩ A
Asociativa 1: (A ∪ B) ∪ C = A ∪ (B ∪ C)
Asociativa 2: (A ∩ B) ∩ C = A ∩ (B ∩ C)
Distributiva 1: A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Distributiva 2: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Identidad 1: A ∪ ∅ = A
Identidad 2: A ∩ Ω = A
Complemento 1: A ∪ Ac = Ω (unión disjunta)
Complemento 2: A ∩ Ac = ∅
Idempotencia 1: A ∪ A = A
Idempotencia 2: A ∩ A = A
Dominación 1: A ∪ Ω = Ω
Dominación 2: A ∩ ∅ = ∅
Absorción 1: A ∪ (A ∩ B) = A
Absorción 2: A ∩ (A ∪ B) = A
Inters. como diferencia: A ∩ B = A \ (A \ B)
De Morgan 1: (A ∪ B)c = Ac ∩ B c
De Morgan 2: (A ∩ B)c = Ac ∪ B c
Doble complemento: (Ac )c = A
Complemento Omega: Ωc = ∅
Complemento Vacı́o: ∅c = Ω
[n]
Evento en partes: Si {Ai } es una partición, B = ∪i=1 (B ∩ Ai ) (unión
disjunta)
Antisimetrı́a: A ⊂ B ∧ B ⊂ A ⇔ A = B
Unicidad: A ∪ B = Ω ∧ A ∩ B = ∅ ⇔ Ac = B
Nota 3.14 (Diagramas de Venn). Los diagramas de Venn no son una demos-
tración (ver Arquı́medes, El Método, preámbulo dirigido a Eratóstenes). Sin em-
bargo, resultan muy prácticos para recordar y entender los teoremas del álgebra
de eventos, y en el curso van como piña.
Convención 3.15 (Sobre incluido o incluye). Se usa aquı́ y en el pizarrón el
sı́mbolo ⊂ como incluido o igual. e.g. A ⊂ A es verdadero y A ⊃ A es verdadero
también.

11
3.4. Corolarios, teoremas, propiedades...
Teorema 3.16 (Catarata de teoremas). Se demuestra a partir de los axiomas:
1. P(Ac ) = 1 − P(A)
2. P(∅) = 0
Aclaración 1: P(A) = 0 ; A = ∅, pueden existir eventos con probabilidad
0 que no son vacı́o
Aclaración 2: P(A) = 0 ; “A nunca ocurre”, pueden existir eventos con
probabilidad 0 que excepcionalmente ocurren
3. Aditividad: Si los eventos . , An son disjuntos dos a dos (Ai ∩Aj =
SnA1 , A2 , . . P n
∅ si i 6= j) entonces P ( i=1 Ai ) = i=1 P(Ai )
4. Si A ⊂ B entonces P(B) = P(A) + P(B \ A)
5. Unión (2): P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
6. Unión (3...): P(A∪B ∪C) = P(A)+P(B)+P(C)−P(A∩B)−P(B ∩C)−
P(C ∩ A) + P(A ∩ B ∩ C). Generalizar para más eventos, se va sumando
y restando alternativamente según (principio de inclusión-exclusión).
T∞
7. Si A1 ⊃ A2 ⊃ · · · y A = n=1 An , entonces P(A) = lı́mn→∞ P(An )
S∞
8. Si A1 ⊂ A2 ⊂ · · · y A = n=1 An , entonces P(A) = lı́mn→∞ P(An )
9. σ-aditividad. Si los eventos
S∞ A1 , A2P, . . . son disjuntos dos a dos (Ai ∩Aj = ∅

si i 6= j) entonces P ( i=1 Ai ) = i=1 P(Ai ).
Nota 3.17 (Alta nota sobre la σ-aditividad). : El teorema de σ-aditividad es
intercambiable por el axioma 4 de continuidad. Se puede pensar como una ex-
tensión del axioma 2 de aditividad, ahora podemos unir una cantidad infinita
numerable de eventos disjuntos, y su probabilidad será la serie de las probabi-
lidades de cada evento.
Demostración (las que faltan a cargo del alumno, están todas en Grynberg
[1], Espacios de probabilidad )
1. 1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ) pasar restando y se demuestra
el teorema (notar que la unión de A y Ac es unión disjunta, por eso vale
sumar las probabilidades). 
2. El vacı́o es complemento de Ω, aplicar inciso el anterior y listo 
3. Alumnos: Por inducción extender el axioma V.
4. (Hacer gráficos de Venn, se entiende mucho mejor para seguir el desarro-
llo.) Como A ⊂ B se cumple

A=A∩B

Además
B =A∪B\A
y la unión es disjunta. Aplicando el axioma de aditividad:

P(B) = P(A ∪ (B \ A)) = P(A) + P(B \ A) 

12
5. Podemos expresar la unión de A y B como la unión disjunta:

A ∪ B = A ∪ (B \ (A ∩ B))

luego aplicando axiomas y el teorema anterior (notar que (A ∩ B) ⊂ B):

P(A ∪ B) = P(A) + P(B) − P(A ∩ B) 

6. Alumnos: Por inducción del anterior, notar que A ∪ B ∪ C = (A ∪ B) ∪ C.


7. Ver Grynberg [1] Espacios de probabilidad Teorema 1.8. Ver Grimmet [5]
subtı́tulo 1.3 lemma 5.
8. Ver Grynberg [1] Espacios de probabilidad Teorema 1.8. Ver Grimmet [5]
subtı́tulo 1.3 lemma 5.
S
9. Definimos la sucesión Rn := m>n Am , n ≥T1. La sucesión es decreciente

(evidente por construcción R1 ⊃ R2 . . .) y n=1 Rn = ∅ (pues los Ai son
disjuntos dos a dos), por lo que se puede aplicar el último axioma:

lı́m P(Rn ) = 0
n→∞

Dividimos la unión infinita en dos conjuntos disjuntos y aplicamos el teo-


rema de aditividad:

! n
[ X
P Ai = P(Ai ) + P(Rn )
i=1 i=1

Tomando lı́mite n → ∞ se anula el segundo término y queda la serie. 

3.5. Espacios discretos


3.5.1. Espacios discretos (finitos o numerables)

P (Función de probabilidad puntual). Sea p una función Ω →


Definición 3.18
[0, 1] tal que ω∈Ω p(ω) = 1 diremos que p es una función de probabilidad
puntual (o función de probabilidad de masa, o fpp, o pmf en inglés).
Teorema 3.19 (Construcción de espacios de probabilidad discretos). Todos los
espacios de probabilidad discretos (finitos o numerables) los podemos construir
sobre una función de probabilidad puntual p de la siguiente manera:
X
P(A) = p(ω) ∀A ∈ A
ω∈Ω

Demostración.PPara un lado es muy sencilla, basta con probar que que la defini-
ción P(A) := ω∈A p(ω) cumple con los 4 axiomas. Para el otro lado (justificar
el Todos que encabeza el enunciado) no se dará demostración, creo que la da
Grynberg en sus materias de posgrado como un teorema de extensión.
Nota 3.20 (Sobre la función de probabilidad puntual). A la hora de generar un
modelo, construir una función que vaya de la σ-álgebra al [0, 1] y satisfaga los
axiomas no es sencillo. Pero cuando el espacio muestral tiene una cantidad de
elementos finita (o infinita numerable), la tarea se simplifica a asignarle un peso

13
(o masa) a los eventos elementales de Ω mediante la función de probabilidad
puntual p. Simplemente debemos tener cuidado que la suma total cierre a 1.
Luego a cualquier evento A ∈ A se le asigna como probabilidad la suma de las
probabilidades puntuales de sus elementos. Lo podemos interpretar fı́sicamente:
la masa de un cuerpo (evento A) es la suma de la masa de sus átomos (eventos
elementales ω)
Notar la diferencia importante entre la función de probabilidad puntual (p
minúscula) y la medida de probabilidad (P mayúscula): p se aplica a elementos
ω de Ω; P aplica a eventos A de la σ-álgebra A.
Ejemplo 3.21 (Lanzamiento de una moneda). Lanzamos una moneda una vez,
llamamos A: salió cara, E: salió ceca, tenemos Ω = {A, E}, A = {∅, {A}, {E}, Ω}.
Como A y E son complementarios, podemos asignar
p(A) = r p(E) = 1 − r 0≤r≤1
Luego, sumando las probabilidades puntuales
P({A}) = r P({E}) = 1 − r P(∅) = 0 P(Ω) = 1
obtenemos la medida de probabilidad.
Ejemplo 3.22 (Lanzamiento de un dado cargado). Lanzamos un dado una vez,
llamamos ωi : salió el número i. Se define la función de probabilidad puntual
sobre los eventos elementales: p(ωi ) = i/21. Calcular:
(a) Probabilidad de obtener un as
(b) Probabilidad de que el resultado sea par
(c) Probabilidad de que el resultado sea mayor o igual a 5
Solución Nombremos los eventos, A: salió un as, B: el resultado es par, C: el
resultado es mayor o igual a 5. Tendremos
P(A) = P({ω1 }) = p(ω1 ) = 1/21
P(B) = P({ω2 } ∪ {ω4 } ∪ {ω6 }) = 2/21 + 4/21 + 6/21 = 12/21
P(C) = P({ω5 } ∪ {ω6 }) = 5/21 + 6/21 = 11/21

3.5.2. Equiprobabilidad - Fórmula de Laplace


Definición 3.23 (Fórmula de Laplace). Una forma muy sencilla de asignar la
función de probabilidad puntual en espacios finitos es usando el mismo valor
para todos los eventos elementales, esto es
p(ω) = 1/|Ω| ∀ω ∈ Ω
luego, la medida de probabilidad para un evento será
P(A) = |A|/|Ω| ∀A ∈ A
Esta forma de asignar probabilidades se conoce como eventos equiprobables,
fórmula de Laplace, o distribución uniforme en espacio finito. Modela bien juegos
de azar (dados, ruleta, cargas, etc.), se aplica también a fı́sica de partı́culas
(mecánica estadı́stica).

14
Ejemplo 3.24 (Lanzamiento de dos dados equilibrados). Se lanzan dos dados
y se registra el resultado en un vector Ω = {ω : ω = (i, j), i, j = 1 . . . 6} (anoto
primero el dado A y luego el dado B), se asigna a todos los resultados la misma
probabilidad. Calcular
(a) La probabilidad de obtener doble 6
(b) La probabilidad de que ambos dados den el mismo número
(c) La probabilidad de que la suma de los dados sea 7

Solución Completar el ejemplo.


Ejemplo 3.25 (Lanzamiento de dos dados extraños). Se lanzan dos dados y
se registra el resultado en un vector Ω = {ω : ω = (i, j), i ≤ j, i, j = 1 . . . 6}
(anoto siempre primero el menor resultado), se asigna a todos los resultados la
misma probabilidad. Calcular
(a) La probabilidad de obtener doble 6
(b) La probabilidad de que ambos dados den el mismo número
(c) La probabilidad de que la suma de los dados sea 7

Solución Completar el ejemplo.


Pregunta: si tuviera que modelar (digamos por dinero) el juego de lanzar dos
dados y apostarle a lo que suman, ¿qué modelo elige de los dos presentados?
¿por qué?

3.5.3. Espacios numerables


Ejemplo 3.26 (Lanzamientos de moneda hasta primera cara). Lanzaremos una
moneda hasta obtener la primera cara. Asignamos la probabilidad (1−r)n−1 r al
evento el experimento duró exactamente n lanzamientos, donde 0 < r < 1, n ≥ 1
(aceptemos que la asignación es correcta y define un espacio de probabilidad).
(a) ¿Cuál es la probabilidad de que el experimento dure una cantidad par de
lanzamientos?
(b) ¿Cuál es la probabilidad de que el experimento se prolongue infinitamente?
Solución: Llamando A a cara y E a ceca, podemos describir nuestro espacio
muestral como:

Ω = {A, EA, EEA, EEEA, EEEEA, . . .} ∪ {E ∞ }

Ω = {ω : ω = E n−1 A, n ≥ 1} ∪ {E ∞ }
Usamos la notación de potencia para describir que la letra E se repite tantas
veces. Tenemos por consigna P({E n−1 A}) = p(E n−1 A) = (1 − r)n−1 r. Para
escribir menos usaremos q = 1 − r, calculemos para entender un poco el modelo
la probabilidad de sacar cara en el primer lanzamiento:

P({A}) = p(A) = r

15
es decir, con este modelo la probabilidad de ver cara en el primer lanzamiento es
r. Sigamos resolviendo el ejercicio, sea P : la cantidad de lanzamientos fue par,
tenemos P = {EA, EEEA, EEEEEA, . . .}, con nuestra notación de potencias
se escribe de forma compacta:

!
[
2i+1
P(P ) = P E A
i=0

como los eventos son disjuntos, sacamos la unión infinita para afuera como serie
y seguimos...
∞ ∞
X X i r(1 − r)
··· = (1 − r)2i+1 r = r(1 − r) (1 − r)2 =
i=0 i=0
1 − (1 − r)2

y ya conseguimos la respuesta a la parte (a). Si tomamos por ejemplo r = 0.5,


el resultado es algo curioso:
0.5 · 0.5 1
P(P ) = 2
=
1 − 0.5 3
Sigamos con el ejercicio. Definimos Bi : el experimento duró más de i lanza-
mientos.
 
[i Xi Xi
P(Bi ) = 1−P(Bic ) = 1−P  {E j−1 A} = 1− P {E j−1 A} = 1− (1−r)j−1 r

j=1 j=1 j=1
T∞
Definimos B: el experimento se prolonga infinitamente. Tenemos B = i=1 Bi ,
y además la sucesión es decreciente B1 ⊃ B2 ⊃ . . .. Entonces

X
P(B) = lı́m P(Bi ) = 1 − (1 − r)j−1 r = · · · = 0
i→∞
j=1
.

3.6. Introducción a espacios continuos


Definición 3.27 (Números random –INFORMAL–). Sean Ω = [0, 1); por la
σ-álgebra no nos preocuparemos por ahora, digamos que serán todos los sub-
conjuntos agradables en [0, 1). Diremos que tomamos un número al azar en el
intervalo (o número aleatorio o número random o simplemente un random) si
la probabilidad asignada a un intervalo incluido en [0, 1) es su longitud, esto es
P ([a, b)) = b − a para todo 0 ≤ a < b < 1, y la probabilidad de uniones de
segmentos disjuntos se extiende de acuerdo a los axiomas.
Para una construcción formal ver Grynberg [1] Probabilidad condicional...
subtı́tulo 4.1. A estos números se los llama números random o números unifor-
mes sobre el intervalo [0, 1).
Nota 3.28 (Sobre los subconjuntos agradables). Es una definición sacada de
Grimmet [5], ejemplo 2.3.4, we can suppose that F contains all nice subsets of
Ω.... Si se quiere ser un poco más formal diremos que la σ-álgebra son todos
los medibles en [0, 1), que incluye a todos los intervalos [a, b) ⊂ Ω, las uniones,
intersecciones y complementos de esos intervalos (admitiendo bordes abiertos
o cerrados). Al conjunto de medibles también se lo llama Borelianos y se lo
denota β(Ω).

16
Ejemplo 3.29. Tomamos un número uniforme, calcular:
(a) La probabilidad de que el número 9 sea la primera cifra decimal del número

(b) La probabilidad de que en las primeras n cifras decimales (después de la


coma) aparezca el 9 al menos una vez
(c) La probabilidad de que en todo el desarrollo decimal del número no aparezca
el 9

Solución Completar el ejemplo.

Definición 3.30 (Punto al azar en una región –INFORMAL–). Sean Ω ⊂ Rn


una región con área finita y positiva. Construimos el espacio de probabilidad a
partir del espacio muestral Ω; la sigma-álgebra A serán todos los subconjuntos
agradables de Ω (los medibles β(Ω)), y la probabilidad para un evento A ∈ A
será su área relativa, esto es
|A|
P(A) :=
|Λ|
(donde | · | hace referencia a la norma euclideana).

17
4. Independencia y probabilidad condicional
4.1. Independencia estocástica
Definición 4.1 (Independencia estocástica). Una familia de eventos {Ai : i ∈
I} se dice independiente si se cumple
!
\ Y
P Ai = P(Ai )
i∈J i∈J

para todos los subconjuntos finitos J ⊂ I (son 2n − n − 1 ecuaciones que se


deben verificar).
En lugar de hablar de familia de eventos independiente habitualmente dire-
mos eventos independientes por simplicidad.
Ejemplo 4.2 (Independencia de 2 eventos). La familia {A, B} se dice indepen-
diente si y solo si:
P(A ∩ B) = P(A)P(B)
diremos habitualmente: A y B son independientes.
Ejemplo 4.3 (Independencia de 3 eventos). Tres eventos A, B y C son inde-
pendientes si y solo si se cumplen simultáneamente las siguientes 4 ecuaciones:
P(A ∩ B) = P(A)P(B)
P(B ∩ C) = P(B)P(C)
P(C ∩ A) = P(C)P(A)
P(A ∩ B ∩ C) = P(A)P(B)P(C)
Ejemplo 4.4 (Independencia de 4 eventos). Cuatro eventos son independientes
si y solo si simultáneamente: se factorizan las intersecciones de a 2 (6 ecuaciones),
las intersecciones de a 3 (4 ecuaciones), y la intersección de los 4 (1 ecuación).
En total se deben verificar 11 ecuaciones.
Ejemplo 4.5 (Ejercicio). Sea Ω = {dbc, dcb, cdb, cbd, bcd, bdc, ddd, bbb, ccc}, los
eventos son equiprobales (espacio de Laplace, vale que p(ω) = 1/9 y P(A) =
|A|/9). Sean los eventos Dk : la k-ésima letra es una d. Demostrar que la familia
{D1 , D2 , D3 } no es independiente, aunque los eventos sı́ son independientes
tomados de a pares. (Ejercicio tomado de Grimmet [5] ejemplo 1.5.2)
Teorema 4.6 (Independencia y complementos). Dos eventos: sean A, B even-
tos independientes, vale que: A, B c son independientes, Ac , B son independientes
y Ac , B c son independientes.
Tres eventos: Sean A, B, C eventos independientes, vale que: A, B, C c son
independientes, A, B c , C son independientes, A, B c , C c son independientes... y
ası́ (en total la independencia dada como hipótesis implica otras 7)
*Generalización: (lo que sigue no necesita leerlo si entendió bien los casos
anteriores, es más fácil imaginar como se extiende más eventos que formalizarlo
- en clase no se da) Sea A una familia de eventos {Ai : i ∈ I} independiente.
Sea B una familia de eventos {Bi : i ∈ I, Bi = Ai Y Bi = Aci ∀i ∈ I}, i.e.
B se construye a partir de tomar los eventos de A y complementar algunos de
ellos (o ninguno o todos). Entonces B es una familia independiente. (Ver [6], ej.
1.11.17)

18
Demostración. (tampoco aporta mucho S a fines del curso la demostración, no se
dará en clase) Tomemos C = {Acj (∪i∈I, i6=j Ai )}, i.e. la familia A tomando
complemento en uno solo de ellos. Para demostrar que C es independiente bas-
tará con verificar, de las 2n − n − 1 ecuaciones aquellas donde aparezca el evento
que cambiamos Acj . Notar que
 \ 
(Aj ∪ Acj ) (∩i6=j,i∈K Ai ) = (∩i6=j,i∈K Ai ) ∀K ⊂ I

donde la unión Aj ∪ Acj es disjunta. Tomando probabilidades y distribuyendo


la intersección con la unión, aplicando el axioma de unión disjunta y pasando
términos llegamos a:
 \   \ 
P Acj (∩i6=j,i∈K Ai ) = P (∩i6=j,i∈K Ai ) − P Aj (∩i6=j,i∈K Ai )

a la derecha del igual quedan intersecciones de elementos de A, que es indepen-


diente:
 \  Y Y
P Acj (∩i6=j,i∈K Ai ) = P(Ai ) − P(Aj ) P(Ai )
i6=j,i∈K i6=j,i∈K

tomando factor común...


 \  Y Y
P Acj (∩i6=j,i∈K Ai ) = (1 − P(Aj )) P(Ai ) = P(Acj ) P(Ai )
i6=j,i∈K i6=j,i∈K

como esto vale para todo K ⊂ I demostramos que C es una familia independien-
te. Si ahora tomamos como punto de partida a C, complementamos uno de sus
eventos y tenemos una nueva familia independiente, y ası́ complementando de a
uno cuantas veces sea necesario seguiremos obteniendo familias independientes
de eventos.
Ejemplo 4.7 (Independencia y complementos). Sean A, B ∈ A eventos, son
equivalentes:
A, B independientes
A, B c independientes
Ac , B independientes
Ac , B c independientes
Ejercicio: demostrar alguna de las equivalencias.
Teorema 4.8 (Independencia de eventos triviales). Sea A ∈ A un evento tal
que o bien P(A) = 0 o bien P(A) = 1, entonces {A, B} es familia independiente
para todo evento B ∈ A. Ver Grimmet [5] ej. 1.8.7.

4.2. Probabilidad condicional


Definición 4.9 (Probabilidad condicional). Sea A ∈ A tal que P(A) > 0, se
define para cada B ∈ A:
P(B ∩ A)
P(B|A) :=
P(A)
El valor definido recién se llama probabilidad condicional de B dado A, o más
abreviado probabilidad de B dado A, o también probabilidad de B sabiendo A

19
Teorema 4.10 (Probabilidad condicional es probabilidad). Sea A ∈ A con
P(A) > 0, definimos Q(B) := P(B|A) para todo B ∈ A, vale que Q es una
medida de probabilidad sobre A y (Ω, A, Q) es un espacio de probabilidad.
Demostración. Verificar que Q cumple los 4 axiomas.
Ejemplo 4.11 (Aplicación). El hecho de que la probabilidad condicional sea
una probabilidad nos permite usar todo lo que sabemos de probabilidades. Por
ejemplo, si P(B|A) = 0.7, podemos inmediatamente calcular la probabilidad de
su complemento:
P(B|A) = 0.7 → P(B c |A) = 0.3
Ojo,
P(B|A) = 0.7 → P(B|Ac ) = ni idea
Ejemplo 4.12. Se lanza nuestro dado cargado y se observa que el resultado es
mayor o igual que 4, ¿cuál es la probabilidad de que sea par?
Solución: Sean:
A: el resultado es mayor o igual que 4, A = {4, 5, 6}
B: el resultado es par, B = {2, 4, 6}
calculamos lo pedido
P(B ∩ A) P({4, 6}) (4 + 6)/21 2
P(B|A) = = = =
P(A) P({4, 5, 6}) (4 + 5 + 6)/21 3
Ejemplo 4.13. Se lanza un dado equilibrado y se observa que el resultado es
mayor o igual que 4, ¿cuál es la probabilidad de que sea par?
Solución Sean
A: el resultado es mayor o igual que 4, A = {4, 5, 6}
B: el resultado es par, B = {2, 4, 6}
calculamos lo pedido
P(B ∩ A) P({4, 6}) 2/6 2
P(B|A) = = = =
P(A) P({4, 5, 6}) 3/6 3
NOTA El resultado es el mismo de casualidad... ¿o no?
Teorema 4.14 (Regla del producto). Suponiendo que todos los eventos condi-
cionales tienen probabilidad positiva, tenemos que:
n−1
P(∩ni=1 Ai ) = P(A1 )P(A2 |A1)P(A3 |A1 ∩A2 )P(A4 |A1 ∩A2 ∩A3 ) · · · P(An |∩i=1 Ai )

Ejemplo 4.15 (Uno de bolas). Una urna contiene r bolas rojas y n bolas negras
(con n ≥ 3), se extraen sin reposición 3 bolas, ¿cuál es la probabilidad de que
las 3 sean negras?
Solución Sea Ni : la bola i es negra, aplicando la regla del producto
n n−1 n−2
P(N1 ∩ N2 ∩ N3 ) = · · · = · ·
n+r n−1+r n−2+r
Ejemplo 4.16 (Uno de cartas). Jugando al truco ¿cuál es la probabilidad de
que me repartan primero el as de espadas, luego el 7 de espadas y por último
otra carta de espadas (en ese orden)?
Solución
1 1 8
P(A ∩ B ∩ C) = · · · = · ·
40 39 38

20
Teorema 4.17 (Condicional de condicional). –Lo doy por si acaso, no sé si se
usa– Sea A ∈ A un evento con P(A) > 0, sea Q(X) = P (X|A) para todo evento
X ∈ A. Sea B ∈ A es tal que Q(B) > 0, vale que:

Q(X|B) = P(X|A ∩ B)

Ver [5] ej. 1.8.9.


Demostración.
Q(X ∩ B) P(X ∩ B|A) P(X ∩ B ∩ A)/P(A)
Q(X|B) = = = = P(X|A ∩ B)
Q(B) P(B|A) P(B ∩ A)/P(A)

4.3. Probabilidad total, Bayes


Teorema 4.18 (Fórmula de probabilidad total). S Sean los eventos A1 , A2 , . . .
una partición de Ω, esto es Ai ∩ Aj = ∅ ∀i 6= j y i≥1 Ai = Ω. Para todo evento
B ∈ A se cumple: X
P(B) = P(B|Ai )P(Ai )
i≥1

Demostración. Ver Grynberg [1], Probabilidad condicional...,


S subtı́tulo 1.2. El
procedimiento es sencillo, escribir B = B ∩ Ω = B ∩ ( i≥1 Ai ), calcular la pro-
babilidad aplicando aditividad y reemplazar las intersecciones por condicionales
X X
P(B) = · · · = P(B ∩ Ai ) = P(B|Ai )P(Ai )
i≥1 i≥1

Nota 4.19 (Sobre la fórmula de probabilidad total). Algunas consideraciones:


Para aplicar el teorema necesitamos P(Ai ) ≥ 0. Sin embargo, podemos
generalizar el teorema sin perder validez con la siguiente tramolla: en caso
de P(Ai ) = 0 tachar el término P(B|Ai )P(Ai ) de la sumatoria y listo.
Una partición tı́pica es Ω = A ∪ Ac . La usaremos muy a menudo, dando
por resultado P(B) = P(B|A)P(A) + P(B|Ac )P(Ac )
Abreviaremos en clase la fórmula de probabilidades totales con la sigla
FPT, ya sin riesgo de confundirnos con Fútbol para Todos.
Teorema 4.20 (Regla de Bayes).
S . Sean los eventos A1 , A2 , . . . una partición de
Ω, i.e. Ai ∩ Aj = ∅ ∀i 6= j y i≥1 Ai = Ω. Sea el evento B ∈ A con probabilidad
positiva, se cumple:

P(B|An )P(An ) P(B|An )P(An )


P(An |B) = =P
P(B) i≥1 P(B|Ai )P(Ai )

En su forma más sencilla:


P(B|A)P(A) P(B|A)P(A)
P(A|B) = =
P(B) P(B|A)P(A) + P(B|Ac )P(Ac )

21
Demostración. Inmediata, aplicar fórmula de probabilidad total y acomodar los
términos. Ver Grynberg [1], Probabilidad condicional..., subtı́tulo 1.3.

Ejemplo 4.21 (Malintencionado). Los alumnos antes de presentarse al parcial


hacen completa la guı́a con probabilidad 0.4. Los alumnos que hicieron la guı́a
aprueban el parcial con probabilidad 0.9 y aquellos que no la hicieron lo hacen
con probabilidad 0.03. ¿Cuál es la probabilidad de que un alumno tomado al
azar apruebe el parcial? ¿Si un alumno tomado al azar no aprobó el parcial,
cuál es la probabilidad de que haya hecho la guı́a?
Solución Sean:
A : el alumno aprueba el parcial
G : el alumno hizo la guı́a
Datos: P(G) = 0.4, P(A|G) = 0.9, P(A|Gc ) = 0.03
Inmediato: P(Gc ) = 0.6, , P(Ac |G) = 0.1, P(Ac |Gc ) = 0.97

P(A) = P(A|G)P(G) + P(A|Gc )P(Gc ) = 0.9 · 0.4 + 0.03 · 0.6


P(Ac |G)P(G) 0.1 · 0.4
P(G|Ac ) = =
P(Ac ) 1 − P(A)
Ejemplo 4.22 (Falsos positivos). Una enfermedad afecta a 1/100000 personas.
Se tiene un test que diagnostica como positivo a los enfermos con probabilidad
0.99, pero también diagnostica como positivo a los sanos con probabilidad 0.02.
Toma una persona al azar, le hace el test y da positivo, ¿cuál es la probabilidad
de que esté enfermo?
Solución Sean D+ : diagnóstico positivo, E: enfermo, se tiene

P(D+ |E)P(E)
P(E|D+ ) = =
P(P (D+ |E)P(E) + P(D+ |E c )P(E c )

0.99 · 1/100000
= ' 0.005
0.99 · 1/100000 + 0.02 · 99999/100000
Este ejemplo es habitual en libros de la materia y libros de difusión cientı́fica.
Muestra que algo que uno supondrı́a como muy eficiente (un test con 99 % de
precisión y solo 2 % de falsos positivos) si se aplica al voleo puede llevar a
conclusiones erróneas. Por eso en algunos casos es necesario tener en cuenta
otras evidencias o realizar más pruebas.

4.4. Independencia condicional


Definición 4.23 (Independencia condicional). Sea C ∈ A un evento tal que
P(C) > 0. A la probabilidad condicional P(·|C) le corresponde la idea de inde-
pendencia condicional, diremos A, B independientes condicionalmente dado C
sii:
P(A ∩ B|C) = P(A|C)P(B|C)
el concepto se extiende naturalmente a una familia de más eventos.
Nota 4.24 (Importante:). En general, la independencia condicional dado C de
A y B no implica ni es implicada por la independencia de A y B (ver Grimmet
[5] ejercicio 1.5.5)

22
5. Bonustrack: Análisis combinatorio
5.1. Generalidades
En espacios finitos con equiprobabilidad (Laplace) calcular la probabilidad
de un evento se reduce a saber contar, P(A) = |A|/|Ω| o coloquialmente casos
favorables / casos totales. Este tipo de problemas es muy común en juegos de
azar, pero se aplicó también a áreas de la fı́sica como la “mecánica estadı́stica”.
Aunque no sea estrictamente un tema de teorı́a de probabilidad, veremos algunas
técnicas para logar simplicity and economy of thought [3] a la hora de contar la
cantidad de elementos de un conjunto.
La mayorı́a de este capı́tulo lo encuentra con más detalle y más ejemplos en
[1], Espacios de Probabilidad, Elementos de Análisis Combinatorio capı́tulos 3
y 4. También en [3] capı́tulos II.5 y IV.2 hay muchı́simos teoremas y ejemplos
de mecánica estadı́stica (esta clase de problemas la llama occupancy problem)
que exceden el alcance del curso.
Teorema 5.1 (Regla del producto). Sean A1 , A2 , . . . An conjuntos finitos, el
producto cartesiano (cuyos elementos son vectores) de ellos tiene cardinal el
producto de cardinales:

|A1 × A2 × · · · An | = |A1 | · |A2 | · · · |An |

Demostración. Hacer una tabla con los elementos (α, β) ∈ A1 × A2 , la canti-


dad de elementos de la tabla es inmediatamente |A1 | · |A2 |. Luego seguir por
inducción.

Teorema 5.2 (Muestras ordenadas). . Para una población de n elementos dis-


tintos (cifras, letras), y un tamaño de muestra r fijado, la cantidad de muestras
ordenadas (vectores, palabras) distintas que se pueden formar es:
nr si se toma la muestra con reposición
n!
(n)r = n(n−1) · · · (n−r+1) = (n−r)! si se toma la muestra sin reposición

Teorema 5.3 (Ordenamientos completos). Para una población de n elementos


distintos (cifras, letras), la cantidad de ordenamientos distintos (obviamente sin
reposición) usando toda la población es:

n(n − 1) · · · 2 · 1 = n!

Es simplemente un caso particular del teorema anterior sin reposición, n! = (n)n .


Se lista como un teorema a parte porque se usará muy seguido.
Teorema 5.4 (Subploblaciones o subconjuntos). De una población (conjunto)
de n elementos distintos, la cantidad de subpoblaciones (subconjuntos) distintas
(conjuntos no ordenados) de tamaño r ≤ n que se puede extraer es:
 
n n!
=
r r!(n − r)!
.

23
Ejemplo 5.5. ¿Cuántas palabras se pueden formar con las letras a, a, a, a, b,
b, b? Respuesta: De los 7 lugares para poner letras debo elegir 4 de ellos donde
colocar las letras a, una vez hecho eso el resto
 de los lugares lo lleno con b. La
cantidad de palabras que puedo formar es 74 = 35
Ejemplo 5.6. En un pequeño paı́s viven 100 personas y deben elegir 11 dipu-
tados, ¿de cuántas formas disintas pueden hacerlo? Respuesta: Debemos elegir
una subpoblación de 11 de los 100 sin importar en qué orden los elijo, se puede
hacer de 100

11 = 141629804643600 formas distintas.

Teorema 5.7 (Particiones o anagramas). Se tiene un conjunto de n elementos


(alfabeto) que se pueden clasificar en k clases distintas (letras distintas). Sean
r1 . . . rk la cantidad de elementos de cada clase respectivamente, tales que r1 +
. . . + rk = n. El número de formas distintas en que dicha población se puede
ordenar (anagramas) es:
 
n n!
=
r1 r2 . . . rk r1 !r2 ! . . . rk !

Ejemplo 5.8. ¿Cuántas palabras se pueden formar con las letras a, a, a, a, b,


8!
b, b, c? Respuesta: 4!3!1! = 280
Ejemplo 5.9. ¿Cuántos anagramas de banana (incluyendo banana) puede for-
6! 7!
mar? ¿y de pomposo? Respuesta: 1!3!2! = 60 para banana; 2!3!1!1! = 420 para
pomposo.
Ejemplo 5.10. En un pequeño paı́s viven 100 personas y deben elegir un presi-
dente, 11 diputados y 3 senadores, ¿de cuántas formas disintas pueden hacerlo?
Respuesta: Considerando que quedan 100 − 1 − 11 − 3 = 85 personas que no
ocuparán cargos públicos, el total de formas en que se pueden cubrir los cargos
100!
es 1!11!3!85! ' 1.38 · 1021 .

5.2. Mecánica estadı́stica


Daremos dos formas de asignar probabilidades al problema de distribuir bo-
las en urnas (y nombraremos una tercera que escapa al contenido del curso).
Ambos modelos son matemáticamente correctos, y la elección de uno u otro
dependerá de la fı́sica del problema y la contrastación con resultados experi-
mentales. Debe quedar claro que cuando se habla de partı́culas distinguibles o
indistinguibles no nos importa si las partı́culas realmente son iguales (o si las
personas son o no gemelos, las aceitunas todas de igual forma y tamaño o no,
las bolas de billar del mismo o de distinto número, etc.) sino la mecánica con la
que se ubican en las urnas. En [3] capı́tulo II.5 se encuentra una nota indicando
en qué casos de la fı́sica de partı́culas se aplica cada modelo.
Aclaración: Se habla de estadı́stica en el sentido que le dan los fı́sicos, hace
referencia a las leyes con que se distribuyen las bolas en las urnas.

5.2.1. Estadı́stica de Maxwell-Boltzmann


Se distribuyen r bolas (partı́culas) en n urnas (celdas) numeradas. Se impone
la hipótesis: las bolas son distinguibles y todas las configuraciones distintas son
equiprobables. La forma más sencilla de modelar cada posible evento elemental

24
es escribiendo un vector: ω = (x1 , x2 . . . xr ), donde xi representa el número de
urna en la que se ubica la bola i. Como cada bola puede estar en cualquiera de
las n urnas, las configuraciones posibles son |Ω| = nr . La probabilidad de cada
evento elemental será P ({ω}) = 1/nr .

5.2.2. Estadı́stica de Bose-Einstein


Se distribuyen r bolas (partı́culas) en n urnas (celdas) numeradas. Se impone
la hipótesis: las bolas son indistinguibles y todas las configuraciones distintas son
equiprobables. La forma más sencilla de modelar cada posible evento elemental
es escribiendo una cadena binaria donde el asterisco ∗ representa una bola y la
barra | representa un cambio de urna, por ejemplo si tiramos 3 bolas en 5 urnas,
y las tres bolas caen en la primera urna, escribimos ωi = ∗ ∗ ∗||||, pero si caen
1 bola en la segunda y 2 en la cuarta escribiremos ωj = | ∗ || ∗ ∗|. La cadena
quedará formada por r asteriscos ∗ y n − 1 barras |. Las configuraciones posibles
son todas las cadenas que podemos formar, |Ω| = r+n−1

r . La probabilidad de
r+n−1

cada evento elemental será P({ω}) = 1/ r .

5.2.3. *Estadı́stica de Fermi-Dirac


–no se dará en el curso– Se distribuyen r bolas (partı́culas) en n urnas
(celdas) numeradas, r ≤ n. Se impone la hipótesis: las bolas son indistinguibles,
no puede haber más de una bola por urna, y todas las configuraciones distintas
n

son equiprobables. Las configuraciones posibles son |Ω| = r . La probabilidad
de cada evento elemental será P ({ω}) = 1/ nr .


5.2.4. Modelo equivalente: Maxwell-Boltzmann


Como siempre, se distribuyen r bolas (partı́culas) en n urnas (celdas) nume-
radas. Para el modelo de Maxwell-Boltzmann, la hipótesis las bolas son distin-
guibles y todas las configuraciones distintas son equiprobables es equivalente a
decir cada una de las r bolas elige al azar una de n urnas de forma independiente
al resto de las bolas. De forma abreviada, se suele decir se colocan r bolas al azar
en n urnas. Según [3], sección II.5, ninguna partı́cula conocida se distribuye en
el espacio de acuerdo a este modelo según la experiencia.
Aunque los fı́sicos no le encuentren aplicación en la mecánica estadı́stica,
nos sirve para modelar (con ciertas hipótesis de independencia): r personas que
se suben en PB a un ascensor y eligen al azar entre n pisos donde se bajan, r
personas a las que le impusieron al azar su fecha de cumpleaños entre n = 365
dı́as, r eventos fortuitos que eligen al azar entre los n = 7 dı́as de la semana
cuándo ocurrir (o entre los n = 12 meses del año), etc.

5.2.5. Modelo equivalente: Bose-Einstein


Como siempre, se distribuyen r bolas (partı́culas) en n urnas (celdas) nume-
radas. Para el modelo de Bose-Einstein, la hipótesis las bolas son indistinguibles
y todas las configuraciones distintas son equiprobables no se puede pensar de
forma sencilla desde el punto de vista de lo que cada bola individualmente hace,
porque no hay independencia entre ellas.

25
Podemos imaginar que en este modelo aparecen fuerzas de interacción entre
partı́culas cercanas, cuando llega una nueva bola a un sistema no le da lo mismo
elegir una urna vacı́a que una ya ocupada.
El ejemplo práctico para este modelo es el que nos dan los fı́sicos: partı́culas
de fotones, nuclei, y átomos que contienen una cantidad par de de partı́culas
elementales. Cualquier otro ejemplo que aparezca en la guı́a o evaluaciones será
forzado (para bajarnos del ascensor a la B-E hay que ponerse de acuerdo, para
meter gatos en cajas a la B-E no alcanza con que sea de noche), y debe in-
dicar el enunciado claramente que las cosas se distribuyen con un modelo de
indistinguibles y con todas las configuraciones distintas equiprobables.

5.2.6. Comparación
La siguiente tabla resume los modelos que usamos en el curso, se puede
extender también a Fermi-Dirac.

Modelo Maxwell-Boltzmann Bose-Einstein


Caracterización Partı́culas distinguibles, con- Partı́culas indistinguibles,
figuraciones equiprobables configuraciones equiproba-
bles
Ω {x : x ∈ {1 . . . n}r } {x : x ∈ {∗, |}r+n−1 ∧
P
1 {xi = ∗} = r}
Coloquialmente... Vectores de r coordenadas, Palabras formadas por r aste-
cada una representa en qué riscos ∗ y n − 1 barras |. Cada
urna se coloca la bola corres- ∗ representa una bola, cada |
pondiente representa
 un cambio de urna
r+n−1
|Ω| nr r
Ejemplo r = 4, n = 5 ω = (1, 1, 3, 1) ω = ∗ ∗ ∗|| ∗ ||
Se aplica a Distribución al azar de r co- Fı́sica de ciertas r partı́culas
sas en n lugares, urnas, cate- distribuidas en n celdas del
gorı́as, etc. espacio

5.2.7. Aplicaciones
Ejemplo 5.11 (Cantidad de bolas en una urna especificada). (Ver [1] Espacios
de Probabilidad... cap. 4). Sea Ua,k : hay exactamente k bolas en la urna a (con
0 ≤ k ≤ r). Se tiene para los distintos modelos (se explicó en clase de dónde
salen las fórmulas):
   k  r−k
r 1 1
PM B (Ua,k ) = 1−
k n n
r−k+n−2

n−2
PBE (Ua,k ) = r+n−1

n−1

Si ahora queremos fijar la cantidad de partı́culas en más de una urna espe-


cificada (desarrollo propio, –revisar–):

 k  l  r−k−l
r! 1 1 2
PM B (Ua,k ∩ Ub,l ) = 1−
k!l!(r − k − l)! n n n

26
 k  l  m  r−k−l−m
r! 1 1 1 3
PM B (Ua,k ∩Ub,l ∩Uc,m ) = 1−
k!l!m!(r − k − l − m)! n n n n

r−k−l+n−3

n−3
PBE (Ua,k ∩ Ub,l ) = r+n−1

n−1
r−k−l−m+n−4

n−4
PBE (Ua,k ∩ Ub,l ∩ Uc,m ) = r+n−1

n−1

Si hacemos que n y r tiendan a infinito pero manteniendo λ = r/n, podemos


aproximar:

λk
PM B (Ua,k ) → e−λ
k!
 k
1 1
PBE (Ua,k ) → 1−
1+λ 1+λ
Ejemplo 5.12 (Problema de los cumpleaños). Si queremos saber la probabi-
lidad, en el modelo de M-B, de “C: ninguna urna tiene más de una bola”, lo
calculamos:
(n)r n 1
P(C) = r =
n (n − r)! nr
Si las r bolas son personas y las urnas la fecha de nacimiento, elegida al azar
entre n = 365 (o n = 366) opciones, podemos calcular la probabilidad de que
en un grupo de r personas no haya dos que cumplan el mismo dı́a como:

(365)r 365 1
P(Cr ) = r
=
365 (365 − r)! 365r

Esta probabilidad ya es P(Cr ) < 0.5 para r = 23, del orden de 0.03 para r =
50 y de 0.01 para r = 70. Moraleja: No le apueste a un docente malintencionado
que en un curso no hay dos personas con el mismo cumpleaños porque pierde
seguro.
El modelo es simplemente una aproximación, la hipótesis de elección al azar
no se cumple ya que la cantidad de dı́as en el año no es un número fijo, y la distri-
bución de nacimientos no es del todo uniforme (ver http://www.nytimes.com/
2006/12/19/business/20leonhardt-table.html?_r=2 y http://www.vizwiz.
com/2012/05/how-common-is-your-birthday-find-out.html), estadı́sticas en
estados unidos muestran que se intenta que la gente no nazca en festividades
como navidad y año nuevo, y que hay mayor proporción de concepciones en los
meses más frı́os.
Ejemplo 5.13 (Celdas vacı́as). Si queremos saber la probabilidad de “Vm :
exactamente m celdas quedan vacı́as” en el modelo de Maxwell-Boltzmann lo
calculamos (ver [3] sección IV.2 fórmulas 2.4 y 2.11):
  n−m   r
n X v n−m m+v
PM B (Vm ) = (−1) 1−
m v=0 v n

27
si λ = ne−r/n , se puede aproximar cuando n y r son grandes y con una relación
r/n ni muy grande ni muy chica:

λm
P(Vm ) = e−λ
m!

28
6. Variables aleatorias (unidimensionales)
6.1. Definición de V.A., distribución
Definición 6.1 (Variable aleatoria). Sea (Ω, A, P) un espacio de probabilidad.
Una variable aleatoria (V.A.) sobre Ω es una función X : Ω → R tal que para
todo x ∈ R se cumple:

{X ≤ x} := {ω ∈ Ω : X(ω) ≤ x} ∈ A

i.e. todo evento de la forma {X ≤ x} tiene su correspondiente preimagen en la σ-


álgebra, y entonces tiene asignada una probabilidad dada por P. Esta propiedad
se suele llamar X es A-medible (ver Grimmet, [5] 2.1)
Nota 6.2 (Sobre las variables aleatorias). Si se permite olvidar el tecnicismo
(hincha por cierto) de que X debe ser A-medible, podemos interpretar la variable
aleatoria de dos formas sencillas:
Una simple transformación del resultado de un experimento que está en el
mundo real en un número que está en R. Por ejemplo, si tiro una moneda,
para no anotar Cara o Ceca anoto 1 o 0 según sea el resultado.
Me olvido del experimento en el mundo real y me imagino que el experi-
mento consiste simplemente en sortear un número con alguna regla. Por
ejemplo, le pido al oráculo que me diga 1 o 0
Definición 6.3 (Distribución de una variable aleatoria). Sea X : Ω → Rd
una variable aleatoria en un espacio de probabilidad (Ω, A, P). Llamaremos
distribución e X a la medida µ : β(Rd ) → [0, 1] tal que:

µ(S) := P(X ∈ S) ∀S ∈ Rd

Nota 6.4 (Sobre la Distribución). Debemos interpretar a la distribución de X


como la habilidad de calcular cualquier evento relacionado con X. En general
no vamos a trabajar en el curso como una expresión para µ. Diremos que co-
nocemos la distribución de una variable aleatoria cuando podamos calcular las
probabilidades de eventos de la forma X ∈ S, eso lo haremos con algunas de las
funciones que veremos a continuación.

6.2. Función de distribución


Definición 6.5 (Función de distribución). Sea (Ω, A, P) un espacio de probabi-
lidad, y X una V.A. sobre Ω. La función de distribución (función de distribución
acumulada, Fda, cdf) F (x) de la variable aleatoria X se define:

FX (x) := P(X ≤ x)

Teorema 6.6 (Sobre FX ). Algunas propiedades muy importantes:


Para cualquier variable aleatoria X, la función de distribución FX (x) exis-
te y está definida para todo x ∈ R.
Para la variable X, conocer la función de distribución FX (x) implica co-
nocer perfectamente su distribución.

29
FX (x) tiene las siguientes propiedades esenciales:
(a) es no decreciente, FX (a) ≤ FX (b)
(b) es continua por derecha, ∀a ∈ R FX (a+ ) = lı́mx↓a FX (x) = FX (a)
(c) va de 0 a 1, lı́mx→−∞ FX (x) = 0, lı́mx→+∞ FX (x) = 1
Definición 6.7 (Función de supervivencia). Sea X una V.A. con función de
distribución FX (x). Se define su función de supervivencia (survival function)

SX (x) := 1 − FX (x) = P(X > x)

(simplemente es una nueva definición, en algunas aplicaciones resulta más cómo-


do escribir SX que 1 − FX )
Teorema 6.8 (Cálculo de probabilidades con FX ). Sea FX (x) la función de
distribución de la V.A. X, y sean a, b ∈ R números tales que a ≤ b. Se cumple:
1. P(a < X ≤ b) = FX (b) − FX (a)
2. P(a ≤ X ≤ b) = FX (b) − FX (a) + P(X = a)
3. P(a < X < b) = FX (b) − P(X = b) − FX (a)
4. P(a ≤ X < b) = FX (b) − P(X = b) − FX (a) + P(X = a)
5. P(X > a) = 1 − FX (a) = SX (a)
6. P(X < a) = FX (a− )
7. P(X = a) = FX (a) − FX (a− )
Nota 6.9 (Sobre el cálculo de probabilidades). Del teorema anterior, es funda-
mental entender y saber el primer inciso. El resto son solo algunas vueltas.

6.3. Clasificación, funciones de probabilidad y de densidad


6.3.1. Discretas
Definición 6.10 (Átomos). Sea X una V.A. en un espacio de probabilidad,
diremos que a ∈ R es un átomo (punto pesado) de X si y solo si P(X = a) =
FX (a)−FX (a− ) > 0 (i.e. FX pega un salto en a). Llamaremos At(X) al conjunto
de todos los átomos de X:

At(x) = {a ∈ R : P(X = a) > 0}

Teorema 6.11 (Sobre el número de átomos). La cantidad de átomos de una


variable aleatoria es finita o a lo sumo numerable. Además,
X
P(X = a) ≤ 1
a∈At(X)

Definición 6.12 (V.A. Discreta - Función de probabilidad puntual). Sea X


una V.A. en un e.p., diremos que X es una V.A. Discreta sii:
X
P(X = a) = 1
a∈At(X)

30
i.e. toda la probabilidad se concentra en los átomos. A la función pX : R → [0, 1]
definida por
pX (x) := P(X = x)
la llamaremos función de probabilidad puntal (fpp) de X, o función de proaba-
bilidad de masa (fpm) o probability mass funcion (pmf ).

Teorema 6.13 (Sobre la pX ). Dos cosas a destacar


Si X es una VA discreta, conocer su función de probabilidad puntual pX (x)
implica conocer perfectamente su distribución.
La función de probabilidad puntual pX (x) tiene las siguientes propiedades
esenciales:
(a) pX (x) ∈ [0, 1]
P
(b) x∈At(X) pX (x) = 1

Teorema 6.14 (Saltitos). Si X es una VA discreta, su Fda es constante por


tramos (una escalera).

6.3.2. Continuas
Definición 6.15 (V.A. Continua). Sea X una V.A. en un e.p., diremos que X
es una V.A. continua si y solo si FX (x) es continua en todo R

Definición 6.16 (V.A. Mixta). Sea X una V.A. en un e.p., diremos que X es
una V.A. mixta si y solo si X no es discreta ni continua. Ver ejercicio 2.2 de la
guı́a como ejemplo.
Definición 6.17 (V.A. Absolutamente Continua). Sea X una V.A. en un e.p.,
diremos que X es una V.A. absolutamente continua si y solo si existe f : R → R+
0
medible (integrable) tal que para todo a, b ∈ R tales que −∞ ≤ a < b < +∞
vale que:
Z b
P(a < X ≤ b) = f (x)dx
a

A fX la llamaremos función de densidad (función de densidad de probabilidad,


fdp, pdf) de la variable aleatoria X.
NOTA: Anotaremos fX (x) cuando queramos destacar que se trata de la fdp
de la V.A. X.
Teorema 6.18 (Sobre V.A. absolutamente continua). Si X es una V.A. abso-
lutamente continua vale que:
Rx
1. FX (x) = −∞ fX (t)dt
d
2. dx FX (x) = fX (x) ∀x ∈ R donde fX (x) es continua

3. X es continua (pero existen continuas que no son absolutamente continuas,


e.g. distribuciones de Cantor. No las veremos en el curso)
Teorema 6.19 (Sobre la fX ). Dos cosas a destacar (análogas al caso discreto,
comparar con teorema 6.13)

31
Si una variable es absolutamente continua, conocer su función de densidad
de probabilidad fX (x) implica conocer perfectamente su distribución.

La función de densidad de probabilidad fX (x) tiene las siguientes propie-


dades esenciales:
(a) fX (x) ≥ 0
R +∞
(b) −∞ f (t)dt = 1
Convención 6.20 (Sobre las continuas). En el curso usaremos como sinónimos
continua y absolutamente continua
Ejemplo 6.21 (Varios). Dar en clase ejemplo de dado cargado (discreta) y de
número random (continua). Para mixtas referir al ejercicio 2.2.
Teorema 6.22 (Existencia). Veremos tres teoremas que garantizan la existen-
cia de una V.A. X en un e.p.

1. Sea FX (x) : R → [0, 1] una función con las propiedades esenciales de una
función de distribución (ver 6.6), entonces existe una V.A. X en un tal
que FX es su función de distribución

2. Sea pX (x) : A → [0, 1] (con A ⊂ R discreto o numerable) una función con


las propiedades esenciales de una función de probabilidad puntual (ver
6.13), entonces existe una V.A. discreta X en un tal que pX es su función
de probabilidad puntual
3. Sea fX (x) : R → R+ 0 una función con las propiedades esenciales de una
función de densidad (ver 6.19), entonces existe una V.A. continua X en
un tal que fX es su función de densidad

Demostración. La existencia se demuestra fácilmente construyendo la variable


aleatoria, tomar Ω = R, A = β(R) y P inducida por la medida µ a partir de la
función FX , pX o fX ; luego X(ω) = ω es la variable aleatoria que buscábamos.

Nota 6.23 (Sobre la existencia). Puede considerar al teorema anterior como


algo puramente conceptual, que nos dará tranquilidad de conciencia en lo que
queda del curso cuando hablemos directamente de variables aleatorias sin referir
explı́citamente a un experimento conceptual o a un espacio de probabilidad.
También puede pasarlo impunemente de largo.
Ejemplo 6.24 (Ejemplos). Dar V.A. Pascal (discreta) y V.A. Uniforme, Gam-
ma, Weibull, Normal (continuas). Sse usan al principio de guı́a 2, los alumnos
deben buscarlas en la tabla de distribuciones.

6.4. Intensidad de fallas, Cuantiles


Definición 6.25 (Función intensidad de fallas). Diremos que la V.A. absolu-
tamente continua T tiene función de intensidad de fallas λ(t) sii:
  Z t 
FT (t) = 1 − exp − λ(s)ds 1{t > 0}
0

32
Teorema 6.26 (Sobre la intensidad de fallas). Vale que:
(1) T tiene función de densidad:
 Z t 
fT (t) = λ(t) exp − λ(s)ds 1{t > 0}
0

(2) Si λ(t) = λ entonces T es una V.A. E(λ), con función de densidad:

fT (t) = λ exp (−λt) 1{t > 0}


c−1
(3) Si λ(t) = αc αt (con c y α reales positivos), entonces T es una V.A.
Wei(c, α), con función de densidad:
 c−1   c 
c t t
fT (t) = exp − 1{t > 0}
α α α

Definición 6.27 (a-cuantil). Sea a ∈ (0, 1), X una V.A., definimos un a-cuantil
de X a cualquier número real xa ∈ R tal que:
1. F (xa ) − P(X = xa ) ≤ a

2. a ≤ F (xa )
NOTA: La definición habitual es otra (equivalente), en clase se dará solo la
primera. *Definición equivalente:
1. P(X < xa ) ≤ a

2. a ≤ P (X ≤ xa )
Teorema 6.28 (Existencia). El a-cuantil siempre existe. No necesariamente
es único, puede ser un solo punto o un segmento. Veremos un método para
encontrar uno de los a-cuantil de forma rápida.

Demostración. Ver [1] Variables aleatorias... cap. 1.3.


Teorema 6.29 (Cuantil de continuas). Si X es una V.A. continua, entonces
xa es un a-cuantil sii F (xa ) = a
Ejemplo 6.30 (Nota de la industria). Los materiales estructurales se especi-
fican por su 0.05-cuantil o su 0.10-cuantil, es decir, cuando uno solicita una
determinada resistencia (bajo un ensayo normalizado), hay una probabilidad
baja de que esa resistencia especificada no sea satisfecha por la pieza del mate-
rial.
Definición 6.31 (Mediana, cuartiles...). Se llama mediana de X al 0.5-cuantil
de X.
Se llaman primer, segundo y tercer cuartil a los 0.25-cuantil, 0.50-cuantil y
0.75-cuantil.
Se llaman quintiles los 0.20-cuantil, 0.40-cuantil, · · · 0.80-cuantil.
Se llaman deciles a los 0.10-cuantil, 0.20-cuantil, · · · 0.90-cuantil.

33
6.5. V.A. truncadas
Definición 6.32 (Variable truncada). Sea X una V.A., sea B ⊂ R un me-
dible tal que P(X ∈ B) > 0. Llamaremos “X truncada a B”, “X dado B”,
“X condicionada a B”, etc., a la V.A. X condicionada a tomar valores en B,
formalmente definiremos X|X ∈ B como la V.A. que tiene la siguiente función
de distribución
P(X ∈ B ∩ X ≤ x)
FX|X∈B = P(X ≤ x|X ∈ B) =
P(X ∈ B)

Teorema 6.33 (Cálculo de densidad o probabilidad). Sea X una V.A. discreta


(d) o absolutamente continua (c), y sea B un medible tal que P(X ∈ B) > 0,
vale que:
(d)
pX (x) · 1 {x ∈ B} pX (x) · 1 {x ∈ B}
pX|X∈B (x) = = P
P(X ∈ B) t∈B pX (t)

(c)
fX (x) · 1 {x ∈ B} fX (x) · 1 {x ∈ B}
fX|X∈B (x) = = R
P(X ∈ B) f (t)dt
B X

Teorema 6.34 (F.P.T. para truncadas). Sea X una V.A. discreta (d) o absolu-
tamente continua (c); {Bi ⊂ R, i ≥ 1} medibles disjuntos tal que P(X ∈ Bi ) > 0
y P(X ∈ ∪i≥1 Bi ) = 1 vale que:
(d) X
pX (x) = pX|X∈Bi (x)P(X ∈ Bi )
i≥1

(c) X
fX (x) = fX|X∈Bi (x)P(X ∈ Bi )
i≥1

Ejemplo 6.35 (Ejemplos truncadas). Dar exponencial (ver pérdida de memo-


ria), uniforme, geométrica (ver pérdida de memoria), dado cargado.

34
7. Simulación
7.1. Definiciones y teoremas
Definición 7.1 (Inversa generalizada). Sea F una función de distribución, de-
finimos su inversa generalizada:
F −1 (u) := mı́n{x ∈ R : u ≤ F (x)} u ∈ (0, 1)
INTERPRETACIÓN: Graficar. Si u cae en la parte continua de F , F −1 es la
inversa usual. Si u cae en una meseta de F (infinitas inversas usuales), se toma
como inversa el valor más a la izquierda. Si u cae un salto (ninguna inversa
usual), se debe buscar el escalón que queda arriba y tomar el valor de más a la
izquierda.
Teorema 7.2 (Simulación). Sea U una VA U ∼ U(0, 1) (número random), F
una función que cumple las propiedades esenciales de una función de distribución
(definidas en teorema 6.6), entonces X := F −1 (U ) es una VA cuya función de
distribución es F .
Demostración. Notar que son equivalentes: F −1 (u) ≤ x ⇔ u ≤ F (x) (no es
tan sencillo como parece, recordar que F −1 es la inversa generalizada, hay que
analizar los 3 casos por separado).
Luego
P(X ≤ x) = P(F −1 (U ) ≤ x) = P (U ≤ F (x)) = FU (F (x)) = F (x)

Nota 7.3 (Sobre simulación). La importancia de este teorema está en que los
lenguajes de programación permiten generar números seudo-aleatorios a los que
en general se puede aceptar como números random. A partir de ellos, implemen-
tando un algoritmo que calcule inversas generalizadas podemos obtener valores
simulados de la variable aleatoria que queramos estudiar.
Teorema 7.4 (Transformada F). Sea X una VA absolutamente continua con
Fda FX , se define U := FX (X), entonces U es una VA uniforme U ∼ U(0, 1).
Teorema 7.5 (Algoritmo para transformar VA). Sea X una VA absoluta-
mente continua con función de distribución FX , y sea FY una función que
cumple las propiedades esenciales de una función de distribución. Se define
Y := FY−1 (FX (X)), entonces Y es una VA cuya Fda es FY .

7.2. Números aleatorios


La mayorı́a de los lenguajes de programación traen incorporadas alguna fun-
ción para generar números pseudo-aletaorios, que en la precisión que la máquina
permite se comportan a nuestros fines como los números random ya presentados
en el ejemplo 3.27. Antiguamente, los libros de probabilidad traı́an como anexo
tablas con números seudo aleatorios de determinada precisión. Y si se quiere
números realmente aleatorios hay algunos sistemas que a partir de mediciones
fı́sicas generan mediante filtros y funciones números aleatorios con la precisión
que se desee, por ejemplo los que se ofrecen en www.random.org.
El generador más difundido actualmente es el mezclador de Mersenne (o
Mersenne Twister). Ver:

35
http://octave.sourceforge.net/octave/function/rand.html
http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.set_state.html
https://en.wikipedia.org/wiki/Mersenne_Twister
https://en.wikipedia.org/wiki/Pseudorandom_number_generator
https://en.wikipedia.org/wiki/Linear_congruential_generator
Algoritmo 7.6 (Generador casero). Una forma casera sencilla de generar núme-
ros pseudo-aleatorios es la siguiente. Se necesitan tres enteros a, b y m. Se arran-
ca en un número entero (llamado semilla) 0 ≤ X0 < m, y a partir de allı́ se
obtienen los siguientes números enteros Xi como función del paso anterior. Si
dividimos Xi /m obtendremos un número Ui ∈ [0, 1).
Xi+1 = (a · Xi + b) mód m Ui+1 = Xi+1 /m
se repite tantas veces como sea necesario. El valor Xi puede ir pisando al anterior
para no consumir memoria. La calidad de los números generados depende de
los enteros elegidos, sugerencia: a = 16807 b = 0 m = 231 − 1
Tanto este generador sencillo como los mejores generadores tienen como
problema la periodicidad, después de una cantidad de simulaciones (grande) los
números comienzan a repetirse en exactamente la misma secuencia.
Tener control sobre los randoms (usar siempre la misma secuencia) puede
ser conveniente a la hora de revisar, depurar y optimizar código, ası́ en dife-
rentes corridas si uno no altera la parte estrictamente de simulación obtendrá
exactamente los mismos resultados.

7.3. Simulación de VA discretas


Definir la inversa generalizada para una variable discreta consiste realmente
en ver en cuál de los agujeros “cae” la uniforme y con eso generar la variable
simulada. Mejor que definir una función inversa f_inv(u) es definir sus lı́mites
y luego realizar una búsqueda. La búsqueda puede ser casera o usar funciones
que traiga el lenguaje en el que estemos programando.
Simulemos entonces un experimento sobre Ω = {ω1 , ω2 , . . . , ωm }. Cada even-
to elemental ωi tiene asignada una probabilidad puntual p(ωi ) = pi . Lo que
haremos será partir el intervalo [0, 1) en m intervalos numerados de 1 a m, ca-
da uno con longitud pi ; tomamos un número random U y vemos en cuál de
los intervalos cae, diremos que en nuestra simulación ocurre el evento ωk si U
pertenece al k-ésimo intervalo.
Algoritmo 7.7 (Simulación discreta). Sea U ∼ U(0, 1). Sea X V.A. discreta
que toma valores en {1 . . . m} con probabilidades respectivas p1 , p2 , . . . , pm (que
deben sumar 1). Definimos los lı́mites de los intervalos:
k
X
L0 := 0 Lk := pi
i=1
Pm
(notar que Lm = i=1 pi = 1). Simulamos:
m
X
X := k · 1 {Lk−1 ≤ U < Lk }
k=1

36
Ejemplo 7.8 (Dado cargado). El siguiente algoritmo sirve para simular cual-
quier variable discreta sobre un espacio finito (y con ciertas limitaciones se puede
adaptar a un numerable). Como ejemplo simularemos el problema visto en el
3.22, basta que el usuario modifique los datos Omega y pp para simular otro
problema.
El algoritmo arma el vector con los lı́mites Lk , luego simula y acumula
los resultados en un vector de frecuencias absolutas. Por último, divide por
la cantidad de simulaciones para obtener la frecuencia relativa, y muestra por
pantalla la diferencia entre la probabilidad y la frecuencia relativa.
Se desarrolló en lenguaje Python, usando listas a modo de vectores. No se
usan paquetes para cálculo numérico, ni búsquedas binarias, ni sintaxis espe-
ciales del lenguaje; se espera que el alumno pueda “traducirlo” fácilmente a
cualquier lenguaje que maneje.
Algoritmo 7.9 (Simulación variables discretas). Versión básica

1 #!/usr/bin/env python
2 # -*- coding: utf-8 -*-
3 """
4 Simulacion de variables aleatorias discretas
5 Version sencilla: sin busqueda binaria, sin modulos numericos
6 """
7 #Imports
8 from __future__ import division
9 import random
10

11 #Numero de simulaciones
12 n_sim = int(1e6)
13

14 #Datos - Modificar a gusto


15 Omega = [1, 2, 3, 4, 5, 6]
16 pp = [1./21, 2./21, 3./21, 4./21, 5./21, 6./21]
17

18 #Cardinal de Omega
19 n_Omega = len(Omega)
20

21 #Inicializacion de listas
22 lims = [0] * (n_Omega+1)
23 frec = [0] * n_Omega
24 frel = [0] * n_Omega
25 delta = [0] * n_Omega
26 delta_r = [0] * n_Omega
27 uu = [0] * n_sim
28

29 #Limites de intervalos para simulacion


30 for i in range(n_Omega):
31 lims[i+1] = lims[i] + pp[i]
32 lims[-1] = 1.0 #evita errores de redondeo
33

34 #Uniformes (se podrian leer desde archivo)


35 for i in range(n_sim):
36 uu[i] = random.random()
37

38 #Simulacion y conteo de frecuencia absoluta

37
39 for i in range(n_sim):
40 for j in range(n_Omega):
41 if lims[j] <= uu[i] and uu[i]<lims[j+1]:
42 frec[j] += 1
43

44 #Calculo de frecuencia relativa y diferencia con probabilidad


45 for i in range(n_Omega):
46 frel[i] = frec[i] / n_sim
47 delta[i] = abs(frel[i]-pp[i])
48 delta_r[i] = round(delta[i],6)
49

50 #Salida por pantalla


51 print(’Omega: ’ + str(Omega))
52 print(’Frec.: ’ + str(frec))
53 print(’Frel.: ’ + str(frel))
54 print(’|p-f|: ’ + str(delta_r))

La salida por pantalla que obtenemos en una corrida:

Omega: [1, 2, 3, 4, 5, 6]
Frec.: [48052, 94916, 143122, 190068, 238114, 285728]
Frel.: [0.048052, 0.094916, 0.143122, 0.190068, 0.238114, 0.285728]
|p-f|: [0.000433, 0.000322, 0.000265, 0.000408, 1.9e-05, 1.4e-05]

Notar que con 106 simulaciones obtenemos unas 3 cifras correctas para todas
las probabilidades simuladas.
En el ejemplo vimos simplemente cómo hacer una simulación, y que para n
grande la frecuencia relativa se acercó a la probabilidad, pero no aprendimos
nada nuevo sobre el experimento. Lo más potente del método de simulación es
modelar sistemas complejos y calcular probabilidades que desconocemos.
Algoritmo 7.10 (Espacios equiprobables). Sea X una V.A. discreta que toma
valores en {1 . . . n} de manera equiprobable (ejemplo tı́pico es extracciones con
reposición de un bolillero con n bolillas). Sea U un número random, simulamos:

X := bU · nc + 1

(el sı́mbolo b·c significa redondear hacia abajo).


Ejercicio 7.11 (Jugando al rol con dados cargados). Lance 2 dados cargados
(los que venimos usando) y sume los resultados, luego lance 3 dados equilibrados
y sume los resultados; ¿qué probabilidad hay de que la primera suma sea mayor
a la segunda?
Ejercicio 7.12 (Paradoja de De Mere). Decida qué es más probable: (a) obtener
al menos un as en 4 tiros de un solo dado, (b) obtener al menos un doble as en
24 tiros de dos dados.

7.4. Simulación de VA continuas y mixtas


Usar la F inversa. Hay ejemplos en el campus.

38
8. Funciones para análisis de datos
Definición 8.1 (Función de distribución empı́rica). Sea x = (x1 , x2 . . . xn ) un
vector en Rn . Se define la función de distribución empı́rica asociada al vector x:
n
1X
F dex (t) := 1 {xi ≤ t}
n i=1

Nota 8.2 (Descripción informal). : Arranca en 0, y cada vez que encuentra un


xi pega un saltito de altura 1/n (si encuentra un x repetido m veces el salto es
de altura m/n). Si llamamos a las xi muestras, podemos escribir:
# de muestras ≤ t
F dex (t) :=
# total de muestras
SUGERENCIA: Para construir la F de, ordenar de menor a mayor el vector x
Teorema 8.3 (Fde es Fda). La función de distribución empı́rica asociada a un
vector es una función de distribución.
Definición 8.4 (Función histograma). Sea x = (x1 , x2 . . . xn ) un vector en Rn .
Sean a0 < a1 < . . . < am valores lı́mites para formar intervalos que contengan
a toda la muestra (a0 ≤ xi < am ∀i). Los lı́mites forman los intervalos Ij :=
[aj−1 , aj ) con longitudes Lj := aj − aj−1 . Definimos las frecuencias absolutas
como la cantidad de coordenadas xi que caen en el intervalo:
n
X
fj := 1 {aj−1 ≤ xi < aj }
i=1

luego la función histograma asociada al vector y a los lı́mites:


m
1 X fj
histx,a (t) := 1 {aj−1 ≤ t < aj }
n j=1 Lj

Nota 8.5 (Descripción informal). : La función es constante por tramos, en cada


tramo vale la cantidad de muestras que cayeron en ese intevalo dividido (total
de muestras por ancho de intervalo). Si llamamos a las xi muestras, podemos
escribir:
# muestras que caen en el intervalo que contiene a t
histx,a (t) :=
(# total de muestras) · (longitud del intervalo)
Teorema 8.6 (hist es fdp). La función histograma asociada a un vector y a los
valores lı́mites es una función de densidad (siempre y cuando todas las muestras
caigan dentro de los lı́mites de los intervalos).
Nota 8.7 (Aplicación de fde e hist). Si la muestra x son valores de una V.A. X
tomados de forma independiente (experimentos repetidos en condiciones ideales)
y la muestra es grande, se espera que
F dex (t) ' FX (t)
si además elegimos bien los valores lı́mite ai y X es una V.A. continua, también
se espera para muestra grande
histx,a (t) ' fX (t)

39
Ejemplo 8.8 (Análisis de datos). Se ensaya la duración en años de determinado
componente electrónico, obteniéndose los siguientes resultados:
0.688, 0.801, 0.942, 0.383, 0.825, 0.383, 0.150, 0.091
a Hallar y graficar la función de distribución empı́rica. Estimar a partir de ella
la probabilidad de que un componente dure más de 0.7 años.
b Usando valores lı́mite 0.0, 0.5, 0.8, 1.0, hallar y graficar la función histograma.
Estimar a partir de ella la probabilidad de que un componente dure más de
0.7 años.
Resolución: (a) Lo primero que se recomienda hacer es ordenar el vector de
datos de menor a mayor. Tenemos
x(ord.) = (0.091, 0.150, 0.383, 0.383, 0.688, 0.801, 0.825, 0.942)
Luego armamos la función de distribución empı́rica aplicando la fórmula. Se
puede escribir con llaves o como suma de indicadoras:
1 2
F dex (t) = 1 {0.091 ≤ t < 0.150} + 1 {0.150 ≤ t < 0.383} + · · ·
8 8
4 5
· · · + 1 {0.383 ≤ t < 0.688} + 1 {0.688 ≤ t < 0.801} + . . .
8 8
6 7
· · · + 1 {0.801 ≤ t < 0.825} + 1 {0.825 ≤ t < 0.942} + 1 {0.942 ≤ t}
8 8
Notar que es una escalera que cada vez que aparece una muestra pega un
salto de altura 1/n (si hay valores muestrales que aparecen dos veces pega saltos
dobles).
Para estimar la probabilidad pedida:
3
P(X > 0.7) = 1 − FX (0.7) ' 1 − F dex (0.7) = = 0.375
8
Resolución: (b) Ahora debemos contar cuántos valores fj nos caen en cada
intervalo Ij de longitud Lj . También es más fácil hacer el conteo si tenemos el
vector de las xi ordenado.
I1 = [0.0, 0.5), f1 = 4, L1 = 0.5
I2 = [0.5, 0.8), f2 = 1, L2 = 0.3
I3 = [0.8, 1.0), f3 = 3, L3 = 0.2
Con esos datos construimos la función histograma:
4 1 3
histx,a (t) = 1 {0.0 ≤ t < 0.5}+ 1 {0.5 ≤ t < 0.8}+ 1 {0.8 ≤ t < 1.0}
8 · 0.5 8 · 0.3 8 · 0.2
histx,a (t) = 1.0·1 {0.0 ≤ t < 0.5}+0.41667·1 {0.5 ≤ t < 0.8}+1.875·1 {0.8 ≤ t < 1.0}
Para estimar la probabilidad pedida:

Z ∞ Z 1.0
1 3
P(X > 0.7) = fX (t)dt ' histx,a (t)dt = 0.1 · + 0.2 · ' 0.4167
0.7 0.7 2.4 1.6
Notar que las aproximaciones usando la F de y la función hist no tienen
por qué coincidir. Se supone que para una muestra grande deberı́an dar valores
parecidos.

40
41
9. Variables aleatorias n-dimensionales
Todo lo dado en este capı́tulo es un resumen de [1], Vectores aleatorios. Ahı́
hay más ejemplos y gráficos.

9.1. Definiciones, distribución conjunta


Un vector aleatorio (o variable aleatoria n-dimensional) es una función X :
Ω → Rn a la que, como hicimos en el caso real, le exigimos que todos los
eventos X ≤ x tengan asignada una probabilidad. Es simplemente extender
el concepto de variable aleatoria de la recta al hiper-espacio. Los llamaremos
vectores aleatorios, variables aleatorias n-dimensionales, o simplemente variables
aleatorias. Las V.A. de una dimensión son un caso particular de las V.A. n-
dimensionales, notar que todas las definiciones son consistentes.
Definición 9.1 (Relación de orden de vectores). Sean x, y ∈ Rn vectores, dire-
mos:
x ≤ y ⇔ xi ≤ yi ∀i = 1 . . . n
i.e. x está al sudoeste de y.
Definición 9.2 (Variable aleatoria). Sea (Ω, A, P) un espacio de probabilidad,
X : Ω → Rn una transformación, diremos que X es una variable aleatoria si
cumple {ω ∈ Ω : X(ω) ≤ x} ∈ A ∀x ∈ Rn ; i.e. las antitransformadas de los
eventos de forma X ≤ x vuelven siempre a la sigma-álgebra (análogo al caso
unidimensional, ver definición 6.1).
Definición 9.3 (Función de distribución). Sea X una V.A n-dimensional, de-
finimos su función de distribución:
FX (x) := P(X ≤ x)
Definición 9.4 (Discretas, continuas, mixtas). Clasificaremos también las V.A.
n-dimensionales en 3 tipos
1. Diremos X discreta si existe un conjunto At(X) ∈ Rn finito o numerable
tal que P(X ∈ At(X)) = 1 Llamaremos función de probabilidad conjunta
a:
pX (x) := P(X = x)

2. Diremos X continua si existe una función fX (x) : Rn → R+


0 tal que
Z
P(X ∈ S) = fX (t)dt ∀S ⊂ Rn medible
S

llamaremos función de densidad conjunta a fX (x). NOTA: las integrales


son n-dimensionales.
3. Diremos X mixta si no es continua ni discreta.
Ejemplo 9.5 (Continua bidimensional). Sea (X, Y ) una variable aleatoria con
densidad f(X,Y ) . Calcular la probabilidad de que (X, Y ) pertenezca al rectángulo
R = {0 < x < 2, 0 < y < 3} Respuesta
Z Z Z 3Z 2
P((X, Y ) ∈ R) = f(X,Y ) (x, y)dxdy = f(X,Y ) (x, y)dxdy
R 0 0

42
9.2. Marginales
Las coordenadas Xi de un vector aleatorio X son variables aleatorias 1-
dimensionales, y como tales tendrán su propia distribución. A esas variables
aleatorias, para indicar o destacar que se trata de una coordenada de una varia-
ble n-dimensinal, las llamaremos habitualmente variables aleatorias marginales.
Teorema 9.6 (Marginales, función de distribución). Sea X una V.A. n-dimensional
con función de distribución FX (x), vale que:

FXi (t) = lı́m FX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )


xj →+∞∀j=1...n,j6=i

Teorema 9.7 (Marginales, función de densidad). Sea X una V.A. n-dimensional


discreta (d) o continua (c) con función de probabilidad pX (x) o función de den-
sidad fX (x), vale que:

(d) X
pXi (t) = pX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )
x{1...n}\{i}

(c) Z
fXi (t) = fX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )dx{1...n}\{i}
Rn−1

Ejemplo 9.8 (Caso bidimensional). Sea (X, Y ) una V.A. 2-dimensional dis-
creta (d) o continua (c) con función de probabilidad p(X,Y ) (x, y) o función de
densidad f(X,Y ) (x, y), vale que:

(c y d) Usando abuso de notación para lı́mites

FX (x) = F(X,Y ) (x, +∞)

FY (y) = F(X,Y ) (+∞, y)

(d) X
pX (s) = p(X,Y ) (s, y)
y
X
pY (t) = p(X,Y ) (x, t)
x

(c) Z
fX (s) = f(X,Y ) (s, y)dy
R
Z
fY (t) = f(X,Y ) (x, t)dx
R

43
9.3. Independencia
Definición 9.9 (Independencia de una cantidad finita de V.A.). Dada una
familia de V.A. (Xi : i ∈ I) con |I| = n < ∞ (I es una colección de ı́ndices finita,
tı́picamente 1 . . . n) definidas sobre un mismo espacio de probabilidad (Ω, A, P ).
Diremos que sus V.A. son conjuntamente independientes sii se verifica para todo
x ∈ Rn : !
\ Y
FX (x) = P {Xi ≤ xi } = FXi (xi )
i∈I i∈I

Definición 9.10 (Independencia de V.A.). Dada una familia de V.A. (Xi : i ∈


I) (donde I es una colección de ı́ndices finita o infinita numerable, tı́picamen-
te 1 . . .) definidas sobre un mismo espacio de probabilidad (Ω, A, P ). Diremos
que sus V.A. son conjuntamente independientes si para cualquier subconjunto
finito de ı́ndices J ⊂ I se verifica que las variables aleatorias (Xj : j ∈ J) son
independientes.
Teorema 9.11 (Independientes a partir de la función de probabilidad o den-
sidad). Sea X = (X1 , . . . , Xn ) el vector con función de probabilidad conjunta
pX (x) (d) o función de densidad conjunta fX (x) (c). Sus coordenadas Xi son
independientes si y sólo si la función de probabilidad o de densidad se factoriza
en las n funciones de probabilidad o de densidad marginales, i.e.:
Qn
(d) pX (x) = i=1 pXi (xi )
Qn
(c) fX (x) = i=1 fXi (xi )
Teorema 9.12 (Condición suficiente para independencia). No es necesario en-
contrar exactamente las funciones de probabilidad o de densidad, basta con
poder factorizar la conjunta:
Qn
(d) pX (x) = k i=1 p∗Xi (xi ) donde p∗Xi : R → [0, 1], k > 0
Qn ∗ ∗
(c) fX (x) = k i=1 fX i
(xi ) donde fX i
: R → [0, ∞), k > 0
Las funciones p∗Xi o fX∗
i
son las funciones de probabilidad o densidad de las
variables aleatorias marginales Xi salvo por una constante multiplicativa.
Nota 9.13 (Sobre la factorización). Dos cosas importantes:
Ojo, no olvidar las indicadoras al factorizar, es un error común y grave.
La factorización de una conjunta como producto de marginales es única.
A veces encontrar las marginales dada una conjunta es tan sencillo como
mirar fijo, factorizar, y repartir correctamente las constantes.
Teorema 9.14 (Condición suficiente para la no independencia). Si el Sop(X)
no se puede describir como un producto cartesiano en Rn entonces sus coordena-
das X1 , . . . , Xn no son independientes. — Hacer gráficos tı́picos de sı́ productos
cartesianos y no productos cartesianos—
Teorema 9.15 (Independendia entre una V.A. Y y una X bernoulli). Sean
X, Y variables aleatorias sobre un mismo e.p., con X ∼ Be(p), son equivalentes:
X, Y independientes

44
P(X = 1, Y ≤ y) = pFY (y)
P(X = 0, Y ≤ y) = (1 − p)FY (y)

P(X = 1, Y > y) = p(1 − FY (y))


P(X = 0, Y > y) = (1 − p)(1 − FY (y))
Demostración. IDEA: Demostrar que la primera sentencia y la segunda son
equivalentes usando la definición de independencia de una cantidad finita de
V.A. Luego, demostrar que la segunda es equivalente al resto usando la pro-
piedad de que si un par de eventos es independiente, al tomar complemento en
alguno de ellos se obtiene un nuevo par independiente.
Nota 9.16 (Sobre independencia contra Bernoulli). A veces se quiere demos-
trar la independencia de dos variables donde una de ellas es Bernoulli (ejercicios
de coloquio, ejercicio 4.14), bastará elegir la más sencilla de las últimas 4 igual-
dades y demostrarla. Este teorema es bien especı́fico y solo sirve para esos casos
mencionados, no le dé muchas vueltas.
Teorema 9.17 (Transformación de V.A. independientes). Ver Grynberg [1]
Transformaciones de variables aleatorias, pp. 19 y 20; o Maronna [2]. Dada
una familia de V.A. (Xi : i ∈ I) independiente, m ∈ Z + un entero tal que
1 < m < n, g1 : Rm → R y g1 : Rn−m → R funciones regulares, entonces
Y1 := g1 (X1 , . . . , Xm ) y Y2 := g2 (Xm+1 , . . . , Xn ) son V.A. independientes.
Nota 9.18 (Sobre independencia de transformaciones). Diremos en nuestro cur-
so que todas las transformaciones de variables aleatorias son regulares, entonces
si (X, Y ) independientes entonces (U, V ) = (g(X), h(Y )) serán independien-
tes. Estudiaremos en mayor detalle las transformaciones de variables aleatorias
dentro de algunos capı́tulos.

45
10. Momentos
En este capı́tulo simplemente se reordenan las definiciones y se resume [1],
Variables Aleatorias: Momentos. Remitirse a la fuente para muchos ejemplos y
demostraciones de los teoremas.

10.1. Esperanza
Definición 10.1 (Esperanza). Sea X una V.A. unidimensional con distribución
µ, definimos: Z
E[X] := t · µ(dt)
R

ver Billingsley [10] 21.EXPECTED VALUES


Teorema 10.2 (Esperanza a partir de FX ). Sea X una V.A. con función de
distribución FX , vale que:
Z ∞ Z 0
E[X] := [1 − FX (x)]dx − FX (x)dx
0 −∞

Teorema 10.3 (Definición clásica). Sea X una V.A. discreta (d), continua (c)
o mixta (m), vale:
P
(d) E[X] = x∈At(X) x · pX (x)
R
(c) E[X] = R x · fX (x)dx
d
P R 
(m) E[X] = x∈At(X) x · P(X = x) + R x · dx FX (x) dx
La definición más frecuente de esperanza en libros de introducción a la proba-
bilidad es esta. Se consideró más elegante dar una definición única.
Teorema 10.4 (Esperanza de funciones de V.A. n-D). Sea X una V.A. discreta
(d), continua (c) o mixta (m); y sea g : Rn → R tal que g(X) también es una
V.A., vale:
P
(d) E[g(X)] = x∈At(X) g(x)pX (x)
R
(c) E[g(X)] = R g(x)fX (x)dx
P R∞ d

(m) E[g(X)] = x∈At(X) g(x)P(X = x) + −∞ g(x) dx FX (x) dx

Nota 10.5 (Sobre la esperanza de g(X)). Algunas consideraciones:


Se restrigen las variables mixtas al caso 1-D por la desidia de entrar en
derivadas parciales. Se podrı́a generalizar fácilmente.

Para calcular la esperanza de una marginal Xi tomar g(X) = Xi y usar


el teorema, no es necesario calcular la densidad marginal de Xi .
Para calcular la esperanza de Y = g(X) no es necesario calcular la distri-
bución de Y .

El último teorema incluye como caso particular a la definición clásica.

46
Teorema 10.6 (Propiedades). Vale que (para X o Xi con esperanza finita):
(1) Constantes: E[a] = a ∀a ∈ R
P P
(2) Linealidad: E[ ai Xi ] = ai E[Xi ]. En particular, para la combinación
lineal de dos variables E[aX + bY ] = aE[X] + bE[Y ]
Q Q
(3) Producto independiente: Si Xi son independientes, E[ Xi ] = E[Xi ]
E[X·1{X∈A}]
(4) Truncada: E[X|X ∈ A] = P(X∈A)
Pn
(5) Probabilidades totales: E[X] = i=1 E[X|X ∈ Ai ]P(X ∈ Ai ) si Ai es una
partición de Sop(X)
Pn
(6) Probabilidades totales: E[g(X)] = i=1 E[g(X)|X ∈ Ai ]P(X ∈ Ai ) si Ai
es una partición de Sop(X)
Ejemplo 10.7 (Ejemplos de esperanza). Dar ejemplos de: función indicadora,
Bernoulli, dado común, dado cargado, uniforme, exponencial, Cauchy, ejercicio
2.2.

10.2. Varianza
Definición 10.8 (Varianza). Sea X una V.A. con esperanza finita, definimos
la varianza de X como
var(X) := E (X − E[X])2
 

llamaremos desvı́o de X a p
σX := var(X)
Nota 10.9 (Sobre el desvı́o). Para aplicaciones fı́sicas o ingenieriles donde X
representa una magnitud fı́sica con su unidad de medida, σX es más fácil de
visualizar porque tiene las mismas unidades que la variable X y su esperanza
E[X], en cambio var(X) está con la unidad al cuadrado. En matemática es más
habitual trabajar con la varianza.
Teorema 10.10 (Fórmula para calcular V). Sea X una V.A. con esperanza y
varianza finita:
var(X) = E[X 2 ] − E2 [X]
Demostración. Basta con desarrollar el cuadrado del binomio y aplicar propie-
dades de lienalidad vistas
var(X) = E[(X − E[X])2 ] = E[X 2 + (E[X])2 − 2XE[X]] = · · ·
· · · = E[X 2 ] + (E[X])2 − 2E[X]E[X] = E[X 2 ] − (E[X])2

Teorema 10.11 (Propiedades de var). Vale que:


(1) Trato con constantes: var(aX + b) = a2 var(X) para todo a, b ∈ R
(2) Error cuadrático medio: ecm(X, c) := E[(X − c)2 ] = var(X) + (E[X] − c)2
para todo c ∈ R. En particular, tomando c = E[X] se minimiza el ecm.
Ejemplo 10.12 (Ejemplos de varianza). Dar los mismos ejemplos que para
esperanza.

47
10.3. Covarianza
Definición 10.13 (Covarianza). Sean X e Y dos V.A. sobre el mismo espacio
de probabilidad con esperanza finita, llamaremos covarianza de X e Y a:

cov(X, Y ) := E [ (X − E[X]) · (Y − E[Y ]) ]

Teorema 10.14 (Fórmula para calcular cov). Si X e Y cumplen además E[X 2 ]


y E[Y 2 ] finitas, vale:

cov(X, Y ) = E[X · Y ] − E[X] · E[Y ]

Demostración. La demostración simplemente es distribuir el producto de bino-


mios de la definición. La hipótesis de esperanza de los cuadrados finita permite
demostrar que E[XY ] es finita mediante la desigualdad |xy| ≤ (x2 + y 2 )/2.
Definición 10.15 (Matriz de covarianzas). Sea X una V.A. n-dimensional,
definimos la matriz cov por sus coordenadas:

covi,j := cov(Xi , Xj )

Si las esperanzas E[Xi2 ] son finitas, se pueden calcular las coordenadas con
la fórmula habitual covi,j = E[Xi Xj ] − E[Xi ]E[Xj ].
Para la matriz de covarianzas es muy habitual al notación de sigma mayúscu-
la Σ
Ejemplo 10.16 (Bernoulli conjunta). Dar en clase V.A. bernoulli 2-D con
probabilidades puntuales a, b, c, d.
Definición 10.17 (Coeficiente de correlación). Sea (X, Y ) un vector aleatorio
con covarianza, definimos su coeficiente de correlación:

cov(X, Y ) cov(X, Y )
ρX,Y := p =
var(X) · var(Y ) σX · σY

El coeficiente de correlación es un número con el mismo signo que la cova-


rianza, pero “estandarizado” al dividir por los desvı́os. El comportamiento de
una V.A. 2-D suele ser más fácil de comprender cualitativamente con el ρ que
con la cov.
Teorema 10.18 (Propiedades de cov y ρ). Sean X, Y, Z, Xi , Yi V.A. con espe-
ranza del cuadrado finita; a, b ∈ R se cumple:
(1) Varianza: cov(X, X) = var(X)
(2) Conmutativa: cov(X, Y ) = cov(Y, X)
(3) Distributiva: cov(X, Y + Z) = cov(X, Y ) + cov(X, Z)
Pm Pn Pm Pn
(4) Distributiva: cov( i=1 Xi , j=1 Yj ) = i=1 j=1 cov(Xi , Yj )
(5) Constantes: cov(aX, Y + b) = a · cov(X, Y ) = cov(X + b, aY )
(6) X, Y independientes ⇒ cov(X, Y ) = 0 (Nota 1: si existe). (Nota 2: no vale
la recı́proca en general)

48
(7) Varianza suma: var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )
(8) Varianza suma: var(aX + bY ) = a2 var(X) + b2 var(Y ) + 2 · a · b · cov(X, Y )
Pn Pn Pn
(9) Varianza suma: var( i=1 Xi ) = i=1 j=1 cov(Xi , Xj )
2
(10) Normales no correlacionadas: X ∼ N (µX , σX ), Y ∼ N (µY , σY2 ), cov(X, Y ) =
0 ⇒ X, Y independientes
(11) Bernoullis no correlacionadas: X ∼ B(p), Y ∼ B(r), cov(X, Y ) = 0 ⇒ X, Y
independientes
(12) Lı́mites para correlación: −1 ≤ ρ ≤ 1
Ejemplo 10.19 (Interpretación). Covarianza (correlación) positiva indica que
cuando X crece Y tiende a hacer lo mismo, y que cuando X decrece Y también
lo hace. Covarianza (correlación) negativa indica lo contrario, cuando X va para
un lado Y va para el otro. Hacer gráficos de muestras (x, y) en clase.

10.4. Recta de regresión


Definición 10.20 (Recta de regresión). Sea (X, Y ) una V.A. bidimensional con
covarianza, definimos la recta de regresión de Y sobre X mediante su fórmula:
cov(X, Y )
ŷ(x) := (x − E[X]) + E[Y ]
var(X)
o, lo que es equivalente y más fácil de recordar:
x − E[X] ŷ − E[Y ]
y ∗ := ρx∗ x∗ = , y∗ =
σX σY
Notar que en la fórmula aparecen la función ŷ, la variable x, y algunos
momentos de las V.A., se trata de la expresión de una recta sin nada aleatorio.

10.5. Desigualdades, Ley débil de grandes números


Teorema 10.21 (Desigualdad de Cauchy-Schwarz). Ver [1], Variables Aleato-
rias, Momentos
Teorema 10.22 (Gran desigualdad de Chebychev). Ver [1], Variables Aleato-
rias, Momentos
Teorema 10.23 (Desigualdad de Markov). Sea X una V.A. no negativa (i.e.
P(X ≥ 0) = 1), a ∈ R, a > 0 un número positivo, se cumple:
E[X]
P(X ≥ a) ≤
a
Demostración. Hacer el gráfico, recordar cómo calcular esperanza a partir de
FX .
Teorema 10.24 (Desigualdad de Markov cuadrada). Sea X una V.A., a ∈
R, a > 0 un número positivo, se cumple:
E[X 2 ]
P(|X| ≥ a) ≤
a2

49
Demostración. Inmediata a partir del teorerma anterior. Ver Billingsley [10]
sección 1.5 fórmula 5.31

Teorema 10.25 (Pequeña desigualdad de Chebychev). Sea X una V.A. de


varianza finita, a ∈ R, a > 0 un número positivo, α ∈ R, α > 0 también
positivo, se cumple:
var(X)
P(|X − E[X]| ≥ a) ≤
a2
o, equivalente:
1
P(|X − E[X]| ≥ α · σX ) ≤ 2
α
Teorema 10.26 (Ley débil de los grandes números, WLLN). Sea X1 , X2 . . .
una sucesión de V.A. independientes e idénticamente distribuidas (i.e. ensayos
1
Pn con varianza finita . Sea Sn , n ≥ 1
independientes de un mismo experimento)
la sucesión de sumar parciales Sn := i=1 Xi . Para todo  > 0 vale que:
 
Sn
lı́m P − E[X1 ] >  = 0
n→∞ n

Demostración. Por linearidad de esperanza y por tener todas las V.A. la misma
esperanza:
  P
Sn E [ Xi ] 1X 1
E = = E[Xi ] = nE[X1 ] = E[X1 ]
n n n n

Como además las variables son independientes se anulan las cov y se tiene:
 
Sn 1 X 1 var[X1 ]
var = 2 var(Xi ) = 2 nvar[X1 ] =
n n n n

Aplicando Chebychev (pequeña):


 
Sn var(X1 )
P − E[X1 ] >  ≤
n n · 2

luego tomar lı́mite n → ∞ y listo.


– CONSULTAR DIFERENCIA ENTRE > EN WLLN Y ≥ EN CHEBY-
CHEV –
ALTA NOTA: Con este teorema los axiomas ya no solo atrapan la idea
de frecuencia relativa en el sentido de que permiten modelarla, sino que además
se demuestra que (con ciertas hipótesis) la frecuencia relativa Sn /n tiende a la
probabilidad a medida que aumenta la cantidad de ensayos.
NOTA: Se llama ley débil porque hay una fuerte. La ley fuerte de los grandes
números implica la débil, pero es de más difı́cil comprensión y mucho más difı́cil
demostración. Ver [5].

1 Varianzafinita para Xi no es una hipótesis necesaria, se pide para poder demostrar el


teorema mediante Chebychev (pequeña). Si se quiere la demostración general preguntarle a
Analı́a

50
11. Transformaciones de V.A.
Si X es una V.A. y g una función, en muchas aplicaciones nos intersará saber
cómo se comporta Y = g(X). Trateremos en este capı́tulo de dar teoremas útiles
(métodos) para hallar la distribución de Y a partir de la distribución de X, tanto
en casos 1-dimensionales como n-dimensionales.

11.1. Definiciones y aclaraciones previas


Definición 11.1 (Soporte (o rango)). –Informal, debo consultar de una vez un
buen libro– Llamaremos soporte de una variable aleatoria n-dimensional a los
valores que puede tomar la V.A. X, lo anotaremos esto es para Sop(X) (con
Sop(X) ⊂ Rn ). Esto es, para X discretas (d) o continua (c):
(d) En el caso discreto son los átomos:

Sop(X) := x ∈ Rn : pX (x) > 0




(c) En el caso continuo son los puntos con densidad positiva:

Sop(X) := x ∈ Rn : fX (x) > 0




(m) Para las variables mixtas imagı́nelo extendiendo el concepto

Teorema 11.2 (*Pedrogrullada de transformaciones). –EN CLASE SE MEN-


CIONA AL VUELO– Sea X ∈ Rm una variable aleatoria, sea g : D ∈ Rm → Rn
una función tal que Sop(X) ⊂ D. Entonces Y := g(X) está bien definida, y será
una V.A. si y sólo si cumple con lo que tiene que cumplir cualquier V.A., i.e.:

{Y ≤ y} = {ω ∈ Ω : Y := g(X) ≤ y} ∈ A ∀y ∈ Rn

Convención 11.3 (Sobre transformaciones). Para todas las transformaciones


que usemos en el curso, si X es variable aleatoria Y = g(X) será variable
aleatoria.
–Agregar bonitos gráficos–

Definición 11.4 (Inversa de una región). Sea g : D ∈ Rm → Rn una transfor-


mación, y S ⊂ Rn una región (en el destino). Definimos su inversa o preimagen:

g −1 (S) := {x ∈ D : g(x) ∈ S}

11.2. Teoremas para transformaciones de V.A.


Teorema 11.5 (Método de eventos equivalentes). Sean X una variable aleatoria
m-dimensional, g : D ∈ Rm → Rn una transformación, Y := g(X) (una variable
aleatoria n-dimensional), y S ⊂ Rn una región en el espacio destino, entonces:

P (Y ∈ S) = P(X ∈ g −1 (S))
Demostración. Inmediata, pues el evento Y ∈ S refiere a los mismos ω ∈ Ω que
el evento X ∈ g −1 (S) y por lo tanto tiene asignada la misma probabilidad.

51
Teorema 11.6 (Caso particular - FY (y)). Tomemos como caso particular S† =
{t : t ≤ y}, tendremos P(Y ∈ S† ) = P(Y ≤ y) = FY (y) lo que nos permite
calcular la función de distribución de Y aplicando el teorema:

FY (y) = P X ∈ g −1 ({t : t ≤ y})




Teorema 11.7 (Caso particular - Discretas pY (y)). Sea X variable aleatoria


discreta, Y = g(X) con g inversible por regiones en Sop(X), vale que:
X
pY (y) = pX (x)
x:g(x)=y

O, equivalente X
pY (y) = pX (x) x=gi−1 (y)
i

donde (con cierto abuso de notación) la sumatoria recorre las preimágenes


que corresponde, y x = gi−1 (y) nos dice que se deben escribir esas distintas
preimágenes x como funciones gi−1 (y).
Demostración. Tomamos S = {y} (un conjunto con un único punto), tendremos
P(Y ∈ S) = P(Y = y) = P (X ∈ g −1 ({y}) lo que nos permite calcular la función
de probabilidades de Y aplicando el teorema.
Teorema 11.8 (Caso particular lı́mite - Continuas fY (y)). Sea X variable
aleatoria continua, Y = g(X) con g inversible por regiones en Sop(X), g :
Sop(X) ⊂ Rm → Rm (el espacio destino tiene la misma dimensión que el de
origen) vale que:
X fX (x)
fY (y) =
|Jg (x)|
x:g(x)=y

o equivalente:
X fX (x)
fY (y) =
i
|Jg (x)| x=gi−1 (y)

donde (con cierto abuso de notación) la sumatoria recorre las preimágenes que
corresponde, y x = gi−1 (y) nos dice que se deben escribir esas distintas preimáge-
nes x como funciones gi−1 (y). Usando el Jacobiano de la transformación inversa
podemos escribir:
X
fY (y) = fX (x) x=g−1 (y) |Jg−1 (y)|
i i
i

Las matrices jacobianas las definimos por sus coordenadas

∂(gi−1 )m (y)
   
∂gm (x)
Jg = Jg−1 =
m,n ∂xn i
m,n ∂yn

Demostración. — Idea de — Aceptemos que podemos aproximar un área pe-


queña por un rectángulo (m-dimensional)
∆y
 
P Y ∈y± = fY (y) · ∆y
2

52
∆y
Tomando como región S = y ± 2 tendremos, por eventos equivalentes:

∆y ∆y
  X    X  
−1 ∆xi
P Y ∈y± = P X ∈ gi y± = P X ∈ xi ±
2 i
2 i
2

donde la sumatoria recorre las distintas preimágenes. Haciendo la misma apro-


ximación para X nos queda
X
fY (y) · ∆y = fX (x) · ∆x
i

Al pasar dividiendo ∆y y tomar lı́mite aparece el jacobiano, que es la medida


en que la función g estira o achica áreas.
Ejemplo 11.9 (Box-Muller). Sean U1 , U2 variables aleatorias independientes
idénticamente distribuidas (VAIID) con distribución U[0, 1). Definimos las si-
guientes transformaciones:
p
R = −2 log(U1 ) Θ = 2πU2

(Z1 , Z2 ) = (R cos Θ, R sin Θ)


Buscaremos la densidad conjunta y marginales de (Z1 , Z2 ), analizando las trans-
formaciones parciales para tener más resultados.
Resultado: Resumimos las principales conclusiones
R2 ∼ E(1/2) = Γ(1, 1/2) = χ22
R ∼ Ray(1)
Θ ∼ U[0, 1)
(R, Θ) independientes
Z1 , Z2 V.A.I.I.D. con distribución N (0, 1)
Demostración. Vayamos paso a paso:

S = R2 = −2 log(U1 ), la transformación g(u) = −2 log(u) es biyectiva en


1
el soporte de U1 y tiene inversa g −1 (s) = e− 2 s . Aplicando la regla del
jacobiano:
fU (u) 1 1
fS (s) = = e− 2 s 1{s > 0}
|dg/du| g−1 (s) 2
√ √
R = S, la transformación g(s) = s es biyectiva en el soporte de S y
tiene inversa g −1 (r) = r2 . Aplicando la regla del jacobiano:
fS (s) 1 2
fR (r) = = re− 2 r 1{r > 0}
|dg/ds| g −1 (r)

Θ = 2πU2 , la transformación g(u) = 2πu es biyectiva en el soporte de U2


y tiene inversa g −1 (t) = 1/(2π). Aplicando la regla del jacobiano:
fU (u) 1
fΘ (t) = = 1{0 < t < 2π}
|dg/du| g −1 (t) 2π

53
(Z1 , Z2 ) = (R cos Θ, R sin Θ), la transformación g(r, t) = (r cos t, r sin t) es
biyectiva en el soporte de (R, Θ) y tiene inversa que no necesitaremos cal-
cular (verla en http://mathworld.wolfram.com/Box-MullerTransformation.html)
Aplicando la regla del jacobiano:

f(R,Θ) (r, t)
f(Z1 ,Z2 ) (z1 , z2 ) =
|Jg(r,t) | g −1 (z1 ,z2 )

Por teorema de transformaciones de V.A. con funciones regulares, como


R = h1 (U1 ) y Θ = h2 (U2 ) se cumple (R, Θ) independientes, entonces su
densidad conjunta será la densidad producto f(R,Θ) (r, t) = fR (r)fΘ (t).
El jacobiano de la transformación

cos(t) −r sin(t)
Jg(r,t) = =r
sin(t) r cos(t)

volviendo...
1 2
!
re− 2 r
f(Z1 ,Z2 ) (z1 , z2 ) = 1{r > 0, 0 < t < 2π}
r2π
g −1 (z1 ,z2 )

no necesitamos encontrar la inversa de g pues r2 = z12 + z22 es el único


reemplazo que necesitamos hacer. La indicadora se desvanece pues r > 0
vale para cualquier par (z1 , z2 ), y t no entra en la ecuación. Obtenemos:
1 − 1 (z12 +z22 ) 1 1 2 1 1 2
f(Z1 ,Z2 ) (z1 , z2 ) = e 2 = √ e− 2 z1 √ e− 2 z2
2π 2π 2π

54
12. Condicionales
En este capı́tulo se reordenan los conceptos de Grynberg [1] Condicionales.
Se intenta minimizar la cantidad de definiciones para aprovechar los teoremas
ya dados en los capı́tulos anteriores. Para ejemplos y demostraciones leer el
borrador mencionado. Se dan todas las definiciones para V.A. en 2 dimensiones,
se podrı́a generalizar sin problema a n-dimensional, teniendo en cuenta que al
condicionar a Xi = xi se reduce la dimensión en 1.

12.1. Variables condicionales


Definición 12.1 (V.A. Y condicional a X = x). Sean (X, Y ) una variable
aleatoria 2-dimensional discreta (d) o continua (c). Sea x ∈ Sop(X), definimos
la variable aleatoria Y |X = x (se lee Y concionada a X = x, o Y dado que
X = x) a partir de su función de probabilidad (d) o función de densidad (c):

pX,Y (x, y)
pY |X=x (y) = (d)
pX (x)
fX,Y (x, y)
fY |X=x (y) = (c)
fX (x)
Alternativamente, si y ∈ Sop(Y ) podemos definir la variable aleatoria X|Y =
y a partir de su función de probabilidad o densidad:

pX,Y (x, y)
pX|Y =y (x) = (d)
pY (y)
fX,Y (x, y)
fX|Y =y (x) = (c)
fY (y)
Ejercicio 12.2 (Sobre Y |X = x). Demostrar que la definición anterior existe
Ejemplo 12.3 (Ejemplo condicionales). Hacer ejemplo con urna 3 verdes, 2 ro-
jas, 2 azules; extraer 2 sin reposición. Hacer ejemplo uniforme sobre un triángulo
o sobre una región como la del parcial.
Teorema 12.4 (Construcción de la conjunta). Sea Y |X = x discreta (d) o
continua (c), dada la marginal de X podemos reconstruir la conjunta:
pX,Y (x, y) = pY |X=x (y)pX (x) ∀x : pX (x) > 0
fX,Y (x, y) = fY |X=x (y)fX (x) ∀x : fX (x) > 0
para completar, en los puntos donde la condicional no esté definida diremos que
la conjunta es nula.
Demostración. Pasar multiplicando y completar los huecos
Teorema 12.5 (Fórmula de probabilidad total ampliada). Sea Y |X = x dis-
creta (d) o continua (c), dada la marginal de X podemos reconstruir la marginal
de Y : X
pY (y) = pY |X=x (y)pX (x)
x∈Sop(X)
Z
fY (y) = fY |X=x (y)fX (x)dx
Sop(X)

55
Demostración. En la definición de densidad marginal reemplazar la conjunta
por el producto de condicional y marginal, restringir la operación al soporte
para evitar problemas técnicos

Notar que la versión discreta es la fórmula de probabilidades totales de siem-


pre, pero ahora ampliamos el teorema al caso continuo.

12.2. Modelos discreto continuos


Definición 12.6 (V.A. Mezcla). Sea M una variable aleatoria discreta con
soporte M —con pM (m) > 0 ∀m ∈ M—. Sea (Xm : m ∈ M) una familia de
variables aleatorias (sobre el mismo espacio muestral que M ) independientes de
M . Definimos X := XM (notar subı́ndice aleatorio), se cumple que X es una
variable aleatoria, la llamaremos “Mezcla de variables aleatorias Xm obtenida
mediante la mezcladora M ”.
Convención 12.7 (Mezcla tı́pica). En general, M = 1, 2 . . . n. Para describir
la variable mezcla, escribiremos

 X1 con probabilidad p1
 n
X2 con probabilidad p2
 X
X= donde pi = 1
 ...
 i=1
Xn con probabilidad pn

Teorema 12.8 (FX de variable mezcla). Sea X = XM variable mezcla como


la definimos, vale: X
FX (x) = FXm (x)pM (m)
m∈M

Demostración.
X
FX (x) = P(XM ≤ x) = P (XM ≤ x|M = m)P (M = m) = . . .
m∈M
X X
... = P(Xm ≤ x|M = m)P(M = m) = FXm (x)P(M = m)
m∈M m∈M

Teorema 12.9 (fX o pX de variable mezcla). Sea X = XM variable mezcla


como la definimos, con las Xi discretas o continuas, vale:
X
pX (x) = pXm (x)pM (m)
m∈M
X
fX (x) = fXm (x)pM (m)
m∈M

Si las Xi son mixtas o son algunas discretas y algunas continuas este teorema
no sirve, en tal caso usar la función de distribución.
Ejemplo 12.10 (Ejemplo de mezcla). Resolver mezcla de dos uniformes. Mos-
trar gráfico de funciones de densidad originales y mezcla. Dejar servido para
hacer un bayes.

56
Definición 12.11 (Bayes discreto-continuo o Bayes para mezcla). Sea X = XM
variable mezcla como la definimos, con Xm absolutamente continuas. Definimos:
fXm (x)pM (m) fXm (x)pM (m)
P(M = m|X = x) = pM |X=x (m) := =P
fX (x) m∈M fXm (x)pM (m)

Nota 12.12 (Sobre bayes para mezcla). Dos consideraciones importantes:


Se puede interpretar la definición anterior como una ampliación de la
definición de P(B|A) para algunos casos donde P(A) = 0. Usar la misma
notación para escribir dos cosas distintas quizás no sea del todo feliz.
La definición anterior es consistente con cierta forma de llevar al lı́mite la
definición tradicional de probabilidad condicional. Ver Grynberg [1]

12.3. Momentos y función de regresión


Teorema 12.13 (Momentos de variable condicional). Como Y |X = x es V.A.,
es inmediato:
Z ∞ Z 0
E[Y |X = x] = [1 − FY |X=x (y)]dy − FY |X=x (y)dy
0 −∞

Valen las mismas reglas de cálculo, definición clásica:


X
E[Y |X = x] = y · pY |X=x (y)
y∈At(Y |Xx )
Z ∞
E[Y |X = x] = y · fY |X=x (y)dy
−∞
y gran teorema:
X
E[g(Y |X = x)] = E[g(Y )|X = x] = g(y)pY |X=x (y)
y∈At(Y |X=x)
Z ∞
E[g(Y |X = x)] = E[g(Y )|X = x] = g(y)fY |X=x (y)dy
−∞

y para la varianza, si la esperanza del cuadrado es finita:

var(Y |X = x) = E[Y 2 |X = x] − E2 [Y |X = x]

Teorema 12.14 (Fórmula de probabilidad total para esperanza). Sea Y |X = x


discreta (d) o continua (c), y dada la marginal de X, podemos calcular su
esperanza: X
E[Y ] = E[Y |X = x]pX (x)
x∈Sop(X)
Z
E[Y ] = E[Y |X = x]fX (x)dx
Sop(X)

Demostración. En la fórmula clásica para esperanza reemplazar la conjunta por


el resultado del teorema anterior, restringir la operación al soporte para evitar
problemas técnicos

57
Teorema 12.15 (Momentos de mezcla). Sea X = XM V.A. mezcla como la
definimos en el capı́tulo, se demuestra fácilmente con un tema que veremos a
continuación: X
E[X] = E[Xm ]pM (m)
m∈M
X X
V [X] = V [Xm ]pM (m) + (E[Xm ] − E[X])2 pM (m)
m∈M m∈M

Nota 12.16 (Nota mecánica). Ya mencionamos que esperanza y varianza son


el baricentro y el momento de inercia baricéntrico de la densidad. Estas fórmu-
las son análogas a calcular el baricentro de una sección compuesta por varias
secciones, y el momento de inercia baricéntrico de mediante Steiner.
Definición 12.17 (Función de regresión). Sea (X, Y ) una variable aleatoria 2-
dimensional, definimos la función de regresión de Y sobre X, ϕ : Sop(X) → R,
de la siguiente manera:
ϕ(x) := E[Y |X = x]
Definición 12.18 (Función *tridente*). Sea (X, Y ) una variable aleatoria 2-
dimensional, definimos la función tridente (varianza de regresión) de Y sobre
X, ψ : Sop(X) → R, de la siguiente manera:

ψ(x) := var(Y |X = x)

Ejemplo 12.19 (Rata sin memoria en laberinto). Una rata está atrapada en
un laberinto. Inicialmente puede elegir una de tres sendas. Si elige la primera se
perderá en el laberinto y luego de t1 = 12 minutos volverá a su posición inicial;
si elige la segunda volverá a su posición inicial luego de t2 = 14 minutos; si elige
la tercera saldrá del laberinto luego de t3 = 9 minutos. En cada intento, la rata
elige con igual probabilidad cualquiera de las tres sendas. Calcular la esperanza
del tiempo que demora en salir del laberinto.
Resolución Sea T el tiempo total que tarda la rata en escapar, y Xi la
puerta que elige la rata en el intento i de escape. La técnica para resolver este
ejercicio será pensar cómo se distribuye el tiempo T si lo condicionamos al
resultado de la primera elección de la rata X1 .
Este tipo de análisis será útil en problemas que presentan la caracterı́stica
de regeneración, informalmente quiere decir que si pasan determinadas cosas el
problema vuelve a su estado inicial (o vuelve a algún estado). En este caso, cada
vez que se elija la puerta 1 o 2 la rata vuelve a un estado inicial, por viendo a
futuro lo que le falta para escapar no depende de cuánto tiempo lleva perdida,
da lo mismo si recién inicia o si ya hizo 500 malas elecciones.
Volviendo, si elige la puerta número 1, la rata consume t1 y vuelve al labe-
rinto, donde lo que le falta para escapar se distribuye igual que si empezara el
problema de cero. Si elige la puerta número 2 consume t2 y nuevamente lo que
le falta para escapar se distribuye igual que si empezara el problema de cero.
Y si elige la puerta 3 tarda t3 y se escapa. Podemos escribir eso formalmente
como:

(T |X1 = 1) ∼ t1 + T
(T |X1 = 2) ∼ t2 + T

58
(T |X1 = 3) = t3
(si le hace ruido ver T a ambos lados de la relación, recuerde que el sı́mbolo ∼
no significa igual, sino que lo que está a la izquierda tiene la misma distribución
que lo que está a la derecha)
Podemos resolver el ejercicio aplicando FPT para esperanzas:

E[T ] = E[T |X1 = 1]pX1 (1) + E[T |X1 = 2]pX1 (2) + E[T |X1 = 3]pX1 (3)

reemplazando:

E[T ] = E[T + t1 ]pX1 (1) + E[T + t2 ]pX1 (2) + E[t3 ]pX1 (3)

aplicando linearidad de esperanza y que las puertas tienen probabilidad 1/3:


1 1 1
E[T ] = (E[T ] + t1 ) + (E[T ] + t2 ) + t3
3 3 3
pasamos todos los términos con E[T ] para la izquierda
 
2 1 1 1
E[T ] 1 − = t1 + t2 + t3
3 3 3 3

termina:
E[T ] = t1 + t2 + t3 = 12 + 14 + 9 = 35

59
13. Esperanza condicional
13.1. Presentación
Este es probablemente el tema más difı́cil conceptualmente que veremos
en el curso (don’t panic: las cuentas son muy fáciles). Intentaremos dar una
descripción lo más clara posible, para entenderlo bien se deben leer libros que
escapan el alcance del curso (y el conocimiento del que escribe) como [10].
Comencemos describiendo el problema. Tenemos (X, Y ) una variable alea-
toria 2-dimensional sobre un e.p. (Ω, A, P ). En una realización del experimento
yo puedo observar o medir X, y a partir de ello quiero poder (en algún sentido)
aproximar la variable Y desconocida (pero realizada) como una función ϕ(X).
Dar algún ejemplo como caldera donde mido temperatura y quiero inferir
sobre la presión. Hacer esquema conceptual.
Definición 13.1 (V.A. esperanza condicional). Sea (X, Y ) una variable alea-
toria 2-dimensional sobre un e.p. (Ω, A, P ), con E[|Y |] < ∞. Llamaremos es-
peranza condicional de Y dada X, a la que escribiremos E[Y |X], a cualquier
variable aleatoria ϕ(X) (transformada de X con ϕ : R → R medible) tal que
cumpla la siguiente ecuación funcional:

E[ϕ(X)h(X)] = E[Y h(X)] ∀h : R → R medible y acotada


NOTA MECÁNICA: Ecuaciones funcionales similares se encuentran al
resolver problemas variacionales por métodos numéricos.

Teorema 13.2 (Existencia de la esperanza condicional). Muy complicado. En


los problemas del curso siempre existirá
Teorema 13.3 (Unicidad de la esperanza condicional). Si ϕ1 y ϕ2 son solucio-
nes de la ecuación funcional, las mismas son iguales a.s. (almost surely), esto es:
P (ϕ1 (X) = ϕ2 (X)) = 1. Entre nosotros diremos que la esperanza condicional
es única.
Teorema 13.4 (Importantı́simas propiedades de la esperanza condicional). Se
cumplen las hipótesis para definirla, vale:
1. Fórmula de probabilidades totales:

E[E[Y |X]] = E[Y ]

2. Funciones de X salen como constantes (propiedad pass trough):

E[g(X)Y |X] = g(X)E[Y |X]

3. Si X e Y son independientes, la V.A. esperanza condicional degenera en


constante:
E[Y |X] = E[Y ]

Demostración. Se demuestran en forma sencilla a partir de la definición y eli-


giendo inteligentemente la función h, ver [1], Condicionales.

60
Teorema 13.5 (Cálculo de la V.A. esperanza condicional). Se cumplen las
hipótesis para definirla, la función de regresión ϕ(x) = E[Y |X = x] resuelve la
ecuación funcional, vale entonces:

E[Y |X] = ϕ(x)|x=X = ϕ(X)

Demostración. Separar en caso discreto o continuo. Reemplazar en la ecuación


funcional ϕ por la sumatoria o integral de cálculo de la esperanza condicional
de Y dado X = x y en unos pasos se prueba que ϕ es solución.
Teorema 13.6 (Más propiedades de la V.A. esperanza condicional). Valen:
1. Linealidad: E[aY1 + bY2 |X] = aE[Y1 |X] + bE[Y2 |X]
2. *Monotonı́a: Y1 ≤ Y2 ⇒ E[Y1 |X] ≤ E[Y2 |X]
3. *Jensen: g : R → R convexa y E[|Y |] < ∞, E[|g(Y )|] < ∞ enton-
ces: g(E[Y |X]) ≤ E[g(Y )|X] y en particular, si E[Y 2 ] < ∞ entonces
E[Y |X]2 ≤ E[Y 2 |X].
NOTA: En clase solo daremos linealidad, no monotonı́a ni Jensen.
Definición 13.7 (V.A. varianza condicional). Con las mismas hipótesis que
definimos E[Y |X] y además E[Y 2 ] < ∞ definimos la varianza condicional de Y
dado X:
V (Y |X) := E[Y 2 |X] − (E[Y |X])2
Teorema 13.8 (Cálculo de la V.A. varianza condicional). Si está definida,
la varianza condicional se obtiene especificando la función *tridente ψ(x) =
V (Y |X = x) en la variable aleatoria X:

V (Y |X) = ψ(X)

Teorema 13.9 (Pitágoras). Si está definida la varianza condicional:

V (Y ) = E[V (Y |X)] + V (E[Y |X])

Demostración. Se puede demostrar a partir de cierta interpretación geométrica


de las definiciones dadas en este capı́tulo. Ver [1] Condicionales

13.2. Iterpretación geométrica


Seguiremos la interpretación geométrica de [1] Condicionales, subtı́tulo Pre-
dicción, aunque cambiando algunos nombres de elementos y reordenando los
conceptos. La idea es definir ciertos elementos, mostrar que estamos en un es-
pacio vectorial, y a partir de lo que sabemos de álgebra ver que la esperanza
condicional es una proyección ortogonal.
Definición 13.10 (Definiciones varias). Sean (Ω, A, P ) un e.p., definimos:
V := {X : X : Ω → R, X es variable aleatoria, V (X) < ∞}
HX := {h(X) : h : R → R, h(X) es variable aleatoria., E[(h(X))2 ] < ∞}
hX, Y i := E[X · Y ]

61
p p
||X|| := hX, Xi = E[X 2 ]
p
d(X, Y ) := ||X − Y || = E[(Y − X)2 ]
En palabras, V son todas las variables aleatorias en el espacio de probabilidad
de varianza finita, HX son todas las transformaciones posibles de X tal que
esa transformación sea variable aleatoria de varianza finita, y luego definimos
algunas operaciones (producto interno, módulo, distancia) para las variables
aleatorias.
Teorema 13.11 (Sobre las definiciones anteriores). Vale que:
V es un espacio vectorial (con la suma y producto por escalar usuales).
HX es un subespacio de V
hX, Y i es un producto interno en V
||X|| es una norma en V
d(X, Y ) es una distancia en V

Demostración. Demostraciones a cargo del lector, se asume que tiene co-


nocimientos básicos de álgebra lineal.

Teorema 13.12 (Predictor). Sean X, Y V.A. sobre un e.p. tales que E[Y 2 ] <
∞, y sea ϕ(X) = E[Y |X] la esperanza condicional de Y dado X. Vale que ϕ(X)
es la proyección ortogonal de Y sobre el subespacio HX .
Demostración. Vamos por partes
1. Primero demostremos que ϕ(X) ∈ HX usando la hipótesis E[Y 2 ] < ∞ y
la desigualdad de Jensen (que no dimos en clase por ser muy técnica)
E[ϕ(X)2 ] = E[E[Y |X]2 ] ≤ E[E[Y 2 |X]] = E[Y 2 ] < ∞
como es función de X y cumple la condición sobre la esperanza del cua-
drado ϕ(X) ∈ HX
2. Ahora probemos a partir de la ecuación funcional que define la esperanza
condicional que se trata de la proyección.
Si ϕ(X) es la p.o. de Y sobre HX , el vector que va de una V.A. a la otra
debe ser perpendicular al subespacio, esto es Y − ϕ(X) ⊥ HX . Partamos
de la ecuación funcional
E[ϕ(X)h(X)] = E[Y h(X)] ∀h
pasamos restando
E[Y h(X)] − E[ϕ(X)h(X)] = 0
por linearidad de esperanza
E[(Y − ϕ(X))h(X)] = 0
lo que es equivalente a escribir, usando el producto interno que definimos
hY − ϕ(X), h(X)i = 0 ∀h
lo que significa que es perpendicular al subespacio

62
Por lo tanto, podemos interpretar a ϕ(X) = E[Y |X] como la función de
X que más se acerca a Y (en el sentido de distancia que definimos) por ser
ϕ(X) la proyección ortogonal de Y . La esperanza condicional es entonces una
aproximación óptima o el mejor predictor.
Teorema 13.13 (Pitágoras II). Ya enunciamos, ahora demostraremos:

V (Y ) = E[V (Y |X)] + V (E[Y |X])

Demostración. Por definición de varianza, y usando la norma en V que definimos


podemos escribir:
V (Y ) = E[(Y − E[Y ])2 ] = . . .
sumamos y restamos ϕ(X) y agregamos paréntesis convenientemente

. . . = E [(Y − ϕ(X)) + (ϕ(X) − E[Y ])]2 = . . .


 

abrimos el binomio

. . . = E (Y − ϕ(X))2 + (ϕ(X) − E[Y ])2 + 2(Y − ϕ(X))(ϕ(X) − E[Y ]) = . . .


 

. . . = E[(Y −ϕ(X))2 ]+E[(ϕ(X)−E[Y ])2 ]+2E[Y ϕ(X)−Y E[Y ]−ϕ(X)2 +ϕ(X)E[Y ]]


Con paciencia se puede demostrar que:
E[(Y −ϕ(X))2 ] = E[V (Y |X)] (expresar como E[E[(Y −ϕ(X))2 |X]], luego
abrir el cuadrado y usar propiedades de esperanza condicional)
E[(ϕ(X)−E[Y ])2 = V (E[Y |X]) (este es casi inmediato, notar que E[ϕ(X)] =
E[Y ] y aplicar definición de varianza)
el tercer término se anula (de nuevo usar propiedades de esperanza condi-
cional)
queda entonces por resultado el teorema de pitágoras.
Gráficamente, podemos pensar HX como un plano (en el gráfico el plano ho-
rizontal); a las constantes como una recta dentro de ese plano, pues las podemos
considerar como k = h(X) y obviamente tienen varianza finita (vale 0), sobre la
recta de las constantes se ubicará E[Y ]. Como ya vimos, ϕ(X) = E[Y |X] es la
proyección de Y sobre el plano HX , también vale que E[Y ] es la proyección so-
bre la recta tanto de Y como de ϕ(X). Luego dibujamos (se copia impunemente
y sin permiso de Grynberg [1]):

13.3. Ejemplos varios


PN
Ejemplo 13.14 (Suma aleatoria de V.A.). Hacer ejemplo S = i=1 Xi con Xi
independientes e independientes de N . Hacerlo paso a paso y usar la indepen-
dencia con N a último momento, destacar que en la guı́a hay ejercicios donde
eso no se cumple.
Ejemplo 13.15 (Mezcla). Demostrar las fórmulas dadas para esperanza y va-
rianza de mezclas

63
Figura 1: Teorema de pitágoras

14. Proceso Bernoulli


14.1. Procesos y proceso Bernoulli
Definición 14.1 (Proceso aleatorio). Un proceso aleatorio o proceso estocástico
Π es una familia {Xt : t ∈ T } de variables aleatorias que toman valores en un
conjunto S.
Nota: Las Xt pueden o no ser independientes.
Clasificación según T : si los tiempos son numerables, por ejemplo T =
Z+ , Z+
0 , Z clasificamos al proceso como de tiempo discreto. Si en cambio el tiem-
po es no numerable, tı́picamente T = [0, +∞), R, llamamos al proceso de tiempo
continuo.
Clasificación según S: el conjunto definirá si las variables Xt son discretas o
continuas, tı́picamente S = Z o S = R.
Definición 14.2 (Proceso Bernoulli). Diremos que {Xn : n ∈ Z + } es un
proceso Bernoulli si Xn son V.A.I.I.D. con distribución Ber(p), i.e.

P (Xn = x) = (1 − p)1{x = 0} + p1{x = 1}

o equivalente:
pXn (0) = 1 − p pXn (1) = p

El proceso Bernoulli (o ensayos Bernoulli) se puede pensar como tirar re-


petidas veces una moneda, o (más general) repetir en condiciones ideales un
experimento en el cual hay dos resultados posibles: éxito (1) y fracaso (0).

64
14.2. Distribuciones asociadas
Teorema 14.3 (Distribución binomial). Definamos Yn como la cantidad de
éxitos (1) observados en los primeros n (fijo) ensayos de Bernoulli
n
X
Yn := Xi
i=1

Vale que la variable Yn tendrá distribución binomial Bi(n, p) (ver tabla de


distribuciones).
Nota: su moda es mod(Yn ) = b(n + 1)pc o también mod(Yn ) = d(n + 1)pe − 1
(notar que en general son el mismo número y la moda es única, salvo cuando lo
que queda dentro del redondeo es un entero y entonces hay dos modas).
Teorema 14.4 (Distribución geométrica y pascal). Definamos Sk como la can-
tidad de experimentos necesarios (tiempo de espera) hasta observar k (fijo)
éxitos en ensayos Bernoulli. Formalmente:
( n
)
X
Sk = mı́n n : Xi = k
i=1

Vale que Sk tendrá distribución Pascal P a(k, p) (ver tabla de distribuciones).


El caso particular de tiempo de espera hasta el primer éxito S1 tiene distribución
Geométrica Geo(p) (ver tabla).

NOTA: No todos los autores definen Geométrica y Pascal como lo hacemos


en el curso. Los rusos en general las definen como cantidad de fracasos (en lugar
de experimentos) hasta el primer o k-ésimo éxito. Y a la geométrica algunos
autores la llaman binomial negativa.
Teorema 14.5 (Pérdida de memoria de la geométrica). Si T ∼ Geo(p) entonces
diremos que tiene la propiedad de pérdida de memoria, formalmente:

P (T > n + m|T > n) = P (T > m) ∀n, m ∈ Z+

Demostración. Inmediata, usar la definición de probabilidad condicional y re-


emplazar las probabilidades por su expresión (1 − p)n+m y (1 − p)n .

Teorema 14.6 (La pérdida de memoria caracteriza a la geométrica). Si T es


una variable aleatoria discreta a valores en Z+ con la propiedad de pérdida de
memoria, entonces T ∼ Geo(p), donde p = P (T = 1).
Teorema 14.7 (Tiempos entre éxitos sucesivos). Dado un proceso Bernoulli
donde definimos los tiempos de espera Sk con distribución Pascal P a(k, p),
definamos Tk como la cantidad de experimentos entre el éxito k − 1 y el éxito k
(con T1 la cantidad de ensayos hasta el primer éxito), formalmente:

T1 = S1 Tk = Sk − Sk−1 k>1

Vale que {Ti , i ∈ Z+ } son V.A.I.I.D. con distribución Geo(p).

65
Teorema 14.8 (Suma de geométricas IID). Sean {Ti , i ∈ Z+ } familia de
V.A.I.I.D. con distribución Geo(p), entonces:
k
X
Sk = Ti
i=1

tiene distribución P a(k, p).


Teorema 14.9 (Relación entre binomial y pascal). Sea Yn ∼ Bi(n, p) y Sk ∼
P a(k, p), vale que:
P (Yn ≥ k) = P (Sk ≤ n)
se interpreta: “en n ensayos Bernoulli ocurren por lo menos k éxitos” es lo mismo
que decir “el tiempo de espera hasta el k-ésimo éxito es a lo sumo n”.
Pn
Teorema 14.10 (Aproximación Poisson a la binomial). Sea Yn = i=1 Xi , se
indicó ya que es una variable aleatoria binomial. Si n es grande, p pequeño, y
λ := np constante vale que:

λy e−λ
P (Yn = y) ≈
y!
es decir, podemos aproximar a la distribución Bi(n, p) por una P oi(λ = np)
(donde λ es la media).
Demostración. En la fórmula de la binomial expresar el combinatorio por facto-
riales, reemplazar n! y (n−k)! por la fórmula de Stirling, tomar lı́mite resolviendo
las indeterminaciones 0∞ y listo.

14.3. Proceso Bernoulli generalizado


Definición 14.11 (Proceso Bernoulli). Diremos que {Xn : n ∈ Z + } es un
proceso Bernoulli generalizado si Xn son V.A.I.I.D. discretas sobre un conjunto
finito, sin perder generalidad {1 . . . r}
n
X
P (Xn = x) = px px = 1
x=1

o equivalente:

pXn (1) = p1 pXn (2) = p2 ... pXn (r) = pr

El proceso Bernoulli generalizado (o ensayos Bernoulli generalizados) se pue-


de pensar como repetir en condiciones ideales un experimento en el cual hay r
resultados posibles.
Teorema 14.12 (Distribución multinomial). Sea M n un vector que cuenta la
cantidad de ocurrencias de cada resultado en los primeros n ensayos, esto es:
n
X
(Mn )j := 1{Xi = j}
i=1

Vale que la variable M n tendrá distribución multinomial M ul(n, pi ) (ver tabla


de distribuciones).

66
Teorema 14.13 (Filtrar un P.B.G.). INFORMAL: Sea {Xn : n ∈ Z + } un
proceso Bernoulli generalizado a valores {1 . . . r} con probabilidades pi . Cons-
truimos el proceso {Yn : n ∈ Z + } a valores {1 . . . r} \ {j} a partir del proceso
original descartando todas las ocurrencias del resultado j. Vale que el nuevo
proceso es un proceso Bernoulli generalizado con probabilidades
py
P (Yn = y) = 1{y 6= j}
1 − pj

14.4. Miscelánea tóxica


Teorema 14.14 (Coleccionista - Tiempo de espera). {Xn : n ∈ Z + } un proce-
so Bernoulli generalizado a valores {1 . . . m} con probabilidades pi . Sea Cm la
cantidad mı́nima de experimentos (tiempo de espera) hasta haber observado a
todos los resultados posibles por lo menos una vez. Vale que:
m−1
X X 1
E[Cm ] = (−1)m−1−q
q=0
1 − PJ
|J|=q
P P
donde PJ = j∈J pj y |J|=q indica que sumemos en todos los J subconjuntos
de {1 . . . m} que tengan cardinal q.

Demostración. Ver [11]. Los autores trabajan con lenguajes regulares y funcio-
nes generadoras (escapan los objetivos del curso y conocimiento del autor).
Ejemplo 14.15 (Aplicación de coleccionista). Para entender la fórmula, resol-
vamos para m = 1
E[Cm ] = 1
Para m = 2, por simplicidad p = (p1 , p2 ) = (a, b)
1 1
E[Cm ] = −1 + +
1−a 1−b
Para m = 3, por simplicidad p = (p1 , p2 , p3 ) = (a, b, c)
1 1 1 1 1 1
E[Cm ] = 1 − − − + + +
1−a 1−b 1−c 1−a−b 1−b−c 1−c−a
Para m genérico y pi = 1/m (resultados equiprobables):
m  
q−1 m 1
X
E[Cm ] = m (−1)
q=1
q q

como se vio en un ejercicio de la guı́a (chocolatines Jack), el caso de equiproba-


bilidad tiene un resultado más fuerte:
     
m−1 m−2 1
Cm ∼ 1 + Ge + Ge + · · · + Ge
m m m

Teorema 14.16 (Coleccionista - Robins hasta Batman). {Xn : n ∈ Z + } un


proceso Bernoulli generalizado a valores {1 . . . b} con probabilidades pi . Sea Nb
la cantidad mı́nima de ensayos (tiempo de espera) hasta observar por primera

67
vez el resultado b, i.e. Nb = mı́n{n : Xn = b}. Definimos para i = 1, . . . , b − 1
PNb −1
el valor Mi = n=1 1{Xn = i} que cuenta la cantidad de veces que veo el
resultado i hasta ver por primera vez el resultado b. Vale que:

   m
pb pb pb
Mi ∼ Ge −1 P (Mi = m) = 1−
pb + pi pb + pi pb + pi

En particular, E[Mi ] = pi /pb


NOTA: Podemos pensar el problema del a siguiente manera: unos chocola-
tines traen premios de superhéroes Yankis. Todos queremos el premio Batman
(el premio r), si nos sale un Súperman o Mujer Maravilla (premios 6= i) nos los
quedamos, pero si nos sale un Robin (el premio i) lo tiramos al carajo. Compra-
mos chocolatines hasta conseguir el preciado Batman, ¿cuántos Robins tengo
que tirar?
Demostración. Ver [1], Ensayos Bernoulli, ejemplo 1.16. También se puede de-
mostrar notando que si al proceso Bernoulli generalizado de las Xi original lo
filtramos quitando todos los experimentos con resultado que no nos interesa
{j : j 6= i, j 6= r}, nos quedará un proceso con solamente dos resultados, i y r,
y probabilidades respectivas qi = pi /(pi + pr ) y qr = pr /(pi + pr ). El tiempo
de espera hasta el primer resultado r en el proceso filtrado es una geométrica
Ge(qr ), y para contar la cantidad de fracasos le restamos 1.

Teorema 14.17 (Rachas - Tiempos de espera). Del Feller XIII.7: Sea Tr el


tiempo de espera (cantidad de lanzamientos necesarios) hasta observar por pri-
mera vez una racha de r éxitos consecutivos en un P.B. p, con q = 1 − p, vale
que:
1 − pr 1 2r + 1 p
E[Tr ] = r
V (Tr ) = r 2
− r
− 2
qp (qp ) qp q
Sean fn la probabilidad de que la primera vez que se observa una racha de
r éxitos consecutivos ocurra en la tirada n, y qn la probabilidad de que en n
tiradas no haya ninguna racha de r éxitos consecutivos, vale que:

(x − 1)(1 − px) 1
fn '
(r + 1 − rx)q xn+1
1 − px 1
qn ' n+1
(r + 1 − rx)q x
donde x es la menor solución a la ecuación s = 1 − qpr sr+1 , la misma se puede
encontrar de forma recursiva tomando g(s) = 1−qpr sr+1 , x0 = 1, xn+1 = g(xn ).
Demostración. Ver [3]. Trabaja con funciones generadoras (escapan los objetivos
del curso y conocimiento del autor).
Teorema 14.18 (Rachas - Competencia). Del Feller VIII.1: Sea A el evento
“un racha de α éxitos consecutivos ocurre antes que una racha de β fracasos
consecutivos” en un P.B. p, con q = 1 − p, vale que:

1 − qβ
P (A) = pα−1
pα−1 + q β−1 − pα−1 q β−1

68
1 − pα
P (B) = q β−1
pα−1 + q β−1
− pα−1 q β−1
P (A) + P (B) = 1
Demostración. Ver [3]. Esta se entiende fácil, hace algo parecido a lo que hicimos
en el problema de la rata.
Ejemplo 14.19 (Coleccionista con tres premios y vacı́os). Resolveremos el pro-
blema del coleccionista clásico pero agregándole la posibilidad de que vengan
chocolatines vacı́os. Sea {Xi : i ∈ Z+ } un proceso Bernoulli generalizado a va-
lores (0, 1, 2, 3) con probabilidades respectivas (z, a, b, c). El coleccionista quiere
juntar 1 a 3, y los 0 no le interesan, representan el chocolatı́n vacı́o.
Llamaremos N al tiempo de espera a completar la colección, NZ al tiem-
po que falta hasta completar la colección dado que ya acumulé Z ⊂ {1, 2, 3}
(subconjunto de la colección completa).
Condicionemos para empezar N al primer resultado. Si sale vacı́o el problema
vuelve a empezar, si sale 1 a 3 el coleccionista avanza:

N |X1 = 0 ∼ 1 + N
N |X1 = 1 ∼ 1 + N1
N |X1 = 2 ∼ 1 + N2

N |X1 = 3 ∼ 1 + N3
Para analizar N1 de forma similar, condicionemos al resultado i que será el
primero después de obtener el premio 1 (no necesariamente i = 2 pues podrı́an
salir unos vacı́os primero). De nuevo, si ya tenemos el 1 acumulado y nos sale
vacı́o o de nuevo 1 el coleccionista no avanza, si sale 2 o 3 sı́.

N1 |Xi = 0 ∼ 1 + N1
N1 |Xi = 1 ∼ 1 + N1

N1 |Xi = 2 ∼ 1 + N1,2
N1 |Xi = 3 ∼ 1 + N1,3

Las variables N1,2 y N1,3 representan el tiempo de espera hasta encontrar


el único premio que falta, 3 y 2 respectivamente, se distribuyen entonces como
variables geométricas Ge(c) y Ge(b).
Entonces, por fórmula de probabilidades totales para esperanza:

E[N1 ] = (z + a)E[1 + N1 ] + bE[1 + N1,2 ] + cE[1 + N1,3 ]


E[N1 ] (1 − (z + a)) = (z + a + b + c) + bE[N1,2 ] + cE[N1,3 ]
 
1 b c
E[N1 ] = 1+ +
1−z−a c b
 
1 b c
E[N1 ] = 1+ +
b+c c b

69
Análogamente
1  c a
E[N2 ] = 1+ +
c+a a c
 
1 a b
E[N3 ] = 1+ +
a+b b a
Planteamos ahora E[N ] por fórmula de probabilidades totales

E[N ] = zE[1 + N ] + aE[1 + N1 ] + bE[1 + N2 ] + cE[1 + N3 ]

E[N ](1 − z) = (z + a + b + c) + aE[N1 ] + bE[N2 ] + cE[N3 ]


    
1 a b c b  c a c a b
E[N ] = 1+ 1+ + + 1+ + + 1+ +
a+b+c b+c c b c+a a c a+b b a
Si z = 0 (no hay chocolatines vacı́os) trabajando se llega a la fórmula que
vimos en clase:

1 1 1 1 1 1
E[N ] = 1 − − − + + + si z = 0
1−a 1−b 1−c 1−a−b 1−b−c 1−c−a

70
15. Proceso de Poisson
Seguiremos [1], Procesos de Poisson, 22 de abril de 2013. Se formaliza un
poco más la pérdida de memoria del proceso, y se agrega algún resultado sobre
el PPP mirado desde un t0 hacia atrás.

15.1. Procesos puntuales


Definición 15.1 (Proceso puntual aleatorio). Sea {Sn : n ∈ Z+ 0 } un proceso
aleatorio que toma valores sobre [0, +∞) tales que, casi seguramente (a.s.)

(a) S0 = 0
(b) S0 < S1 < S2 < · · ·
(c) lı́mn→∞ Sn = +∞
Diremos entonces que Sn es un proceso puntual aleatorio o P.P. sobre la semi-
rrecta positiva.
NOTA 1: Un P.P. es un proceso que (con probabilidad 1): su primer variable
es 0, sus variables están ordenadas y no tienen arribos simultáneos, y no explota
(no puedo ver infinitos arribos en una cantidad finita de tiempo).
NOTA 2: Interpretaremos a los P.P. como el tiempo de arribo o el tiempo
de llegada de una marca o evento (hacer gráfico).
NOTACIÓN: A los procesos puntuales los llamaremos habitualmente con
letras griegas mayúsculas, por ejemplo “Sea Π un proceso puntual de Poisson
de tasa...”
Definición 15.2 (Tiempos de espera). Al proceso {Tn : n ∈ Z+ } definido por:

Tn := Sn − Sn−1

donde las Sn son un P.P, lo llamaremos sucesión de tiempos de espera entre


arribos. Notar que toma valores en [0, +∞) pues las Si están ordenadas de
menor a mayor.

Definición 15.3 (Proceso de conteo asociado). Sea {Sn : n ∈ Z+ 0 } un P.P,


y {Nt : t ∈ [0, +∞)} un proceso a tiempo continuo definido de la siguiente
manera: Nt es la cantidad de arribos que ocurren en el intervalo (0, t] (notar
que no cuento a S0 ), i.e.
X
Nt := 1{Sn ≤ t} = máx{n ≥ 0 : Sn ≤ t}
n≥1

Llamaremos al proceso de las Nt proceso de conteo de la sucesión de arribos Sn .


Definiremos también por comodidad la cantidad de arribos en el intervalo
(s, t] a la que llamaremos “incrementos”:
X
N(s,t] := Nt − Ns = 1{s < Sn ≤ t}
n≥1

NOTACIÓN: Escribiremos indistintamente para el proceso de conteo Nt =


N (t) y para los incrementos N(s,t] = N (s, t]

71
Teorema 15.4 (Propiedades de procesos puntuales y de conteo). Con las Sn y
Nt recién definidas vale que:

(1) Nt ≥ n ⇔ Sn ≤ t
(2) Nt = n ⇔ Sn ≤ t < Sn+1
(3) Nt es una V.A. a valores enteros no negativos
(4) N0 = 0 y lı́mt→∞ Nt = ∞

(5) Si s < t entonces Ns ≤ Nt .


(6) Si pensamos N (t) como una función (aleatoria, pues depende de las Sn ) de
t, tenemos N : R+ → N0 continua por derecha, no decreciente, que da saltos
en cada tiempo de arribo de altura 1. Hacer gráfico.

15.2. Proceso puntual de Poisson


Los procesos de Poisson tienen muchas propiedades que le son únicas, por
lo que admiten muchas definiciones distintas. Adoptamos la de [1] pues, en sus
palabras, es la más sencilla y generalizable (se la puede extender fácilmente de
la semirrecta R+ al espacio Rn )
Definición 15.5 (Proceso puntual de Poisson). Diremos que un P.P. {Sn : n ∈
Z+
0 } sobre la semirrecta positiva es un proceso puntual de Poisson de intensidad
λ > 0 si satisface las siguientes dos condiciones:

(1) El proceso de conteo asociado tiene incrementos independientes, i.e. para


cada colección finita de tiempos 0 < t1 < t2 < · · · < tn las variables
aleatorias N (0, t1 ], N (t1 , t2 ], . . . , N (tn−1 , tn ] son independientes.
(2) Los incrementos tienen la distribución de Poisson N (s, t] ∼ P oi(λ(t − s)),
i.e
e−λ(t−s) (λ(t − s))n
P (N (s, t] = n) = n ∈ Z+
0 ,0 ≤ s < t
n!
NOTA: La segunda condición se puede leer en dos partes:

(2.a) los incrementos son temporalmente homogéneos (o invariantes por tras-


lación), i.e. la distribución de las N (t, t + ∆t] depende de la longitud del
intervalo ∆t pero no de la posición del intervalo t.
(2.b) la distribución de cada incremento es Poisson con media proporcional a la
cantidad de tiempo considerado, N (t, t + ∆t] ∼ P oi(λ∆t)

Las condiciones 1 y la 2.a nos dicen que los incrementos son temporalmente
homogéneos (no importa donde nos paremos) e independientes, lo que implica
que si nos paramos en un tiempo arbitrario t y reiniciamos el proceso todo lo
que ocurra de ahı́ en adelante será independiente del pasado y se distribuirá de
la misma forma que el proceso original. Informalmente, diremos que le proceso
de Poisson no tiene memoria. La fiesta de Poisson empieza cuando llego.

72
Teorema 15.6 (Distribuciones asociadas). Sea Π = {Sn : n ∈ Z+ 0 } un PPP de
intensidad λ sobre la semirrecta positiva, y los tiempos de espera {Tn : n ∈ Z+ }
definidos:
Tn := Sn − Sn−1
Vale que:
(I) La densidad conjunta de los primeros n tiempos de arribo S1 , S2 , . . . , Sn
está dada por:

f(S1 ,S2 ,...,Sn ) (s1 , s2 , . . . , sn ) = λn e−λsn 1{0 < s1 < s2 < . . . < sn }

(II) Las marginales de los tiempos de arribo son V.A. gamma,

Sn ∼ Γ(n, λ)

(notar dependencia)
(III) Los tiempos de espera Tn son V.A.I.I.D. con distribución exponencial

Tn ∼ Exp(λ)

(notar independencia)
Demostración. Ver [1], Procesos de Poisson, teorema 1.5. No es tan larga y es
interesante. Arma la conjunta de las Gammas S1 . . . Sn a partir del proceso de
conteo tirando de galerazo unas integrales, y luego por jacobiano encuentra la
conjunta de las T1 . . . Tn .
Teorema 15.7 (Definiciones alternativas). Los enunciados (I) y (III) del teore-
ma anterior son caracterı́sticas únicas de los procesos de Poisson y sirven como
definiciones alternativas. Las propiedades sobre el proceso de conteo que usa-
mos como definición se pueden probar a partir de cualquiera de las definiciones
alternativas.
(I) Sea Π = {Sn : n ∈ Z+ 0 } un P.P. tal que la densidad conjunta de los
primeros n tiempos de arribo está dada por

f(S1 ,S2 ,...,Sn ) (s1 , s2 , . . . , sn ) = λn e−λsn 1{0 < s1 < s2 < . . . < sn }

vale que Π es un PPP(λ).


(II) NOTA: Con las marginales de los tiempos de arribo no podemos defi-
nir un PPP pues, como sabemos, las marginales no definen la densidad
conjunta.
(III) Sea {Tn : n ∈ Z+ } una sucesión de tiempos de espera con Tn V.A.I.I.D.
con distribución Exp(λ). Definimos al proceso de arribos Π = {Sn : n ∈
Z+
0 } de la siguiente manera:

n
X
S0 := 0 Sn := Ti n = 1, 2, . . .
i=1

vale que Π es un PPP(λ).

73
Demostración. Ver [1], Procesos de Poisson, tı́tulo 1.3. Es larga, hay que de-
mostrar que lo que se arma al “apilar” exponenciales independientes de tasa
λ es un proceso puntual, y que cumple las dos condiciones necesarias para ser
PPP.
Teorema 15.8 (Aditividades). Por si alguno no se avivó todavı́a, va de refuerzo:
Pn
1. Sean Ti V.A.I.I.D. exponenciales de tasa λ, y sea Sn = i=1 Ti , entonces
Sn tiene distribución Gamma (o Erlang) de parámetros n y λ, i.e.

Sn ∼ Γ(n, λ)

Nota memoria: suma de VA exponenciales independientes de misma tasa


es VA Gamma
2. P
Sean Ni V.A. independientes con distribución P oi(µi ), entonces N =
n
i=1 Ni tiene distribución de Poisson de media suma de las medias.

n
!
X
N ∼ Poi µi
i=1

Memorizar: suma de VA Poissones independientes es VA Poisson.

15.3. Pérdida de memoria


Teorema 15.9 (Pérdida de memoria 1). Sea Π un PPP(λ), t0 ∈ R+ positivo.
Definimos:
So∗ := 0 i0 := mı́n{i : Si > to } − 1
Si∗ := Sio +i − t0 i≥i

Π = {Sn∗ : n ∈ N0 }
Vale que Π∗ es un PPP(λ)
Demostración. (Informal) Se verifica que Π∗ es un PP, pues empieza con 0,
las variables vienen ordenadas de menor a mayor pues respestan el orden del
proceso original, y el lı́mite de Sn∗ en infinito coincide con el del proceso original.
Cumple con la condición 1 para ser PPP pues si en el proceso original elegi-
mos la colección de tiempos 0 < t1 < t2 < · · · < tn con t1 = t0 coincidente con
el origen del nuevo proceso, la independencia se deberá cumplir en el proceso
nuevo.
Cumple con la condición 2 pues las marcas las hereda del proceso original,
entonces P (N ∗ (s, t] = n) = P (N (s + t0 , t + to ] = n).
Tenemos entonces un proceso puntual que cumple las dos condiciones para
ser PPP.
NOTA: Hacer gráfico del proceso original y el nuevo sobre la misma recta.
Notar que es simplemente arrancar un nuevo cronómetro en un instante dado,
olvidando lo que pasó antes.
NOTA: La fiesta de Poisson empieza cuando llego.

74
Teorema 15.10 (Pérdida de memoria 2). Con las mismas hipótesis, pero T0
ahora es una V.A. a valores positivos independiente de Π (de todas las Sn )
Definimos:
So∗ := 0 i0 := mı́n{i : Si > To } − 1
Si∗ := Sio +i − T0 i≥i

Π = {Sn∗ : n ∈ Z+
0

Vale que Π∗ es un PPP(λ)


Demostración. (Informal) Mismo procedimiento que en el teorema anterior, se
complica un poco la condición dos pues hay que condicionar las probabilidades
a T0 = t0 y aplicar fórmula de probabilidades totales.
Ejemplo 15.11 (Pérdida de memoria). Para compensar lo informal de las
demostraciones, calculemos sin aplicar los teoremas la probabilidad P (T1∗ > t),
que es además la que más choca con la intuición previa a estudiar estos procesos.
Caso 1: t0 arbitrario.

P (T1∗ > t) = P (Nt∗ = 0) = P (N(t0 ,t0 +t] = 0) = e−λt

de donde
T1∗ ∼ Exp(λ)
Caso 2: T0 V.A. positiva discreta

P (T1∗ > t) = P (Nt∗ = 0) = P (N(T0 ,T0 +t] = 0) = · · ·

la distribución de N(T0 ,T0 +t] no nos es conocida pues depende de T0 , ası́ que
condicionamos por FPT:
X
··· = P (N(T0 ,T0 +t] = 0|T0 = t0 )P (T0 = t0 ) = · · ·
t0 ∈A(T0 )

como T0 = t0 reemplazamos:
X
··· = P (N(t0 ,t0 +t] = 0|T0 = t0 )P (T0 = t0 ) = · · ·
t0 ∈A(T0 )

y como T0 es independiente del proceso podemos olvidar la condición


X
··· = P (N(t0 ,t0 +t] = 0)P (T0 = t0 ) = · · ·
t0 ∈A(T0 )

X X
··· = e−λt P (T0 = t0 ) = e−λt P (T0 = t0 ) = e−λt
t0 ∈A(T0 ) t0 ∈A(T0 )

de donde
T1∗ ∼ Exp(λ)
Caso 3: T0 V.A. positiva continua Es lo mismo sólo que en lugar de una
sumatoria debemos resolver una integral y en lugar de P (T0 = t0 ) debe ir
fT0 (t0 )dt0 .

75
Queda al final:
Z Z
··· = e−λt fT0 (t0 )dt0 = e−λt fT0 (t0 )dt0 = e−λt
R R

de donde
T1∗ ∼ Exp(λ)

Teorema 15.12 (Poisson hacia atrás). Sea Π un PPP(λ), t0 ∈ R+ positivo.


Definimos:
(−)
T1 := t0 − máx{Si : Si < t0 }
el tiempo que pasó desde la última marca hasta el instante arbitrario t0 ). Vale
(−)
que T1 se distribuye con la siguiente función de distribución:

FT (−) (t) = 1 − e−λt 1{0 < t < t0 } + 1{t0 ≤ t}



1

Demostración. Usando el proceso de conteo:


(−)
P (T1 > t = P (N (t0 − t, t0 ] = 0) = e−λt 1{t < t0 }

La esperanza del tiempo que pasó es

(−) 1 − e−λt0
E[T1 ]=
λ
NOTA: Notar que si t0 grande, se trata de una V.A. exponencial. El resul-
tado se puede generalizar, para un proceso lo suficientemente viejo (en estado
estacionario), desde un t0 arbitrario se tiene un PPP(λ) tanto hacia adelante
como hacia atrás.
Teorema 15.13 (Poisson hacia atrás y adelante). Sea Π un PPP(λ), t0 ∈ R+
positivo. Definimos:

W := mı́n{Si : Si ≥ t0 } − máx{Si : Si < t0 }

o, en la notación que venimos trabajando


(−)
W = T1∗ + T1

i.e., el tiempo de espera entre la última marca antes de t0 y la primera después


de t0 . Vale que:

fW (w) = λ2 we−λw 1{0 < w ≤ t0 } + λ(1 + λt0 )e−λw 1{t0 < w}

Demostración. Ver [4], I.4 Waiting time paradoxes, hace una mezcla entre las
exponenciales. O calcular la densidad de W como la suma entre la primera
exponencial desde t0 y el tiempo hacia atrás.
NOTA: Notar que para t0 grande se trata de una Γ(2, λ).

76
15.4. Más propiedades
Hipótesis en general: Sn , Tn y N (t) como se definieron.
Teorema 15.14 (Tiempos de arribo dada cantidad arribada). Sabiendo que
hasta t hubo un solo arribo, T1 se distribuye uniformemente entre 0 y t, i.e.

T1 |N (t) = 1 ∼ U (0, t)

o, equivalente:
s
P (T1 < s|N (t) = 1) = 1{0 < s < t} + 1{t ≤ s}
t
Demostración. Demostrar en clase, deberı́a salir fácil.
Si fijamos ahora la cantidad de arribos en un intervalo (a, d) y nos pregun-
tamos qué pasa en un sector del intervalor (b, c) ⊂ (a, d), obtenemos:
 
c−b
N (b, c]|N (a, b] = n ∼ Bi n, a≤b<c≤d
d−a
entonces,
 
n m c−b
P (N (b, c] = m|N (a, b] = n) = p (1 − p)n−m con p =
m d−a
Demostración. Demostrar en clase, deberı́a salir fácil. Tomar a = b = 0 sin
perder generalidad para que el subintervalo quede a la izquierda y el resto a
derecha ya evitar sumatorias.
Generalizando todavı́a más informalmente, podemos decir que si Π es un
proceso puntual de Poisson de intensidad λ sobre R+ . Condicional al evento
N (t) = n, los n arribos ocurridos en [0, t] tienen la misma distribución conjunta
que la de n puntos independientes elegidos al azar en [0, t].
Teorema 15.15 (Coloración). Sea Π un PPP sobre R+ de intensidad λ, y B
un PBG a valores {1 . . . r}. Colorearemos las marcas de r colores distintos de la
siguiente manera, a la marca n que ocurrió a tiempo Sn la pintamos del color
que nos indica la Xn (del PBG). Sean Πi los conjuntos de puntos (o tiempos de
arribo) pintados del color i, vale que Πi es un proceso de Poisson de intensidad
pi λ, y los Πi son procesos independientes.
Demostración. Demostraremos qué pasa con el proceso de conteo para t fijo y
dos colores nada más. Si para un t fijamos la cantidad n de arribos del proceso
original, y deseamos saber cuántos de ellos debemos colorear del primer colo y
cuántos del segundo, basta con ver las primeras n Bernoullis y contar cuántas
son éxito
n!
P (N1 (t) = n1 , N2 (t) = n2 |N (t) = n) = pn1 pn2
n1 !n2 ! 1 2
por lo tanto, teniendo en cuenta n = n1 + n2 la probabilidad no condicional
será:
n1 +n2
  
(n1 + n2 )! n1 n2 −λt (λt)
P (N1 (t) = n1 , N2 (t) = n2 ) = p p e
n1 !n2 ! 1 2 (n1 + n2)!

77
e−p1 λt (p1 λt)n1 e−p2 λt (p2 λt)n2
  
··· =
n1 ! n2 !
dos variables Poisson independientes de tasas p1 λ y p2 λ
Se generaliza a r colores fácilmente. Y la propiedad de homogeneidad del
proceso original Π se traslada a los procesos nuevos.
Teorema 15.16 (Competencia o superposición). Sean Πi con i = 1 . . . r pro-
cesos puntuales de Poisson independientes de tasa λi sobre R+ . ElPconjunto
r
Π = ∪ri=1 Πi es un proceso puntual de Poisson sobre R+ de tasa λ = i=1 λi .
Sea Xi la variable que toma el valor k en 1 . . . r si la marca i del proceso Π
vino dada por el proceso Πk , entonces las Xi son un P.B.G. con probabilidades
pi = λi /λ independiente del proceso Π.
NOTA: Los últimos dos teoremas se pueden pensar como recı́procos. Hacer
gráfico esclarecedor.
Teorema 15.17 (Primeros n − 1 arribos dado el tiempo n-ésimo). Sea Π un
PPP(λ), sn > 0, vale que:

(n − 1)!
fS1 ,...Sn−1 |Sn =sn (s1 , . . . sn−1 ) = 1{0 < s1 < · · · < sn−1 < sn }
sn−1
n

i.e., dado el tiempo de arribo de la n-ésima marca, las anteriores se distribuyen


como una uniforme en el triángulo n − 1 dimensional 0 < s1 < · · · < sn−1 < sn
Demostración. Inmediato, hacer conjunta sobre marginal.

Teorema 15.18 (Proceso de Poisson compuesto). Sean {N (t), t ∈ R+ } el pro-


ceso de conteo asociado a un PPP de tasa λ y {Yi , i ∈ N} un proceso de
V.A.I.I.D. cualesquiera independientes de las N (t). Definimos el proceso de pois-
son compuesto:
N (t)
X
X(t) := Yi
i=1

Vale que:
1. Si E[Yi ] finita, E[X(t)] = λtE[Y1 ]
2. Si var(Yi ) finita, var(X(t)) = λtE[Y12 ]

Demostración. Demostrar usando E[X(t)] = E[E[X(t)|N (t)]] y pitágoras. No-


tar que el planteo es muy similar a lo que llamamos suma aleatoria de variables
aleatorias, ahora simplemente aparece t que es un parámetro fijo.

78
16. Variable normal y TCL
16.1. La variable normal univariada
Definición 16.1 (Normal y normal estándar). Diremos X ∼ N (µ, σ 2 ) si

(x − µ)2
 
1
fX (x) = √ exp −
σ 2π 2σ 2

Diremos Z ∼ N (0, 1) o Z es normal estándar si


1 2
fZ (z) = ϕ(z) = √ e−z /2

La función de distribución de Z se encuentra integrando ϕ con métodos
numéricos y es una función nueva en el sentido de que no la podemos escri-
bir como combinación de las funciones conocidas (polinomios, trigonométricas,
exponencial, etc.). La llamaremos:

FZ (z) = Φ(z)

La función Φ es estrictamente creciente y por lo tanto inversible, usaremos en


el curso la notación habitual de cuantiles, es decir:

zα = Φ−1 (α) α ∈ (0, 1)

Teorema 16.2 (Simetrı́a). Vale que:

Φ(−x) = 1 − Φ(x)

Demostración. Evidente pues ϕ(x) es simétrica respecto al eje y (función par).

Teorema 16.3 (Estandarización y cálculo). Sea X ∼ N (µ, σ 2 ), Z := (X −µ)/σ


vale que Z es normal estándar. Luego:

P (X ≤ x) = Φ x−µ

σ
 
P (a < X ≤ b) = Φ b−µ − Φ a−µ

σ σ

c −c c
  
P (|X − µ| < c) = Φ σ −Φ σ = 2Φ σ −1

NOTA: Los valores de Φ(z) se encuentran tabulados en libros y tablas,


usualmente para −3 ≤ z ≤ 3 con saltos de 0.01.
TeoremaP 16.4 (Aditividad). Sean Xi ∼ N (µi , σi2 ) V.A. normales independien-
n
tes, S := i=1 Xi , vale que:
n n
!
X X
2
S∼N µi , σi
i=1 i=1

Demostración. Tomar n = 2 y obtener la densidad de la suma por convolu-


ción (laburo jodido de análisis), luego inducción. Ver [1], Normalidad y teorema
central del lı́mite.

79
NOTA: Como aXi ∼ N (aµi , a2 σ 2 ), vale que
n n n
!
X X X
ai Xi ∼ N ai µi , a2i σi2
i=1 i=1 i=1

Se lee: combinación lineal de normales independientes es normal

16.2. Teoremas lı́mite


Teorema 16.5 (Teorema de De Moivre-Laplace). Sea Sn ∼ Bi(n, p) con 0 <
p < 1, vale que: !
Sn − np
lı́m P p ≤ x = Φ(x)
n→∞ np(1 − p)
Aplicación: para np y n(1 − p) grande diremos Sn ∼∼ N (np, np(1 − p)).
Luego (si q = 1 − p)
 
1
P (Sn = k) ' √npq ϕ k−np

npq (sugerimos no usar esta fórmula)
 
k−np
P (Sn ≤ k) ' Φ √
npq

O mejor, corrigiendo por continuidad ya que Sn es discreta, nos corremos un


medio para donde corresponda
   
P (Sn = k) ' Φ k+0.5−np

npq − Φ k−0.5−np

npq
 
k+0.5−np
P (Sn ≤ k) ' Φ √
npq

Demostración. Ver [3], capı́tulo VII - The normal aproximation to the binomial
distribution
Teorema 16.6 (Teorema central del lı́mite). Sea Xi : i ∈ Z+ una sucesión de
V.A.I.I.D., cada una con media µ y varianza σ 2 (finitas). Sea
Pn
∗ Xi − nµ
S := i=1√

Vale que:
lı́m P (S ∗ ≤ x) = Φ(x)
n→∞

Xi ∼∼ N (nµ, nσ 2 ) o S ∗ ∼∼
P
Aplicación: Para n grande diremos S :=
N (0, 1). Luego:
 
P (S ≤ x) ' Φ x−nµ


   
b−nµ a−nµ
P (a < S ≤ b) ' Φ √

−Φ √

S
P( n − µ ≤ a √σn ) ' 2Φ(a) − 1

Demostración. Ver [5], capı́tulo 5 - Generating functions and their aplications,


tı́tulo 5.10 Two limit theorems. La demostración es muy corta pero usa funciones
generadoras que es algo que no damos en el curso, hay que leer todo el capı́tulo.

80
NOTA: No es necesario que las variables sean idénticamente distribuidas,
ni que haya independencia entre todas, hay más generalizaciones del TCL que
no veremos en este curso.

16.3. La variable normal bivariada


Definición 16.7 (Normal bivariada). Diremos (X1 , X2 ) ∼ N (µ, Σ) si

(x1 − µ1 )2
 
1 −1
fX1 ,X2 (x1 , x2 ) = exp +
2(1 − ρ2 ) σ12
p
2πσ1 σ2 1 − ρ2
(x2 − µ2 )2

2ρ(x1 − µ1 )(x2 − µ2 )

σ22 σ1 σ2
donde los parámetros son el vector de medias y la matriz de covarianzas
σ12
   
µ1 ρσ1 σ2
µ= Σ=
µ2 ρσ1 σ2 σ22
Teorema 16.8 (Marginales y condicionales). Sea (X1 , X2 ) ∼ N (µ, Σ) con:

σ12
   
µ1 ρσ1 σ2
µ= Σ=
µ2 ρσ1 σ2 σ22
vale que:
X1 ∼ N (µ1 , σ12 )
X2 ∼ N (µ2 , σ22 )
   
X1 |X2 = x2 ∼ N µ1 + ρσ1 x2σ−µ
2
2
, (1 − ρ 2 2
)σ 1
   
X2 |X1 = x1 ∼ N µ2 + ρσ2 x1σ−µ
1
1
, (1 − ρ 2 2
)σ 2

Demostración. Ver [6], 5.12 The Bivariate Normal Distribution. Construye X1 , X2


como un cambio de variables a partir de dos normales estándar independientes
y demuestra las propiedades.
Teorema 16.9 (Generación de normales multivariadas). Sea Z = (Z1 , Z2 , . . . Zn )
un vector de n VAIID normales estándar.
Sea
X := T T Z + µ
donde µ ∈ Rn es el vector de medias y T ∈ Rn×n es una matriz tal que el produc-
to de su transpuesta por sı́ misma da por resultado una matriz de covarianzas
TTT = Σ
Vale que:
X ∼ N (µ, Σ)
i.e.:  
1 1
fX (x) = q exp − (x − µ)T Σ−1 (x − µ)
(2π)n |Σ| 2

NOTA: es habitual usar para T la descomposición de Cholesky de Σ.


Demostración. Hacer fórmula del Jacobiano, es una transformación lineal bi-
yectiva. El teorema figura en [12], 5.3.1 Multivariate Normal Distribution.

81
Referencias
[1] Grynberg, S. Borradores, Curso 23. Buenos Aires: [digital], marzo a junio
de 2013.
[2] Maronna, R. Probabilidad y Estadı́stica Elementales para Estudiantes de
Ciencia. 1ra ed. La Plata: [digital], 1995.
[3] Feller, W. An Introduction to Probability Theory and Its Applications, Vol.
I. 2da ed. New York: John Wiley & Sons, 1957.
[4] Feller, W. An Introduction to Probability Theory and Its Applications, Vol.
II. 2da ed. New York: John Wiley & Sons, 1971.
[5] Grimmet, G., Stirzaker, D. Probability and Random Processes. 3ra. ed. Gran
Bretaña: Oxford University Press, 2001.
[6] DeGroot, M. H. Probability and Statistics. 2nd. ed. EE.UU.: Addison-
Wesley Publishing Company, 1989.

[7] Billingsley, P. Probability and Measure. 3rd. ed. EE.UU.: New York: John
Wiley & Sons, 1995.
[8] [Varios artı́culos: ‘· distribution’]. En Wikipedia, The Free Encyclopedia.
Consultados en Julio 2016.

[9] Numpy and Scipy Documentation. Consultado en Julio 2016 de


https://docs.scipy.org/doc/
[10] Billingsley, P. Probability and Measure. 3rd. ed. EE.UU.: John Wiley &
Sons, 1995.

[11] Flajolet, P.; Gardy, D.; Thimonier, L. Birthday Paradox, coupon collectors,
caching algorithms and self-organizing search. Discrete Applied Mathema-
tics 39 (1992) 207-229
[12] Gentle, J. E. Random Number Generation and Monte Carlo Methods. 2nd.
ed. EE.UU.: Springer, 2005.

82

También podría gustarte