Documentos de Académico
Documentos de Profesional
Documentos de Cultura
21 de julio de 2014
Prólogo
A pesar de la brevedad del libro, se expone con bastante profundidad (en comparación
con la mayorı́a de los cursos introductorios) la Ley Fuerte de los Grandes Números y los
Teoremas Centrales del Lı́mite. En este último tema nos enfocamos en el uso del método
métrico y de las aplicaciones reales, en particular, a los procesos de riesgo. Además con-
sideramos que los dos temas mencionados tienen un valor conceptual en la formación de
estudiantes dedicados a cualquier ciencia.
Para comprender el contenido del libro, es suficiente tener un manejo de álgebra ele-
mental y de cálculo diferencial e integral básico. Los ejemplos y ejercicios presentados
(frecuentemente no estándares) constituyen un integrante esencial del texto, y sirven para
ampliar y profundizar el material expuesto, incluso algunas veces revelan propiedades sor-
prendentes de los objetos aleatorios. Alrededor del 35 % de los ejercicios y una cantidad
significativa de los ejemplos, son originales.
i
Lista de abreviaturas y de notaciones estándares
Alfabeto griego
α alfa ι iota ρ, % ro
β beta κ kappa σ sigma
Γ, γ gamma λ lambda τ tao
∆, δ delta µ mi υ ı́psilon
ε, épsilon ν ni φ, ϕ fi
ζ zeta ξ xi χ ji
η eta o ómicron ψ psi
θ theta π pi Ω, ω omega.
ii
Índice general
Prólogo I
Introducción VII
1. Espacio de probabilidad 1
1.1. Espacio de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Variables aleatorias y sus distribuciones . . . . . . . . . . . . . . . . . . . . 5
1.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2. Independencia 21
2.1. Independencia de eventos y variables aleatorias . . . . . . . . . . . . . . . 21
2.2. Fórmula de probabilidad total. . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3. Esperanza y varianza 39
3.1. Esperanza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2. Varianza y desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . 43
3.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4. Esperanza condicional 59
4.1. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2. Caminatas aleatorias simples . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.1. Caminata aleatoria con dos barreras absorbentes. . . . . . . . . . . 67
4.2.2. Caminata aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3. Proceso de Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4. Modelo clásico de riesgo (de Cramér-Lundberg) . . . . . . . . . . . . . . . 73
4.4.1. Descripción del modelo y el capital promedio. . . . . . . . . . . . . 73
4.4.2. Probabilidad de ruina. . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
iii
ÍNDICE GENERAL
5. Esperanza geométrica 87
5.1. Esperanza geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Bibliografı́a. 181
iv
Índice de figuras
v
ÍNDICE DE FIGURAS
4.3. Con x = 5 hay más chances de alcanzar primero el punto 0 (ruina) que el
punto a = 1000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4. Ruina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.5. La trayectoria tı́pica de un proceso de Poisson. . . . . . . . . . . . . . . . . 71
4.6. Modelo clásico de riesgo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.7. Capital promedio de una compañı́a de seguros. . . . . . . . . . . . . . . . . 75
4.8. Una trayectoria posible del capital corriente. . . . . . . . . . . . . . . . . . 76
4.9. Capital inicial nuevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
vi
Introducción
A pesar de que el presente libro es conciso, sus finalidades son múltiples. La primera, es
dar una introducción no formal y extremadamente breve a los conceptos más importantes
de la teorı́a de probabilidad moderna. De lo cual, las definiciones y proposiciones se ilus-
tran a partir de ejemplos transparentes e intuitivos. Además, no siempre se proporcionan
las demostraciones de los teoremas. Sin embargo, se les acompaña de alguna explicación
sobre las ideas de la prueba, se ilustran a partir de ejemplos y se pone énfasis en las apli-
caciones de modelos estocásticos sencillos de carácter práctico (juegos de azar, modelos
de riesgo, entre otros).
Otro objetivo del libro es ofrecer un conjunto de ejercicios selectos, los cuales ayudan
a profundizar el aprendizaje del material expuesto, y algunas veces proveen propiedades
o respuestas intuitivamente inesperadas. La mayorı́a de los ejercicios son bastante sim-
ples, y pocos de ellos recurren a los cálculos de rutina. Una cantidad significativa de los
ejemplos y alrededor del 35 % de los ejercicios son originales. Cabe mencionar que algunos
ejercicios necesitarán para su solución material aún no visto en el capı́tulo respectivo, sin
vii
embargo se le recomienda al lector intentarlos y en su defecto esperar resolverlos hasta la
adquisición del nuevo material.
La presente obra no está diseñada para ser un libro de texto en los cursos tradicionales,
mas bien tiene como objetivo ser un material complementario y de apoyo para los cursos
introductorios o intermedios de probabilidad y de probabilidad aplicada. Para entender-
lo son suficientes conocimientos sobre cálculo diferencial e integral y álgebra elemental.
Algunas nociones un poco más avanzadas, como la suma de una serie infinita, se aclaran
brevemente en el libro. Puntualizamos que para comprender este breve libro es suficiente
tener voluntad, algo de imaginación y un manejo del cálculo.
En este texto, también, introducimos de manera más profunda los Teoremas Centrales
del Lı́mite de la teorı́a de probabilidad, dirigiendo la atención a los puntos claves en sus
formulaciones y demostraciones. Como se mencionó en el prólogo, la Ley de los Grandes
Números y el Teorema Central del Lı́mite juegan un papel conceptualmente importante
y en ese sentido salen del marco de la teorı́a de probabilidad por sı́ misma. Entonces,
la diferencia con casi todos los textos introductorios a la teorı́a de probabilidad son las
palabras clave en los capı́tulos del 6 al 9: “teorema del lı́mite” y “convergencia”.
Si algún lector desea entender más cosas interesantes sobre la teorı́a de la probabili-
dad, pero le parece que el presente libro es difı́cil, puede leer buenos libros como el Hoel
et al (1971) y el Pitman (1993). Si por el contrario, el lector con una preparación sólida
en matemáticas desea profundizar en algunos temas, puede consultar el curso avanzado
expuesto en el Durrett (1991); o un buen curso intermedio en Meester (2003). De entre
los textos sobre procesos de riesgo en seguros, recomendamos el libro Rincón (2012) o el
muy completo texto de Rolski et al (1999). El libro de Korn & Korn (2001) da una buena
introducción al tema de optimización de polı́ticas de inversiones (control de portafolios)
y a otros temas importantes de la matemática financiera moderna. El lector puede en-
contrar algunas notas sobre interpretaciones del concepto de probabilidad en las ciencias
naturales en Gordienko (2011).
Finalmente queremos agradecer a todos aquellos que nos ayudaron a la realización del
presente libro, muy particular a Guadalupe Franco, y por sus valiosos comentarios al Dr.
Adolfo Minjarez Sosa y al Dr. Andrey Novikov.
viii
Capı́tulo 1
Los eventos son subconjuntos del espacio muestral Ω. Por ejemplo, en el lanzamien-
to de un dado simétrico podemos considerar el evento A = {sale un puntaje mayor que
4} = {ω5 , ω6 }. La probabilidad P asignada a cada evento es una medida numérica de la
posibilidad de la ocurrencia del evento. En el caso del dado simétrico, una probabilidad
asignada al evento A es P (A) = 26 = 13 . Más adelante, en el Ejemplo 1.1, se analizará el
caso cuando se realizan dos lanzamientos de un dado simétrico. Más aún, en el Ejemplo
1.3 definimos X := el puntaje sumado, lo cual es un ejemplo de una variable aleatoria.
Otro ejemplo, es el tiempo de vida (o edad, medida en años) que tendrá un recién nacido.
De acuerdo con las estadı́sticas de mortalidad en épocas recientes se sabe que la probabi-
lidad de que un individuo viva entre 60 y 100 años es cercana a uno; esto último se denota
como P (60 6 Y 6 100) ≈ 1, donde P es la función denominada probabilidad y Y es
la v.a. que representa el tiempo de vida de un individuo. Esta última expresión significa
1
1.1. Espacio de probabilidad
(i) P (Ω) = 1;
(ii) P (A1 ∪ A2 ∪ A3 ∪ . . . ) = P (A1 ) + P (A2 ) + P (A3 ) + . . .
Ω
A4
A1
A2
A3
0 P(A1) P(A2) 1
Notemos que [0, 1] denota al conjunto de todos los números reales entre 0 y 1 (in-
cluyendo a éstos), pero la notación {x1 , x2 , . . . , xk , . . . } indica que se incluyen sólo los
números reales x1 , x2 , . . . , xk . . . En particular, el conjunto {0, 1} consiste solamente de
los números 0 y 1.
2
CAPÍTULO 1. ESPACIO DE PROBABILIDAD
Ejemplo 1.1 Un dado simétrico se lanza dos veces. A este “experimento” corresponde
el siguiente espacio de probabilidad:
Espacio muestral: Ω = {ω = (i, j); i, j = 1, 2, . . . , 6};
Eventos: F = {todos los subconjuntos de Ω};
# de ω ∈ A # de ω ∈ A
Probabilidad: P (A) := = .
# de ω ∈ Ω 36
En este ejemplo, Ω es un conjunto finito que representa todos los resultados del expe-
rimento aleatorio, donde, i, j son los puntajes correspondientes al primer y al segundo
lanzamiento, respectivamente. Por ejemplo, considérense los eventos:
A := {la suma del puntaje es 10} = {(4, 6), (6, 4), (5, 5)} y
B := {el producto del puntaje es > 24} = {(4, 6), (6, 4), (5, 5), (5, 6), (6, 5), (6, 6)}. En-
3 1 6
tonces se tiene que P (A) = 36 = 12 y P (B) = 36 = 16 .
Nota 1.1 (a) Para recordar las operaciones con conjuntos: unión A ∪ B, intersección
A ∩ B y complemento A = Ω\A, vea las siguientes Figuras, donde A ∪ B es la
Ω Ω
Β _
A'B Α
Α Α
ω
imagen resaltada con \\\, A ∩ B está resaltada con × × × y A se resalta con ///.
También A\B consta de los elementos de A que no pertenecen a B.
(b) Cuando ω ∈ A, diremos que ocurre el evento A. En el ejemplo anterior, si resulta
que ω = (6, 4), se dice que ocurre A, pero si ω = (4, 1), entonces ocurre A, puesto
que ω ∈/ A, o bien ω ∈ A. El caso en que ω ∈ A ∪ B se refiere a la ocurrencia de A
o B. Si ω ∈ A ∩ B, entonces se tiene la ocurrencia simultánea de los eventos A y B.
En el Ejemplo 1.1, A ⊂ B (i.e. A es un subconjunto de B o bien la ocurrencia del
evento A implica la ocurrencia del evento B, véase la Figura 1.3), y por eso en este
caso A ∪ B = B, A ∩ B = A.
(c) Observe que en la Figura 1.3 los eventos A y C son disjuntos, es decir A ∩ C = ∅.
Esto significa que A y C no tienen elementos en común y por eso no pueden ocurrir
simultáneamente.
3
1.1. Espacio de probabilidad
Ω
B
A
C
Ejemplo 1.2 Un “punto” se “lanza” al azar dentro del cuadrado unitario. A este expe-
rimento (puramente imaginario) corresponde el siguiente espacio de probabilidad:
y
1
Ω
ωy ω
X(ω)
x
0 ωx 1
Espacio muestral. Todos los “puntos”del cuadrado unitario los cuales forman un
conjunto infinito y no numerable, (i.e. no contable por 1, 2, 3, . . . ), es decir
Eventos.
F = {todos los subconjuntos A de Ω para los cuales el área de A está bien definida}.
4
CAPÍTULO 1. ESPACIO DE PROBABILIDAD
y
1 De la Figura tenemos por ejemplo: P (A) = la pro-
Ω
babilidad de que el ‘punto’ va a caer dentro del
B
1/2 conjunto A = área de A = 41 . Por otro lado, P (B)
= área de B es un número bastante cercano a cero
A
x (hay pocas oportunidades de caer dentro de B).
0 1/2 1
Nota 1.2 Existen algunos subconjuntos del cuadrado para los cuales su área no está de-
finida.
De la Definición 1.1 se siguen directamente las siguientes propiedades:
(a) P (A) = 1−P (A) y P (A) = 1−P (A) ya que 1 = P (Ω) = P (A∪A) = P (A)+P (A) ;
(b) P (A) 6 P (B), si A ⊂ B;
(c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Para eventos disjuntos A y B, P (A ∩ B) =
P (∅) = P (Ω) = 1 − 1 = 0.
11
En el Ejemplo 1.1, P (A) = P (la suma del puntaje es 6= 10) = 1 − P (A) = 12
.
5
1.2. Variables aleatorias y sus distribuciones
Definición 1.3 (a) Una v.a. X se llama discreta si el conjunto de sus valores:
{x1 , x2 , . . . , xk , . . . , } (1.2.2)
es finito o numerable (en el caso numerable los elementos se pueden contar mediante
1, 2, 3, . . . , pero sin terminar el proceso de conteo).
P (X = xk ) > 0, k = 1, 2, . . . , (1.2.3)
λk −λ
P (Y = k) = e , k = 0, 1, 2, . . . ,
k!
2
Nombre del matemático suizo Jacob Bernoulli (1654-1705), reconocido por sus contribuciones al
cálculo de variaciones, a la teorı́a de probabilidad, a la geometrı́a analı́tica, entre otras.
6
CAPÍTULO 1. ESPACIO DE PROBABILIDAD
se llama v.a de Poisson 3 con parámetro λ, el cual puede ser cualquier número positivo
(λ > 0). En este caso escribimos Y ∼ P oiss(λ).
(d) La v.a. geométrica X ∼ Geom(p) con parámetro p ∈ (0, 1) toma sus valores en
el conjunto {1, 2, . . . , k, . . . }. Las probabilidades de sus valores están dadas por:
P (X = k) = p(1 − p)k−1 , k = 1, 2, 3, . . .
Nota 1.3 Las v.a. de los ejemplos 1.3 (a) y 1.4 son discretas, sin embargo la v.a. del
Ejemplo 1.3 (b) no es discreta.
Ejemplo 1.5 Un dado simétrico se lanza 10 veces. Sea X la v.a. que representa el número
de veces que resulta el puntaje “6”. Para i = 1, 2, . . . , 10 introducimos las v.a. Xi de
Bernoulli independientes (véase Capı́tulo 2 para la definición de independencia),
(
1, si en el i-ésimo lanzamiento resulta ‘6´,
Xi =
0, si resulta cualquier otro puntaje.
1
Por lo tanto, X ∼ Bin n = 10, p = 6
, y de (1.2.4), por ejemplo
3 7 3 7
10! 1 5 8 · 9 · 10 1 5
P (X = 3) = = ≈ 0.15505.
3!7! 6 6 1·2·3 6 6
3
Distribución descubierta por el matemático francés Simeón Denis Poisson (1781-1840), se le atribuyen
trabajos en geometrı́a diferencial y teorı́a de probabilidad.
7
1.2. Variables aleatorias y sus distribuciones
Nota 1.4 Puesto que los valores de las v.a. son números reales, se pueden considerar las
sumas, productos y cocientes de v.a. Además, frecuentemente, se estudian las v.a. como
funciones de otras v.a., X 2 , eX , etc. (por ejemplo un valor de la v.a. Y = eX es e1 = e,
cuando la v.a. X toma el valor 1). En el Ejemplo 1.3 (a), se puede escribir X = Z + Y
donde la v.a. Z representa el puntaje del primer lanzamiento y Y el del segundo.
y
1
FX (x)
x
0
La igualdad (1.2.6) implica que FX es continua (i.e. no tiene saltos como en la Figura
1.5) y además es derivable,
FX0 (x) = fX (x), (1.2.7)
en “casi todos” los puntos x ∈ R, en particular, en todas las x donde fX (x) es continua.
8
CAPÍTULO 1. ESPACIO DE PROBABILIDAD
y
fX (x)
x
0 a b
Rb
Figura 1.6: El área rayada = a
fX (x)dx = P (X ∈ [a, b]).
9
1.2. Variables aleatorias y sus distribuciones
Nota 1.5 De las ecuaciones (1.2.10) y (1.2.6) y de la Definición 1.3 se obtiene fácilmente
que:
(a) Para v.a. discretas existe una correspondencia uno a uno entre la f.d. FX y la distri-
bución de X.
(b) Para v.a. X a.c. existe una correspondencia uno a uno entre la f.d. FX y la densidad
fX de X (tomando en cuenta ciertos convenios relacionados con el hecho de que dos
funciones fX y feX que difieren, por ejemplo, en un subconjunto finito de R tienen
los mismos valores de sus integrales en (1.2.6).
Nota 1.6 (a) A diferencia de (1.2.3) para una v.a. X a.c., por (1.2.9) se tiene que:
Z a
P (X = a) = fX (x)dx = 0, para cada a ∈ R.
a
En particular una v.a. discreta no puede tener densidad con la propiedades dadas en
(1.2.6) y (1.2.9). (Entonces el término “densidad de una v.a. discreta” que se usa en
varios manuales tiene un sentido diferente).
y
fX (x)
f (x)
X
x
x-ε x+ε
0 1 2 x
En este sentido, para la v.a. X con la densidad fX que se observa en la Figura 1.7,
“los valores más probables” están alrededor de x = 2, mientras que los valores de x < 1
10
CAPÍTULO 1. ESPACIO DE PROBABILIDAD
tienen probabilidad cero. En general, una v.a. a.c. X toma sus valores solamente en los
“intervalos” donde la densidad fX es positiva (esto, si no hablamos de una forma com-
pletamente estricta).
y
λ
fX (x)
x
0 (con λ=3)
11
1.2. Variables aleatorias y sus distribuciones
y
λ
FX (x)
x
0 (con λ=3)
Es decir, las expresiones “v.a. de Poisson” y “ v.a. con la distribución de Poisson” las
vamos a interpretar como equivalentes. Y en ambos casos se escribirá X ∼ P oiss(λ).
Ejemplo 1.8 De fı́sica sabemos que un átomo del isótopo (radiactivo) 283 de Uranio
tiene un tiempo de “vida” hasta su desintegración representado por la v.a. X ∼ Exp(λ)
con λ ≈ 1.53896 · 10−10 (1/año). Si queremos calcular la probabilidad de que un átomo de
uranio “vivirá ” más de 5 · 105 años tendremos entonces lo siguiente:
Nota 1.8 El tiempo de existencia de la Tierra se estima entre 4.5 × 109 y 4.8 × 109
años. Comparando con los cálculos en el Ejemplo 1.8 podemos concluir que una cantidad
considerable (casi la mitad) de átomos de Uranio-283 existı́an antes del origen de la Tierra.
12
CAPÍTULO 1. ESPACIO DE PROBABILIDAD
(x − a)2
1
fX (x) = √ exp − , x ∈ R. (1.2.13)
2πσ 2σ 2
Una v.a. a.c. con esta densidad se llama Normal (o Gaussiana4 ) con parámetros a y
σ (donde a = EX es el promedio de X, y σ es la desviación estándar, , véase Capı́tulo
3). Lo cual denotaremos X ∼ N orm(a, σ) . En particular, si a = 0 y σ = 1 entonces la
v.a. η ∼ N orm(0, 1) se denomina Normal estándar.
y y 2 2
1/(2π)1/2 1 - (x-a) /2σ
fη(x) = 1 - x 2/2
e fX (x) = e
2π σ
2π
(estándar)
con a=2
x x y σ=1.5
0 0 2
13
1.2. Variables aleatorias y sus distribuciones
X −a
Es fácil ver que (consulte Ejercicio 1.19) la v.a. η = es Normal estándar, por
σ
tanto: P (X > 140) ≈ 1 − P (η 6 2.33) = 1 − Φ(2.33) ≈ 0.0099, i.e. alrededor de 1 persona
de cada 100 puede considerarse “muy lista”(véase la ley de los grandes números en el
Capı́tulo 6 para la justificación de la relación entre probabilidad y “frecuencia”).
Nota 1.9 De la densidad de la v.a. X Normal (1.2.13) se sigue que el conjunto de valores
de X es toda la recta numérica (−∞, ∞) (puesto que la densidad fX es positiva en toda la
recta R). Sin embargo, las v.a. normales se usan ampliamente para modelar magnitudes
aleatorias no negativas y/o acotadas como, por ejemplo: la estatura de una persona adul-
ta elegida al azar, los precios de algunos valores en el mercado financiero, etc. La amplia
difusión de las v.a. normales en ciencias, ingenierı́a y estadı́stica está relacionada con los
Teoremas Centrales del Lı́mite estudiados en el Capı́tulo 8. Sin embargo, una pregunta que
surge es ¿cómo una variable aleatoria normal puede servir para aproximar una magnitud
aleatoria no negativa y acotada? Respuestas: Por un lado, la densidad normal en (1.2.13)
se anula muy rápido Z cuando |x| →
−x Z ∞. Esto implica que las probabilidades de las “co-
∞
las” P (|X| > x) = fX (y)dy + fX (y)dy, desaparecen muy rápido, cuando x → ∞.
−∞ x
En el Ejemplo 1.10 la v.a. del I.Q. toma sus valores (“puntos”) en el intervalo [0, 200] y a
pesar de esto se modela mediante la v.a. X ∼ N orm(a = 100, σ = 17.2). Estimamosque
X − a 100
P X ∈ / [0, 200] = P X − a ∈ / [−100, 100] = P |X| > 100 = P > ≈
σ 17.2
X − a
P |η| > 5.814 , donde η ∼ N orm(0, 1), y por (1.3.15) se tiene P > 5.814 6
σ
2 (5.814)2
√ e− 2 ≈ 1.196 · 10−7 . (En realidad la parte izquierda de la última desigualdad
5.814 2π
es mucho menor que la parte derecha).
Cabe mencionar que para algunas magnitudes aleatorias, dentro de su rango de varia-
ción, el uso de la aproximación normal provee resultados bien sustentados por estudios
estadı́sticos de mediciones fı́sicas, económicas, etc.
Ejemplo 1.11 Sean −∞ < a < b < ∞ dos números dados. Se dice que la v.a X es
uniforme en (a, b), si X es a.c. y tiene la siguiente densidad (véase Figura 1.11):
1 , si x ∈ (a, b),
fX (x) = b − a (1.2.14)
0, si x ∈
/ (a, b).
14
CAPÍTULO 1. ESPACIO DE PROBABILIDAD
y
1 fX (x)
b−a
x
a 0 b
15
1.3. Ejercicios
1.3. EJERCICIOS
1.1 Considere en el Ejemplo 1.1 el evento A:= “en el primer lanzamiento sale un puntaje
mayor que en el segundo”. Calcular P (A).
Resp. : P (A) = 15/36.
X
( )
0 1
1.4 Un vendedor descubre que la probabilidad de hacer una venta en una sola entrevista
telefónica con el cliente es 0.03 aproximadamente. Si éste entrevista a 110 posibles
clientes, ¿cuál es la probabilidad de hacer por lo menos dos ventas?
Resp. : = 0.8456.
16
CAPÍTULO 1. ESPACIO DE PROBABILIDAD
1.5 Una nueva familia está planeando el número n de hijos que desean tener. Esta familia
quiere tener no menos de dos varones. ¿Cuál es el número mı́nimo n para que se
cumpla que: P (nacerán por lo menos 2 varones)> 0.99?
Resp. : n = 11.
Sugerencia: Use la distribución Binomial y P (nace un varón) ≈ 0.512. Además,
haga cálculos numéricos en orden creciente de n = 3, 4, 5, . . . hasta encontrar la
solución.
1.6 Dos personas (digamos I y II) tienen la misma capacidad para jugar un juego
de tipo ajedrez . Suponga que en el juego no se consideran empates. ¿Qué es más
probable:
1.8 Sean X ∼ Exp(λ = 1) y [X] la parte entera de X (i.e. un número entero más
cercano y menor o igual a X). Calcule P ([X] sea un número par ).
Resp. : e(1 + e)−1 ≈ 0.73106.
Sugerencia: [X] es v.a. discreta. Determine la probabilidad de tomar un sólo valor
par fijo y después use la fórmula (1.2.8).
17
1.3. Ejercicios
1.10 Mostrar que si X ∼ U (a, b) (véase (1.2.14)), entonces para cualquier intervalo ∆ ⊂
(a, b), P (X ∈ ∆) depende sólo de la longitud |∆| de ∆, pero no de la posición de ∆
en (a, b).
1.12 Sea X la v.a. discreta que toma posibles valores: 1, 2, . . . , k, . . . , y con probabilidades
dadas por: P (X = k) = π62 k12 , k = 1, 2, . . . Mostrar que la v.a. Y := |sen( πX 2
)| ∼
Bern(p) y calcular el parámetro p.
Resp. : p = 3/4.
Sugerencia: Determine el valor de Y para X = un número par y X =un número
impar. Después calcule
P∞sus 1correspondientes probabilidades utilizando (1.2.8) y la
π2
suma infinita (serie) k=1 k2 = 6 .
1.13 (a) Dar un ejemplo de algunas v.a. a.c. X y Y tales que P (X 6= Y ) = 1, pero
FX (x) = FY (x) para toda x ∈ R.
Sugerencia: Si X ∼ U (0, 1), entonces Y = 1 − X ∼ U (0, 1).
(b) Encontrar un ejemplo de tres v.a. X, Y , Z tales que FX = FY , pero FXZ 6= FY Z .
Z ∞
1.14 Sea fX la densidad de una v.a. X. Mostrar que fX (x)dx = 1.
−∞
18
CAPÍTULO 1. ESPACIO DE PROBABILIDAD
1.16 Sea X ∼ U (−c, c). Supongamos que P |X| > 1 = P |X| < 1 . Determine el valor
de c.
Resp. : c = 2.
2
1.17 Sea fη (x) = √12π e−x /2 , x ∈ R la densidad normal estándar. Demostrar que
Z ∞
1 2
√ e−x /2 dx = 1.
−∞ 2π
R∞ R∞ x2 +y 2
Sugerencia: Usar coordenadas polares para calcular −∞ −∞ e− 2 dx dy.
1.18 Un número X del 1 al 1000 se escoge al azar. ¿Cuál es la probabilidad de que los
dos últimos dı́gitos de X 3 sean 1?
Resp. : 0.01.
X−a
1.19 Sean X ∼ N orm(a, σ) y Y = σ
. Demostrar que Y ≡ η ∼ N orm(0, 1) (normal
estándar).
1.20 Sea η ∼ N orm(0, 1) (normal estándar). Demostrar que para cada x > 0,
2 x2
P |η| > x 6 √ e− 2 .
(1.3.15)
x 2π
Z ∞
1 y2
Sugerencia: En la parte derecha de la ecuación P (η > x) = √ e 2 dy,
x 2π
realizar integración por partes.
19
1.3. Ejercicios
20
Capı́tulo 2
Independencia
Definición 2.1 Sean A y B eventos con P (B) > 0. La probabilidad condicional del
evento A dado (la ocurrencia de) el evento B, denotada P (A|B), se define como:
P (A ∩ B)
P (A|B) := . (2.1.1)
P (B)
21
2.1. Independencia de eventos y variables aleatorias
b d
1
_
B
B c
A
0 a 1
Ejemplo 2.1 (Consultar el Ejemplo 1.2) Sean B = 20ab1 (rectángulo con vértices 0ab1),
A =M 01d (triángulo con vértices 01d), (véase Figura 2.1)
Observemos en este ejemplo que P (A|B) < P (A), i.e. el evento B no es favorable
para A. Sin embargo, P (A|B) > P (A), i.e. B es favorable para A, esto es, el saber que el
“punto” ha caı́do dentro de B aumenta la posibilidad de que el “punto” caerá en A; (véase
la Figura 2.1). En tal caso, es razonable decir que A y B son eventos dependientes.
22
CAPÍTULO 2. INDEPENDENCIA
Por ejemplo, se lanzan dos monedas simétricas. Sean A := {en la primer moneda
resulta “sol” } y C := {en la segunda moneda resulta “águila”}. Entonces A y C son
eventos independientes. De hecho el espacio muestral que modela este experimento es
Ω = {ω1 = (s, s), ω2 = (s, a), ω3 = (a, s), ω4 = (a, a)}, por simetrı́a (de la mone-
1 1
da) se sabe que P {ωi } = para i = 1, 2, 3, 4. Por tanto P (A) = P {ω1 , ω2 } = ,
4 2
1 1
P (C) = P {ω2 , ω4 } = y P (A ∩ C) = P {ω2 } = .
2 4
Sea ahora B := {en ambas monedas resulta “sol”} = {ω1 }. Entonces los eventos A y B
P A∩B P (B) 1
son dependientes puesto que (B ⊂ A) P (A |B) = = = 1 y P (A) = .
P (B) P (B) 2
1 1 1 1
En otros términos P (A ∩ B) = P (B) = y P (A)P (B) = · = , de lo que resulta
2 2 2 4
P (A ∩ B) 6= P (A)P (B). Intuitivamente es evidente que la ocurrencia del evento A au-
menta la probabilidad del evento B.
FX,Y (x, y) := P X 6 x, Y 6 y = P (X 6 x)P (Y 6 y) = FX (x)FY (y). (2.1.5)
A la función FX,Y (x, y) = P X 6 x, Y 6 y (de dos variables reales) se le denomina
la f.d. conjunta de X y Y.
23
2.1. Independencia de eventos y variables aleatorias
Definición 2.4 El par de v.a. (X, Y ) se llama absolutamente continuo (a.c.) con la fun-
ción de densidad conjunta fX,Y (x, y), si la f.d. conjunta de X y Y se representa como
sigue:
Z x Z y
FX,Y (x, y) = fX,Y (s, t) ds dt, x, y ∈ R.
−∞ −∞
∂2
fX,Y (x, y) = FX,Y (x, y). (2.1.6)
∂x∂y
Si, además, las v.a. a.c. X y Y son independientes entonces de (2.1.5) y (1.2.6) se
obtiene que:
fX,Y (x, y) = fX (x) · fY (y), x, y ∈ R. (2.1.7)
1 , si (x, y) ∈ D,
se llama uniforme en D.
Considerando los siguientes casos particulares se demuestra que (consulte el Ejercicio
2.2):
24
CAPÍTULO 2. INDEPENDENCIA
y
b
(X,Y)
Y
x
0 X a
(X,Y)
Y
ρ
θ
X r x
Sin embargo, en (b) (vea el Ejercicio 2.3) las v.a. ρ y θ (coordenadas polares de
(X, Y )) son independientes. Es decir, las funciones de variables aleatorias depen-
dientes podrı́an, a veces, ser independientes.
Por otro lado, de (2.1.5) se demuestra que:
Ejemplo 2.3 El par de v.a. (ζ, η) se llama Normal estándar bidimensional con el
coeficiente de correlación ρ ∈ (−1, 1), si la densidad conjunta de (ζ, η) es:
1 1 2 2
fζ,η (x, y) = p exp − (x − 2ρxy + y ) ; x, y ∈ R. (2.1.9)
2π 1 − ρ2 2(1 − ρ2 )
25
2.2. Fórmula de probabilidad total.
1 2 1 2
Cuando ρ = 0, se tiene que fζ,η (x, y) = √ e−x /2 · √ e−y /2 , x, y ∈ R, y de (2.1.7)
2π 2π
se concluye que las v.a. ζ y η son normales estándares e independientes.
Definición 2.5 Sea {Xn } = X1 , X2 , . . . , Xn , . . . una sucesión de v.a. Se dice que las v.a.
son independientes e idénticamente distribuidas (i.i.d. en lo subsiguiente) si:
Nota 2.2 (a) Si X = Y en el sentido de que X(ω) = Y (ω) para cada ω ∈ Ω, entonces
P (X 6 x) = P (Y 6 x), x ∈ R, o bien FX ≡ FY . Por otro lado, si FX ≡ FY
i.e. FX (x) = FY (x) para cada x ∈ R, entonces no siempre sucederá que X = Y
(consultar el ejercicio 1.13). Además, si FX ≡ FY y X y Y son independientes,
entonces X 6= Y (cuando X e Y no son constantes).
(b) Según un teorema de la teorı́a de la probabilidad avanzada para cualquier sucesión
de f.d. FX1 , FX2 , . . . , FXn , . . . , existe un espacio de probabilidad (Ω, F, P ), y v.a.
X1 , X2 , . . . , Xn , . . . , definidas en este espacio tales que la f.d. de Xn es FXn para
toda n y X1 , X2 , . . . , Xn , . . . , son v.a. independientes.
26
CAPÍTULO 2. INDEPENDENCIA
Cuando Y es una v.a. a.c. con la densidad fY , entonces (2.2.11) no se aplica di-
rectamente para definir P (Z ∈ B|Y = y) como P (Z=B,Y =y)
P (Y =y)
, ya que, según la Nota 1.6,
P (Y = y) = 0. Sin embargo, bajo ciertas condiciones, podrı́amos proceder de la siguiente
forma:
P Z ∈ B|Y = y := lı́m P Z ∈ B|Y ∈ (y − ∆y, y + ∆y) .
∆y→0
27
2.2. Fórmula de probabilidad total.
Entonces, es posible reemplazar en (2.2.13) a la v.a. discreta Y por una v.a. a.c. Y con
su densidad fY . En este caso, la suma en (2.2.13) se convierte en integral y análogamente
P (Y = yk ) en (2.2.13) se convierte en fY (y) dy, de lo que resulta la siguiente fórmula:
Z ∞
P (Z ∈ B) = P (Z ∈ B|Y = y)fY (y)dy. (2.2.14)
−∞
Definición 2.6 (a) Sea Z una v.a. discreta con valores {z1 , z2 , . . . , zn , . . . }. Tomando en
(2.1.1) B = {Z = zn } para los valores zn , n = 1, 2, . . . , las probabilidades condicionales:
P (Z = zn , Y = yk )
P (Z = zn | Y = yk ) := , n = 1, 2, . . . , (2.2.15)
P (Y = yk )
f (z, y)
Z,Y
, si fY (y) > 0,
fZ|Y =y (z) := f Y (y) (2.2.16)
0, si fY (y) = 0.
Nota 2.3 (a) Análogamente a la observación en la Nota 1.6-(b), fZ,Y (z, y)∆z∆y repre-
senta, aproximadamente, la probabilidad de que la v.a. Z tome un valor “cercano a
z” y al mismo tiempo la v.a. Y tome un valor “cercano a y”. Es por esto que (2.2.16)
es un análogo de (2.2.15). También nótese que:
Z
P (Z, Y ) ∈ D∆ = f (z, y)dzdy ≈ f (z, y)∆z∆y,
D∆
28
CAPÍTULO 2. INDEPENDENCIA
w
fZ,Y (z,y)
z z
y
y
D∆ con área: ∆z∆y
(c) Si Z y Y son independientes, entonces por (2.2.15), (2.2.16), (2.1.5) y (2.1.7) se tiene
que:
P (Z = zn |Y = yk ) = P (Z = zn ), n = 1, 2, . . . , (caso discreto)
fZ|Y =y = fZ (z), z ∈ R, (caso continuo).
Esto significa que de la independencia de las variables resulta la igualdad entre las
distribuciones condicionales y las distribuciones originales (sin condiciones).
Ejemplo 2.6 (a) Tomando en cuenta las notaciones del Ejemplo 1.3(a), sea Z el puntaje
sumado de los dos lanzamientos, y sea Y el puntaje del primer lanzamiento. Entonces,
por ejemplo,
P (Z = 12, Y = 6) P (6, 6) 1/36 1
P Z = 12 |Y = 6 = = = = .
P (Y = 6) P (Y = 6) 1/6 6
Del mismo modo:
(
1
, si n = 6, 7, . . . , 12;
P Z = n |Y = 6 = 6
0, si n = 2, 3, . . . , 5.
1
Pero P (Z = 2) = P sale(1, 1) = 36
. Entonces las v.a. Z y Y son dependientes.
29
2.2. Fórmula de probabilidad total.
Proposición 2.1 (a) Sea el par de v.a. discretas (X, Y ) con la función de distribución
conjunta P X = xk , Y = Yn , con k, n = 1, 2, . . . Entonces:
∞
X
para cada xk P X = xk = P X = xk , Y = Y n y
n=1
∞
X
para cada yn P Y = yn = P X = xk , Y = Y n .
k=1
(b) Sea el par de v.a. a.c. (X, Y ) con la densidad conjunta fX,Y (x, y). Entonces:
Z ∞
para cada x ∈ R fX (x) = fX,Y (x, y) dy; y
−∞
Z ∞
para cada y ∈ R fY (y) = fX,Y (x, y) dx.
−∞
30
CAPÍTULO 2. INDEPENDENCIA
d d
Derivando con respecto a z y teniendo en cuenta que dz P (Z 6 z − y) = F (z − y)
dz X
=
(por (1.2.7)) = fX (z − y), llegamos a la siguiente afirmación.
Teorema 2.1 Para v.a. X, Y independientes y absolutamente continuas se tiene (la fórmu-
la de convolución):
Z ∞
fX+Y (x) = fX (x − y)fY (y)dy; x ∈ R. (2.2.18)
−∞
η1 + η2 + · · · + ηn
√ ∼ N orm(0, 1). (2.2.19)
n
31
2.3. Ejercicios
2.3. EJERCICIOS
2.1 Sean A y B eventos en un espacio de probabilidad, tales que P (B) > 0 y P (B) > 0.
Muestre que si P (A|B) > P (A) entonces P (A|B) < P (A).
2.3 Encuentre Fρ,θ y fρ,θ para las v.a. ρ, θ en el Ejemplo 2.2(b) y establezca que éstas
son independientes.
Pn n!
Sugerencia: Use (2.2.13) y la fórmula (a + b)n = k=0 k!(n−k)! a
n−k
bk .
2.5 (a) Sean X y Y v.a. i.i.d. con valores en el conjunto {0, 1, 2, 3, . . . }. Demuestre que
P (X + Y sea un número par )> 1/2.
(b) Supongamos que X y Y son v.a. donde X ∼ P oiss(λ = 12 ), Y ∼ P oiss(µ = 12 ).
Calcule P (X + Y sea un numero par).
Sugerencia:
2.7 Una moneda simétrica se lanza 100 veces. Sea A := {sólo salen águilas}. Establezca
1
que P (A) = 2100 , i.e. A es un “evento raro”. Sin embargo, cualquier otro resultado
1
particular de 100 lanzamientos tiene la misma probabilidad de 2100 .
32
CAPÍTULO 2. INDEPENDENCIA
2.9 Sean r > 0 un número arbitrariamente grande, pero fijo y Sr,n := {x = (x1 , x2 , . . . , xn ) ∈
Rn tal que (x21 + x22 + · · · + x2n )1/2 6 r} (la esfera en Rn de radio r). Sean también
X1 , X2 , . . . , Xn v.a. i.i.d. con distribución
N orm(0, 1). Demuestre que
lı́mn→∞ P (X1 , X2 , . . . , Xn ) ∈ Sr,n = 0.
2.10 Suponga que el número Y de partı́culas cósmicas que golpean al contador de Geiger
(en una unidad de tiempo) es una v.a. con la distribución de Poisson con parámetro
λ = 1. Cada partı́cula se registra por el contador con la probabilidad 2/3 (inde-
pendiente para distintas partı́culas). Calcular P (X = 0), donde X es el número de
partı́culas registradas en una unidad de tiempo.
Sugerencia: Usar (2.2.13).
Resp. : e−2/3 ≈ 0.51342.
2.11 Sean η1 , η2 v.a. i.i.d. con distribución N orm(0, 1). Demuestre que la densidad de la
v.a. X = ηη21 está dada por la siguiente fórmula (densidad de Cauchy, gran ma-
temático francés Augustin-Louis Cauchy (1789-1857), pionero del rigor en el análisis
matemático, y comenzó la creación sistemática de la teorı́a de grupos):
1
fX (x) = , x ∈ R. (2.3.20)
π(x2 + 1)
Sugerencia: Para determinar la densidad de X, tome en cuenta que fX (x) =
d
F (x), y para determinar FX (x) utilice la simetrı́a de la densidad normal y la
dx X
fórmula (2.2.17) con Z = X y Y = η2 .
2.12 (a) Un dado simétrico se lanza sucesivamente hasta la primer salida del “6”. Sea X el
número de lanzamientos. Demostrar que X es una v.a. geométrica con parámetro
p = 1/6, i.e. X puede tomar los valores {1, 2, 3, . . . , k, . . . } con las probabilidades:
P (X = k) = p(1 − p)k−1 , k = 1, 2, 3, . . . (2.3.21)
33
2.3. Ejercicios
k
X
n1 − αk+1
Sk := α = . (2.3.23)
n=0
1−α
1
Por ejemplo, para α = 1/2, 1−α = 2. Aplicando (2.3.23) calculamos, S5 = 1.96875,
S10 = 1.999023438, S20 = 1.999999046, que evidentemente sePaproximan al valor de
∞ 1 n 1
2 cuando se aumenta el número de sumandos. Es decir S := n=0 2 = 1−1/2 = 2.
2.13 Una moneda simétrica se lanza dos veces. Sean X := el número de salidas de “sol”;
Y := el número de salidas de “águila”. Demostrar que:
(a) X y Y son idénticamente distribuidas;
(b) X y Y son dependientes; y
(c) P (X 6= Y ) = 1/2.
2.14 Sea X > 0 una v.a. a.c. Demuestre que para cada t, s > 0, P (X > t + s|X >
s) = P (X > t) (“ausencia de la memoria”) sys (si y sólo si) existe λ > 0 tal que
X ∼ Exp(λ).
Nota 2.5 El Ejercicio 2.14 dice que entre todas las v.a. a.c. y no negativas solamente
la v.a. X ∼ Exp(λ) tiene la siguiente propiedad:
P X > t + s | X > s = P (X > t), (2.3.24)
para todas t, s > 0. Si por un minuto se supone que X representa el “tiempo de vida”
de una especie o de un mecanismo hasta su falla, entonces por (2.3.24) resulta que di-
cho mecanismo (o especie) “no envejece” (i.e. es lo mismo usado que nuevo). Si, por
ejemplo, se supone absurdamente que X modela el tiempo de vida de un ser humano,
entonces de (2.3.24) se tiene: P (de vivir más de 100 años | se tiene más de 50) =
P (de que un recién nacido vivirá más de 50 años). Esto nos muestra que hay que
34
CAPÍTULO 2. INDEPENDENCIA
tener cuidado en los “ejemplos de aplicación”, en los cuales se comience con “su-
ponga que la duración del funcionamiento hasta la falla es una v.a. exponencial. . . ”.
Mientras que el “tiempo de vida” de los átomos radioactivos (hasta su desintegra-
ción) sı́ es modelado por un tiempo aleatorio exponencial.
Sugerencia: Para x > 0, defina la función p(x) := P X 2 6 x2 = FY (x2 ) la cual
es igual a P X 2 6 x2 , −x 6 X 6 x . Después utilice la independencia y resuelva la
ecuación p(x) = (p(x))2 . Finalmente utilice la propiedad de monotonı́a de la f.d.
2.16 Supongamos que las v.a. X, Y tienen la siguiente densidad conjunta (densidad
uniforme en T ):
(
2, (x, y) ∈ T,
fX,Y (x, y) =
0, (x, y) ∈
/ T.
y
1 (a) Determine las f.d. marginales FX (x) y FY (y).
(b) Muestre que X y Y son dependientes.
T
x (c) Encuentre la densidad condicional fX|Y =y (x).
0 1
( (
2x − x2 , si x ∈ (0, 1), 2y − y 2 , si y ∈ (0, 1),
Resp. : (b) FX (x) = FY (y) =
0, si x ∈
/ (0, 1). 0, si y ∈
/ (0, 1).
(
1
1−y
, si x ∈ (0, 1 − y),
(c) para y ∈ (0, 1), fX|Y =y (x) =
0, si x ∈
/ (0, 1 − y).
2.17 Una moneda simétrica se lanza hasta la primera aparición de “sol”, después otra
moneda se lanza hasta la primera aparición de “sol”. Sean X y Y las variables que
representan el número de lanzamientos respectivos. Calcular P (X = Y ).
Sugerencia: Usar la distribución geométrica, la fórmula de probabilidad total
(2.2.13) y (2.3.22).
Resp. : 1/3.
35
2.3. Ejercicios
2.18 Un dado bien balanceado (simétrico) se lanza dos veces. Sean X y Y las v.a. que
representan los puntajes en el primer y en el segundo lanzamiento respectivamente.
Calcular P (X · Y sea un número par ).
Sugerencia: Calcule primero P (X · Y sea un número impar ), usando la fórmula
de probabilidad total (2.2.13) y la independencia entre X y Y .
2.19 Sean A y B dos eventos tales que P (A) = P (B) = 2/3. Demostrar que P (A|B) > 12 .
2.22 Sean N > 1 y n > 1 dos números enteros dados y X1 , X2 , . . . , Xn v.a. i.i.d. con
valores en el conjunto {1, 2, . . . , N }. Sea Sn = X1 + X2 + · · · + Xn . Demostrar que
1
P (Sn sea divisible entre n) > N n−1 .
Sugerencia: Calcular los posibles valores de Sn y usar argumentos de simetrı́a
(que se justifican por la propiedad de ser i.i.d. las v.a.).
2.23 Para el par de v.a. (ζ, η) con la densidad Normal estándar bidimensional en (2.1.9)
demuestre que para cada y ∈ R:
1 (x−ρy)2
−
fζ|η=y (x) = √ p e 2(1−ρ2 ) , x ∈ R, (2.3.25)
2π 1 − ρ2
p
es la densidad Normal con a = ρy y σ = 1 − ρ2 .
(a) ¿cuál es la probabilidad condicional de que la persona sea rica dado que es un
ladrón?;
36
CAPÍTULO 2. INDEPENDENCIA
2.25 Sean A y B dos eventos en el espacio de probabilidad (Ω, F, P ), tales que P (B) > 0
y P (B) > 0. Demostrar que A y B son independientes si y sólo si P (A|B) = P (A|B).
37
2.3. Ejercicios
38
Capı́tulo 3
3.1. Esperanza.
Los valores promedio de algunas v.a. se usan frecuentemente en la vida cotidiana.
Entre algunos ejemplos están: la temperatura promedio a medio dı́a en Acapulco en el
mes de Agosto; el tiempo promedio de vida de los hombres en cierto paı́s, etc. Estos
promedios se calculan a partir de datos estadı́sticos que se manejan con base en la teorı́a
de probabilidad. El concepto de “promedio” se formaliza en términos de esperanza (o
esperanza matemática) de una v.a. X, que es un número (“promedio”) obtenido al
sumar todos los valores de X ponderados por sus probabilidades. Por ejemplo, si en un
sorteo pueden ganarse mil pesos con probabilidad 1/1000 y perder 5 pesos (o bien “ganar
−5” pesos, por ejemplo, comprando un boleto de este precio) con probabilidad 999/1000,
entonces la “ganancia - pérdida”se representa por la v.a.
(
1000, con probabilidad 1/1000,
X=
−5, con probabilidad 999/1000,
39
3.1. Esperanza.
En el caso general, suponiendo que se tiene (3.1.1), en (3.1.2) aparece una integral
abstracta (la integral de Lebesgue1 ), que de hecho no necesitamos usar en este curso, ya
que al tomar el cambio de variables x = X(ω) se demuestra que (3.1.2) se convierte en:
∞
X
EX = xk P (X = xk ); si X es discreta, (3.1.4)
k=1
Z ∞
EX = x fX (x)dx; si X es a.c. (3.1.5)
−∞
Ejemplo 3.1 (a) Se lanza un dado simétrico (i.e., bien balanceado). Sea X la v.a. que
representa el puntaje del lanzamiento. Por (3.1.4) tenemos que:
6 6
X X 1
EX = kP (X = k) = k = 3.5.
k=1 k=1
6
Obsérvese que el resultado es una fracción a pesar de que los valores de X son enteros.
De forma similar se obtiene que en México la tasa de fecundidad de una mujer entre 15
y 49 años (información del año 2013, INEGI) es 2.2 hijos (es decir, en promedio, una
mujer mexicana entre 15 y 49 años “tiene” 2.2 hijos).
1
Henri Léon Lebesgue (1875-1941) matemático francés conocido por sus aportaciones en la teorı́a de
la medida y de la integral.
40
CAPÍTULO 3. ESPERANZA Y VARIANZA
(b) Supongamos (razonablemente) que el número de clientes que entran a una sucursal
de Banamex entre las 12 y las 13 hrs. es la v.a. X ∼ P oiss(λ = 35) (consulte el Ejemplo
1.4(c)). ¿Cuántas personas, en promedio, entran en esa hora? Por (3.1.4) tenemos que:
∞ ∞ ∞
X λk −λ −λ
X λk−1 −λ
X λn
EX = k e = λe = λe = λe−λ eλ = λ,
k=1
k! k=1
(k − 1)! n=0
n!
puesto que de cálculo sabemos que el “desarrollo de Taylor para la función f (x) = ex ” es:
∞
X xn
= ex para cada x ∈ R.
n=0
n!
xn
La suma infinita se interpreta en el sentido de que las sumas finitas SN = N
P
n=0 n! se
x
aproximan al número
Pe5 cuando N → ∞. Por ejemplo, para x = 1, ex = e ≈ 2.718281828
10
y veamos que S5 = n=0 n!1 ≈ 2.7166 y S10 = n=0 n!1 ≈ 2.71828.
P
Por lo tanto,
EX = λ, si X ∼ P oiss(λ), (3.1.6)
y el número promedio de clientes es EX = λ = 35.
(c) Una persona que debe esperar un autobús, supone que el tiempo de espera se da
por la v.a. X ∼ U (0, 20) (en minutos, véase el Ejemplo 1.11). Entonces,
(
1/20, si x ∈ (0, 20),
fX (x) =
0, si x ∈
/ (0, 20),
a+b
EX = , si X ∼ U (a, b). (3.1.7)
2
Es decir la esperanza, EX, de una v.a. uniforme en (a, b) es el punto medio de dicho
intervalo.
41
3.1. Esperanza.
Nota 3.1 La condición (3.1.1) de la existencia de esperanza finita implica que la suma
o la integral en (3.1.4) y (3.1.5) debe converger absolutamente, es decir, debe tener un
X∞ Z ∞
valor finito |xk | P (X = xk ) o |x|fX (x)dx. Más adelante se verá que no todas
k=1 −∞
las v.a. tienen esperanza. Por otro lado, cuando X > 0 (X toma valores no negativos) y
la suma o la integral en
P (3.1.4) o en (3.1.5) diverge (i.e. si las sumas parciales tienden a
infinito, por ejemplo, ∞ k=1 xk P (X = xk ) = ∞), se convendrá en definir: EX = ∞.
Ejemplo 3.2 Sea X la v.a. del Ejercicio 1.12. Por (3.1.4) se tiene:
∞ ∞
6 1
X 6 X1
EX = k 2 2 = 2 =∞
k=1
π k π k=1 k
N Z N
X 1 1
ya que al aproximar las sumas parciales mediante la integral dx se tiene que:
k=0
k 1 x
N
X 1
≈ ln(N ) → ∞, cuando N → ∞.
k=1
k
Ahora, sean X una v.a. y g : R → R una función, tales que Y = g(X) es una v.a.
(con g continua, como ejemplo particular). Es claro que Y toma el valor g(x) cuando
X = x. Supongamos también que Eg(X) existe, entonces por (3.1.4) y (3.1.5) se tiene
que la esperanza de una función es:
∞
X
Eg(X) = g(xk )P X = xk , si X es discreta. (3.1.8)
k=1
Z ∞
Eg(X) = g(x)fX (x) dx, si X es a.c. (3.1.9)
−∞
1
Ejemplo 3.3 (a) Sea X ∼ P oiss(λ). Calculemos E 1+X . Por el inciso (c) del Ejemplo
1.4 y (3.1.8) tenemos que:
∞ ∞
"∞ #
1 λk −λ e−λ X λk+1 e−λ X λn
1 X
E = e = = −1
1+X k=0
1 + k k! λ k=0
(k + 1)! λ n=0
n!
e−λ λ 1 − e−λ
= e −1 = (≈ 0.63212 para λ = 1).
λ λ
42
CAPÍTULO 3. ESPERANZA Y VARIANZA
(b) Sea X ∼ U (0, 1). Por (3.1.9) e integrando por partes, se tiene:
Z 1 1 Z 1
x
E[ln X] = ln x dx = (ln x) x − dx = −1 6= ln[EX] = ln(1/2) ≈ −0.69315.
0 0 0 x
La siguiente tabla resume y compara algunos conceptos relacionados con v.a. discretas
y absolutamente continuas.
43
3.2. Varianza y desigualdad de Chebyshev
La última igualdad es cierta debido a que E[X 2 − 2XEX + (EX)2 ] = E(X 2 ) − (EX)2 .
En el siguiente lema se observa que la varianza existe y es finita si y sólo si E(X 2 ) < ∞.
Para demostrar esta desigualdad, es suficiente observar (ver la Proposición 3.1, abajo)
2
que para α ∈ R E |X|−α > 0, o bien E(X 2 )−2αE|X|+α2 > 0 y considerar α = E|X|.
Por el Lema 3.1 tenemos que EX existe, si E(X 2 ) < ∞, (el recı́proco no siempre
es cierto, véase el Ejercicio 3.18). De forma parecida se demuestra que si E|X|3 < ∞,
entonces E(X)2 < ∞, E|X| < ∞ y por lo tanto EX y V ar(X) existen y son finitas.
Proposición 3.1 Sean X y Y v.a. para las cuales EX 2 < ∞, EY 2 < ∞ y c ∈ R una
constante (ésta se puede interpretar como la v.a. con el único valor c). Entonces, las
esperanzas y varianzas tienen las siguientes propiedades:
Propiedades de la esperanza: Propiedades de la varianza:
Ec = c. V ar(c) = 0.
E(c X) = c EX. V ar(c X) = c2 V ar(X).
E(X + c) = EX + c. V ar(X + c) = V ar(X).
E(X + Y ) = EX + EY. V ar(X + Y ) = V ar(X) + V ar(Y ),
si X y Y son independientes.
EX > 0, si X > 0. V ar(X) = 0 sys P (X = c) = 1.
|EX| 6 E|X|.
Nota 3.2 (a) En general (con X, Y dependientes) puede suceder que V ar(X + Y ) 6=
V ar(X) + V ar(Y ), (véase el Ejercicio 3.1).
p
(b) σ(X) := V ar(X) se denomina la desviación estándar de la v.a. X.
44
CAPÍTULO 3. ESPERANZA Y VARIANZA
(c) Se dice que una variable aleatoria X es degenerada, si existe un valor c ∈ R, tal
que P (X = c) = 1, es decir casi seguramente la v.a X toma como único valor a c. En este
caso usando que la f.d. FX es no decreciente es fácil obtener que FX (x) = 0, si x < c y
FX (x) = 1, si x > c.
Teorema 3.1 Sean X, Y v.a. independientes para las cuales existen EX y EY . Entonces
E(X · Y ) = (EX)(EY ). (3.2.11)
Ejemplo 3.4 (a) Para X ∼ Bern(p) tenemos por (3.1.4) que EX = 0(1−p)+1·p = p,
de lo cual EX = p . De (3.2.10) y (3.1.8) se obtiene V ar(X) = p(1 − p).
45
3.2. Varianza y desigualdad de Chebyshev
Ejemplo 3.5 (a) Para X ∼ Exp(λ), aplicando (3.1.5), (3.1.9), (3.2.10), y mediante
integración simple se obtiene:
1 1
EX = y V ar(X) = . (3.2.14)
λ λ2
y y
2 2
1 -(x-a) /2σ
1 -(x-a) 2 /2σ
2
fX (x)= 2π σ e
fX (x)= 2π σ e
1
con Var(X) = σ 2 = 0.1 con Var(X) = σ 2 = 10
1
ya=1 ya=1
x [ ]
x
[ ]
0 a=1 c d 0 a=1 c d
Nota 3.3 Mientras que el valor de EX indica el “centro de los valores de X pondera-
dos por sus probabilidades”; la varianza (V ar(X)) es una medida de “dispersión de los
valores”. Para la distribución Normal las áreas resaltadas en la Figura 3.1 representan
(por (1.2.9)) las probabilidades P (X ∈ [c, d]) para un intervalo [c, d]. Si este intervalo es
distante de la esperanza a = 1, entonces P (X ∈ [c, d]) es casi cero cuando la varianza es
pequeña (imagen de la izquierda en la Figura 3.1); la misma probabilidad P (X ∈ [c, d])
es bastante distinta de cero cuando la varianza es mayor (imagen de la derecha). En el
siguiente ejemplo con densidades uniformes se observa este fenómeno con más claridad.
46
CAPÍTULO 3. ESPERANZA Y VARIANZA
z -y2/2σ 2
f (y)=ye
+
y
2 /2σ 2
Figura 3.2: Función impar: f (y) = ye−y .
Ejemplo 3.6 Sean X ∼ U (−0.1, 0.1) y Y ∼ U (−10, 10) (véase (1.2.14)) entonces sus
densidades tienen las gráficas que se muestran en la Figura 3.3 (las gráficas no están a
la misma escala).
y
1/0.2
fX (x)
fY (x)
1/20 x
x
-0.1 0 0.1 -10 0 10
47
3.2. Varianza y desigualdad de Chebyshev
mos que los valores de Y son “bastante dispersos”, mientras que los valores de X están
concentrados cerca de la esperanza EX = 0 (véase Figura 3.3).
Es importante destacar que para cualquier ε > 0 (puede ser pequeña) se tiene que:
fX (x)
x
EX-ε EX EX+ε
Proposición 3.2 (Desigualdad de Chebyshev) Sea X una v.a. para la cual su va-
rianza σ 2 := V ar(X) es finita. Entonces para cualquier ε > 0 se tiene:
σ2
P |X − EX| 6 ε ≥ 1 − 2 . (3.2.18)
ε
48
CAPÍTULO 3. ESPERANZA Y VARIANZA
Faltarı́a dividir entre ε2 y pasar al complemento del evento {|X − a| > ε}.
Ejemplo 3.7 Supongamos que se debe medir una magnitud fı́sica a desconocida. Para
disminuir el error, tal magnitud se mide n veces obteniendo los resultados: X1 , X2 , . . . , Xn .
Con frecuencia es razonable considerar que X1 , X2 , . . . , Xn son v.a. i.i.d., con EXk = a
y V ar(Xk ) = σ 2 < ∞, (k = 1, . . . , n). (Como las v.a. son idénticamente distribuidas,
obsérvese que se tiene la igualdad de esperanzas y varianzas). Para tener una estimación
del valor desconocido a se usa la v.a. Sn /n, donde
Sn = X1 + X2 + · · · + Xn . (3.2.19)
Sn
Con respecto al error de la estimación de define δn := n
− a, y de lo cual se tiene que
(consulte la Proposición 3.1):
1 na
Eδn = E(X1 + · · · + Xn ) − Ea = − a = 0, (3.2.20)
n n
Sn Sn 1
y V ar(δn ) = V ar − a = V ar = 2 V ar X1 + · · · + Xn = (por independen-
n n n
2
1 σ
cia) = 2 nσ 2 = , i.e.
n n
σ2
V ar(δn ) = . (3.2.21)
n
Por consiguiente, al aumentar el número de mediciones resulta que V ar(δn ) → 0, y por
lo tanto los valores del estimador Snn son cercanos al valor desconocido a. En efecto, para
cualquier ε > 0 (podrı́a ser muy pequeña, como ε = 0.000001), de (3.2.18), (3.2.20) y
σ2
(3.2.21) se sigue que 1 > P (|δn − a| 6 ε) > 1 − 2 → 1 cuando el número de mediciones
nε
(o sumandos en (3.2.19)) crece ilimitadamente (n → ∞). Luego, en el Capı́tulo 6 se
verá que es cierta la siguiente afirmación (más fuerte): δn → a (converge o se aproxima
a a), cuando n → ∞ con probabilidad uno.
49
3.2. Varianza y desigualdad de Chebyshev
Nota 3.4 Al tomar x > 0 en lugar de ε en (3.2.18) se puede observar que cuando el
2
cociente σx2 es cercano a cero, con probabilidad cercana a 1, la v.a. X toma sus valores
en el intervalo [EX − x, EX + x]. Este caso se ilustra en la Figura R3.5, donde X una v.a.
∞
a.c. y el área rayada = P (EX − x 6 X 6 EX + x) es cercana a −∞ fX (x)dx = 1.
y
fX (x)
x
EX-x 0 EX EX+x
Por ejemplo, según datos estadı́sticos de Karl Pearson (1857-1936) (véase Pitman (1993)),
a finales del siglo XIX en Inglaterra, la estatura (en centı́metros) de un hombre elegido al
azar, aproximadamente, se representaba por la v.a. X ∼ N orm(a = 175.26, σ = 5.08). In-
terpretando la probabilidad en términos de la “frecuencia” (véase Capı́tulo 6), lo anterior
(“regla 3σ”) nos indica que alrededor del 99.7 % de la población masculina tenı́a (en esa
época) una estatura que se encontraba en el intervalo [a − 3σ, a + 3σ] = [160.02, 190.5].
Ejemplo 3.8 Este ejemplo muestra la importancia del uso de procesos aleatorios en al-
gunos modelos estocásticos.
50
CAPÍTULO 3. ESPERANZA Y VARIANZA
y 1
2
- (x-a) /2σ
2
fX (x) = e
2π σ
∼99.7%
x
a-3σ 0 EX=a a+3σ
fV (x)
y
1/120
x
0 EV=60 120(km/h)
Imaginemos que un señor maneja de su casa a la oficina (en dı́as hábiles) con una
velocidad aleatoria V que tiene, supongamos, la densidad uniforme U (0, 120):
Por (3.1.7), la velocidad promedio es EV = 60(km/h). Supongamos que la distancia
entre la casa y la oficina es S = 30km. ¿Cuál es el tiempo promedio por viaje?
Denotemos por T la v.a. que representa el tiempo (aleatorio, puesto que la velocidad
es aleatoria) de un viaje. Entonces la respuesta a la pregunta se tendrá al estimar ET .
Usando las ecuaciones:
S = V T o T = S/V, (3.2.22)
Sin embargo, se verá que la segunda igualdad en (3.2.23) es falsa (parecido al Ejemplo
51
3.2. Varianza y desigualdad de Chebyshev
52
CAPÍTULO 3. ESPERANZA Y VARIANZA
3.3. EJERCICIOS
3.1 Sea X = η ∼ N orm(0, 1) y Y = −X. Muestre que V ar(X + Y ) = 0, pero V ar(X) +
V ar(Y ) = 2.
(a) Muestre que si E|X| < ∞ (i.e. la esperanza existe y es finita), entonces
EX = 0.
Rc
(b) Para la densidad simétrica de Cauchy en (2.3.20), muestre que −c xfX (x)dx = 0
para cada c > 0, pero E|X| = ∞ y por lo tanto EX no existe.
3.4 Un dado simétrico se lanza 6 veces. ¿Cuál es el número esperado de lados que no
salen ni una sola vez?
Resp. : 56 /65 ≈ 2.00093879.
3.5 Cierto rı́o tiene crecimientos anuales. Supongamos que la marca del nivel bajo se
sitúa en 1m y que la marca del crecimiento X es la v.a. con la siguiente f.d.
(
1 − 1/x3 , si x > 1,
FX (x) =
0, si x < 1.
Supongamos que los daños materiales (representados en millones de pesos) por cre-
cida X, se dan por la v.a. Y = g(X) con:
(
0, si x 6 2,
g(x) = 2
0.7(x − 2) , si x > 2.
53
3.3. Ejercicios
√
Sea T = máx(X, Y ). Calcular ET, E(1/ T ), E(1/T ).
√
Resp. : 1; 2; ∞.
Sugerencia: Usar el resultado del Ejercicio 2.20.
3.7 En el movimiento térmico de un gas en equilibrio, el módulo de la velocidad de cada
molécula es la v.a. V con la densidad de Maxwell:
( 2
√4 λ3/2 x2 e−λx , si x > 0,
π
fV (x) =
0, si x 6 0,
m
donde λ = 2κT , m es la masa de la molécula, κ es la constante de Bolzmann y T
es la temperatura del gas. Calcule la energı́a cinética promedio de la molecula:
mV 2
E .
2
Resp. : 23 κ T (es decir, el calor o frı́o que sentimos es proporcional a la energı́a
promedio de las moléculas en el aire.)
R∞ √
2
Sugerencia: Utilizar integración por partes y el resultado: 0 e−x dx = 2π .
3.8 Un “optimista” juega diariamente el juego de azar que se describe en el ejemplo
5.2 del Capı́tulo 5 (pagando 100 pesos por cada vez que participa). Su finalidad es
ganar en un dı́a más de 1 millón de pesos. Sea N := {el número de dı́as hasta la
primera vez que gana una cantidad mayor a 1 millón de pesos}. Calcule EN .
Sugerencia: Primero, estime p = P (ganar más de un millón en un solo juego).
Después muestre que:
P (N = n) = p(1 − p)n−1 , n = 1, 2, . . . (3.3.25)
(que es la distribución geométrica con parámetro p introducida en (2.3.21)).
Finalmente, use (3.1.4) y verifique que:
EN = 1/p, si N ∼ Geom(p).
Resp. : EN = 524288 dı́as ≈ 1436 años. Hay pocas posibilidades de sobrevivir has-
ta este afortunado dı́a, pero suponiendo que sucede, hay que pagar la participación
en todos los juegos hasta ese dı́a que es aproximadamente 52 millones de pesos. Sin
embargo, el juego es “extremadamente favorable” de forma que con un capital de
100 pesos, puede “ganarse en promedio” un capital infinito (vea el Ejemplo 5.2, en
el Capı́tulo 5). De un teorema lı́mite de la teorı́a de probabilidad seguirá que con
n = 524288 repeticiones del juego pueden, en total, ganarse alrededor de 10 millones
de pesos, que es mucho menos que el pago promedio de 52 millones (pagando 100
pesos por cada juego).
54
CAPÍTULO 3. ESPERANZA Y VARIANZA
3.9 ¿Cuántas veces en promedio hay que lanzar un dado simétrico hasta la primer salida
de “6”?
Sugerencia: Mostrar que el número de lanzamientos es la v.a. N ∼ Geom(p =
1/6), y verificar como en el Ejercicio 3.8 que
EN = 1/p. (3.3.26)
Resp. : 6.
3.10 Dar un ejemplo de dos v.a. X y Y tales que EX y EY no existen, pero E(X + Y )
sı́ existe.
Sugerencia: Usar el resultado del Ejercicio 3.2 (b).
3.11 Supongamos que un televisor tiene una duración de “vida” (hasta la primer falla) re-
presentada por la v.a. T (en años) con la siguiente densidad Gamma con parámetros
α = 2, λ = 0.15, (la distribución general Gamma se encuentra en la Nota 3.5)
(
λ2 xe−λx , si x > 0,
fT (x) =
0, si x 6 0.
Esta es denotada T ∼ Gamma α = 2, λ = 0.15 .
donde Γ(α) es una constante. Cuando una v.a. X tiene la densidad Gamma se escri-
be X ∼ Gamma(α, λ) . La constante Γ(α) es el valor en el punto α de la función
Z ∞
Gama Γ(y) := ty−1 e−t dt, definida para cualquier y > 0. En particular para
0
α ∈ N (número natural) se tiene que Γ(α) = (α − 1)!.
55
3.3. Ejercicios
3.12 Sean X, Y v.a. i.i.d. con distribución U (0, 1). Mostrar que: (a) EX/EY = 1; (b)
E(X/Y ) = ∞.
3.13 Sea X > 0 una v.a. a.c. con f.d. FX . Demostrar que
Z ∞
EX = 1 − FX (x) dx. (3.3.27)
0
R∞ R∞
Sugerencia: 0 x fX (x)dx = − 0 x d[1 − FX (x)]dx.
Usar integración por partes
y mostrar que si EX < ∞, entonces x 1 − FX (x) → 0 cuando x → ∞.
3.14 Sean n > 1, X1 , X2 , . . . , Xn v.a. i.i.d. con distribución Exp(λ), (i.e Xk ∼ Exp(λ),
para
toda k = 1, . . . , n), y sea Tn := máx(X1 , X2 , . . . , Xn ). Demostrar que ETn =
1 1 1 1 1 1
1 + + + ··· + ≈ [ln n + + c], donde c ≈ 0.57722 es la constante de
λ 2 3 n λ 2n
Euler.
56
CAPÍTULO 3. ESPERANZA Y VARIANZA
3.15 Supongamos que E(X 2 ) < ∞, definamos la función: ϕ(c) := E(X − c)2 , c ∈ R.
Mostrar que mı́n ϕ(c) = E(X − EX)2 = V ar(X).
c∈R
3.17 Sean n > 1, p > 0 y X1 , X2 , . . . , Xn v.a. i.i.d. con valores positivos. Mostrar que
para cada k : 1 6 k 6 n,
p
X1 + X2p + · · · + Xkp
k
E p p p = .
X1 + X2 + · · · + X n n
V ar(X) = EX = λ. (3.3.28)
α α
EY = y V ar(Y ) = .
λ λ2
57
3.3. Ejercicios
Nota 3.7 La igualdad (3.3.29) es trivial, sin embargo es importante y será utilizada
en el resto del libro.
3.21 (a) Sean X y Y v.a. idénticamente distribuidas, i.e. FX (x) = FY (x), x ∈ R, tales
que E(X 2 ) < ∞. Demostrar que
(b) Dar un ejemplo de v.a. X y Y tales que (3.3.30) se cumple, pero FX (x) 6= FY (x)
para toda x ∈ R.
58
Capı́tulo 4
Es evidente que la esperanza condicional debe estar relacionada con las nociones de
distribución y densidad condicionales de Capı́tulo 2. La siguiente definición da una versión
condicional de (3.1.4) y (3.1.5).
Definición 4.1 Sean Z y Y v.a. para las cuales EZ existe. La esperanza condicional
de Z dado que Y = y, se define como sigue.
∞
X
E(Z|Y = yk ) := zn P (Z = zn |Y = yk ), (4.1.1)
n=1
59
4.1. Esperanza condicional
donde y es un valor arbitrario de la v.a. Y , pero fijo (con fY (y) > 0) y fZ|Y =y es la
densidad condicional introducida en (2.2.16).
Nota 4.1 (a) La esperanza condicional hereda todas las propiedades básicas de la es-
peranza habitual. En particular,
E Z + X|Y = y = E Z|Y = y + E X|Y = y . (4.1.3)
(b) Es claro que el número E(Z|Y = y), en general depende del valor y que toma la
v.a. Y . Ası́ pues, la esperanza condicional es una función ϕ(Y ) de la v.a. Y y puede
escribirse como ϕ(Y ) = E(Z|Y ). Donde para cada valor y de Y el correspondiente
valor de dicha función es ϕ(y) = E(Z |Y = y) con esta última definida en (4.1.1) o
(4.1.2).
(c) Para v.a. Z y Y independientes, E(Z|Y = y) = EZ (ya que, por ejemplo, fZ|Y =y =
fZ , véase Capı́tulo 2).
Ejemplo 4.1 Al lanzar dos dados simétricos, sea Y la v.a. que representa el puntaje del
primer dado, Ye el puntaje que resulta del segundo dado; y sea Z = Y + Ye la suma de los
puntajes. Del Ejemplo 3.1, se tiene que
EZ = EY + E Ye = 3.5 + 3.5 = 7.
Por ejemplo, E(Z|Y = 1) = 4.5, pero E(Z|Y = 6) = 9.5 (un resultado muy intuitivo).
60
CAPÍTULO 4. ESPERANZA CONDICIONAL
Proposición 4.1 Sea X una v.a. para la cual existen a := EX y σ 2 := V ar(X) con
X −a
0 < σ < ∞. Entonces, para la v.a. estandarizada Y := se tiene que
σ
EY = 0 y V ar(Y ) = 1.
Por ejemplo, por propiedades de la varianza (véase la Proposición 3.1) se tiene que:
σ2
1 1 1
V ar(Y ) = V ar (X − a) = 2 V ar(X − a) = 2 V ar(X) = 2 = 1.
σ σ σ σ
61
4.1. Esperanza condicional
5.08
E(Z|Y = 160) = 0.5 5.08
(160 − 175.26) + 177.8 = 170.17(cm) y también (4.1.7)
E(Z|Y = EY = 175.26) = EZ = 177.8.
A la disminución en la amplitud de la variación de estaturas de la siguiente genera-
ción, expresada en (4.1.6) y en (4.1.7), F. Galton la denominó “regresión al promedio”.
Tal “regresión”se
p debe al hecho de que la densidad condicional fξ|η=y0 es Normal con
σ = 1 − ρ : y las varianzas condicionales V ar(ξ|η = y 0 ) = σ 2 = 1 − ρ2 = 0.75 y
2
A primera vista se podrı́a pensar que han existido cambios generacionales en la estatu-
ra, y que toda la población tendrı́a una altura cercana a la estatura promedio (disminución
de la varianza). Tal interpretación, un tanto engañosa, no era singular en la época de F.
Galton. En realidad, al promediar V ar(Z|Y = y) sobre todos los valores y de Y (mediante
una versión de la fórmula (4.1.9) de abajo), se obtiene que V ar(Z) = σZ2 = 25.8064, la
cual es igual a la varianza de estatura de la generación anterior.
62
CAPÍTULO 4. ESPERANZA CONDICIONAL
Nota 4.2 (a) Las fórmulas (4.1.8) y (4.1.9) son parecidas a (2.2.13) y (2.2.14).
(b) En la teorı́a avanzada de probabilidad se demuestra que (4.1.8) y (4.1.9) son co-
rrectas para cualquier v.a. Z (discreta, a.c. u otra). Posteriormente se usará tal
generalización.
Ejemplo 4.3 ¿Cuánto tiempo hay que esperar para recibir una oferta mejor que la pri-
mera?.
Una persona quiere vender su coche y recibe ofertas sucesivas: X0 , X1 , X2 , . . . que se
supone (en este ejemplo) son v.a. i.i.d. (no negativas) con una densidad común continua
fX y f.d. común FX . Supongamos que el vendedor ha rechazado la primera oferta X0 y ha
decidido esperar hasta una oferta mejor, i.e. hasta el primer n tal que Xn > X0 . Sea
N := mı́n{n > 1 tal que Xn > X0 },
el numero aleatorio de ofertas que hay que esperar hasta que la oferta inicial X0 sea
mejorada. Calcularemos el promedio EN .
Para n = 1, 2, . . . , y para cualquier y > 0 se tiene,
P N > n | X 0 = y = P X 1 6 X0 , X 2 6 X0 , . . . , X n 6 X0 | X 0 = y
= P X1 6 y, X2 6 y, . . . , Xn 6 y | X0 = y = (por independencia de X0 y X1 , X2 , . . . )
= P X1 6 y, X2 6 y, . . . , Xn 6 y =
= (por independencia de X1 , . . . , Xn y la n-dimensional versión de (2.1.5))
= P X1 6 y P X2 6 y · · · P Xn 6 y = (por (1.2.5)) =
n
= FX1 (y)FX2 (y) · · · FXn (y) = FX (y) . (4.1.10)
Aplicando a (4.1.10) la fórmula (2.2.14) se obtiene:
Z ∞ Z ∞
n n
P N >n = FX (y) fX (y) dy = FX (y) dFX (y) =
0 0
= (por cambio de variable: z = FX (y))
Z 1
1
= z n dz = , n = 1, 2, . . . (4.1.11)
0 n+1
De (4.1.11) se ve que para n = 1, 2 . . . ,
P N =n = P N >n−1 \ N >n =P N >n−1 −P N >n
1 1
= − , (4.1.12)
n n+1
63
4.2. Caminatas aleatorias simples
La igualdad anterior (4.1.13) muestra que la v.a. N es finita con probabilidad uno.
Es decir, casi seguramente el vendedor del coche va a obtener una mejor oferta que la
primera. Ahora, para calcular EN apliquemos el resultado del Ejercicio 4.1 y la ecuación
(4.1.11), y resulta:
∞
X 1
EN = = (consulta el ejemplo 3.2) = ∞.
n=1
n + 1
Por lo tanto EN = ∞ , el número promedio de las ofertas que debe esperar el vendedor
para llegar a una oferta mejor que la primera es infinito. Este resultado no es optimista
para el vendedor, pero en la vida real, la hipótesis de independencia entre las ofertas no
se cumple.
Sn = X1 + X2 + X3 + · · · + Xn , n = 1, 2, . . . (4.2.16)
64
CAPÍTULO 4. ESPERANZA CONDICIONAL
Sn
origen: x=3
x
p=1/2 p=1/2
-1 -2 -3 0 1 2 3 y-1 y y+1
Sn-1(x)=y
La dirección del movimiento depende del valor 1 o -1 que tome la v.a. Xn en (4.2.17),
y no depende del movimiento ocurrido en todos los “instantes” anteriores a n, puesto
que Xn no depende de Sn−1 = X1 + X2 + · · · + Xn−1 . Es entonces con el crecimiento del
“tiempo” n que la “partı́cula” se mueve sobre Z de forma aleatoria.
Nota 4.3 De (3.1.4) y (4.2.14) se tiene que EXk = 0 (la caminata es simétrica), y por
la Proposición 3.1 ESn (x) = x (o bien ESn = 0, cuando el punto de origen es x = 0).
Esto no significa que Sn (x) se mueve relativamente cerca del punto inicial x, sino al con-
trario debido a que (véase (3.2.10)) V ar(Xk ) = EXk2 = 1 y V ar(Sn ) = n → ∞ (consulte
la Proposición 3.1), resulta que Sn hace oscilaciones cada vez más grandes, visitando
cualquier punto a la derecha o a la izquierda de x cuando n aumenta infinitamente.
(b) Con probabilidad uno, entre los valores de {S0 (x), S1 (x), . . . , Sn (x), . . . } se encuen-
tran cantidades infinitas de números tanto negativos como positivos.
En lugar de una demostración formal, veamos algunos argumentos intuitivos que apo-
yan esta Proposición. Para mayor simplicidad, escojamos x = 0. Al suponer que para
65
4.2. Caminatas aleatorias simples
Para “justificar” el inciso (b) es suficiente observar, según los argumentos de arriba, que
Sn
√
n
se comporta como η ∼ N orm(0, 1), pero P (η < 0) = P (η > 0) = 12 , por (1.2.13). Por
lo cual Sn tiene la misma probabilidad de tomar tanto valores positivos como negativos.
Corolario 4.1 La caminata aleatoria {Sn (x), n = 0, 1, 2, . . . } visita cada punto entero
y ∈ Z un número infinito de veces (con probabilidad 1).
Consideremos el caso cuando x = 0, de (4.2.14) y (4.2.15) se tiene que al moverse de
algún y ∈ Z a otro y 0 ∈ Z, la caminata debe visitar todos los puntos enteros entre y
y y 0 (ver la Figura 4.1). Entonces, por la Proposición 4.3(b), la caminata visita el punto
0 ∈ Z un número infinito de veces. Por otro lado, de la misma proposición se sigue que
la caminata alcanza (seguramente, i.e. con probabilidad 1) cualquier otro punto z ∈ Z,
z 6= 0. Entonces,
Cuando en algún instante (aleatorio) τy el punto y se alcanza,
para n = τy + 1, τy + 2, τy + 3, . . . , la caminata se comporta de
(4.2.18)
la misma forma que se comporta la caminata original con el nuevo
origen S0 = y, para n = 1, 2, 3, . . .
Esto es consecuencia de la independencia de Xn y Sn−1 (x) en (4.2.17).
Nota 4.4 Sean x = 0 y d > 1 un número entero dado. Introduciendo para m = 1, 2, . . . , d,
sucesiones independientes de v.a. i.i.d. con la distribución dada en (4.2.14) {X1m , X2m , . . . ,
Xkm , . . . } y definiendo: Snm := X1m +X2m +· · ·+Xnm , n = 1, 2, . . . ; m = 1, 2, . . . , d, se puede
considerar la caminata aleatoria simple d−dimencional. Esta caminata se define como la
(1) (2) (d)
sucesión de vectores aleatorios (con componentes enteros): S n = Sn , Sn , . . . , Sn ,
n = 1, 2, . . . (con, por ejemplo, S 0 := 0, 0, . . . , 0)).
Se puede demostrar (fuera del alcance de este libro) que para d = 2 (en el plano), la
caminata regresa al origen (0, 0) un número infinito de veces (con probabilidad 1). Sin
embargo, para d > 3 (por ejemplo, en el espacio R3 ) con probabilidad uno la caminata
regresará al origen con un número finito de veces y hay una probabilidad positiva de que
la caminata nunca regresará al origen.
66
CAPÍTULO 4. ESPERANZA CONDICIONAL
Para tener una interpretación más transparente, imaginemos que un jugador con un
capital inicial de x (pesos), apuesta sucesivamente (en los “instantes” n = 1, 2, 3, . . . ) en
una serie de lanzamientos de una moneda simétrica. En el instante n, el jugador gana
un peso si sale “águila” y pierde un peso (i.e. “gana” -1 pesos) si sale “sol” (es decir, el
resultado de una apuesta se determina por la v.a. Xk en (4.2.14)). Después de n lanza-
mientos, su capital será Sn (x) = x + X1 + X2 + · · · + Xn , y el movimiento del capital con
n = 1, 2, . . . es la caminata aleatoria.
Por ejemplo, si x = 5 pesos y a = 1000 pesos (el objetivo del jugador), entonces
P (de ruina) = 0.995 (cercana a 1). Pero si x = 990 pesos y a = 1000 pesos (una meta
modesta: ganar 10 pesos), entonces por (4.2.19), P (de ruina) = 0.01 (cercana a 0).
1/2 1/2
0 x=5 es el capital inicial . . . a =1000
Figura 4.3: Con x = 5 hay más chances de alcanzar primero el punto 0 (ruina) que el
punto a = 1000.
67
4.2. Caminatas aleatorias simples
68
CAPÍTULO 4. ESPERANZA CONDICIONAL
donde Tx := mı́n{n > 0 : Sn (x) = 0} es el tiempo transcurrido hasta la ruina del jugador.
Cabe mencionar que es necesario justificar el paso al lı́mite a → ∞ en las fórmulas men-
cionadas. En el Ejercicio 4.7 se sugiere verificar que para a = ∞, el sistema de ecuaciones
(4.2.21) no tiene ninguna solución finita, por lo que se tendrı́a ETx = ∞. Por otro lado,
por la Proposición 4.3 se puede ver que al comenzar en x > 0, con probabilidad uno la
caminata alcanza el punto 0 (la ruina).
Nota 4.7 (a) El resultado ETx = ∞ es aún más sorprendente que lo que mencionamos
en la Nota 4.6. Supongamos que x = 1 peso, entonces, P (Tx = 1) = 1/2, P (Tx =
3) = 1/8, P (Tx = 5) = 1/32, etc. (y 1/2 + 1/8 + 1/32 = 0.65), es decir con
probabilidad bastante cercana a 1, la serie de apuestas se termina (con la ruina) con
pocas apuestas
1/2 1/2
!
0 1 2 3
1/2 1/2
Además, de (4.2.23), P (T1 < ∞) = P (de alcanzar 0 con un número finito de apues-
tas) = 1. Sin embargo, en promedio, el jugador disfrutará jugando “un tiempo
infinito”.
(b) El comentario anterior, en particular explica que no siempre la esperanza es un
parámetro adecuado para “promediar los valores de una v.a.” (véanse también los
problemas relacionados en Capı́tulo 6).
69
4.3. Proceso de Poisson.
Tn = τ1 + τ2 + · · · + τn , n = 1, 2, 3, . . . ; T0 := 0, N (0) := 0 y (4.3.24)
La equación en (4.3.25) se entiende como sigue: para cada t > 0 fijo, las variables
aleatorias T0 = 0, T1 = τ1 , T2 = τ1 + τ2 , T3 = τ1 + τ2 + τ3 , . . . etc. en (4.3.24) se comparan
con t para encontrar la n máxima, tal que
70
CAPÍTULO 4. ESPERANZA CONDICIONAL
6
5
N(t)=5
4
3
2
1
τ1 τ2 τ3 t
0 τ1 τ1+τ2 τ1+τ2+τ3 t
T1 2 T T3
O dicho de otra manera, para cada t > 0, N (t) es la v.a. de Poisson con parámetro λt y
de (3.1.6),
E[N (t)] = λt, t > 0. (4.3.27)
Nota 4.8 Es fácil demostrar que para cualesquiera 0 < t1 < t2 < ∞, el incremento del
processo N (t2 ) − N (t1 ) tiene la distribución de P oiss(λ(t2 − t1 )), por lo cual, E[N (t2 ) −
N (t1 )] = λ(t2 − t1 ).
71
4.3. Proceso de Poisson.
Eligiendo t2 − t1 = 1, vemos que λ es el incremento promedio del proceso N (t) por unidad
de tiempo. Es por eso que λ se llama intensidad del proceso.
Ejemplo 4.4 Imaginemos que en un experimento fı́sico se usan 0.5 miligramos del isóto-
po radiactivo Uranio 238. Sea N (t) el número de α−partı́culas emitidas en el intervalo
[0, t] (cada partı́cula se emite como resultado de la desintegración de un átomo de Uranio).
De fı́sica se sabe que los intervalos entre las emisiones de α−partı́culas son v.a. i.i.d. con
distribución Exp(λ) y con λ ≈ 6.1488 (para la cantidad de materia dada arriba). Con-
secuentemente, N (t) es el proceso de Poisson con λ mencionada. Si el experimento dura
t = 30 segundos, entonces, por ejemplo
200
X
P (N (30) > 200) = 1 − P (N (30) 6 200) = 1 − P N (30) = k ,
k=0
k
donde N (30) ∼ P oiss(30λ). Si Y ∼ P oiss(µ), es decir P (Y = k) = µk! e−µ con k > 0, es
fácil ver que:
λ
P (Y = k + 1) = P (Y = k), k = 0, 1, 2, . . . (4.3.28)
k+1
Al utilizar ecuaciones recurrentes en (4.3.28), la suma anterior se calcula usando algún
programa computacional simple. El resultado es:
P N (30) > 200 ≈ 0.119739.
Nota 4.9 Sean n > 1 y {X1 , X2 , X3 , . . . , Xn } v.a. i.i.d. con la distribución Bern(p), las
cuales indican la ocurrencia de algún suceso en n pruebas realizadas en el intervalo [0, t].
Es decir, para k = 1, 2, . . . , n,
(
1, si en la k -ésima “prueba” ocurre el evento,
Xk =
0, si en la k -ésima “prueba” no ocurre el evento.
72
CAPÍTULO 4. ESPERANZA CONDICIONAL
en donde:
(i.) x = X(0) es el capital inicial (x > 0);
(ii.) γ > 0 es la prima acumulada (de todos los clientes) por unidad de tiempo;
(iii.) N (t) es el número de reclamaciones a la compañı́a en el intervalo [0, t]. En este
modelo se supone que N (t) es un proceso de Poisson con intensidad λ > 0; y
(iv.) {ξ1 , ξ2 , . . . } son los tamaños sucesivos de las reclamaciones que, se suponen, son v.a.
i.i.d. no negativas tales que Eξk = a < ∞.
También se supondrá en este modelo que N (t) no depende de {ξ1 , ξ2 , . . . }.
0
X
Nótese que en (4.4.29) se utiliza el convenio ξn = 0.
n=0
El proceso de (4.4.29) a veces se denomina proceso de riesgo (o modelo de Cramér3 -
N (t)
X
4
Lundberg ). El término S(t) = ξn − γt, con t > 0 es conocido como proceso de
n=1
superávit.
3
Carl Harald Cramér(1893-1985) fue un matemático sueco especialista en estadı́stica matemática;
contribuyó a la teorı́a de números probabilı́stica y a procesos estocásticos estacionarios.
4
Ernest Filip Oskar Lundberg(1876-1965) actuario sueco, fundador de la teorı́a de riesgo matemático.
73
4.4. Modelo clásico de riesgo (de Cramér-Lundberg)
X(t)
ξ1
X(0)=x ξ2
t
0
T1 T2 T3
N (t)
X
Por (4.1.8), con Z = ξn y Y = N (t) se tendrá:
n=1
N (t)
X ∞ N (t)
X X
E ξn = E ξn | N (t) = k P N (t) = k
n=1 k=1 n=1
∞ k
!
X X
= E ξn |N (t) = k P N (t) = k = (por independencia de N y ξ1 , ξ2 , . . . )
k=1 n=1
∞ k
!
X X
= E ξn P N (t) = k = (por linealidad de la esperanza)
k=1 n=1
X∞
= a k P N (t) = k = por(3.1.4) = a EN (t)
k=1
= por(4.3.27) = aλt. (4.4.31)
74
CAPÍTULO 4. ESPERANZA CONDICIONAL
La condición (4.4.33) denominada como “la condición de la ganancia neta”, significa que
por unidad de tiempo, la compañı́a gana en promedio más de lo que gasta, ya que aλ = el
pago promedio por una reclamación × el número promedio de reclamaciones por unidad
de tiempo (consulte la Nota 4.8).
EX(t)
c c+(γ-aλ)t
t
0
75
4.4. Modelo clásico de riesgo (de Cramér-Lundberg)
X(t)
x+γ(t)
c T4 es el momento
de la ruina
T4 t
0 T1 T2 T3
En este modelo, llegar a la ruina significa que en algún instante aleatorio, X(t) en
(4.4.29) toma un valor negativo o cero. En la práctica, esos sucesos son raros (consulte
el Ejemplo 4.5, abajo) y normalmente no se da la bancarrota de la compañia (debido a
ciertos lineamientos financieros). Como se explica en la Nota 4.13 y en el Ejemplo 4.6, las
estimaciones de la probabilidad de ruina son útiles para controlar los valores de la prima
γ en las situaciones cuando los precios en el mercado cambian con el tiempo (y es por
esto que se cambia la distribución de ξn en (4.4.29)).
Nota 4.10 En el ejemplo 6.8 del capı́tulo 6, se verá que si la condición (4.4.33) no se
cumple, i.e. si γ < aλ, entonces para el proceso de riesgo en (4.4.29), con probabilidad
uno se tiene que Xt → −∞ cuando t → ∞, o bien, P (de ruina) = 1. La probabilidad de
ruina es también 1, si γ = aλ.
Si se considera el evento: “la compañia nunca llegará a la ruina” = {X(t) > 0 para toda t >
0}, que es el complemento de {X(t) 6 0 para alguna t > 0}, se introduce la probabili-
dad de supervivencia:
p(x) := 1 − P (de ruina), (4.4.35)
donde x > 0 es el capital inicial de la compañia de seguros. Denotamos por F (x), x > 0 la
f.d. común de las v.a. ξ1 , ξ2 , . . . (los tamaños de las reclamaciones) y también suponemos
que F tiene una densidad f continua en [0, ∞].
Se subraya que esta última suposición se toma solamente para simplificar el bosquejo de
la demostración. Las condiciones más generales para ecuaciones integro-diferenciables e
76
CAPÍTULO 4. ESPERANZA CONDICIONAL
Nota 4.11 La ecuación (4.4.36) significa que al sustituir p(x), definida en (4.4.35), se
obtendrá (luego de calcular la derivada y la integral) la misma función tanto en la parte
derecha como en la izquierda (es decir, p(x) satisface (4.4.36)). Por otro lado, si en-
contramos una función r(x) que satisfaga la ecuación (4.4.36) y la condición: r(x) → 1
cuando x → ∞ (“no se da la ruina, si el capital es infinito”), entonces, r(x) = p(x), i.e.
r(x) será la probabilidad de supervivencia definida en (4.4.35).
X(t) X(t)
x+γt x+γt
x x y
t t
0 0
h T1 T1 h
Se tiene que:
p(x) = P (Ax ) = P Ax , T1 > h + P Ax , T1 6 h . (4.4.37)
77
4.4. Modelo clásico de riesgo (de Cramér-Lundberg)
Z h Z x+γt
−λh
p(x) = p(x + γh) e + p(x + γt − y) f (y) dy λe−λt dt, (4.4.40)
0 0
o bien, restando p(x + γh) en ambas partes de la igualdad y dividiendo entre h, se obtiene:
78
CAPÍTULO 4. ESPERANZA CONDICIONAL
1 h
Z
Al usar un teorema, conocido, del cálculo que dice: si ϕ es continua, entonces ϕ(t)dt
h 0
→ ϕ(0) cuando h → 0; se puede, por tanto, pasar al lı́mite en la parte derecha de
(4.4.41), cuando h → 0. Esto es, tomando en cuenta que para t 6 h, γt → 0 y λt → 0,
cuando h → 0. De lo cual se obtiene que el último sumando en (4.4.41) converge a
Z x
λ p(x − y)f (y)dy.
0
Por lo tanto, existe el lı́mite de la parte izquierda de (4.4.41) y es −γp0 (x). Finalmente,
de (4.4.41) se obtiene (4.4.36). 2
Corolario 4.2 Supongamos que los tamaños de las reclamaciones tienen distribución ex-
ponencial Exp(µ), entonces para cada x > 0,
λ −(µ− λγ )x
p(x) = 1 − e , (4.4.42)
γµ
λ −(µ− λγ )x
P (de ruina) = e . (4.4.43)
γµ
Nota 4.12 Puesto que en el corolario 4.2, a = Eξ1 = 1/µ , la condición (4.4.33) se con-
vierte en µλ < γ, o bien µ > λγ .
Obsérvese que en el último caso P (de ruina) es prácticamente cero. (En general, las
empresas pequeñas se arruinan más frecuentemente que las empresas grandes.)
79
4.4. Modelo clásico de riesgo (de Cramér-Lundberg)
Nota 4.13 La última respuesta señala que en el caso de reclamaciones representadas por
v.a. exponenciales, para un capital inicial “razonablemente grande” (como 10 millones
de pesos como en el último ejemplo) resulta una probabilidad de ruina “excesivamente
pequeña.” Las estimaciones de las probabilidades de ruina son útiles para recalcular (en
algunos periodos) las primas que se cobran a los clientes de la compañı́a. La razón para
hacerlo podrá ser que por el crecimiento de precios el parámetro a = Eξk aumenta y de
ahı́, (para reclamaciones exponenciales, y también en casos más generales), el exponente
λ 1 λ
µ − = − en (4.4.43) se aproxima a cero. Esto podrı́a aumentar la probabilidad de
γ a γ
ruina hasta un “nivel peligroso” para la compañia de seguros. En el siguiente ejemplo se
ilustra esto.
Ejemplo 4.6 Conservemos todos los parámetros dados en el ejemplo 4.5, excepto el valor
de a. Entonces sean x = 107 y a = 10490 (un crecimiento de precios menor del 5 %).
Nuevamente, aplicando (4.4.43) se obtiene que
80
CAPÍTULO 4. ESPERANZA CONDICIONAL
4.5. EJERCICIOS
4.1 Sea N una v.a. con valores en {0, 1, 2, . . . } demuestre que:
∞
X
EN = P (N > k).
k=0
4.2 Sean X1 , X2 , . . . v.a. i.i.d. con la distribución Exp(λ), N una v.a. independiente de
X1 , X2 , . . . Supongamos que P (N = n) = 1/2n , n = 1, 2, . . . , y se define la función
R(λ) := E(X1 · X2 · . . . · XN ), λ > 0. Determine los valores de R(λ).
Resp. :
(
1
2λ−1
, si λ > 1/2,
R(λ) =
∞, si λ 6 1/2.
4.5 (Una broma con cálculos) Imaginemos a una persona de 50 años de edad la cual
tiene n órganos principales que pueden ser transplantados (como el corazón, hı́gado,
córnea, etc.). Actualmente n se considera en 20 órganos aproximadamente. Supon-
gamos que cada año (después de la edad de 50 años) deja de funcionar un órgano y
se hace un transplante. Supongamos también que los órganos dejan de funcionar de
forma independiente unos de otros y que no importa si son propios o transplantados.
81
4.5. Ejercicios
Sea N la v.a. (con valores enteros) tal que a la edad de 50+N años, por primera vez,
los n órganos de la persona mencionada se han cambiado por órganos transplantados.
Calcule EN .
Resp. : EN = n(1 + 12 + 13 + · · · + n1 ), EN ≈ 72 años para n = 20.
4.7 Mostrar que para a = ∞ (una barrera absorbente en 0), el sistema de ecuaciones
(4.2.21) tiene solamente la solución ETx = ∞, x > 0.
Sugerencia: Para ϕ(x) = ETx − ETx−1 , demostrar que ϕ(x + 1) = ϕ(x) − 2, x =
1, 2, 3, . . . De aquı́, ETx − ETx−1 < 0 para alguna x suficientemente grande. Hay
que entender que lo último contradice la monotonı́a de la esperanza.
4.9 Para la caminata aleatoria S0 (0) ≡ Sn en (4.2.17), se define la v.a. T := mı́n{n >
1 : Sn = 0} que representa el tiempo hasta el primer regreso al origen.
Demostrar:
(a) P (T < ∞) = 1;
(b) ET = ∞.
4.10 De acuerdo a las tablas de mortalidad publicadas en el año de 1693 por Edmond
Halley (1653-1742), la duración promedio de vida era de 26 años. Por otro lado,
una persona tenı́a las mismas oportunidades de vivir menos que 8 años y más que
8 años. Suponiendo (no muy realista) que la distribución de la duración de vida en
esa época se representa por la v.a. T definida como:
T = Xξ + (1 − ξ)(X + Y ),
82
CAPÍTULO 4. ESPERANZA CONDICIONAL
(a) Encontrar los valores de p y λ que corresponden a los datos de arriba (con
ET = 26).
(b) Calcular E(T | T > 2).
4.12 Considere la caminata aleatoria simple no simétrica dada por (4.2.15) y (4.2.16).
Sean (en lugar de (4.2.14)) las v.a. i.i.d. X1 , X2 , . . . con la distribución P (Xk =
1) = p y P (Xk = −1) = q, suponiendo que p > q. Demostrar que Sn → ∞ con
probabilidad uno. Justificar que esto resulta del hecho que con probabilidad uno,
cada punto entero es visitado por Sn (x) un número finito de veces (incluso cero
veces).
Sugerencia: Usar la Ley Fuerte de los Grandes Números del Capı́tulo 6.
4.13 Sea N (t) el proceso de Poisson con intensidad λ. Mostrar que con probabilidad uno,
N (t)
t
→ λ (i.e. se aproxima al valor de λ) cuando t → ∞.
Sugerencia: De (4.3.24),(4.3.25) para t grandes los valores de TN (t) = τ1 + τ2 +
τ1 + · · · + τN (t)
· · · + τN (t) son relativamente cercanos a t. Entonces, ≈ Nt(t) . Faltarı́a
N (t)
usar Ley Fuerte de los Grandes Números del Capı́tulo 6.
4.14 Supongamos (no muy realistamente) que el número total N de hijos e hijas en una
familia tiene la distribución geométrica: N ∼ Geom(p) (véase el Ejercicio 2.12). Sean
X y Y las v.a. que representan el número de varones y mujeres, respectivamente,
en la familia mencionada. Bajo la hipótesis de que el nacimiento de un varón o una
mujer es equiprobable, calcular E(X|Y = 0).
2
Resp.: 1+p
.
Sugerencia: E(N − Y |Y = 0) = E(N |Y = 0). Para calcular la última esperanza,
aplicar (4.1.1) y en su turno, usar P (N = n|Y = 0) = P (Y =0|N =n)P (N =n)
P (Y =0)
y P (Y =
1 n
0|N = n) = ( 2 ) . Para hallar P (Y = 0) use (2.2.13). Utilice también la serie
∞
X 1
k xk−1 = , (4.5.46)
k=1
(1 − x)2
83
4.5. Ejercicios
donde 0 < x < 1 es cualquiera. Esta serie se obtiene de la serie dada en (2.3.22), al
derivarla en ambos lados.
Nota 4.14 Si p = 0.45, entonces EN = 1/p = 2.2 (véase (3.3.26)) que es la tasa
de fecundidad en México en el año 2013, de mujeres entre 15 y 49 años de edad
(INEGI 2013). Para tal p, E(X|Y = 0) ≈ 1.3793. Es interesante notar que cuando
p → 0, EN = 1/p → ∞ pero E(X|Y = 0) → 2, a pesar de que N = X + Y y
EN = EX + EY → ∞.
4.15 Sean X el peso (en kilogramos) de un hombre escogido al azar y Y su estatura (en
centı́metros). Según datos estadı́sticos, en 2002 para Estados Unidos, EX = 86.1
(kg), EY = 178.5 (cm), σX = 2.63 (kg), σY = 6.59 (cm) y la distribución conjunta
de las v.a. estandarizadas: ξ = X−EX σX
, η = Y −EY
σY
es aproximadamente normal
bidimensional (véase (2.1.9)) con el coeficiente de correlación ρ ≈ 0.7.
Calcular (a) E(X|Y = 160), (b) E(X|Y = EY ) y (c) E(X|Y = 200) (véase Ejemplo
4.2).
Resp.: (a)≈ 80.9318, (b)aX = 86.1 y (c)≈ 92.1063.
ρ = E(ζ η).
También de la fórmula (2.1.9) se sigue que para el caso del par de v.a. (ζ, η)
Normal bidimensional ζ y η son independientes si y sólo si el coeficiente de
correlación ρ = 0.
2
(b) En general, sean X, Y cualquier par de v.a con 0 < V ar(X) := σX < ∞ y
2
0 < V ar(Y ) := σY < ∞. El coeficiente de correlación ρX,Y se define como:
1 h i
ρX,Y ≡ E (X − EX)(Y − EY ) . (4.5.47)
σX σY
Por el Teorema 3.1 se tiene que si X y Y son independientes entonces ρX,Y = 0.
Desafortunadamente, el recı́proco no es cierto, i.e. existen casos para los cuales
ρ = 0 y X y Y son dependientes (como se ve en el siguiente ejercicio). O de
manera equivalente no es cierto que la dependencia de X y Y implique ρ 6= 0.
84
CAPÍTULO 4. ESPERANZA CONDICIONAL
4.16 Sean X ∼ N orm(0, 1) y Y = |X| (son v.a. muy dependientes entre sı́ pues se sabe
el valor de Y sólo conociendo el valor de X). Mostrar que ρX,Y = 0.
85
4.5. Ejercicios
86
Capı́tulo 5
Definición 5.1 Sea X > 0 una v.a. (con valores positivos) tal que E| ln X| < ∞. La
esperanza geométrica, Eg X, de X se define como:
Eg X := eE(ln X) . (5.1.1)
1
EX = x1 + x2 + · · · + xm ,
m
(el promedio aritmético); y por (5.1.1) y (3.1.8),
( m
)
1 X
Eg X = exp ln xk
m k=1
m
Y 1 1
= exp ln xk = x1 · x2 · . . . · xm m , (5.1.2)
k=1
m
87
5.1. Esperanza geométrica
Ejemplo 5.2 (La paradoja de Petersburgo) Consideremos el siguiente juego de azar. Una
moneda simétrica se lanza sucesivamente hasta que por primera vez salga “águila”. Sea
X el número de lanzamientos. Como en el Ejercicio 2.12 se establece que X ∼ Geom(p =
k−1
1 1 1
1/2), o bien, por (2.3.21) P (X = k) = 1− = k , k = 1, 2, 3, . . . En este juego,
2 2 2
el jugador gana 2k pesos cuando X = k. Es decir, la ganancia neta es Y = 2X . Según
(3.1.8), la “ganancia promedio” es
∞ ∞
X 1 X
EY = 2k = 1 = ∞. (5.1.3)
k=1
2k k=1
Nota 5.1 Explicaremos por qué el resultado (5.1.3) se interpreta como una paradoja.
Según el concepto común, un juego de azar se denomina “justo”, si el pago por la partici-
pación en el juego coincide con la ganancia promedio. De (5.1.3), se supone que cualquier
pago finito por una participación será “injusto”. Por otro lado, no muchas personas están
de acuerdo en pagar 100 pesos por participar en el juego. Por supuesto, si alguien apuesta
100 pesos como pago inicial, entonces tendrá la posibilidad (con una probabilidad positi-
va) de ganar más de 250 ≈ 1.12580·1015 = 1125800 millares de pesos.
P50 Pero la probabilidad
1 k
de que hsuceda ese evento es P (X > 50) = 1 − P (X 6 50) = 1 − k=1 ( 2 ) = (por (2.3.23))
1−( 12 )51
i
= 1− 1− 21
− 1 = (1/2)50 ≈ 0.88818 · 10−15 , que es prácticamente cero. Por cálculos
1
semejantes se obtiene que P (de recuperar 100 pesos) = P (2X > 100) = P (X > 6) = 26
=
1
64
(“una posibilidad de 64”).
Este ejemplo muestra que la esperanza de la ganancia no siempre refleja el comporta-
miento de la ganancia real. Si alguien jugará solamente una vez, entonces, el pago por
participación de 4 pesos, dado por la esperanza geométrica (véase (5.1.4)) en algún sen-
tido es “justo”, pues P (ganar 4 pesos o más) = 1 − P (X = 1) = 1/2 y P (ganar al
menos 4 pesos) = P (X = 1) = 1/2. (Puede también consultarse el Ejercicio 3.8 que
está relacionado con este ejemplo.)
88
CAPÍTULO 5. ESPERANZA GEOMÉTRICA
Ejemplo 5.3 Según el Ejercicio 3.12, para las v.a. independientes X ∼ U (0, 1) y Y ∼
U (0, 1), E(X/Y ) = ∞. Por otro lado, sin importar que X y Y sean independientes o
no, Eg (X/Y ) = exp[E ln(X/Y )] = eE(ln X)−E(ln Y ) = e0 = 1 (tomando en cuenta que
Z 1
E(ln X) = ln x dx = −1).
0
Ejemplo 5.4 Supongamos que una persona al principio del año deposita en un banco la
cantidad de Y0 > 0 pesos (una cantidad no aleatoria), entonces al final del año el valor
nominal de su depósito será Y0 (1 + ξ), donde ξ ∈ (0, 1) es una tasa de interés aleatoria
(1 + ξ)
(en particular, fija). Sin embargo, el valor real del depósito al final del año es Y0 ,
(1 + η)
donde η ∈ (0, 1) es la v.a. que representa el coeficiente de inflación.
Supongamos que la persona tiene su cuenta en el mismo banco para los años i =
1, 2, 3, . . . , n, con el depósito inicial en Y0 pesos. Entonces, en caso de no hacer retiros, el
valor real de su capital al final del n−ésimo año será:
n
Y 1 + ξi
Yn = Y0 , n = 1, 2, 3 . . . (5.1.7)
i=1
1 + ηi
89
5.1. Esperanza geométrica
Primero: supongamos que para cada i fijo las v.a. ξi y ηi tienen distribuciones tales
que E ln(1 + ξi ) = E ln(1 + ηi ), i = 1, 2, . . . , n. Entonces, por (5.1.5) y el Ejercicio 5.1 se
obtiene:
Eg Yn = Y0 , n = 1, 2, 3, . . . (5.1.8)
Segundo: Además, supongamos que ξ1 , ξ2 , . . . , ξn ; η1 , η2 , . . . , ηn son v.a. i.i.d. con
la distribución U (0, α), donde α > 0 es un número bastante cercano a cero (como suele
ocurrir en la realidad). Por la independencia, identidad de distribuciones y por el Teorema
3.1, se tiene que:
n n n
Y 1 + ξi 1 + ξ1 1
EYn = Y0 E = Y0 E = Y0 E(1 + ξ1 )E . (5.1.9)
i=1
1 + ηi 1 + η1 1 + η1
Z α
α 1 1 1 1
De (3.1.7), E(1 + ξ1 ) = 1 + y por (3.1.9) E = dx = ln(1 +
2 1 + η1 0 1+x α α
2
α α
α) ≈ 1 − + , para pequeñas α (ya que, al usar el desarrollo de Taylor para la
2 3 2 3 4
función ln(1 + x) se obtiene que ln(1 + x) = x − x2 + x3 − x4 + . . . , y quitando los
3 4
términos de orden
α , α, etc. los cuales
son prácticamente iguales a cero). Es por esto
α α2 α2
1 α
que E(1 + ξ1 ) E ≈ 1+ 1− + ≈ 1+ (ignorando el término de
1 + η1 2 2 3 12
orden α3 , el cual es casi nulo). Finalmente, por (5.1.9) obtenemos que:
n
α2
EYn ≈ Y0 1 + → ∞, cuando n → ∞, (5.1.10)
12
Esto significa que el “valor real promedio” de capital, crece sin cota con el tiempo.
Esta conclusión puede sonar un poco extraña. Al calcular el “valor real promedio” por la
esperanza geométrica se obtiene un resultado más razonable dado en (5.1.8).
90
CAPÍTULO 5. ESPERANZA GEOMÉTRICA
5.2. EJERCICIOS
5.1 Sean X, Y v.a. positivas para las cuales la esperanza geométrica existe y E ln(X) =
E ln(Y ) (en particular, si X y Y son idénticamente distribuidas). Mostrar que:
X
(a) Eg = 1.
Y
EX X
(b) Si X, Y ∼ Exp(λ) y son independientes, entonces 6= E = ∞.
EY Y
X
(c) Para las v.a. X, Y ∼ Exp(λ), Eg = 1.
Y
∞
X α
5.2 Demostrar que para 0 < α < 1, k αk = .
k=1
(1 − α)2
P∞ 1
Sugerencia: De (2.3.22), k=0 αk = 1−α , para cualquier 0 < α < 1. Calcule la
derivada de ambas partes de esa igualdad.
5.6 La v.a. X = eη , donde η ∼ N orm(0, 1), se llama v.a lognormal estándar (utiliza-
da ampliamente en matemáticas financieras y otros campos). Sean n > 1 un entero
y X1 , X2 , . . . , Xn las v.a. lognormales estándar. Mostrar que:
(a) Eg (X1 · X2 · · · Xn ) = 1.
(b) Si X1 , X2 , . . . , Xn son independientes, entonces E(X1 · X2 · . . . · Xn ) = en/2
(→ ∞ cuando n → ∞).
R∞ x x2
Sugerencia: Para el inciso (b) usar el Teorema 3.1 y calcular EeX1 = √e
−∞ 2π
e− 2 dx.
91
5.2. Ejercicios
92
Capı́tulo 6
A pesar de que estos teoremas son muy valiosos en la teorı́a y tienen aplicaciones
importantes en diversas áreas, en los cursos introductorios de probabilidad casi nunca se
les da suficiente atención.
Ejemplo 6.1 Imaginemos que una moneda simétrica se lanza n veces. Para el k-ésimo
lanzamiento sea: (
1, si resulta “águila”,
Xk = (6.1.1)
0, si resulta “sol”.
Sn
Entonces, Sn = X1 + X2 + · · · + Xn es el número de “águilas” que resultan y es
n
la frecuencia relativa del número de águilas.
93
6.1. Convergencia con probabilidad uno
En efecto, en el siguiente Teorema 6.1 se obtiene que con probabilidad uno (o casi
seguramente),
Sn 1
→ = a, cuando n → ∞. (6.1.2)
n 2
Sn (ω)
P ω ∈ Ω tales que n
9 1/2 = 0. (6.1.5)
Considerando el caso general, llegamos a la siguiente definición.
94
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
En este caso se escribe:
Xn → X con probabilidad 1.
95
6.1. Convergencia con probabilidad uno
La tropa que se
aproxima a la
fortaleza
Fortaleza Fortaleza
Un guerrero
cobarde:
Sn = X1 + X2 + · · · + Xn , n = 1, 2, 3, . . .
Sn
→ a = EX1 con probabilidad 1. (6.1.7)
n
Sn X1 + X 2 + · · · + Xn
Nota 6.2 El cociente ≡ algunas veces es llamado “promedio
n n
muestral”. La afirmación en (6.1.7) significa que los promedios muestrales convergen al
valor esperado (o “promedio teórico”) a ≡ EX1 , cuando n → ∞.
96
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
Lo último significa que Snn → a con probabilidad uno. Después, se considera el caso
general utilizando algunos trucos interesantes, pero ello no es muy importante para este
libro. En particular, para pasar de v.a. generales (posiblemente con varianzas infinitas) a
unas v.a. acotadas se utiliza el procedimiento de “truncación” como en la fórmula (6.1.12).
Nota 6.3 En el Teorema 6.1, las hipótesis dicen que los sumandos X1 , X2 , X3 , . . . son
v.a. independientes e idénticamente distribuidas. Estos supuestos podrı́an sustituirse por
algunas condiciones menos restrictivas (como una dependencia “bastante ligera”), pero
hipótesis de este tipo no pueden quitarse por completo. Algo referente se muestra en el
siguiente ejemplo.
97
6.1. Convergencia con probabilidad uno
Sn
o bien ∼ N orm(0, σ n ), donde
n
2 Sn n(n + 1)(2n + 1)
σ n = V ar = ,
n 6n2
Ejemplo 6.3 Supongamos que se lanza sucesivamente un dado bien balanceado. Para
k = 1, 2, . . . sean
(
1, si en el k-ésimo lanzamiento resulta “6”,
Xk =
0, si en el k-ésimo lanzamiento resulta otro puntaje.
98
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
Por (6.1.7), con probabilidad uno (cuando n → ∞), la frecuencia del “6”, Sn /n se
aproxima a 1/6 = P (resulte “6”). Se enfoca en este sentido la interpretación frecuentista
de la probabilidad: al repetir muchas veces “las pruebas” independientes (donde un evento
puede realizarse o no), la frecuencia del evento se aproxima a la probabilidad
de ese evento.
1
fX (x) = , x ∈ R. (6.1.11)
π(1 + x2 )
1/π
x
-c 0 c
Por la simetrı́a de esta densidad, se podrı́a pensar que Snn = X1 +X2n+···+Xn → 0, cuando
n → ∞ (cada sumando Xk , k = 1, 2, . . . , n tiene la misma posibilidad de ser positivo o
negativo). Sin embargo, (consulte el Ejercicio 3.2 (b))
Z ∞
dx
E|X1 | = |x| =∞,
−∞ π(1 + x2 )
y por (6.1.8) la sucesión {Sn /n, n = 1, 2, . . . } diverge con probabilidad uno. En particular,
se demuestra que:
Sn
P sup = ∞ = 1.
n>1 n
99
6.1. Convergencia con probabilidad uno
Las v.a. X e1 , X
e2 , . . . son i.i.d. (ya que son funciones de las v.a. i.i.d. X1 , X2 , . . . , vea
(2.1.8)) y debido a la Proposición 3.1, |EXk | 6 E|Xk | 6 Ec = c < ∞. Además, por si-
metrı́a, E X
ek = 0. Por lo tanto el teorema 6.1 inciso (a) se cumple para las v.a. X e1 , Xe2 , . . .
Sen Xe1 + · · · + X
en
con a = 0. Aplicando (6.1.7) se tiene que = → 0, cuando n → ∞ con
n n
probabilidad uno. Por (6.1.12) se obtiene que P (X ek 6= Xk ) = P (|Xk | > c) = 10−1000 , i.e.
las v.a. Xk y X ek son “prácticamente indistinguibles”.
A pesar de esto, el comportamiento asintótico (cuando el número de sumandos crece
Sn Sen
sin cota) de las v.a. (“promedios muestrales”) y son muy diferentes. Mientras que
n n
Sen Sn
→ 0 casi seguramente, la v.a. , como es posible demostrar, tiene la densidad de
n n
Cauchy (6.1.11) para toda n = 1, 2, 3 . . .
En particular,
Z 1
Sn Sn dx
P ∈
/ [−1, 1] = 1 − P ∈ [−1, 1] = 1 − 2
= 0.5.
n n −1 π(1 + x )
100
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
Finalmente se puede observar que argumentos como los de este ejemplo son “dema-
siado teóricos” y no están sustentados para ser utilizados como modelos adecuados de
procesos reales.
101
6.2. Primeras aplicaciones de la LFGN
Ejemplo 6.6 (Casino.) Este ejemplo es de otro tipo en el cual la aplicación de la LFGN
refleja perfectamente los fenómenos reales que caracterizan a la mayorı́a de los juegos de
azar utilizados.
Los casinos, al igual que algunas empresas, existen y prosperan debido al hecho de que
cualquier juego que se ofrece al publico es injusto. Es decir, el resultado X de cualquier
apuesta de un jugador tiene esperanza negativa:
EX = a < 0. (6.2.13)
Imaginemos que un jugador repite sucesivamente las mismas apuestas en algún juego en
un casino, entonces, su capital después de n apuestas será:
Cn = C0 + X1 + X2 + · · · + Xn = C0 + Sn ,
donde C0 es su capital inicial y X1 , X2 , . . . son v.a. i.i.d. que representan los resultados
(ganancia o pérdida) de cada apuesta. Supongamos que el jugador es una persona “per-
sistente”, es decir, sigue apostando si todavı́a tiene capital. Veamos que con probabilidad
uno, tarde o temprano el jugador deberá dejar de apostar debido a su ruina, i.e. a la ocu-
rrencia del evento {Cn < 0} (donde n puede ser un valor aleatorio). En efecto, puesto que
C0 Cn C0 Sn
→ 0 cuando n → ∞, de (6.1.7) se sigue que casi seguramente = + → a < 0,
n n n n
de lo que resulta que Cn < 0 a partir de un n.
Nota 6.4 Imaginemos que el jugador puede seguir jugando incluso después de su ruina
(obteniendo un préstamo, por ejemplo) y que, como en el Ejemplo 8.3 del Capı́tulo 8,
repite sus apuestas de 5 dólares porp“rojo” en la ruleta americana (véase Ejercicio 6.6).
Entonces, a = EXk = −5/19, σ = V ar(Xk ) ≈5.
Por el Teorema Central del Lı́mite (Capı́tulo 8) y la “ regla 3σ” (véase la Figura 3.6),
obtenemos que para la ganancia-pérdida Sn , en n apuestas con un n “bastante grande”,
se cumple que P (−3σ 6 Sn√−nan
6 3σ) ≈ 0.9974, o bien,
√ √
P na − 3σ n 6 Sn 6 na + 3σ n ≈ 0.9974. (6.2.14)
Por ejemplo, para n = 202 = 400 y de (6.2.14):
P (−405.3 6 Sn 6 194.7) ≈ 0.9974.
Además, según (6.2.14), para n grande la deuda del jugador crece con velocidad: −na ±
√ 5 15
3σ n = n( ± √ ). Para n = 10000, con probabilidad cercana a 0.8384, la deuda
19 n
está en el intervalo [−3632, −1632].
102
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
Sin embargo, el fabricante desconoce el valor del parámetro λ > 0. Para estimar-
lo, hace un experimento en el cual pone a prueba n focos y observa sus respectivos
tiempos de funcionamiento T1 , T2 , . . . , Tn , que pueden considerarse (con una apro-
piada realización del experimento) variables aleatorias i.i.d. con distribución común
FT . De (6.1.7) y (3.3.31) se tiene que para toda n “suficientemente grande”, con
probabilidad 1, se cumple la siguiente aproximación:
T1 + T2 + · · · + Tn 1 π 12
≈ ET1 = , (6.2.15)
n 2 λ
Sn π 12
o bien (Sn := T1 +T2 +· · ·+Tn ), 2 ≈ . Finalmente (puesto que las funciones
n λ
g1 (x) = x2 y g2 (x) = x1 , x > 0 son continuas) al resolver (6.2.15) se obtiene que:
π n2
λ≈ .
4 Sn2
103
6.2. Primeras aplicaciones de la LFGN
XN (t) h
N (t) γi
X(t) = x + γ t − − ξn − . (6.2.16)
λ n=1
λ
Por el Ejercicio 4.13 sabemos que Nt(t) → λ, cuando t → ∞ con probabilidad 1, de lo cual
resulta que N (t) → ∞; y para cualquier ε > 0 (pequeña) y para toda t suficientemente
grande se tiene que:
N (t) N (t) 6 εt.
t − λ 6 ε, o bien, t −
λ λ
γ γ
Por otro lado, para Yn := ξn − λ
se tiene que EYn = a − λ
> 0, y como consecuencia
de (6.1.7),
N (t)
1 X γ
Yn → b := a − > 0.
N (t) n=1 λ
N (t)
X γ
Entonces, para t grande en (6.2.16), [ξn − ] se comporta como bN (t) ≈ bt. Pero como
n=1
λ
t
bt → ∞ crece más rápido que ε λ → ∞ (ya que ε puede ser escogido con un valor muy
cercano a cero). Es por esto que en (6.2.16) con probabilidad uno,
XN (t) h
N (t) γi
X(t) := γ t −
e − ξn − → −∞,
λ n=1
λ
104
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
Proposición 6.1 Sean X1 , X2 , . . . v.a. positivas i.i.d. para las cuales existe (y es finita)
b := Eg X1 (= Eg X2 = Eg X3 = . . . ). Entonces, con probabilidad 1,
1/n
X1 · X2 · . . . · Xn → b, cuando n → ∞. (6.3.17)
Ejemplo 6.9 Sean X1 , X2 , . . . v.a. i.i.d. con la distribución U (0, 1). Como E ln(X1 ) =
Z 1
ln(x)dx = −1, entonces [X1 · X2 · . . . · Xn ]1/n → 1/e, cuando n → ∞.
0
- La “riesgosa”(como comprar acciones), donde por cada peso invertido resulta al fi-
nal del año la cantidad aleatoria X1 > 0 (que es ganancia si X1 > 1 o es pérdida si
X1 < 1).
105
6.3. Un modelo simplificado de optimización de inversiones
Supongamos que el inversionista escoge cierto número q ∈ [0, 1] (un parámetro “con-
trolable”) y gasta qY0 por la inversión no riesgosa y (1 − q)Y0 por la riesgosa. Entonces al
final del año (o al principio del siguiente (t = 1)) su capital (aleatorio) será:
Suposición 6.3.1 (a) Las v.a. X1 , X2 , . . . son i.i.d. con valores positivos;
(b) La esperanza a = EXk existe y es finita, y además
La aleatoriedad de Yt no nos permite hacer esto para todas las trayectorias de Yt si-
multáneamente. Es por esto que se necesita un criterio de optimización “promedio”que se
pueda escoger de diferentes maneras. Veamos los siguientes dos planteamientos.
106
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
t
Y
EYt = Y0 [qα + (1 − q)EXk ] = Y0 [qα + (1 − q)a]t . (6.3.22)
k=1
y
y(q)
a
a
q
0 1
EYt = Y0 at , t = 1, 2, . . . , (6.3.23)
(El último valor, prácticamente representa la anulación del precio de las acciones, pero
en el modelo estudiado Xk debe ser estrictamente positivo.) Entonces, en promedio, los
107
6.3. Un modelo simplificado de optimización de inversiones
precios aumentan el valor de a = EX1 ≈ 2.7 que es mucho mayor que α ≈ 1.02 − 1.1 y
por (6.3.23) se obtiene:
(Y0 )−1/t (Yt )1/t → Eg X1 = (por (5.1.1) y (3.1.8)) = exp{0.9 ln 3 + 0.1 ln(10−12 )}
≈ e−1.77435 ≈ 0.16959. (6.3.28)
Consecuentemente, por (6.3.25) el capital promedio EYt crece sin cota, mientras
que el capital “real” Yt con probabilidad 1 se anula cuando t → ∞.
Esto último nos refiere a la ruina del inversionista (que se da de forma asintótica). Es
claro que ésto se debe a la ocasional (con probabilidad 0.1) aparición en (6.3.27) del valor
de Xk igual a 10−12 (véase (6.3.24)).
Estimaremos ahora los valores de Y50 y sus probabilidades. Podrı́a parecer práctico
elevar la expresión (6.3.28) a la potencia t para tratar de obtener Y50 ≈ Y0 (0.16959)50 .
Sin embargo, al hacerlo aumentarı́amos considerablemente el error de la aproximación en
(6.3.28) y no se obtendrı́a un resultado confiable.
Sean t = 50 y N el número de apariciones del valor 10−12 entre las v.a. X1 , X2 , . . . , X50 .
Es claro que N ∼ Bin(n = 50, p = 0.1), (véase (6.3.24)). Entonces (consulte el Ejemplo
1.4(a)):
1. P (N = 0) = (1 − p)n ≈ 0.0051538, con esa probabilidad y por (6.3.27) (con Y0 =
1000) Y50 = Y0 · 350 ≈ 7.17898 · 1026 pesos. (¡Un montón de dinero!)
108
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
3. P (N = 2) = n(n−1)
2
p2 (1 − p)n−2 ≈ 0.077943 y con esa probabilidad
48 −12 2
Y50 = Y0 · 3 · (10 ) ≈ 79.7664 pesos.
Suposición 6.3.2
1
E < ∞. (6.3.31)
X12
Como sugiere la solución del Ejercicio 6.14, las condiciones (6.3.21) y (6.3.31) garanti-
zan que E| ln[qα + (1 − q)X1 ]| < ∞, q ∈ [0, 1] (i.e. las esperanzas involucradas en (6.3.29)
109
6.3. Un modelo simplificado de optimización de inversiones
m j(q)
q
0 q* 1
110
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
ϕ(q) = E ln[qα + (1 − q)X1 ] = 0.9 ln[1.05q + 3(1 − q)] + 0.1 ln[1.05q + 10−12 (1 − q)].
Por (6.3.36) se tiene que si Y0 = 1000, entonces EY50 ≈ 2.65555 · 1022 , que es me-
nor comparado con el valor promedio de (6.3.26) (cuando se aplicó la polı́tica riesgosa
q = q0 = 0).
Veamos ahora qué valores reales toma la v.a Y50 (el capital real después de 50 años)
en el ejemplo ya mencionado, al aplicar la polı́tica q∗ = 0.15385. Al igual que en los
cálculos anteriores, sea N el número (aleatorio)Qde apariciones del valor Xk = 10−12 entre
las v.a. X1 , X2 , . . . , X50 . Por (6.3.20) Y50 = Y0 50
k=1 [q∗ α + (1 − q∗ )Xk ], donde:
(
2.69999 si Xk = 3,
q∗ α + (1 − q∗ )Xk ≈
0.16154 si Xk = 10−12 .
3. Y50 = 103 (2.69999)48 (0.16154)2 ≈ 1.32417 · 1022 con probabilidad 0.077943 (N = 2).
(a) Para N = 5,
111
6.3. Un modelo simplificado de optimización de inversiones
(b) Para N = 8,
Y50 = 1000(2.69999)42 (0.16154)8 ≈ 6.07367 · 1014 ; (6.3.38)
(≈ 600 billones de pesos).
Finalmente, utilizando la distribución Bin(n = 50, p = 0.1) es fácil calcular P (N > 8),
la cual resulta muy cercana a cero.
Nota 6.5 Al utilizar un valor q ∈ [0, 1] para realizar el proceso de inversión descrito
arriba, el término G := qα + (1 − q)Xk representa la ganancia (si G > 1) o la pérdida
(si G < 1) durante un año por cada peso invertido. En el Pl.I se busca máxq EG (véase
(6.3.22)) y en el Pl.II, máxq E ln(G) (véanse (6.3.30) y (6.3.32)). Esto significa que en el
segundo caso se usa la función de utilidad: f (x) = ln x. Es decir, el “valor real” de la
ganancia de x pesos se estima no como x, sino como ln x.
Sobre las diferentes aplicaciones en economı́a de las funciones de utilidad de este tipo
se pueden consultar en Rolski et al (1999).
Comentemos ahora algo sobre los modelos más serios de inversiones óptimas que se
usan en matemática financiera moderna (véase, por ejemplo, Korn & Korn (2001)). En
la mayorı́a de los libros y los artı́culos la evolución del mercado y de las inversiones del
capital se consideran con un tiempo t continuo (en particular, para hacer uso de la teorı́a
muy bien desarrollada de ecuaciones diferenciales estocásticas). Para modelos con tiempo
discreto t = 0, 1, 2, . . . , la generalización de nuestro “modelo” se realiza en las siguientes
direcciones:
112
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
2. Se considera más de una inversión riesgosa (i.e., por ejemplo, se adquieren acciones
de diferentes tipos).
4. La validez del capital se estima medinate una función de utilidad más o menos
arbitraria.
en general, puede depender del tiempo, del capital actual Yt−1 y de inversiones y capitales
anteriores. En (6.3.39), ct (0 6 ct 6 Yt−1 ) es el consumo en el periodo t, qt (Yt−1 − ct ) es
(1) (2)
la parte del capital con que se hizo una inversión no riesgosa y qt (Yt−1 − ct ), qt (Yt−1 −
(m)
ct ), . . . , qt (Yt−1 − ct ) son las reparticiones entre m inversiones riesgosas (tales que qt +
Pm (j)
j=1 qt = 1).
113
6.3. Un modelo simplificado de optimización de inversiones
1
Puede consultarse Korn & Korn (2001) para el modelo similar con tiempo continuo.
114
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
6.4. EJERCICIOS
6.1 Sean X1 , X2 , . . . v.a. i.i.d. con distribución Bernoulli con p = 1/2 (modelo de los
lanzamientos sucesivos de una moneda simétrica, véase el Ejemplo 6.1). Muestre
que:
(a) P (Sn /n → 1/2) = 1;
√
(b) P (Sn /n = 1/2) ≈ 1/ 2πn → 0, cuando n → ∞.
Sugerencia:
√ Para (b) use el Ejemplo 1.4 (b) y la fórmula de Stirling: n! ∼
n
2πn (n/e) , cuando n → ∞.
6.2 Al considerar los valores X1 , X2 , . . . , Xn de v.a. i.i.d.con la f.d. FX , se define la f.d.
1
empı́rica: Fbn (x) := (# de Xk tales que Xk 6 x), x ∈ R.
n
(a) Para los valores de X1 , X2 , . . . , Xn fijos, trace la gráfica de Fbn (x), x ∈ R.
(b) Demuestre que para cada x ∈ R con probabilidad 1, Fbn (x) → FX (x), cuando
n → ∞. (Entonces, Fbn sirve como estimación estadı́stica de FX ).
6.3 Supongamos que Xn → 1 y Yn → 1 con probabilidad 1. Demostrar que Xn + Yn →
X + Y , Xn Yn → XY y g(Xn ) → g(X) con probabilidad 1, para cualquier función
continua g : R → R.
6.4 Encontrar una sucesión de v.a. X1 , X2 , . . . , Xn , . . . tal que Xn → 0 con probabilidad
1, pero EXn → ∞.
Sugerencia: Para n = 1, 2, 3, . . . defina: Xn = n2 I{X6 1 } , donde X ∼ U (0, 1) e
n
(
1, si X 6 n1 ,
I{X6 1 } =
n
0, si X > n1 .
115
6.4. Ejercicios
Nota 6.6 Es interesante notar que el famoso novelista E. A. Poe en su novela “‘El
misterio de Marie Rogêt” haya presentado argumentos falsos sobre “la dependencia
del pasado” al igual que la persona del ejercicio anterior (aunque en diferentes
circunstancias).
Nota 6.7 Para las v.a. X1 , X2 , . . . i.i.d del Ejemplo 6.1 (los lanzamientos sucesivos
X 1 + X2 + · · · + Xn #de salidas de “águila” 1
de una moneda), ≡ → con probabi-
n n 2
lidad 1 debido a (6.1.7). Al razonar esto un poco, se observa que la diferencia entre
el número de águilas y el número de soles que resultan es relativamente menor
comparada con el número de lanzamientos n. Esto no prohibe que haya grandes
diferencias entre tales cantidades y de hecho, por el contrario, existe la probabilidad
positiva de series de salidas de águila de cualquier longitud.
6.7 Con los datos del Ejemplo 6.1, calcular P (X1001 = 1 |X1 = 0, X2 = 0, . . . , X1000 =
0).
6.9 Para cada n dado, sean los valores X1 , X2 , . . . Xn de v.a. i.i.d. con la densidad de
Cauchy como en (6.1.11). Para cada x ∈ R fija, se define L(x) := {#deXi : tal
116
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
6.10 (Método de Monte Carlo.) Sean X1 , X2 , . . . v.a. i.i.d. con la distribución U (0, 1)
y g : [0, 1] → R una función integrable.
Sugerencia: Para el inciso (b) usar una computadora y en particular hacer una
simulación de las v.a. con la distribución U (0, 1).
Nota 6.8 Cabe mencionar que cuando se tiene una función integrable g la cual
es muy oscilante (o “muy irregular”) el método del cálculo de integrales mediante
sumas de Riemann es extremadamente sensible a la elección del paso ∆x = 1/n,
117
6.4. Ejercicios
Sugerencia: Aunque es largo, no es difı́cil demostrar que ξ1 (X), ξ2 (X), . . . son v.a.
i.i.d. con la distribución uniforme discreta en {0, 1, 2, . . . , 9}. Aplique la LFGN.
1 , 1 6 x 6 2,
y Yn := X1 · X2 · · · Xn , n = 1, 2, . . .
(a) Demostrar que existe una constante c > 0 tal que (Yn )5/n → c cuando n → ∞
con probabilidad 1.
(b) Encontrar el valor de c.
6.14 Demostar que en el modelo de inversión de la Sección 6.3, bajo las condiciones
(6.3.21) y (6.3.31) se cumple que:
(a) E ln[qα + (1 − q)X1 ] < ∞, q ∈ [0, 1];
118
CAPÍTULO 6. LEY FUERTE DE LOS GRANDES NÚMEROS E
INVERSIONES ÓPTIMAS
(b) la función
ϕ(q) := E ln[qα + (1 − q)X1 ], (6.4.44)
q ∈ [0, 1] tiene la segunda derivada estrictamente negativa.
Sugerencias:
(b) Usar (6.4.45) y (6.3.31) y verificar que la esperanza del valor absoluto de la
d2 00
segunda derivada dq 2 {ln[qα + (1 − q)X1 ]} es finita. Eso permite hallar ϕ (q)
6.15 Para el modelo de inversión de la Sección 6.3 con X1 dado en (6.3.24) y α = 1.05,
demostrar que el máximo en (6.3.30) se alcanza con q∗ ≈ 0.15385.
Sugerencia: Use (3.1.8), calcule ϕ(q) en (6.4.44) y después su derivada.
6.16 Sean η1 , η2 , . . . v.a. i.i.d. con la distribución N orm(0, 1). Para los vectores aleatorios
X n = (η1 , η2 , . . . , ηn ) demuestre que con probabilidad 1,
|X n |
√ → 1, cuando n → ∞, (6.4.46)
n
p
donde |X n | := η12 + η22 + · · · + ηn2 .
1 x2 +x2 +···+x2
n
− 1 22
f(η1 ,η2 ,...,ηn ) (x1 , x2 , . . . , xn ) = n/2
e ,
(2π)
119
6.4. Ejercicios
120
Capı́tulo 7
Por otro lado, la convergencia débil puede expresarse como la convergencia con respecto
a algunas métricas en el espacio de funciones de distribución. La relativamente joven teorı́a
de métricas probabilı́sticas ha probado su utilidad y eficiencia en la teorı́a de probabilidad,
en la teorı́a de procesos estocásticos y en sus aplicaciones. Hasta donde conocemos, no
existen muchos libros de texto sobre probabilidad que contengan la introducción al enfoque
métrico.
Xn ⇒ X. (7.1.2)
121
7.1. Convergencia débil
Nota 7.1 (a) Para cada x ∈ R fijo, los valores de las f.d. FX1 (x), FX2 (x), . . . conforman
una sucesión numérica. Entonces, (7.1.1) se entiende como la convergencia (aproxi-
mación) de esta sucesión al valor FX (x) de la f.d. FX de la v.a. X.
(b) Para cada a, b ∈ R con a < b donde la f.d. FX es continua, de (7.1.1) se sigue
(consulte (1.2.10)) que
P (a < Xn 6 b) = FXn (b) − FXn (a) → FX (b) − FX (a) = P (a < X 6 b). (7.1.3)
Ejemplo 7.1 Para una sucesión numérica convergente: zn → z, consideramos las v.a.
Z1 , Z2 , . . . ; Z tales que Zn toma el único valor zn (para cada n = 1, 2, . . . ) (i.e. Zn es v.a.
degenerada con valor zn , véase Nota 3.2 (c)) y Z toma el único valor z. Mostremos que
Zn ⇒ Z.
Supongamos, por ejemplo, que z < zn , para toda n = 1, 2, . . . Entonces las f.d. respec-
tivas son:
122
CAPÍTULO 7. CONVERGENCIA DÉBIL
( (
0,
x < zn , 0, x < z,
FZn (x) = P Zn (x) 6 x = y FZ (x) =
1, x > zn ; 1, x > z.
y
FZ (x)
FZn(x)
1
x
x
0 z zn
Puesto que zn → z, para cada x > z, entonces FZn (x) = 1 = FZ (x) para toda n sufi-
cientemente grande. También FZn (x) = FZ (x) = 0 para todas las x < z y n = 1, 2, . . . Sin
embargo, la convergencia no tiene lugar en el punto x = z, ya que FZ (z) = 1, y FZn (z) = 0
para toda n. Nótamos que en el punto z la f.d. FZ no es continua (véase Figura 7.1).
Admitimos que las v.a. X1 , X2 , . . . , Xn son independientes, con las f.d. FXk , k =
1, 2, . . . , n, tales que existen los números λ > 0, α > 0 para los cuales:
FXk (x) = λxα − ϕk (xα ), x > 0, k = 1, 2, . . . , n, (7.1.5)
123
7.1. Convergencia débil
+
En el caso de (7.1.6) se escribe ϕk = o(y) cuando y → 0 y se lee: ϕk (y) es “o”-
pequeña de la función f (y) = y. En general, ϕ(x) = o g(x) cuando x → b (se lee “ϕ(x)
es o pequeña de g(x)”) expresa la comparación infinitesimal entre las funciones (consulte,
por ejemplo, Kudrı́avtsev (1988), comparación de funciones) y significa que ϕ(x) g(x)
→ 0,
cuando x → b.
Proposición 7.2 Supongamos que para cada n = 1, 2, . . . , las v.a. Xn y Yn son indepen-
dientes, y Xn ⇒ X, Yn ⇒ Y . Entonces, Xn + Yn ⇒ X + Y .
124
CAPÍTULO 7. CONVERGENCIA DÉBIL
Nota 7.3 La demostración se pide en el Ejercicio 7.3. El Ejercicio 7.4 muestra que sin la
condición de independencia, en general el hecho de que Xn ⇒ X y Yn ⇒ Y no implica
que Xn + Yn ⇒ X + Y .
(a) X es un conjunto; y
(b) d : X × X → [0, ∞] es una función denominada métrica que asigna a cada par de
puntos x, y ∈ X , la distancia d(x, y) entre x y y.
1. d(x, y) = 0 sys x = y;
para cualesquiera x, y, z ∈ X .
d(x,y) y
125
7.2. Espacios métricos
d
La convergencia en (7.2.8), frecuentemente se denota como xn −→ x.
d
Entonces, la convergencia xn −→ x significa que conforme
n aumenta, xn se apro-
xima al punto x (en el sentido de la distancia x − xn , por ejemplo, véase Figura
7.3).
x7 x6 !
0 x x5 x4 x3 x2 x1
sen(n) d
Por ejemplo, xn = −→ 0 (ya que | sen (n)| 6 1).
n
(b) Sea X = R con la métrica discreta:
(
0, si x = y,
d∗ (x, y) =
1, si x 6= y.
∗ d
Es claro que xn −→ x sys xn = x para toda n suficientemente grande.
126
CAPÍTULO 7. CONVERGENCIA DÉBIL
Ejemplo 7.4 Sea X = C[0, 1] el conjunto que consta de todas las funciones ϕ = ϕ(t), t ∈
[0, 1] continuas en el intervalo [0, 1]. Es decir, cada elemento x (“punto”) del conjunto
X = C[0, 1] es una función x = ϕ(t), t ∈ [0, 1] continua en [0, 1] .
e ∈ C[0, 1] definimos la distancia ρ(ϕ, ϕ)
Si para cualesquiera ϕ, ϕ e := máx ϕ(t)− ϕ(t)
e ,
t∈[0,1]
entonces C[0, 1] es un espacio métrico. Dicha métrica ϕ es conocida como la métrica
uniforme y es la máxima diferencia entre los valores de ϕ(t) y ϕ(t),
e con t ∈ [0, 1] (véase
Figura 7.4)
∼)
r(j, j
j(t)
∼
j(t)
t
0 1
sen (t)
Por ejemplo, si ϕn (t) = t2 + y ϕ(t) = t2 , entonces
n
sen (t) 1
ρ(ϕn , ϕ) = máx t2 + − t2 = máx sen (t) → 0, cuando n → ∞. Por lo cual
t∈[0,1] n n t∈[0,1]
ρ
ϕn → ϕ.
Nota 7.4 (Sobre máximos y supremos.) Las nociones de máximo y supremo son
conceptos muy cercanos. Por ejemplo, si se considera la función g(x) = 1 − e−x para x > 0
(Figura 7.5):
Es fácil observar que máx g(x) = g(1) = 1 − e−1 . También es claro que los valores de g(x)
x∈[0,1]
se aproximan a 1 cuando x → ∞ (ya que e−x = 1/ex → 0). Sin embargo, no se puede
decir que máx g(x) = 1. La razón de ello es que no existe un punto x∗ tal que g(x∗ ) = 1
x∈[0,∞)
(siempre g(x) < 1 pues e−x > 0). Lo que se debe escribir en tal caso es sup g(x) = 1.
x∈[0,∞)
127
7.2. Espacios métricos
1
-1 g(x)
1- e
x
0 1
Consideremos por ejemplo, el conjunto que consta de todas las funciones continuas en [0, 1]
tales que 0 6 ϕ(t) 6 1, t ∈Z [0, 1], i.e. Φ = {ϕ : [0, 1] → [0, 1] : ϕ es continua}. Si ϕ ∈ Φ,
1
entonces se define G(ϕ) := [1−ϕ(t)]dt. Es evidente que el valor máximo de G se alcanza
0 Z 1
para ϕ ≡ 0, es por esto que se puede escribir: sup G(ϕ) = máx G(ϕ) = G(0) = 1 dt = 1.
ϕ∈Φ ϕ∈Φ 0
Ahora, sea Φ1 = ϕn (t) = tn , t ∈ [0, 1], n = 1, 2, . . . .
y
1
Para grandes n, la gráfica de ϕn (t) con t ∈ [0, 1) está muy
n(t) cercana al eje 0t y de hecho tn → 0 cuando n → ∞ para cada
0 6 t < 1.
t
0 1
Z 1
1
Entonces, se tiene que lı́m G(ϕn ) = lı́m [1 − tn ]dt = 1 − lı́m
= 1. Por lo
n→∞ n→∞ 0 n→∞ n + 1
tanto, sup G(ϕ) = 1, pero no existe un ϕ ∈ Φ1 tal que G(ϕ) = 1. Por esto la expresión
ϕ∈Φ1
máx G(ϕ) = 1 es incorrecta (a pesar de que sup G(ϕ) = 1).
ϕ∈Φ1 ϕ∈Φ1
128
CAPÍTULO 7. CONVERGENCIA DÉBIL
1
y
FY (x)
r(FX , FY )
FX (x) x
0
ρ
Por (7.3.9) la convergencia FXn −→ FX significa que los valores de FXn (x) se aproxi-
man uniformemente con x ∈ R a los valores de la f.d. FX .
Nota 7.5 (a) En la teorı́a de métricas probabilı́sticas2 , las métricas que satisfacen la
Definición 7.4 se llaman distancias (métricas) simples, lo que significa que esta
distancia está completamente determinada por las f.d. FX y FY de X y Y y no
depende de la f.d. conjunta FX,Y .
1
Nombre del matemático ruso Andréi Nikoláyevich Kolmogórov (1903-1987), quien estructuró el siste-
ma axiomático de la teorı́a de probabilidad, obtuvo muchos resultados fundamentales para dicho campo y
para procesos estocásticos modernos; además tuvo aportaciones en topologı́a, lógica (teorı́a de conjuntos),
entre otras (véase Gordienko (2011)).
2
Consultar por ejemplo Rachev (1991) y Zolotarev (1997).
129
7.3. Métricas probabilı́sticas y convergencia débil
Por otro lado, frecuentemente suele ser más práctico escribir d(X, Y ) en lugar de
d(FX , FY ) (interpretando la distancia entre las v.a. X y Y como la distancia corres-
pondiente d(FX , FY ) entre sus f.d. FX y FY ). Establecemos, entonces, el siguiente
convenio. Si d es una métrica probabilı́stica (simple), entonces
d(X, Y ) := d(FX , FY ).
También escribiremos:
d d
Xn −→ X, o bien d(Xn , X) → 0 en lugar de: FXn −→ FX
o en lugar de d(FXn , FX ) → 0 cuando n → ∞.
ρ
Proposición 7.3 Xn −→ X implica Xn ⇒ X.
Del Ejemplo 7.1 vemos que la afirmación inversa no siempre es correcta, sin embargo,
no es tan difı́cil demostrar lo siguiente:
ρ
si Xn ⇒ X entonces Xn −→ X. (7.3.10)
Notemos que (7.3.10) expresa el hecho de que la métrica uniforme en (7.3.9) metriza
la convergencia débil en la clase de funciones distribuciones continuas.
Una pregunta natural es: ¿la convergencia de cuál métrica es equivalente a la convergen-
cia débil? La respuesta se da con la siguiente afirmación que aceptamos sin demostración.
130
CAPÍTULO 7. CONVERGENCIA DÉBIL
Teorema 7.1
0 d
Xn ⇒ X si y sólo si Xn −→ X, (7.3.11)
donde
d0 (X, Y ) ≡ d(FX , FY ) := sup Eϕ(X) − Eϕ(Y ). (7.3.12)
ϕ∈L
Nota 7.6 Las esperanzas Eϕ(X) y Eϕ(Y ) en (7.3.12) se determinan por FX y FY res-
pectivamente (véanse (3.1.8) y (3.1.9)), por lo cual d0 (X, Y ) = d0 (FX , FY ). Se aplica la
misma observación a otras métricas de la forma d(X, Y ) = sup |Eϕ(X) − Eϕ(Y )| (para
ϕ∈Φ
alguna clase de funciones Φ).
3
En general, la condición de Lipschitz es f (x)−f (y) 6 K x−y , donde K es conocida como constante
de Lipschitz.
131
7.3. Métricas probabilı́sticas y convergencia débil
(pues el “máximo” sobre un conjunto más “amplio”, debe ser más grande). Entonces,
d0 (X, Y ) 6 V(X, Y ) y V(Xn , X) → ∞ implica que d0 (Xn , X) → 0. Es decir, la conver-
gencia en V conlleva a la convergencia con respecto a la métrica d0 , o bien, la convergencia
débil. La afirmación reciproca frecuentemente no es cierta, como lo muestra el Ejercicio
7.20.
ζ3 (X, Y ) := sup Eϕ(X) − Eϕ(Y ), (7.3.16)
ϕ∈D3
donde:
D2 := ϕ : R → R t.q. |ϕ00 (x)| 6 1, x ∈ R ,
(7.3.17)
4
Vladı́mir Mikhailovich Zolotarev (1931- ) matemático ruso, cuyas contribuciones se encuentran en
la teorı́a de probabilidad, con especialidad en distribuciones estables, entre otras; ganador del premio
Markov, y uno de los fundadores de la teorı́a de métricas probabilı́sticas.
132
CAPÍTULO 7. CONVERGENCIA DÉBIL
Proposición 7.5
siempre que EX = EY ;
Z ∞
1
ζ3 (X, Y ) 6 x2 FX (x) − FY (x)dx,
2 −∞
siempre que EX = EY y EX 2 = EY 2 .
133
7.3. Métricas probabilı́sticas y convergencia débil
Supongamos que ET 2 < ∞. Denotando por “a” la esperanza de T , se tiene por (3.3.27)
que Z ∞
a = ET = [1 − FT (t)]dt. (7.3.23)
0
Consideremos la v.a. X ∼ Exp(λ) con
1
EX = = a = ET . (7.3.24)
λ
La condición CE expresa que para cada x > 0,
Z ∞ Z ∞
[1 − FT (t)]dt 6 [1 − FX (t)]dt = (por (1.2.12) y (7.3.24)) = a e−x/a . (7.3.25)
x x
1
ζ2 (X, T ) = 2
V ar(X) − V ar(T ) . (7.3.26)
134
CAPÍTULO 7. CONVERGENCIA DÉBIL
El hermoso resultado en (7.3.26) indica que bajo las condiciones (7.3.23) y (7.3.25),
para estimar la cercanı́a de la FT a la d.f. exponencial FX es suficiente calcular (o acotar)
la diferencia entre las varianzas.
135
7.3. Métricas probabilı́sticas y convergencia débil
ζ3
Teorema 7.3 (Consulte Zolotarev (1997)) Si Xn → X (i.e. ζ3 (Xn , X) → 0), entonces
Xn ⇒ X. Es decir, la convergencia en la métrica ζ3 implica la convergencia débil
La demostración está basada en los siguientes hechos: primero observemos que FXn (x) =
EI{Xn 6x} , y segundo que la función g(y) := I{y6x} (para x fijo) puede ser aproximada me-
diante funciones ϕ que pertenecen a D3 .
136
CAPÍTULO 7. CONVERGENCIA DÉBIL
7.4. EJERCICIOS
7.1 Una moneda simétrica se lanza 3 veces. Sean X := # de veces que resulta águila y
Y := # de veces que resulta sol. Mostrar que:
(a) P (X = Y ) = 0.
(b) Las v.a. X y Y tienen las mismas distribuciones.
(c) Usando (a) y (b), construir un ejemplo de v.a. X, Xn para n > 1 tales que
Xn ⇒ X pero P (Xn → X) = 0.
Sugerencias: Para (b) argumentar sin usar cálculos y usando la hipótesis de si-
metrı́a de la moneda. Para (c) elegir Xn = Y, n = 1, 2, . . .
7.2 En el Ejemplo 7.2, sean Xk ∼ U (0, 1), k = 1, 2, . . . , n. Mostrar que Yn ⇒ T ∼
Exp(λ = 1).
7.3 Demostrar la Proposición 7.2.
Sugerencia: Sea d0 la métrica definida en (7.3.12) y (7.3.13); y sea ξ una v.a. que
no depende de las v.a. X, Y . Utilice la Nota 4.2(b) y demuestre que d0 (X+ξ, Y +ξ) 6
d0 (X, Y ). Finalmente use la desigualdad del triángulo.
7.4 Encontrar sucesiones {Xn , n = 1, 2, 3, . . . }, {Yn , n = 1, 2, 3, . . . }, y v.a. X, Y tales
que Xn ⇒ X, Yn ⇒ Y pero Xn + Yn ; X + Y .
Sugerencia: Escoger v.a. X y Y independientes con la distribución U (−1, 1) y
para n = 1, 2, 3, . . . Xn = X, Yn = −X.
(n) (n) (n)
7.5 (La aproximación de Poisson). Para n = 1, 2, 3, . . . sea Sn = X1 +X2 +· · ·+Xn ,
(n) (n) (n)
donde X1 , X2 , . . . , Xn son v.a. i.i.d. con la distribución Bern(pn ). Demostrar
que si npn → λ > 0, entonces Sn ⇒ Y ∼ P oiss(λ).
Sugerencias: Primero, hay que entender que para las v.a. X; Xn , n > 1 con
valores en {0, 1, 2, . . . }, la convergencia (7.1.1) equivale a lo siguiente: para cada
k = 0, 1, 2, . . . , P (Xn = k) → P (X = k) cuando n → ∞.
Para k = 0, según el Ejemplo 1.4(b) P (Xn = 0) = (1 − pn )n ≈ (1 − nλ )n → e−λ .
Para k > 0, usando las probabilidades del Ejemplo 1.4(b), simplificar el cociente
P (Sn =k+1)
P (Sn =k)
y aplicar inducción con k = 0, 1, 2, . . .
137
7.4. Ejercicios
Sugerencia: P (Yn > x) = P (Xn > nx) = P (Xn > [nx]) = (1 − pn )[nx] , donde [nx]
es la parte entera del número nx.
7.7 (a) Sean X1 , X2 , . . . , Xn , . . . v.a. i.i.d. con la f.d. común F tal que xα [1 − F (x)] →
b cuando x → ∞ para algunos números α > 0, b > 0. Se define Yn :=
(bn)−1/α máx{X1 , X2 , . . . , Xn }, demostrar que Yn ⇒ Z, donde Z es la v.a.
con la f.d.: ( −α
e−x , x > 0,
FZ (x) =
0, x 6 0.
Sugerencias:
138
CAPÍTULO 7. CONVERGENCIA DÉBIL
7.12 Supongamos que X ∼ U (0, a) y Y ∼ U (0, a + ), a > 0, > 0. Demostrar que (la
ε
métrica uniforme) ρ(X, Y ) = (y se aproxima a cero cuando ε → 0).
a+
7.14 Para alguna a ∈ R y ε > 0 considere las v.a. Xa y Xa+ε tales que Xa toma el único
valor a y Xa+ε toma el único valor a + ε. Demostrar que:
7.17 (a) Consideremos las v.a. X1 , X2 , . . . , Xn i.i.d. y las v.a. Y1 , Y2 , . . . , Yn i.i.d. tales
que existen a = EX1 = EY1 , y V ar(X1 ) < ∞, V ar(Y1 ) < ∞. Además, supon-
gamos que {Xn , n > 1} no depende de {Yn , n > 1}. Considere, también, los
139
7.4. Ejercicios
X1 + X2 + · · · + Xn Y1 + Y2 + · · · + Yn
promedios muestrales, Zn := , y Z n := .
n n
Demostrar que existe una constante c < ∞ tal que
c
ζ2 Zn , Z n 6 , n = 1, 2, . . . (7.4.32)
n
(b) Supongamos además que las varianzas son iguales: V ar(X1 ) = V ar(Y1 ) y
X1 + X2 + · · · + Xn
E|X1 |3 < ∞, E|Y1 |3 < ∞. Definimos Yn := √ y Y n :=
n
Y1 + Y2 + · · · + Yn
√ . Mostrar que existe una constante c1 < ∞ tal que:
n
c1
ζ3 (Yn , Y n ) 6 √ , n = 1, 2, . . . (7.4.33)
n
Sugerencias:En (b), usar (7.3.29) y la Proposición 7.5. Para (a), usar la misma
proposición y demostrar el análogo de (7.3.29) para la métrica ζ2 :
n n
! n
X X X
ζ2 α Xk , α Yk 6 α2 ζ2 (Xk , Yk ),
k=1 k=1 k=1
Nota 7.10 Según el Teorema 6.1 ambos promedios muestrales en (7.4.32) convergen
casi seguramente a la esperanza común a = EX1 = EY1 . De (7.4.33) se sigue que
cuando n → ∞, Yn y Y n se aproximan débilmente una a la otra. Mas, no es cierto
que estas v.a. convergen a una constante (consulte el Teorema Central del Lı́mite
en el Capı́tulo 8).
2
Z ∞ ) < ∞. Mostrar que
7.18 Sea X una v.a. no negativa con E(X
E X2 = 2
x 1 − FX (x) dx.
0
Sugerencia: Para simplificar la demostración, suponer adicionalmente que X es
a.c. Usar integración por partes y verificar que x2 [1 − FX (x)] → 0 cuando x → ∞.
7.19 Para n = 5, 50, 100, 1000, 5000, 10000 calcular los elementos correspondientes de la
sucesión numérica xn := (1 + n1 )n , n = 1, 2, . . . , para ver que la sucesión converge
al número e1 = e ≈ 2.718281828.
140
CAPÍTULO 7. CONVERGENCIA DÉBIL
141
7.4. Ejercicios
142
Capı́tulo 8
El Teorema Central del Lı́mite (TCL) es en realidad una clase bastante amplia de teo-
remas relacionados con el estudio de distribuciones de sumas de v.a., cuando el número
de sumandos crece sin cota. Estos teoremas son muy importantes en la teorı́a de proba-
bilidad, ası́ como en diversas y profundas aplicaciones (en estadı́stica, fı́sica, ingenierı́a,
matemática financiera, etc.). Los autores de este libro han escuchado la opinión de que
este teorema (en su versión básica) ha sido el más citado en el mundo de la ciencia.
Creemos también que el TCL tiene un valor conceptual en la formación de estudiantes e
investigadores dedicados a las ciencias. Básicamente, el teorema (o teoremas) afirma que
la suma de una gran cantidad de factores aleatorios poco dependientes y en algún sentido
“no grandes”, se aproxima a la distribución Normal , i.e. a la distribución de la v.a.
absolutamente continua Y con la densidad Normal:
1 −(x−a)2
fY (x) = √ e 2σ2 , x ∈ R, (8.1.1)
2π σ
cuya gráfica (también conocida como “campana de Gauss”) aparece en la Figura 8.1.
143
8.1. Observaciones introductorias
1
y
2π σ
fY (x)
x
0 a (con a=4, σ=1)
Los teoremas centrales del lı́mite son universales en el sentido de que bajo ciertas
condiciones, la distribución del lı́mite (cuando n → ∞) de sumas:
(n) (n)
Sn = X1 + X2 + · · · + Xn(n) , n > 1, (8.1.2)
(n)
de factores aleatorios Xk , es la misma: la Normal con la densidad dada en (8.1.1). En
(n)
otras palabras, al suponer la finitud de las varianzas de Xk , algunas condiciones como
independencia (o “dependencia ligera”) y no una grande variación entre las f.d. de los
sumandos, entonces la distribución del lı́mite de sumas NO depende de las distribucio-
(n) (n) (n)
nes particulares de los sumandos X1 , X2 , . . . , Xn . En varios problemas de la teorı́a
de la probabilidad (tanto teóricos como prácticos) las distribuciones de los sumandos
(n)
Xk , k = 1, 2, . . . , n , frecuentemente no son conocidas, pero a pesar de ello, el carácter
universal de la distribución del lı́mite Normal permite investigar efectivamente muchos
fenómenos aleatorios y hacer cálculos sobre aproximaciones importantes en estadı́stica y
otras aplicaciones prácticas.
Por estas razones, las v.a. normales tienen una enorme difusión en ciencias y fenóme-
nos naturales y sociales. Algunos ejemplos son: las componentes de la velocidad en el
movimiento térmico, la estatura de un hombre elegido al azar, las variaciones de precios
en el mercado financiero, los resultados de mediciones en ingenierı́a o fı́sica, etc.
Para tener una idea de cómo es que la suma de “muchas” v.a. debe tener una distri-
bución cercana a la Normal, regresemos al Ejemplo 1.4-(b), donde X1 , X2 , . . . , Xn son v.a.
Bernoulli i.i.d. con el parámetro p y la suma Sn = X1 + X2 + · · · + Xn tiene la distribución
binomial dada por la siguiente fórmula:
n!
P (Sn = k) = pk (1 − p)n−k , k = 0, 1, . . . , n. (8.1.3)
k!(n − k)!
144
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
Si elegimos, por ejemplo, p = 1/2 y n = 50, con la ayuda de una computadora se deter-
minan los valores de P (Xn = k), k = 0, 1, . . . , n usando (8.1.3). Al gráficarlos como las
alturas de barras verticales se obtiene la gráfica de la Figura 8.2.
P(Sn = k)
k
0 25 50
Al comparar las Figuras 8.1 y 8.2 se observa una evidente semejanza entre ellas (a
pesar de que la v.a. Y es a.c. y en cambio Sn es discreta).
Claro que no siempre sucede que un fenómeno (representado con un valor) aleatorio
sea el resultado de sumas de v.a. (como en (8.1.2)). El caso más general es cuando el
(n) (n) (n)
valor que interesa, denotado por Yn , es Yn = g(ξ1 , ξ2 , . . . , ξn ), donde g es una función
suave, que puede ser desconocida (aunque esto último no es importante para la aplicación
(n)
cualitativa del TCL). Al suponer que ξk , k = 1, 2, . . . , n son v.a. “bastante cercanas
a cero” (eligiendo un sistema de coordenadas con el origen en un punto apropiado), se
obtiene, con ayuda de fórmulas del cálculo de varias variables, que Yn ≈ g(0, 0, . . . , 0) +
n
X ∂g (n)
(0, 0, . . . , 0) ξk (que es un análogo multidimencional a la fórmula: f (x) ≈ f (x0 )+
k=1
∂xk
0
f (x0 )(x − x0 )). Luego, denotando Y0 = g(0, 0, . . . , 0) y las derivadas ya descritas como ck
se obtiene que:
Xn
(n)
Yn − Y0 ≈ ck ξk , (8.1.4)
k=1
lo cual nos lleva de regreso a las sumas de v.a. como en (8.1.2), y a la posibilidad de
aplicar el TCL (suponiendo la independencia o una “dependencia ligera” de los sumandos
en (8.1.4)).
145
8.2. Teoremas Centrales del Lı́mite
diversas versiones del TCL que incluyen las estimaciones de la tasa de convergencia en la
aproximación Normal.
En segundo lugar, con la aplicación del enfoque métrico es muy fácil caracterizar
la distribución Normal en términos de la propiedad (2.2.19) en el Teorema 2.2 y como
consecuencia, comprender el porqué en los TCL aparece como distribución del lı́mite la
distribución Normal y no otra (al suponer que existen las varianzas finitas de los suman-
dos). En tercer lugar, el uso de métricas da una oportunidad de extender estimaciones
de la tasa de convergencia en el TCL a situaciones más generales, con el propósito de
investigar la estabilidad de algunos modelos aplicados (consultar Capı́tulo 9).
En (8.2.5) hemos supuesto que V ar(Xk ) > 0, lo cual significap que Xk no es una constante
(o v.a. degenerada, véase el Ejercicio 3.16). Además, σ = V ar(Xk ) denota la desvia-
ción estándar (común para todas X1 , X2 , . . . ). Luego, como antes, la suma de n v.a.
X1 , X2 , . . . , Xn se denota como:
S n = X 1 + X2 + · · · + Xn , n = 1, 2, . . . (8.2.6)
Sn − na
Yn := √ , n = 1, 2, . . . (8.2.8)
σ n
146
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
Por otro lado, la v.a Normal estándar η ∼ N orm(0, 1) tiene la densidad (compare
con (8.1.1))
1 2
fη (x) = √ e−x /2 , x ∈ R, (8.2.10)
2π
y por (3.2.15) Eη = 0 y V ar(η) = 1 (las mismas que para Yn en (8.2.8) y (8.2.9)) (véase
la Figura 8.3).
y 2
fη (x) = 1 e
1 - x /2
2π 2π
Eη=0;
σ = Var(η) = 1.
x
0
donde
Xk − a
ξk = , k = 1, 2, . . . , n, (8.2.12)
σ
son los sumandos estandarizados, para los cuales se tiene (véase (8.2.5) y la Proposición
4.1):
Eξk = 0, y V ar(ξk ) = 1, para k = 1, 2, . . . , n. (8.2.13)
Entre la gran clase de los TCL se encuentra la siguiente versión moderna del teorema
clásico central del lı́mite de A. Lyapunov1 .
1
Aleksandr Mijáilovich Liapunov (1857-1918) matemático y fı́sico ruso, trabajó en las áreas de estabi-
lidad de ecuaciones diferenciales y teorı́a de probabilidad, entre otras. Autor de la primera versión general
del TCL.
147
8.2. Teoremas Centrales del Lı́mite
Entonces
ζ3 (ξ1 , η)
ζ3 (Yn , η) 6 √ , n = 1, 2, . . . , (8.2.15)
n
y
" r #
1 E(X1 − a)3 2
ζ3 (ξ1 , η) 6 3
+2 < ∞. (8.2.16)
6 σ π
Del Teorema 7.3, la Proposición 7.4, la Definición 7.1 y del hecho de que la f.d. de η
(denotada tradicionalmente por Φ)
Z x
1 2
Fη (x) ≡ Φ(x) = √ e−t /2 dt , x ∈ R, (8.2.17)
−∞ 2π
Corolario 8.1 Bajo las hipótesis del Teorema 8.1, cuando n → ∞ se tiene que:
(a) Yn ⇒ η; (8.2.18)
(b) ρ(Yn , η) → 0; (8.2.19)
(c) FYn (x) → Φ(x) para cada x ∈ R. (8.2.20)
Nota 8.1 (a) Bajo las condiciones del Teorema 8.1, FYn se aproxima a Φ en (8.2.19) y
(8.2.20), sin importar cuales sean las distribuciones de los sumandos Xk , k =
1, 2, . . . en (8.2.6) y (8.2.8). Las v.a. Xk podrı́an ser a.c., discretas u otras.
(b) Por (7.3.9) y (8.2.19) vemos que la aproximación Normal en (8.2.20) es uniforme
sobre x ∈ R, i.e., para cualquier ε > 0 y para toda n suficientemente grande, se tiene
que |FYn (x) − Φ(x)| < ε para toda x ∈ R.
148
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
1 y
Φ(x)
FYn(x) (el caso de los sumandos
discretos: X 1 , X 2 , ...)
0
x
149
8.2. Teoremas Centrales del Lı́mite
r
2
y (8.2.14), E|ξ1 |3 < ∞. Por último, utilizando (3.1.9) es fácil calcular que E|η1 |3 = 2 .
π
2
¿Hasta qué punto las condiciones del Teorema 8.1 son esenciales para la convergencia
débil de las sumas estandarizadas Yn , n = 1, 2, . . . a la v.a. Normal η? Primero, sin
preocuparnos por la tasa de convergencia, la condición (8.2.14) no es necesaria. De hecho,
se cumple el siguiente teorema (demostrado, por primera vez, en el caso particular de v.a.
Bernoulli en (8.2.6) por A. De Moivre2 con una edad de más de 60 años; y en el caso
general, por P. Lévy.3 ).
Teorema 8.2 Sean X1 , X2 , . . . v.a. i.i.d. con EXk = a y la varianza σ 2 = V ar(Xk ) finita
X1 + · · · + Xn − na
y positiva. Sean Yn = √ para n = 1, 2, . . . , entonces
σ n
Nota 8.2 Por (3.2.10), se tiene que V ar(X1 ) < ∞ si y sólo si EX12 < ∞, que es una
condición menos limitada que (8.2.14). Sin embargo, la suposición (8.2.14) es esencial para
obtener en (8.2.15) la estimación de la tasa de convergencia, para la que se establece√
que ζ3 (Yn , η) se anula, cuando n → ∞, con rápidez no más lenta que la sucesión c/ n.
150
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
con EY n = 0 y V ar(Y n ) = 1, n = 1, 2, . . .
3
Teorema 8.3 Sean X1 , X2 , . . . , Xn , . . . v.a. independientes y suponga que existe E Xk <
∞, k = 1, 2, . . . Suponga, también, que
Pn 3
k=1 E X k − ak
Ln := −→ 0, cuando n → ∞. (8.2.26)
Bn3
Entonces existe una constante c (que no depende de las distribuciones de Xk ) tal que,
ρ Y n , η 6 c Ln , n = 1, 2, . . . ,
Nota 8.3 (a) En la conclusión del Teorema 8.3 (en particular en (8.2.27)), ρ es la métri-
ca uniforme definida en (7.3.9).
(b) La condición (8.2.26) (un caso particular de la condición de Lyapunov) demanda que
las distribuciones de los sumandos X1 , X2 , . . . , Xn , . . . en (8.2.25), en algún sentido,
“no cambian demasiado”.
nE|X1 − a|3 1 E|X1 − a|3
Para sumandos i.i.d., con E|X1 |3 < ∞, Ln = √ 3 = √ → 0,
(σ n) n σ3
cuando n → ∞; lo cual implica que la cota de la tasa de convergencia de (8.2.27) es
de orden √cn ).
151
8.2. Teoremas Centrales del Lı́mite
El Ejercicio 8.19 muestra que para v.a. i.i.d. en el TCL la distancia uniforme ρ Y n , η ,
constante
en caso general, no puede anularse, con n → ∞, más rápido que √ .
n
En el Ejemplo 8.1, a continuación, se encuentra la sucesión de v.a. X1 , X2 , . . . inde-
pendientes que no satisfacen (8.2.26) y tampoco cualquier versión del TCL.
(c) Los TCL “clásicos” 8.2 y 8.3 afirman que las sumas estandarizadas convergen débil-
mente (en distribución) a la v.a. Normal estándar, cuando el número de sumandos
n crece sin cota. El Teorema 8.1 provee la misma propiedad y además, debido a la
presencia de la métrica ζ3 (ξ1 , η) en la parte derecha de (8.2.15), resulta que para
cada n fijo, ζ3 (Yn , η) se aproxima a cero cuando ζ3 (ξ1 , η) se aproxima a cero. Es de-
cir, además de la convergencia con n → ∞, las f.d. FYn de las sumas estandarizadas
Yn son cercanas a las Normales, si (para cualquier n fijo) las distribuciones de los
Xk − a
sumandos ξk = en (8.2.12) son próximas a las Normales.
σ
Sn − na
(d) Para el caso de v.a. X1 , X2 , . . . i.i.d. de (8.2.25) y (8.2.8) se sigue que Y = √ ,
σ n
(n = 1, 2, . . . ). Según algunas investigaciones recientes la constante c en (8.2.27) es
menor que 0.7656. Pero, por otro lado (compare con el Ejercicio 8.19) se sabe que
c > 0.4096.
1
Ejemplo 8.1 (a) Sean X1 , X2 , . . . , Xk , . . . v.a. independientes y Xk ∼ P oiss λk = k ,
2
1
k = 1, 2, . . . Por (3.1.6) y (3.3.28) ak = EXk = k = V ar(Xk ). Entonces, en
!1/2 2
n
X 1 n n
X X 1
(8.2.24), Bn = (por (2.3.23)) → 1 y a k = → 1, cuando
k=1
2k k=1 k=1
2k
n → ∞. Entonces en (8.2.25) para n suficientemente grande se tiene:
Pn Pn n
k=1 X k − k=1 ak
X
Yn = ≈ Xk − 1.
Bn k=1
Del Ejercicio 8.7, Y n ⇒ Y − 1, donde Y ∼ P oiss(λ = 1). Por lo tanto, las sumas
estandarizadas Y n no pueden converger a una v.a. Normal (i.e., no se cumple el
TCL). La condición (8.2.26) no se cumple en este ejemplo porque Bn → 1 y no
podrı́a suceder que Ln → 0.
(b) Sean X1 ∼ U (−1, 1) y Xk = X1 , k > 2 (las v.a. son fuertemente dependientes).
1
Entonces (véase (3.1.7) y (3.2.16)), EXk = 0, V ar(Xk ) = y en (8.2.8) las sumas
3
152
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
√ √
3 Sn 3 nX1 √ √ √
estandarizadas Yn = √ = √ = 3 nX1 ∼ U 0, 3n no convergen
n n
débilmente. Es decir, cualquier versión del TCL no es cierta para esta sucesión de
v.a.
Nota 8.4 El inciso (b) del ejemplo anterior se muestra que la hipótesis de independen-
cia de los sumandos es importante y no pude ser excluida. Sin embargo, esta hipótesis
podrı́a ser sustituida por una especie de “dependencia ligera”. Resulta que en la teorı́a
moderna, los TCL se demuestran para muchas clases de sucesiones de v.a. X1 , X2 , . . .
dependientes (estacionarias, cadenas de Markov, marginales, etc.). Pero cada vez, se usan
algunas condiciones que garantizan que la dependencia entre Xn y Xn+m desaparece con
el crecimiento de m.
La afirmación en (8.3.28) se sigue de los Teoremas 8.1 y 8.2, pero ¿qué significa “su-
ficientemente grande” para obtener una exactitud “razonable” en la aproximación en
(8.3.28)? La respuesta depende de la rapidez (o tasa) de acercamiento de la parte
izquierda en (8.3.28) a la parte derecha (con el crecimiento de n). A pesar de que la dis-
tribución del lı́mite (distribución Normal) es universal y no depende de las propiedades
de las distribuciones de los sumandos, las últimas afectan crucialmente a la rapidez de
convergencia.
153
8.3. Notas sobre la exactitud de la aproximación Normal
2 /2
fη (x) = √1
2π
e−x es simétrica respecto a su esperanza (Eη = 0) (véase la Figura 8.3).
En el libro Breiman (1969) se ofrecen algunas gráficas, bastante ilustrativas, que com-
paran las f.d. FYn de sumas estandarizadas con la de la Normal Φ, para diferentes n
y distintas distribuciones de los sumandos Xk en (8.2.6). Estas gráficas dan una buena
idea acerca de la tasa de convergencia en el TCL. De ellas se sigue que para obtener
una aproximación Normal “bastante buena”, en el caso de sumandos discretos (“más o
menos” simétricos), es suficiente tener de 2-4 centenas de sumandos; pero, por ejemplo,
para Xk ∼ U (0, 1) las distribuciones de Yn con n entre 5 y 6 se aproxima perfectamente
mediante la distribución Normal.
Nota 8.5 Otra vez subrayamos que las cotas superiores para el error de aproximación en
(8.2.15) y (8.2.27) son universales y por eso, necesariamente deben tomarse en cuenta las
“peores distribuciones” de los sumandos (consulte el Ejercicio 8.19). Por esta razón estas
cotas en muchos casos no son muy prácticos, sin embargo nos dan una idea general sobre
la tasa de convergencia en los TCL.
Ejemplo 8.2 (a) Sean n = 400 y X1 , X2 , . . . , Xn ∼ Bern(p = 0.001) v.a. i.i.d. Del
Ejemplo 1.4(b), Sn ∼ Bin(n = 400, p = 0.001) y P (Sn < 1) = P (Sn = 0) =
(1 − p)n ≈ 0.670185906.
p p
Por otro lado, de (3.2.13), a = EX1 = p = 0.001, σ = V ar(X 1 ) = p(1 − p) ≈
Sn − na 1 − 0.4
0.031606961 y P (Sn < 1) = P √ < = P (Yn < 0.94916)
σ n (0.031606961)(20)
≈ (por (8.2.20)) ≈ P (η < 0.94916) ≈ (por tablas de la distribución normal estándar)
≈ 0.8264.
Concluı́mos que, a pesar de que el número de sumandos n = 400 parece “bastante
grande”, el error absoluto δ ≈ |0.6702−0.8264| = 0.1562 de la aproximación Normal
es demasiado grande. Todavı́a menos satisfactorio es el error relativo δ/P (Sn < 1) ≈
0.1562
0.6702
≈ 0.2331 (como el 23 %).
154
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
P(Xk =0)=0.999
P(Xk=1)=0.001
0 EX = 0.001 1
k
Por otro lado para las v.a. Xk estandarizadas del Ejemplo 8.2 (a) obtenemos
que (véase (3.1.8)):
3 3 3
Xk − a −0.001 1 − 0.001
E ≈ 0.999 + 0.001 ≈ 31.57821, (8.3.29)
σ 0.031606 0.031606
155
8.3. Notas sobre la exactitud de la aproximación Normal
(b) (Segunda parte del Ejemplo 8.2) Sean X1 , X2 , X3 , X4 ∼ U (0, 1) v.a. i.i.d., al aplicar
la fórmula de convolución (2.2.18) no es tan difı́cil obtener (integrando) la f.d. FS4
(ver Feller(1978), página 55):
4
X (−1)k 4
máx{0, (x − k)} si x ∈ [0, 4],
k=0
k!(4 − k)!
FS4 (x) =
0 si x < 0,
1 si x > 4.
156
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
y fX (x)
k
x
0 EX k=0.5 1
Teorema 8.4 Sea ε > 0 un número dado, y sean ξ, ξ1 y ξ2 v.a. i.i.d. tales que: Eξ =
Eξ1 = Eξ2 = 0; V ar(ξ) = V ar(ξ1 ) = V ar(ξ2 ) = 1; E|ξ|3 < ∞, E|ξ1 |3 < ∞, E|ξ2 |3 < ∞.
Supongamos que (ζ3 es la métrica de Zolotarev de orden 3 definida en (7.3.16))
ξ1 + ξ2
ζ3 ξ, √ 6 ε. (8.4.30)
2
Entonces
1
ζ3 (ξ, η) 6 ε, donde η ∼ N orm(0, 1). (8.4.31)
1 − √12
Demostración.
Sean η1 , η2 ∼ N orm(0, 1) v.a. i.i.d. Por (2.2.19) F η1√+η2 = Fη , por lo tanto, ζ3 (ξ, η) =
2
η1 + η2 ξ1 + ξ2
ζ3 ξ, √ 6 (por la desigualdad del triángulo en la Definición 7.2) 6 ζ3 ξ, √
2 2
ξ1 + ξ2 η1 + η2 1 h i
+ζ3 √ , √ 6 (por (8.4.30) y (7.3.29)) 6 ε + √ ζ3 (ξ1 , η1 ) + ζ3 (ξ2 , η2 ) =
2 2 ( 2)3
157
8.4. ¿Por qué en los TCL la distribución del lı́mite es Normal?
1
(por igualdad de distribuciones) = ε + √ ζ3 (ξ, η) < ∞, por las condiciones del teorema
2
1
y la Proposición 7.5(b). O bien, ζ3 (ξ, η) 6 ε + √ ζ3 (ξ, η), de lo que sigue (8.4.31). 2
2
Al tomar ε = 0 en (8.4.30) y (8.4.31) y considerando que para cualesquiera v.a. X, Y ,
si ζ3 (X, Y ) = 0, entonces FX = FY , obtenemos el siguiente resultado.
Fξ ≡ F ξ1√+ξ2 , (8.4.32)
2
Nota 8.7 De la desigualdad (8.4.31) resulta que si (8.4.30) se cumple con un ε cercano
a cero, entonces la distribución de ξ se aproxima la Normal.
Estamos listos para explicar el papel de la distribución Normal en los TCL. Para
simplificar las notaciones consideraremos el caso cuando en (8.2.5) y (8.2.7) a = 0, σ = 1.
n
1 X
Entonces en (8.2.8), Yn = √ Xk , con EXk = 0 y V ar(Xk ) = 1, k = 1, 2, . . . , n.
n k=1
Teorema 8.5 Supongamos que X1 , X2 , . . . , Xk , . . . son v.a. i.i.d. con E|X1 |3 < ∞, y que
Yn ⇒ ξ. Entonces ξ ∼ N orm(0, 1).
Demostración.
Considerando n = 2m con m = 1, 2, . . . tenemos que
X1 + X2 + · · · + Xn
Yn = √ =
n
1 X1 + X 2 + · · · + Xm 1 Xm+1 + Xm+2 + · · · + X2m
= √ √ +√ √ , (8.4.33)
2 m 2 m
Yn ⇒ ξ, (8.4.34)
158
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
Entmax (p) ∼
∼ 0.34657 Ent(p)
p
0 1/2 1
No es difı́cil demostrar que entre todas las v.a. a.c. X con EX = 0 y V ar(X) = 1,
la v.a. η ∼ N orm(0, 1) tiene la máxima entropı́a. Es posible, también, demostrar que
para las sumas estandarizadas en (8.2.8) la entropı́a crece con el aumento de n. Entonces
es razonable pensar (¡y demostrar bajo la condición EXk2 < ∞!) que la distribución de
Yn se aproxima a la Normal y que tiene incertidumbre máxima. (Admitiendo expresiones
vagas, la v.a. Normal es sobre todo “aleatoria” porque asintóticamente adquiere “aleato-
riedades” de diferentes tipos que se encuentran entre los sumandos de Sn = X1 +· · ·+Xn .)
159
8.4. ¿Por qué en los TCL la distribución del lı́mite es Normal?
Luego del párrafo teórico anterior, nos relajáremos un poco con el siguiente ejemplo.
Notemos que el juego (como todos los juegos en un casino) es injusto en el sentido de que
9 10 x
EX = x + (−x) = − < 0, (8.4.37)
19 19 19
y al apostar un número grande de veces, la serie de juegos seguramente (con probabilidad
1) terminará, por la ruina del jugador (como hemos mostrado en el Ejemplo 6.6).
Supongamos que un jugador apuesta 5 dólares (que en algunos casinos de las Vegas
es la mı́nima cantidad para apostar) por “rojo”, n = (19)2 = 361 veces. Su ganancia -
pérdida neta es Sn = X1 + · · · + Xn , con x = 5 en (8.4.36) y (8.4.37). Estimemos ahora
a partir del TCL las siguientes probabilidades:
1. P (Sn > 0) (de ganar algo).
2. P (Sn > 100) (de ganar al menos 100 dólares).
3. P (Sn 6 −100) (de perder por lo menos 100 dólares).
5
Primero, por (8.4.37) con x = 5 se tiene a = EX1 = − , y por (3.2.10) σ 2 = V ar(X1 ) =
19 5 2
E(X12 ) − (EX1 )2 = (ya que por (8.4.36), X 2 = x2 con probabilidad 1) = 25 − ≈ 25,
p 19
o bien σ = V ar(X1 ) ≈ 5.
Sn − na 100 − na
Para el caso 2, tenemos que P (Sn > 100) = P √ > √ = (véase
σ n σ n
5
100 + 192 ( 19
)
(8.2.8)) = P Yn > ≈ P (Yn > 2.05) ≈ (por (8.2.21)) ≈ P (η > 2.05) =
5 · 19
160
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
1 − P (η < 2.05) = (pues η es a.c.) = 1 − Φ(2.05) ≈ (por los valores en tablas) ≈ 0.0202.
Nota 8.8 (a) La estrategia “precavida” de juego que realiza el jugador en el ejemplo de
arriba, da resultados poco promisorios pues tiene tan sólo el 16 % (aproximadamente)
de posibilidades de ganar algo, pero casi la mitad de probabilidades de perder más de
100 dólares, y muy pocas posibilidades (2 %) de ganar más de 100 dólares. Por otro
lado, una estrategia “arriesgada” como apostar 100 dólares por rojo una sola vez,
nos da una probabilidad de 18/38≈ 0.4737 de ganar 100 dólares y se perderı́a esta
misma cantidad con una probabilidad de 20/38 ≈ 0.5263. Por eso esta estrategia es
mucho mejor que la primera. Aunque usándola, el jugador se pierde la oportunidad
de gozar del juego durante 10 horas.
(b) Para alguien que planea visitar Las Vegas se sugiere usar la estrategia siguiente como
opción, para ganar mil dólares con probabilidad 1 jugando en la ruleta:
- Primero: Apostar mil dólares por rojo.
- Segundo: Si gana, entonces salga.
Si pierde, entonces apueste dos mil dólares por “rojo”.
- Tercero: Si gana, salga.
Si pierde, apueste cuatro mil dólares por “rojo”.
- Siga duplicando sus apuestas hasta que salga por primera vez el “rojo”.
En ese instante deje de jugar y salga con la ganancia de mil dólares.
Sin embargo existen dos obstáculos para la realización de tan “excelente” estrategia:
1) Para el desarrollo del juego necesitará (con probabilidad positiva) poder adquirir
como préstamo una cantidad de dólares arbitrariamente grande.
2) En los casinos no se permiten apuestas mayores a una cantidad establecida. (Pero
en el caso de 12 salidas sucesivas de “negro”, para lo que hay una probabilidad
positiva, usted deberá apostar alrededor de más de 4 millones de dólares.
161
8.5. Ejercicios
8.5. EJERCICIOS
8.1 La probabilidad de que un recién nacido sea varón es aproximadamente p = 0.512.
Suponga que los sexos de los recién nacidos son independientes entre sı́, entonces
estime la probabilidad de que entre 1000 bebés que nacerán el próximo mes en el
D.F., el número de mujeres será mayor que el número de varones (a) mediante la
distribución Binomial, y (b) utilizando el TCL.
Resp. : (a) ≈ 0.2145 y (b) ≈ 0.2236.
8.2 Sean X1 , X2 , . .√
. v.a. no
√ negativas i.i.d. para cuales EX1 = 1 y V ar(X1 ) = 1.
Mostrar que 2 Sn − n ⇒ η ∼ N orm(0, 1).
√ √
Sugerencia: Multiplicar y dividir por ( Sn + n). Usar (6.1.7) en la LFGN y mos-
trar el siguiente hecho intuitivamente claro: si Zn ⇒ Z y ξn → 1 con probabilidad
1, entonces ξn Zn ⇒ Z.
8.4 Un dado simétrico se lanza 36 veces. Sea Sn el número de veces que resulta el “6”.
Estimar P (Sn 6 2):
(a) de forma precisa (a partir de la distribución Binomial), y
(b) aproximadamente (a partir del TCL).
Resp. : (a) 0.04712177; (b) ≈ 0.0367.
Nota 8.9 Las respuestas del Ejercicio 8.4 indican que el número de sumandos n =
36 (de v.a. discretas, en este caso) en Sn = X1 + · · · + Xn (donde Xk es la indicadora
de las salidas de “6”), no es suficientemente grande para obtener una buena aproxi-
mación a la Normal. De hecho, el error relativo es 0.04712177−0.0367
0.04712177
≈ 0.22117(≈ 22 %).
8.5 Al llegar a una oficina, un cliente se encuentra con que hay 40 clientes en fila
esperando servicio. Supongamos que los tiempos de servicio son las v.a. a.c. i.i.d.
X1 , X2 , . . . con promedio a = EX1 = 1.4 min. y con desviación estándar σ = 0.7.
Estimar la probabilidad de que el cliente recién llegado tendrá que esperar más de
una hora para ser atendido.
Resp. : ≈ 0.1841.
162
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
Nota 8.10 A diferencia del caso de v.a. discretas (ver el Ejercicio 8.4), para un
número de sumandos n = 40 con v.a. a.c. el TCL como regla da una aproximación
bastante buena (véase el Ejemplo 8.2 (b)).
λkn −λn λk −λ
Sugerencias: P (Xn = k) = e → e , cuando n → ∞, por la continui-
k! k!
dad de la función xk e−x .
163
8.5. Ejercicios
8.10 Sean X1 , X2 , . . . v.a. i.i.d. con a = EXk = 0, 0 < σ 2 = V ar(Xk ) y E|Xk |3 < ∞.
Mostrar que para cualesquiera a, b tales que −∞ < a < b < ∞ y para cada α tal
que 0 6 α < 1/2 se cumple que nα P (a 6 Sn 6 b) → 0, cuando n → ∞, .
Sugerencia: Usar la Definición de ρ en (7.3.9) y la desigualdad (8.2.27).
1 1
Nota 8.12 Bajo ciertas condiciones adicionales, n 2 P (a 6 Sn 6 b) → √2π σ
(b − a),
con a, b ∈ R. Este hecho podrı́a ser usado para explicar el porqué cada molécu-
la de un gas en equilibrio en su movimiento térmico tiene una posición aleatoria
representada por un vector aleatorio con una distribución uniforme dentro de un
recipiente.
8.11 Ofrecer algunos argumentos no formales (intuitivos) que sugieran que para una
t relativamente grande, la v.a. X(t) (el capital corriente) en el modelo de riesgo
(4.4.29), tendrá una distribución cercana a la Normal.
Sugerencia: Ver el Ejercicio 4.13 y la Nota 8.1 (d).
164
CAPÍTULO 8. TEOREMA CENTRAL DEL LÍMITE
n n
X X 1
Sugerencia: Checar que V ar(Xk ) = se comporta como ln n, cuando
k=1 k=1
k
n → ∞. Para Y n como en (8.2.25) verificar la condición (8.2.26) y usar el Teorema
8.3.
8.14 Imaginemos que una compañı́a de seguros tiene 1,000,000 de automóviles asegura-
dos. El pago mensual para el k-ésimo asegurado (k = 1, 2, . . . , 100000) es la v.a.
(
ξk con la probabilidad p,
Xk =
0 con la probabilidad 1 − p,
8.17 Supongamos que una persona aplica la siguiente estrategia para jugar en la ruleta
americana (ver el Ejemplo 8.3). Primero, apuesta 5 dólares por el “rojo”, si gana
entonces sale; si pierde, apuesta 10 dólares por rojo. La persona sale del juego
después del segundo intento (independientemente del resultado). Sea Z la ganancia-
perdida final. Mostrar que:
165
8.5. Ejercicios
8.18 En el Ejemplo 8.3, sea n el número de apuestas realizadas. Mostrar que para cual-
quier ε > 0 (podrı́a ser muy pequeña), existe la constante
√ K tal que para toda n
5
suficientemente grande se cumple que P (Sn < − 19 n + nK) > 1 − ε.
Sugerencia: Usar el TCL.
5
√ que − 19 n se aproxima a −∞ más
Nota 8.13 Para el Ejercicio 8.18, obsérvese
rápido de lo que puede crecer el término n K.
Nota 8.14 El resultado en (8.5.38) muestra que para v.a. i.i.d. la tasa de conver-
gencia a la distribución Normal dada por la parte derecha de la desigualdad en
(8.2.27), en general, no puede ser mejorada, es decir, en el caso general en la parte
derecha de (8.2.27) no es posible poner una sucesión {an : n = 1, 2, . . . } que se anule
constante
más rápido que la sucesión √ n = 1, 2, . . .
n
166
Capı́tulo 9
Comparación de distribuciones de
sumas de variables aleatorias y
estabilidad de algunos modelos
estocásticos aplicados
Las sumas de v.a. independientes son elementos importantes en muchos modelos apli-
cados. Por mencionar algunos, señalamos los procesos de riesgo (véase la Sección 4.4),
procesos de almacenamiento, procesos de regularización del nivel de agua en presas, mo-
delos de colas (filas de espera), procesos de optimización en el reemplazo de equipo, etc.
(consúltese por ejemplo Asmussen (1987) y Tijms (1994)). El siguiente problema surge en
el estudio de la estabilidad (robustez) de modelos de este tipo.
Sean X1 , X2 , . . . y X
f1 , X
f2 , . . . dos sucesiones de v.a. i.i.d. con f.d. F y Fe, respectiva-
mente, y sean para n = 1, 2, . . .
Sn = X1 + · · · + Xn ; e1 + · · · + X
Sen = X en . (9.1.1)
167
9.1. Desigualdades de estabilidad
Es fácil ver que cuando en (9.1.1) EX1 6= E X e1 , entonces no es posible llegar a una
desigualdad razonable como en (9.1.2) con las propiedades de la función g(x) que se han
mencionado (debido a que ESn − E Sen = n(EX1 − E X e1 ) → ∞ cuando n → ∞, si por
ejemplo, EX1 > E X e1 ). Por esto, en el resto del texto, se aplicará la siguiente condición.
a := EX1 = E X
e1 . (9.1.4)
No es tan fácil, pero es factible, dar algunos ejemplos en los que se cumple (9.1.4), y
ρ Sn , Sen > ∆ > 0, para n = 1, 2, . . . , a pesar que µ F, Fe → 0 para una clase amplia de
las métricas µ. Estos ejemplos indican que para obtener (9.1.2) hay que buscar algunas
restricciones adicionales para las distribuciones de las v.a. X1 y X e1 .
168
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS
Xk − a ek − a
X
donde ξk = y ξek = para k = 1, 2, . . . , n.
σ σ
En el libro Senatov (1998) se ha demostrado el siguiente teorema, que es, en efecto,
un ingenioso desarrollo del TCL 8.1.
Teorema 9.1 Sean X1 , X2 , . . . , Xk , . . . v.a. i.i.d. para las cuales la condición (9.1.5) se
cumple. Entonces, existe una constante C tal que para n = 1, 2, . . .
C
ρ Yn , η 6 √ máx ρ(ξ1 , η), ζ3 (ξ1 , η) . (9.1.7)
n
O bien,
C h i
ρ Sn , Sn 6
e √ máx ρ(ξ1 , η), ζ3 (ξ1 , η) + máx ρ(ξ1 , η), ζ3 (ξ1 , η) ,
e e (9.1.9)
n
169
9.1. Desigualdades de estabilidad
tener una cercanı́a entre las distribuciones de Sn y Sen , para toda n = 1, 2, . . . , cuando en
(9.1.1) la distribución de X
ek se aproxima a la distribución de Xk .
n
!
X
O bien, ρ Yn , η = ρ S n , (σ ηk + a) , (9.1.10)
k=1
Nota 9.1 La Suposición 9.1.2 se satisface para la mayorı́a de las densidades de uso habi-
tual. Por ejemplo, la densidad exponencial, cuya gráfica se puede ver en la Figura 1.8, no
es derivable en el punto x = 0; sin embargo, la v.a Z = X1 + X2 + X3 con Xi ∼ Exp(λ)
independientes para i = 1, 2, 3, tiene densidad (Gamma (α = 3, λ)) que satisface (9.1.12).
170
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS
Teorema 9.2 (Gordienko (2004)) Admitamos que las Suposiciones 9.1.1 y 9.1.2 se cum-
plen, y que EX12 < ∞, E X e 2 < ∞. Entonces existe una constante C1 tal que para cada
1
n = 1, 2, . . .
n o
ρ Sn , Sn 6 C1 máx ρ X1 , X1 , ζ2 X1 , X1 .
e e e (9.1.13)
Teorema 9.3 (Gordienko (2004)) Admitamos que las Suposiciones 9.1.1 y 9.1.2 se cum-
plen, y además supongamos que
e2 ,
E X12 = E X 1 (9.1.14)
1
El factor √ en la parte derecha de (9.1.15) implica que para n grandes las sumas Sn y
n
Sen tienen distribuciones muy parecidas (a pesar de que las distribuciones de los sumandos
Xk y X ek en (9.1.1) podrı́an ser muy distintas).
Al considerar en (9.1.15) Sen = Z1 + Z2 + · · · + Zn con Zk ∼ N orm(a, σ), k = 1, 2, . . . , y
usando el Teorema 2.2, según el cual Sen tiene distribución Normal, vemos que, en este caso
particular, la expresión de (9.1.15) se convierte en la estimación de la tasa de convergencia
en el TCL dada en (9.1.11). De resultados bien conocidos sobre esta última estimación se
siguen dos afirmaciones:
√
1. En el caso general, los factores 1/ √n de (9.1.15) no pueden ser sustituidos por factores
que se anulen más rápido que 1/ n (cuando n → ∞).
171
9.2. Estimación de la estabilidad en el modelo de riesgo de
Cramér-Lundberg
√
2. Para obtener los factores 1/ n, n = 1, 2, . . . en (9.1.15), la igualdad de los segundos
momentos (o varianzas) en (9.1.14) es esencial y no puede cambiarse por alguna
condición menos restrictiva.
N (t)
X
X(t) = x + γt − ξk , t > 0. (9.2.16)
k=1
es desconocida. Esta situación es tı́pica en la práctica y en tal caso se usa una f.d. Fe como
una aproximación de F , obtenida por estimaciones estadı́sticas o simplificaciones teóricas.
Sean ξe1 , ξe2 v.a. i.i.d. con la f.d. Fe. Entonces, un investigador no puede trabajar con el
modelo “real” (9.2.16), pero puede estudiar el modelo aproximado
N (t)
X
e = x + γt −
X(t) ξek , t > 0. (9.2.17)
k=1
172
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS
Teorema 9.4 Admitimos que las v.a. ξ1 , ξ2 , . . . y ξe1 , ξe2 , . . . satisfacen las Suposiciones
9.1.1 y 9.1.2 (con ξk , ξek en lugar de Xk , X
ek ).
(a) Si E ξ 2 < ∞ y E ξe2 < ∞, entonces, para toda t > 0
1 1
n o
ρ X(t), X(t)
e 6 C1 máx ρ(ξ1 , ξe1 ), ζ2 (ξ1 , ξe1 ) . (9.2.18)
(b) Si E|ξ1 |3 < ∞, E|ξe1 |3 < ∞ y V ar(ξ1 ) = V ar(ξe1 ), entonces, para toda t > 0
C2 n o
ρ X(t), X(t)
e 6 √ √ máx ρ(ξ1 , ξe1 ), ζ3 (ξ1 , ξe1 ) , (9.2.19)
λ t
Nota 9.3 (a) Las distancias ζ2 (ξ1 , ξe1 ) en (9.2.18) y ζ3 (ξ1 , ξe1 ) en (9.2.19) son finitas de-
bido a las hipótesis del Teorema 9.4 y de la Proposición 7.5.
(b) La desigualdad (9.2.18) afirma que, si del modelo (9.2.17) se obtiene una buena
aproximación para el modelo real (9.2.16) de forma que Eξ1 = E ξe1 , y la distancia
máx ρ(ξ1 , ξe1 ), ζ2 (ξ1 , ξe1 ) ≡ máx ρ(F, Fe), ζ2 (F, Fe) es pequeña, entonces la distan-
cia uniforme entre los procesos de riesgo es
ρ X(t), X(t) e = sup P (X(t) 6 x) − P (X(t)
e 6 x)
x∈R
173
9.2. Estimación de la estabilidad en el modelo de riesgo de
Cramér-Lundberg
(d) La desigualdad (9.2.19) da una mejor cota de estabilidad del proceso de riesgo que
la demostrada en el libro de Rachev(1991).
∞
X 1
ρ X(t), X(t)
e 6 C2 máx ρ(ξ1 , ξe1 ), ζ3 (ξ1 , ξe1 ) · √ P N (t) = n . (9.2.22)
n=1
n
174
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS
Veamos ahora un sencillo ejemplo un poco artificial, pero que sirve para ilustrar la
desigualdad (9.2.18).
Mediante cálculos directos (ver el Ejercicio 9.7) y al graficar las f.d. Fξ1 y Fξe1 , se
Z ∞
ε
puede ver que ρ ξ1 , ξe1 = . Luego, usando la desigualdad ζ2 (X, Y ) 6 |x| |FX (x) −
2 −∞
FY (x)| dx (ver la Nota 7.8) y por cálculos elementales (ver el Ejercicio 9.7) se obtiene
ε
que ζ2 (ξ1 , ξ2 ) 6 6 2ε (pues ε < 0.5).
1−ε
Por lo tanto, de la desigualdad (9.1.15) resulta que para toda t > 0,
ρ X(t), X(t)
e 6 2C1 ε.
175
9.3. Estimación de la estabilidad en otros modelos
Nota 9.4 (a) Como se obtiene de la demostración del Teorema 9.4, las desigualdades
(9.2.18) y (9.2.19) también son ciertas para cualquier proceso de recibimiento de re-
clamaciones N (t) (ver la Sección 4.4) que es independiente de ξ1 , ξ2 , . . . y de ξe1 , ξe2 , . . .
Entonces, en el Teorema 9.4, N (t) podrı́a ser un proceso distinto a uno de Poisson.
El único cambio necesario será sustituir en (9.2.19) el factor √1λ t por √ 1 .
E(N (t))
(b) Los métodos desarrollados en Roos & Pfeifer(2003) donde se comparan las distribu-
ciones de v.a. discretas, se pueden usar para generalizar las desigualdades de estabili-
dad (9.2.18) y (9.2.19), extendiendolas a los casos en que, en lugar de (9.2.17) aparece
= x+γ t− N
Pb
X(t)
e
k=1 (t)ξk , donde N (t) es el proceso que sirve para aproximar un
e b
proceso no completamente conocido N (t) en el modelo “real” (9.2.16).
176
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS
- entre otras.
`
La convergencia Xn → X equivale a Xn ⇒ X (la convergencia débil) junto con
E|Xn | → E|X| (consultar el Ejercicio 9.2).
Nota 9.5 En este libro (en los Capı́tulos 7–9) hemos considerado seis métricas proba-
bilı́sticas diferentes, a saber:
Mientras que, por ejemplo, en el libro de Rachev (1991) se consideran alrededor de 100
métricas probabilı́sticas diferentes.
1
Leonid V. Kantoróvich (1912-1986) economista y matemático soviético, ganador del premio Nobel en
economı́a. Es considerado como uno de los creadores de la programación lineal.
177
9.4. Ejercicios
9.4. EJERCICIOS
9.1 Sea ρ la métrica uniforme definida en (7.3.9). Demostrar que para cualesquiera v.a.
X y Y ypara cualesquiera números reales α 6= 0, b ∈ R se cumple que ρ αX +
b, αY + b = ρ(X, Y ).
Sugerencia: Verificar que FαX+b (x) = FX αx − αb y observar que para cualquier
178
CAPÍTULO 9. ESTABILIDAD DE ALGUNOS MODELOS
ESTOCÁSTICOS APLICADOS
Sea X una v.a. con los valores en un intervalo (acotado o no) I y sea g : I → R
una función tal que g 00 (x) 6 0, para todo x ∈ I. Suponiendo que EX y Eg(X)
existen, demostrar que
Eg(X) 6 g[EX],
1 1
en particular, E √ 6√ para una v.a. X > 0.
X EX
2
Johan L. W. V. Jensen (1859-1925) matemático e ingeniero danés, conocido por su desigualdad.
179
9.4. Ejercicios
9.5 Sean X y Y v.a. con valores positivos. Demostrar que ρ(X, Y ) = ρ(ln X, ln Y ).
Sugerencia: La función ϕ(x) = ex hace la correspondencia uno a uno entre
(−∞, ∞) y (0, ∞).
9.6 Sean X1 , X2 , . . . v.a. positivas i.i.d. tales que existen (y son finitas) E ln(X1 ) < ∞
y E[ln(X1 )]2 < ∞. Sean también X e1 , X
e2 , . . . v.a. i.i.d. con las mismas propiedades
y N una v.a. con valores en {1, 2, . . . , k, . . . } que no depende de X1 , X2 , . . . ni de
X e2 , . . . Demostrar que para Y := X1 · X2 · . . . · XN ; Ye := X
e1 , X e ·Xe2 · . . . · X
eN se
n o 1
cumple que ρ Y, Ye 6 C1 máx ρ(X1 , X e1 ), ζ2 ln(X1 ), ln(X e1 ) .
180
Bibliografı́a
[1] Asmussen, S., (1987), Applied Probability and Queues, Wiley, New York.
[2] Breiman, L. (1969), Probability and Stochastic Processes: with a View Toward Appli-
cations, Houghton Mifflin, Series in Statistics, Boston.
[3] Durrett, R. (1991), Probability: Theory and Examples, Wadsworth & Brooks, Pacific,
California.
[4] Feller, W. (1978), Introducción a la Teorı́a de Probabilidades y sus Aplicaciones, Vol.
II, Limusa, México.
[5] Gnedenko, B.V., Belyayev, Y. K. and Solovyev, A.D. (1969), Mathematical Methods
of Reliability Theory, Academic Press, New York.
[6] Gordienko, E. (2004), Stability estimates of generalized geometric sums and their
applications, Kybernetika, 40, 257-272.
[7] Gordienko, E. (2011), Andrey Kolmogorov: El último gran matemático universal,
Miscelánea Matemática, 52, 1-29.
[8] Gordienko, E., Lemus-Rodrı́guez, E., y Montes-de-Oca, R. (2008), Discounted cost
optimality problem: stability with respect to weak metrics, Math. Meth. Oper. Res.,
68, 77-96.
[9] Hoel, P., Port, S., and Stone, C. (1971), Introduction to Probability Theory, Houghton
Mifflin, Series in Statistics, Boston.
[10] Kalashnikov, V. V. and Rachev, S.T. (1990), Mathematical Methods for Construction
of Queueing Models, Wadsworth, Pacific Grove, California.
[11] Korn, R. and Korn, E. (2001), Option Pricing and Portfolio Optimization, American
Math. Society, Providence.
[12] Kudrı́avtsev, L.D. (1988), Curso de Análisis Matemático, MIR, Moscú.
181
BIBLIOGRAFÍA
[15] Prokhorov, A.V., Ushakov, V. G., and Ushakov, N. G. (1986), Exercises in Probability
Theory. Main concepts, Limit Theorems, Random Proceses, “Nauka”, Moscow, (in
Russian).
[16] Rachev, S.T. (1991), Probability Metrics and the Stability of Stochastic Models, Wiley,
New York.
[17] Rincón, L. (2012), Introducción a la Teorı́a del Riesgo, Facultad de Ciencias, UNAM,
México.
[18] Rolski, T., Schmidli, H., Schmidt, V. and Teugels, J. (1999), Stochastic Processes for
Insurance and Finance, John Wiley and Sons, Chichester.
[19] Roos, B. and Pfeifer, D. (2003), On the Distance between the Distributions of Random
Sums, J. Appl. Probab., 40, 87-106.
[20] Senatov, V. V. (1998), Normal Approximation: New Results, Methods and Problems,
VSP, Utrecht.
[21] Tijms, H. C. (1994), Stochastic Models: an Algorithmic Approach, John Wiley and
Sons, Chichester, pp. 375.
182
Índice Analı́tico
183
ÍNDICE ANALÍTICO
184
ÍNDICE ANALÍTICO
185
ÍNDICE ANALÍTICO
186