MES Probabilidad

Fundamentos matemáticos
Probabilidad y simulación
Pilar Barrios (pbarrios@afi.es)
Máster Executive en Gestión de Riesgos en Seguros, 2014

MES 2014 Fundamentos matemáticos: Probabilidad y simulación
Índice
0 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1 Modelos: variables aleatorias y simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
• Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
• Simulación de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
• Modelos, modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
• Transformación de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2 Interludio: Álgebra matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3 Varias dimensiones y simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
• Varias variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
• Simulación conjunta de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
• Cópulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
• Cambios de probabilidad lognormales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Afi Escuela de Finanzas Aplicadas 2013-2014. Todos los derechos reservados Fecha de elaboración: 29 de diciembre de 2013 2
4 Sumas estocásticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

• Concentración de promedios: leyes de los grandes números y TLC . . . . . . . . . . . 163
• Sumas de variables Bernoulli. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .177
5 Componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
6 Apéndice I. Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
7 Apéndice II. Funciones generatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
0. Introducción
Unas ilustraciones, para empezar
¿Tenemos, realmente, intuición probabilı́stica?
Ejemplo 1. VHS contra BETA, un modelo de competición (podrı́a ser Microsoft contra
Apple, zurdos contra diestros, etc.).
Interesa la proporción de videos VHS en el mercado. Ésta podrı́a ser la historia:

100%
proporción VHS en el mercado 90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
0 50 100 150
tiempo
Una historia de la que, sin duda, extraemos conclusiones; o para la que buscamos
explicaciones racionales.
Pero veamos: vamos a construir un modelo probabilı́stico, un modelo “de contagio”.

Suponemos que los sistemas son, esencialmente, igual de buenos. Y que la probabilidad
de que una persona elija uno u otro depende de la proporción presente en el mercado.
Tenemos una urna, con una bola blanca y una bola

✸
negra. Se extrae una bola, se mira su color y se devuelve
❃
a la urna, junto con otra del mismo color. Y se repite ❥
el procedimiento (este modelo se conoce como la urna
✸
de Pólya). Interesa la proporción de blancas frente al ❘
total, que es 1/2 en el primer paso, 2/3 ó 1/3 en el ❥
segundo, etc.
¿Se estabiliza esta proporción? ¿En qué posibles valores? ¿Y en cuál de estos valores
es más probable que se estabilice? Recurrimos al ordenador como laboratorio proba-
bilı́stico. En cuanto tenemos el modelo o el mecanismo aleatorio, podemos simularlo
(y quizás extraer conclusiones). Ésta es la esencia del método Montecarlo.
Ilustración
Simulación del mecanismo aleatorio de la urna de Pólya en Excel.
Ejemplo 2. tenemos dos urnas: U1 tiene 8 billones de bolas negras y 2 billones de bolas
blancas. U2 contiene 8 billones de blancas y 2 billones de negras.
Se sortea, con una moneda equilibrada, qué urna se usa y se extraen 10 bolas de la
elegida. Han salido 5 negras y 5 blancas.
¿Cuál es la probabilidad de que se haya elegido la urna U1?
Y si salen 6 negras y 4 blancas, ¿cuál es la probabilidad de haber elegido U1?
Ilustración
Simulación en Excel.
Ejemplo 3. Les propongo la siguiente apuesta. Fijamos a priori dos valores, digamos el
1 y el 10. Y jugamos una partida de cara y cruz, con una moneda regular, que acaba la
primera vez que hayamos obtenido tantas caras como cruces. En el dibujo, cara significa
“subir 1”.
10
Acabada la partida, se cuenta el número de veces que hemos visitado las alturas 1 y 10;
por cada visita al 1 les pago 1 euro, mientras que, por cada visita al 10, ustedes me
pagan digamos 3 euros. El juego lo podemos repetir tantas veces como queramos.
¿Aceptan participar en este juego?
Ilustración
Simulación del juego/apuesta en Excel.
La esencia del método Montecarlo

El objetivo de estas sesiones es el de proporcionar un lenguaje para describir y analizar
este tipo de situaciones aleatorias que nos permita tomar decisiones sobre ellas. Para
esto, necesitamos disponer de modelos aleatorios (variables aleatorias y las distintas
formas que tienen de combinarse). Aquı́ lo haremos, fundamentalmente, desde el punto
de vista de la simulación.
Un primer ejemplo (sencillo): podemos modelar un tiempo a default (en años) con
una variable aleatoria geométrica de parámetro 1/2.
Esto supone que la probabilidad de hacer default el primer año es 1/2, que la probabilidad
de no hacer default el primer año y sı́ el segundo es 1/4, que con probabilidad 1/8 se
sobrevive a los dos primeros y el default llega el tercero, etc.
El dibujo de la derecha representa los posibles tiempos

de default, junto con sus probabilidades respectivas. En
este modelo podemos calcular explı́citamente el tiem-
po medio a default, la desviación tı́pica, la probabilidad
de que no haya default en los primeros 4 años, etc.
Pero también podemos simular. Es decir, realizamos el experimento muchas veces (por
ejemplo, 1000), para luego componer un histograma con los resultados. Cada simulación
es aquı́ un sólo número, un tiempo a default.
En la ilustración mostramos un posible histograma, junto al que dibujamos el “teórico”.
Como veremos más adelante, las leyes de los grandes números garantizan que ambos
histogramas son muy “parecidos”, si el número de simulaciones es suficientemente
“grande” (y claro, las simulaciones están “bien hechas”).
Del histograma experimental también podemos, por supuesto, obtener estimaciones de

los estadı́sticos que nos interesen (medias, desviaciones tı́picas, percentiles, etc.), con
un cierto nivel de precisión (mayor cuanto mayor sea el número de simulaciones).
Segundo ejemplo: queremos modelizar la curva cupón cero. Por ejemplo, los factores
de descuento de 10 plazos: 1, 2, 3 y 6 meses, 1, 2, 3, 5 y 10 años.
Nuestro objetivo es analizar una estrategia de inversión en la que estamos cortos en

bonos a 1 mes y 10 años, y largos en el bono a 5 años. Estos bonos pagan cupones
mensuales. El horizonte de la estrategia es de tres meses. Tenemos además un stop-loss.
A cada factor de descuento le asignamos un modelo de evolución (por ejemplo,

las variaciones porcentuales mensuales siguen normales con ciertos parámetros) y su
evolución conjunta viene guiada por una cierta matriz de correlaciones.
Es claro que no vamos a poder obtener la lista de posibles pagos de la cartera ni sus
probabilidades, y que tampoco dispondremos de fórmulas explı́citas para los estadı́sticos
de interés (pago medio de la cartera, ganancia media, probabilidad de pérdidas, etc.).
Sin embargo, por simulación. . .
Ahora cada simulación es

• primero, las curvas (futuras) de factores de descuento en los próximos tres meses;
• y, para cada una de estas evoluciones, calculamos el pago de nuestra cartera. Ası́ que,
después de todo, el resultado final de la simulación es también un número, el resultado
de la estrategia de inversión.
Repitiendo el experimento el número suficiente de veces, llegaremos a un histograma de
P&L de la cartera del que podremos extraer las conclusiones oportunas.
1. Modelos: variables aleatorias y simulación
Variables aleatorias discretas
Una variable aleatoria es
un modelo: un conjunto de valores que se pueden tomar con determinadas probabi-

lidades. Esto es, una suerte de histograma potencial, virtual.
un mecanismo que genera ciertos valores con ciertas frecuencias (abstractas). Las
“muestras” de la variable serán generadas por el ordenador.
Con más detalle, una variable aleatoria discreta X puede tomar unos ciertos
valores → x1, . . . , xn con probabilidades respectivas → p1 , . . . , pn .
Es decir, p1 es la probabilidad de que X tome el valor x1, p2 la probabilidad de que

tome el valor x2, etc.
Los valores pueden ser cualesquiera, pero los números pj han de cumplir que
n
X
p1, . . . , pn ≥ 0 (no negativos) y deben sumar 1: pj = 1.
j=1
Debajo dibujamos el “histograma potencial” de la variable.

p3
p1
p2
pn
x1 x2 x3 ··· xn
Nota
En ocasiones, es conveniente permitir que la variable tome infinitos valores: x1 , x2 , . . . , con
probabilidades respectivas p1, p2 , . . .
P∞ p3
Los números pj ≥ 0 suman j=1 pj = 1. p1
p2
(Esta condición exige que los pj deben tender a 0 pn
cuando j → ∞, y además a cierta “velocidad”). x1 x2 x3 ··· xn ···
Algunas cantidades asociadas a una variable aleatoria
La media (o esperanza) de una variable aleatoria X, E(X), se define como:
X X
E(X) = valores × probabilidades = xj pj
j
Se trata de un “punto de equilibrio”. En Finanzas, está asociada a precios. Para

calcularla en Excel, usamos la función sumaproducto:
Cálculo de medias de transformaciones de una variable aleatoria
La siguiente observación es muy útil. Partimos de una variable X, de la que conocemos

valores y probabilidades: x1, x2, . . . con probabilidades p1, p2, . . .
Consideramos una variable Y que sea una transformación de X, digamos Y = g(X),

donde g es una cierta función (elevar al cuadrado, etc.). El objetivo es calcular E(Y ).
Esto nos exigirı́a, en principio, saber qué valores y1, y2 , . . . toma Y y con qué proba-
bilidades q1, q2, . . . , para luego promediarlos:
X
E(Y ) = yj qj ,
|{z} |{z}
j valores de Y probs de Y
Pero, en general, como veremos más adelante, obtener cómo es la variable Y es

bastante complicado (sobre todo si la función g es “complicada”).
Sin embargo, el cálculo que nos interesa se puede realizar usando únicamente las
probabilidades de X:
X
E(Y ) = E(g(X)) = g(xj ) pj ,
| {z } |{z}
j valores de Y probs de X
pues la variable Y = g(X) toma cada valor g(xj ) justamente con probabilidad pj (la
misma con la que X tomaba el valor xj ).
ejemplo. Supongamos que X viene dada por
valores −2 −1 0 1 2
probs 20 % 20 % 20 % 20 % 20 %
valores 0 2 4
La variable Y = X 2 es −→
probs 20 % 40 % 40 %
De manera que E(Y ) = 0 · 20 % + 2 · 40 % + 4 · 40 % = 2.4. Pero podrı́amos haber

calculado esa media, sin necesidad de desentrañar cómo es Y , calculando simplemente
E(Y ) = E(X 2) = (−2)2 ·20 %+(−1)2 ·20 %+(0)2 ·20 %+(1)2 ·20 %+(2)2 ·20 % = 2.4.
Varianza y desviación tı́pica

La varianza V(X) de una variable aleatoria X se define como
2

V(X) = E (X − E(X))
Se trata de un promedio de cuánto se apartan los valores de la variable de la media. En

Finanzas, es una medida de riesgo.
Para calcular la varianza, suele ser más cómodo utilizar la definición equivalente
X X 2
2 2
V(X) = E(X ) − E(X) = x2j pj − xj pj
j j
p positiva. La desviación tı́pica σ(X) es, simple-

Nótese que la varianza es una cantidad
mente, su raı́z cuadrada: σ(X) = V(X). La desviación tı́pica mide esa dispersión en
torno a la media, pero en las unidades originales.
Solemos calcular con varianzas (porque se “suman” bien), pero al final habrá que expresar
resultados en desviaciones tı́picas, que son las que tienen las unidades correctas.
Observación
68 %
Si nos dicen que una variable aleatoria X tiene media E(X) = 0 95 %
y desviación tı́pica σ(X) = 1, uno tiende a pensar en una s
s
normal estándar.
−2 −1 0 1 2
Pero la media y la varianza son apenas un resumen

(aunque muy relevante) del modelo. Los modelos que
−2 −1 0 1 2
representamos a la derecha tienen media 0 y varianza 1.
Y, desde luego, la variable no toma valores cerca de la
media.
−2 −1 0 1 2
La desigualdad de Chebyshev permite estimar la probabilidad de que los valores de la variable
estén “lejos” (en la escala de la desviación tı́pica) de la media. Si λ > 1,
1 V(X)

P |X − E(X)| > λ σ(X) ≤ 2 también se puede escribir P |X − E(X)| ≥ a ≤
λ a2
(nótese la estimación cuadrática en λ). Por ejemplo, para λ = 2,

1 esto es, el 75 % de los valores de X
P |X − E(X)| > 2σ(X) ≤ = 0, 25
4 se desvı́an de E(X) menos de 2σ(X)
Momentos de una variable aleatoria

Se trata de las cantidades
E(X), E(X 2), E(X 3), E(X 4), . . .
(el primero es la media), o bien de los llamados momentos centrados

2
3
4

µ2 = E [X − E(X)] , µ3 = E [X − E(X)] , µ4 = E [X − E(X)] , . . .
El momento µ2 es la varianza.
Son de uso habitual las dos siguientes cantidades, relacionadas con los momentos tercero
y cuarto:
µ3
skewness: 3/2
(da idea de la asimetrı́a de la distribución)
µ2
µ4
(exceso de) kurtosis1: 2 − 3 (da idea del grosor de las colas de la distribución)
µ2
1
Es una medida relativa a la kurtosis de la distribución normal, en la que µ4 /µ22 = 3 (véase la página 40).
La función de distribución
Una descripción alternativa de una variable aleatoria X, más general y que será muy
útil en simulación, viene dada por la función de distribución:
FX (x) = P(X ≤ x) ,
En general, una función de distribución cumple que

FX (x) ≤ FX (y) si x ≤ y ;
FX (x) → 0 cuando x → −∞;
FX (x) → 1 cuando x → +∞;
En el caso discreto, X
FX (x) = pj .
j tales que xj ≤ x
Nos referiremos a éstas probabilidades como probabilidades acumuladas. Obsérvese que

no es más que una manera alternativa de escribir las probabilidades.
Las funciones de distribución, en este caso discreto, son funciones “escalonadas”.
Simulación de variables aleatorias discretas

Una variable aleatoria, una especificación de valores y probabilidades, es un modelo
probabilı́stico que pretende recoger la esencia de un cierto experimento aleatorio.
Simular consiste en obtener (muchas) muestras de la variable de manera que las

frecuencias relativas con las que se obtiene cada uno de los valores posibles se aproximen
a las probabilidades del modelo. Es decir, que el histograma muestral se asemeje a la
distribución de probabilidades del modelo.
Existe un mecanismo universal para simular variables aleatorias. Consta de dos pasos:
Paso 1 Generación de números aleatorios
Un generador de números aleatorios es un procedimiento para obtener muestras de

números entre 0 y 1, “todos con igual probabilidad”. En Excel, disponemos de la
función aleatorio(), que nos permite obtener estas muestras2.
2
Se trata de una cuestión sutil, pues en principio el modelo contempla números entre 0 y 1 con infinitas cifras decimales.
Técnicamente, son muestras de una variable uniforme en [0, 1], sobre la que volveremos en la página 37.
Paso 2 Transformación en muestras de la variable
Aceptemos que la función aleatorio() produce muestras entre 0 y 1, todas con igual
probabilidad.
ejemplo 1. Digamos que queremos sortear lanzamientos de una moneda. La moneda
tiene dos resultados, que codificamos como 0 y 1. Asignamos, por ejemplo, 50 % a cada
uno de los resultados.
Para sortear muestras de este modelo
sorteamos un número entre 0 y 1 con aleatorio();
si sale menor que 0.5, declaramos que el resultado es “cara” (ó 1); si es mayor,
declaramos “cruz” (ó 0).
Como esperamos que el 50 % de las muestras que genere la función aleatorio() estén
entre 0 y 0.5, la frecuencia de aparición de “cara” será también del 50 %.
¿Podrı́amos “cargar” la moneda?
ejemplo 2. Queremos sortear ahora de una variable aleatoria X que toma los valores
−2, 0, 1, 3 y 5 con probabilidades 20 %, 10 %, 30 %, 25 % y 15 %, respectivamente.
Partimos el intervalo [0, 1] en cinco partes (tantas como valores). Los intervalos van
de 0 a 0.2 (longitud 0.2), de 0.2 a 0.3 (longitud 0.1), de 0.3 a 0.6 (longitud 0.3), de
0.6 a 0.85 (longitud 0.25) y, finalmente, de 0.85 a 1 (longitud 0.15). Nótese que las
longitudes de los intervalos vienen dictadas por las probabilidades, pero los extremos de
cada intervalo vienen dados por las probabilidades acumuladas.
Simulación en Excel
Sorteamos, con aleatorio(), un número entre 0

y 1, y lo localizamos en el intervalo que corres-
ponda, que determina la muestra de X obtenida.
Para ello, utilizamos la función buscarv, aplicada
a la lista de probabilidades acumuladas. Las ca-
racterı́sticas de buscarv nos obligan a copiar los
valores a la derecha (y “desplazados” una posición
hacia arriba).
Ilustración
Simulación de muestras de una variable discreta en Excel.
Variables aleatorias continuas
Una variable continua X toma valores en R.
Esto requiere algo más de técnica: en lugar de “pro-

babilidades”, consideramos la función de densidad área 1
R ∞no negativa (f (x) ≥ 0) y que

f (x), una función f (x)
❘
encierra área 1 ( −∞ f (x) dx = 1.) x
Ahora f (x) no representa la probabilidad de obtener el valor x en el experimento aleatorio

que estamos modelando. Podemos interpretar el significado de f (x) de la siguiente
manera: si h es muy pequeño, entonces f (x) h es, aproximadamente, P(x ≤ X ≤ x+h).
Las probabilidades se calculan integrando: para todo a < b,
Z b
P(a ≤ X ≤ b) = f (x)dx
a
Cálculo de medias, varianzas y otros momentos
Las definiciones son las mismas que antes, pero ahora se calculan integrando:
Media: Z ∞
E(X) = x f (x) dx .
−∞
Media de una transformación de X:

Z ∞
E(h(X)) = h(x) f (x) dx .
−∞
Varianza:
V(X) = E[(X − E(X)2)] = E(X 2) − E(X)2

Z ∞ Z ∞ Z ∞ 2
= (x − E(X))2 f (x) dx = x2 f (x) dx − x f (x) dx .
−∞ −∞ −∞
Función de distribución
La definición es la misma,
FX (x) = P(X ≤ x) ,
pero sus valores se obtienen integrando la función de densidad (hasta x):
Z x
FX (x) = f (y) dy.
−∞
Nota. La función de densidad y la función de distribución describen completamente el modelo. Son descripciones
alternativas. En el caso discreto, se pasa de una a otra sumando y restando.
En el caso continuo, si disponemos de la función de densidad f (x), obtenemos la de distribución integrando, como hemos
visto arriba.
Si disponemos de F (x), entonces recuperamos la de densidad derivando:
′
F (x) = f (x)
Simulación de variables aleatorias continuas

El mecanismo universal de simulación requiere saber calcular la inversa de la función de
distribución F (x).
Nota. La “función” F −1 es a veces llamada la función cuantil:

si F (x) es continua y estrictamente creciente, entonces la función cuantil es la inversa de F (x);
en general, se define como
−1
F (p) = ı́nf{x ∈ R : p ≤ F (x)}
(en el caso de distribuciones discretas, utilizamos la función buscarv).
Consta, de nuevo, de dos pasos:
1. Generamos una lista de números u1, . . . , un con arreglo a la uniforme [0, 1].
2. Con la función inversa de F , que llamaremos F −1, calculamos la lista de números
x1 = F −1(u1), x2 = F −1(u2), . . . , xn = F −1(un).
Estos números x1, . . . , xn ya son muestras de la variable X.
Nota
justificación. Se basa en el segundo de estos resultados:
(a) Si X es una variable aleatoria con función de distribución F , entonces U = F (X) es una
variable aleatoria uniforme.
(b) O al revés: si U es una variable aleatoria uniforme, entonces X = F −1(U ) es una variable
aleatoria con distribución F .
1 1
0 0
Lo que no está claro es cómo calcular F −1. En ocasiones, dispondremos de una fórmula
explı́cita, en otras necesitaremos recurrir a métodos numéricos de cálculo (muchos de
ellos almacenados como funciones en Excel).
Un ejemplo de aplicación de la técnica: distribución triangular
Ilustramos la técnica con una variable triangular, en la que podemos obtener fórmulas
explı́citas para F (x) y F −1(x). Se trata de una variable aleatoria que toma valores en
el intervalo [0, 1], y cuya función de densidad es
 2
4x
 si 0 ≤ x ≤ 1/2,
fX (x) = 4(1 − x) si 1/2 < x ≤ 1,

0 resto. 1
0 1/2 1
A la derecha dibujamos la función de densidad de esta variable, que tiene

Z ∞ Z 1/2 Z 1
2
E(X) = xfX (x)dx = 4x dx + 4x(1 − x)dx = 1/2;
−∞ 0 1/2
Z ∞ 1 2
V(X) = E(X 2) − E(X)2 = x2fX (x)dx − = 7/24 − 1/4 = 1/24.
−∞ 2
Para calcular la función de distribución, integramos la de densidad (teniendo cierto

cuidado, por la doble definición de f (x)), para obtener que, para 0 ≤ x ≤ 1,
Z x (
2x2 si 0 ≤ x ≤ 1/2, 1
FX (x) = fX (y) dy =
−∞ 1−2(1−x)2 si 1/2 < x ≤ 1,
1/2 1
Obsérvese que F (x) tiene también una doble definición. Finalmente, calculamos una
expresión para F −1 invirtiendo las expresiones anteriores:
( p
−1
u/2 si u < 1/2;
F (u) = p
1 − (1 − u)/2 si u > 1/2.
Ilustración
Generar 1000 números con arreglo a la distribución triangular. Comprobar el histograma.
Ejercicio
Repetir los cálculos para una variable triangular centrada en 1/3.
Modelos, modelos
Nos disponemos a analizar las caracterı́sticas (función de densidad, de distribución,

medias y varianzas) de los modelos aleatorios más habituales. Avanzaremos también
los contextos (financieros) en los que tienen utilidad. Además, diseñaremos métodos de
simulación para cada uno de ellos. Ésta es la lista de modelos que revisaremos:
Nombre de la variable página
Variable Bernoulli ber(p) 35
Variable discreta general 36
Variable uniforme U[a, b] 37
Variable normal N (µ, σ) 38
Variable binomial bin(n, p) 41
Variable geométrica geom(p) 44
Variable Poisson poisson(λ) 45
Variable chi cuadrado χ2ν 47
Variable t de Student tν 50
Variable exponencial exp(λ) 52
Variable binomial negativa binneg(r, p) 54
Modelos en cascada 55
Cara y cruz: variable Bernoulli

1/2 1/2
función de masa
0 1
La moneda regular, ber(1/2):
1
0 probabilidad 1/2,
X→ 1/2
1 probabilidad 1/2. función de distribución
0 1
X sigue una ber(p) si toma el valor 1 con probabilidad p y el 0 con 1 − p. Su media y
varianza son
E(X) = p y V(X) = p(1 − p).
Ilustración
Generación de 1000 muestras de la Bernoulli (con el comando si) y comprobación del histograma.
Ejercicio
Analizar la variable X que toma valores 1 con probabilidad p y −1 con probabilidad 1 − p.
Variable discreta general

Más generalmente, podemos considerar una variable aleatoria X que tome una lista de
valores x1, . . . , xn con probabilidades p1, . . . , pn. La media y la varianza son
n
X n
X X
n 2
E(X) = xj pj y V(X) = x2j pj − xj pj .
j=1 j=1 j=1
Para simular valores de X, sólo tenemos que definir los “cortes” en el intervalo [0, 1]
dados por
p1 , p1 + p2 , p1 + p2 + p3 , . . .
(esto es, las probabilidades acumuladas), junto con el generador de la uniforme

aleatorio().
Ilustración
Generación de 1000 muestras de una variable X que tome valores −2, −1, 0, 1, 2 con
probabilidades 1/8, 1/6, 1/4, 1/12, 3/8 usando la instrucción buscarv.
La distribución uniforme
1
1 si x ∈ [0, 1],
Función de densidad fX (x) =
0 resto. 1

 0 si x < 0;
1
Función de distribución FX (x) = x si 0 ≤ x ≤ 1; .

1 si x > 1.
1
Media y varianza:
Z 1 Z 1
1 1 1 1 1
E(X) = xdx = y V(X) = x2 dx − = − = .
0 2 0 4 3 4 12
Ilustración
Simulación de muestras de la uniforme con aleatorio(). Comprobación visual del histograma.
Ejercicio
Repetir cálculos y simulaciones para una distribución uniforme en un intervalo general [a, b].
La distribución normal
Decimos que una variable aleatoria X sigue una distribución normal estándar, lo que
denotaremos como N (0, 1), si tiene como funciones de densidad y distribución a
Z x
1 2 1 2
φ(x) = √ e−x /2 Φ(x) = √ e−y /2
dy
2π 2π −∞
Una tal variable tiene media 0 y varianza (y desviación tı́pica) 1.
mu=0, sigma=1 mu=0, sigma=1

0.4 1
0.8
0.3
0.6
0.2
0.4
0.1
0.2
–4 –3 –2 –1 1 2 3 4 –4 –3 –2 –1 1 2 3 4
x x
En general, tenemos dos parámetros a nuestra disposición, que denotamos habitualmente

por µ y σ > 0. Las funciones de densidad y distribución de una normal N (µ, σ) son
2
Z x 2

1 (x − µ) 1 (y − µ)
φµ,σ (x) = √ exp − Φµ,σ (x) = √ exp − dy
σ 2π 2σ 2 σ 2π −∞ 2σ 2
Los parámetros µ y σ resultan ser la media y la desviación tı́pica de la variable X:

Z ∞ Z ∞
E(X) = xφµ,σ (x)dx = µ ; V(X) = x2φµ,σ (x)dx − µ2 = σ 2 .
−∞ −∞
Nota: Una variable X normal N (µ, σ) se puede escribir como X = µ + σY , donde

Y es N (0, 1). El parámetro µ desplaza el centro de la distribución, el parámetro σ la
“ensancha” o la “estrecha”:
mu=–1, sigma=5 mu=1, sigma=2 mu=2, sigma=0.3
1 1
1.2
0.8 0.8
1
0.6 0.6 0.8
0.6
0.4 0.4
0.4
0.2 0.2
0.2
–10 –8 –6 –4 –2 0 2 4 x 6 8 10 –6 –4 –2 0 2 x 4 6 –6 –4 –2 0 2 x 4 6
95 %
De hecho, el parámetro σ nos da una idea precisa
de “dónde” pueden estar, con muy alta probabili- ✠
dad, los números sorteados de una normal N (µ, σ).

Véase, por ejemplo, la figura de la derecha.
µ − 1,96σ µ µ + 1,96σ
Ejercicio
(de integración por partes). Sea X una N (0, 1). Obsérvese que E(X j ) = 0 si j es impar.
Compruébese que E(X 2 ) = 1 y E(X 4 ) = 3. Sea ahora X una N (µ, σ). Compruébese que
2 2 2 3 3 2 4 4 2 2 4
E(X) = µ , E(X ) = µ + σ , E(X ) = µ + 3µσ , E(X ) = µ + 6µ σ + 3σ .
Dedúzcase que los momentos centrados µj = E((X − E(X))j ) son 0 si j es impar (por ejemplo,
la skewness es 0), por la simetrı́a en torno a la media, que µ2 = σ 2 y que µ4 = 3σ 4 (por lo que la
normal tiene kurtosis 3, independientemente de µ y σ ).
Simulación: para evaluar Φ−1 hay que recurrir a aproximaciones numéricas.
Ilustración
Generar muestras de la normal N (µ, σ) (función distr.norm.inv/distr.norm.estand.inv).
Sumamos los resultados de cara y cruz:

la distribución binomial
Ilustración
Simular (100 veces, por ejemplo) la suma de 10 Bernoulli “independientes” (de parámetro p, para
varios valores de p). Ver el histograma. También tomando valores +1 y −1.
Si X sigue una distribución bin(n, p), entonces, para cada j = 0, . . . , n,

n j
P(X = j) = p (1 − p)n−j .
j
Al parámetro n nos referiremos como “número de repeticiones”; al parámetro p, como

“probabilidad de éxito”. X cuenta número de “éxitos”. La media y varianza son
E(X) = np y V(X) = np(1 − p).
10
6 para llegar a altura 6
con 6 unos (y 4 ceros)

4
10 × p6 (1 − p)4
6
3
✻ ✻
2
1
no. de listas prob común
Cómo cambia cuando n crece: Cómo cambia cuando p se mueve en [0, 1]:
0.18
0.16
0.16
0.14
0.14
0.12
0.12
0.1 0.1
0.08 0.08
0.06 0.06
0.04 0.04
0.02 0.02
0 20 40 60 80 100 0 10 20 30 40 50
Ilustración
Sortear con la tabla de valores y probabilidades.
La obtención de muestras de la binomial puede ser una tarea delicada. ¡Si n es grande, n! es un número enorme!
si n es pequeño, no hay problema.
si n es grande y p pequeño, podemos utilizar la aproximación de Poisson (véase la página 45).
Esperamos hasta el primer éxito:

la distribución geométrica
Un solo parámetro p. Una variable X sigue una geom(p) si toma valores 1, 2, 3, 4, . . .

con probabilidades
P(X = j) = p(1 − p)j−1 , para cada j = 1, 2, . . .
Media y varianza:
1 1−p
E(X) = y V(X) = 2
.
p p
X es un tiempo de espera (hasta que sale la primera cara).
Ilustración
Simular la variable X , que toma valores en 1, 2, 3, . . . con probabilidades pj = P(X = j) = 1/2j

(consideramos, por ejemplo, hasta j = 10).
Comparar el histograma con el obtenido en el siguiente experimento: jugamos a cara y cruz 10
partidas y calculamos el tiempo de espera hasta la primera cara.
La distribución de Poisson
Fijamos un parámetro λ > 0. La variable aleatoria X toma valores {0, 1, 2, 3, . . . } con

probabilidades
λk −λ
P(X = k) = e .
k!
En la Poisson, E(X) = V(X) = λ. Cómo cambia con λ:
0.35
0.3 lambda=1,5,10
0.25
0.2
0.15
0.1
0.05
0 5 10 15 20 25 30
Ilustración
• Simular 1000 números extraı́dos de una Poisson, para distintos valores de λ (con la tabla de
valores y probabilidades, convenientemente truncada). Ver histogramas.
• Fijado λ, generar muestras de una binomial de parámetros n y p. Manteniendo fijo el producto
n × p = λ, hacer n cada vez más grande. Comparar el resultado con los histogramas obtenidos en
el ejercicio anterior.
La razón del comportamiento observado en el último ejercicio (y una de las utilidades

básicas de la Poisson) es que si n es muy grande y np = λ, entonces

n k n−k λk −λ
P(bin(n, p) = k) = p (1 − p) ≈ e = P(poisson(λ) = k)
k k!
Sugerencia para amantes de los cálculos asintóticos: utilı́cese, para k fijo, la aproximación de Stirling: si m es
muy grande,
m −m √
m! ∼ m e 2πm. (¿qué pinta π en esta aproximación?)
Ası́ que, si n es grande, p pequeño, y su producto es λ, la Binomial de parámetros (n, p)

es “muy parecida” a la Poisson de parámetro λ.
La distribución χ2ν
Fijamos un entero positivo ν. Una variable sigue una distribución χ2ν (se lee “ji” o “chi”
cuadrado) con ν grados de libertad si se escribe como la suma
ν
X
Zj2 ,
j=1
donde las variables Z1, . . . , Zν son normales

N (0, 1) (independientes). Esta definición per-
mite simular directamente valores de la χ2ν
(simulando los de las correspondientes Zj ).
Obsérvese que una χ2ν sólo toma valores posi-
tivos. Su media y varianza son: E(χ2ν ) = ν y
V(χ2ν ) = 2ν.
Ilustración
Generación de muestras de una χ2 generando normales. Mover ν .
Nota: la función de densidad de una χ2ν viene dada por
1 ν/2−1 −x/2
f (x) = x e , x > 0,
2ν/2Γ(ν/2)
donde Z ∞
z−1 −t
Γ(z) = t e dt
0
es la función gamma.
• Para calcular la función de distribución de la χ2 , podemos, o bien integrar numéricamente la función anterior, o bien utilizar
la función de Excel correspondiente, distr.chi(x,grados de libertad). Pero, ¡atención!, esta función devuelve el valor
P(X > x), para x ≥ 0, donde X sigue una χ2 con los grados de libertad establecidos. Ası́ que la función de distribución
viene dada por:
Fχ2 (x) = P(χ2ν ≤ x) = 1 − distr.chi(x;ν ).
ν
• La inversa de la función de distribución de una χ2 está también en Excel. Para cada 0 < p < 1,
F −1
2 (p) = prueba.chi.inv(1-p;ν ) .
χν
Ilustración
Generación de muestras de una variable χ2ν con la inversa de la función de distribución.
Ejercicio
En cálculos posteriores, aparecerá la variable aleatoria 1/Z , donde Z es una χ2ν . Su media resulta
ser 1 1
E = (cuando ν > 2).
Z ν−2
Detalle. 1) Empezamos observando que
Z Z
1 2 +···+z 2 )/2
−(z1 ν
1= ··· e dz1 · · · dzν .
(2π)ν/2
2) Pasamos en esta integral a polares (multidimensionales):

Z Z Z ∞ √
1 ν−1 −r2 /2 cambio r2 /2=t, dr=dt/( 2t)
1= ··· J(θ1 , . . . , θν−1) dθ1 · · · dθν−1 r e dr =
(2π)ν/2 0
Z Z
2ν/2−1Γ(ν/2)
= ··· J(θ1 , . . . , θν−1) dθ1 · · · dθν−1
(2π)ν/2
3) Por último, Z Z
1 1 1 2 +···+z 2 )/2
−(z1 ν
E 2
= · · · 2
e dz1 · · · dzν
χν (2π) ν/2 2
z1 + · · · + zν
4) Pasando a polares, utilizando la expresión de 2) y la siguiente propiedad de la función Γ: Γ(z + 1) = zΓ(z),
obtenemos el resultado.
La distribución tν de Student
Si Y es N (0, 1) y X es una χ2 con ν grados de libertad (independientes entre sı́),
√ Y
Z= ν√ sigue una tν de Student.
X
Su media y varianza son

ν
E(Z) = 0 y V(Z) = (para ν > 2).
ν−2
(para la varianza, véase el resultado de la página
anterior). Es simétrica con respecto al origen (skew-
ness 0) y tiene colas más gruesas que la normal
(exceso de curtosis 6/(ν − 4) para ν > 4). Cuan-
do ν es grande, la tν se asemeja a una N (0, 1). En
el gráfico de la derecha la normal es la lı́nea azul,
mientras que las demás representan t de Student
con parámetros crecientes (en rojo, la de ν = 10).
Para simular muestras de una tν de Student, podemos

generar muestras de Y (una N (0, 1)) y de X (una χ2ν ) de manera independiente;
o bien utilizar la función de distribución inversa de la tν : sorteamos primero una
uniforme u,
u = aleatorio()
y transformamos en una muestra de tν mediante
(
distr.t.inv (2(1 − u); ν) , si u ≥ 50 %
tν =
−distr.t.inv (2u; ν) , si u ≤ 50 %
Explicación: ¡la función distr.t.inv(p, ν) no es la inversa de la función de distribución! Si distr.t.inv(p, ν) da como

resultado α, entonces P(|tν | > α) = p.
De la misma forma, hay que tener cuidado con la función distr.t(x;grados;colas). La función de distribución de una tν
viene dada, en Excel, por

distr.t(−x; ν; 1) si x < 0;
Ftν (x) = P(tν ≤ x) =
1 − distr.t(x; ν; 1) si x > 0;
Ilustración
Generar muestras de una tν de las dos formas. Mover ν y comparar con una normal.
Tiempo de supervivencia: la exponencial

Para λ > 0, una variable T es una exp(λ) si λ

0 si t ≤ 0, fT (t)
(f. de densidad) fT (t) =
λ e−λ t si t > 0.
t, tiempo
0 si t ≤ 0, FT (t)
(f. de distribución) FT (t) = 1
1 − e−λ t si t > 0.
1 1 t, tiempo
La media es E(T ) = λ y la varianza, V(T ) = λ2
.
Si T modeliza el momento de default de una empresa,
P(T > t) = e−λt
es la probabilidad de que no haya default hasta t > 0. En las aplicaciones, el parámetro

λ es la intensidad. Si λ es grande, esperamos que el default se produzca pronto.
1 1
Simulación: generamos u (uniforme en [0, 1]) y entonces t = ln
λ 1−u
En ocasiones se consideran distintas intensidades: por ejemplo, λ1 (intensidad en el

corto plazo, hasta T1), λ2 (en el medio, entre T1 y T2) y λ3 (en el largo, más allá de T3).
La probabilidad de que tener default en tiempo t es intens. λ1✲✛intens. λ2✲ intens. ✲
λ3
1
 −λ t
e 1 si t ≤ T1; 1−P1
P(T > t) = e−(λ1T1+λ2(t−T1)) si T1 ≤ t ≤ T2; 1−P2
 −(λ1T1+λ2(T2−T1)+λ3(t−T2))
e si t ≥ T2;
T1 T2
Simulación: calculamos primero P1 = 1 − e−λ1T1 y P2 = 1 − e−λ1T1−λ2(T2−T1). Sortea-

mos u (uniforme en [0, 1]) y


 si u < P , t es el valor para el que λ t = ln 1

 1 1 1−u
1
si P1 < u < P2, t es el valor para el que λ1T1 + λ2(t − T1) = ln 1−u



 si u > P2, 1
t es el valor para el que λ1T1 + λ2(T2 − T1) + λ3(t − T2) = ln 1−u
Ilustración
Implementar la simulación de tiempos a default: a) con una intensidad λ; b) con tres intensidades.
Esperamos hasta tener varios éxitos:

distribución binomial negativa
Una variable aleatoria X binomial negativa de parámetros r y p, binneg(r, p), toma
valores {r, r + 1, . . . } con probabilidades

k−1 r
P(X = k) = p (1 − p)k−r .
r−1
0.2
E(X) = pr
0.15 V(X) = r 1−p

2
p=0.2, 0.5, 0.8
p
0.1
0.05
0 20 40 60 80 100
Ejercicio
Simular tiempo de espera hasta tener r éxitos en una sucesión X1 , X2, . . . de Bernoullis.
Modelos en cascada
Se trata de modelos organizados en varias etapas, en los que los datos obtenidos en una
etapa se utilizan en la siguiente (como parámetros, por ejemplo).
Dentro de estos modelos están las mixturas de distribuciones: si tenemos densidades

f1(x), f2(x), . . . , formamos la densidad
P
fmixt(x) = p1f1(x) + p2f2(x) + · · · donde pj = 1.
Ilustración
Tenemos una uniforme en [0, 1] y otra en [2, 3]. Paso 1: sorteamos (con p y 1 − p) de
qué distribución extraemos un número. Paso 2: sorteamos un número de la uniforme seleccionada.
Ilustración
Tres escenarios: lateral (probabilidad 90 %), bajista y alcista (5 % a cada). En cada escenario se
sortea una normal (de medias 0, −3 y 2, respectivamente).
Ejercicio
Suma de variables Bernoulli no independientes. Una urna con b bolas blancas y n bolas negras.
Se extrae una bola: si sale blanca, contamos 1 (y 0 en caso contrario). La bola no se vuelve a
colocar en la urna y repetimos el experimento. Finalmente, sumamos los resultados obtenidos.
Ejercicio
Se sortea Y (normal N (0, 1)) y luego se sortea una X , una normal N (Y, 1). Estı́mese P(X < 2)
R∞ −y 2 /2
√
por simulación. Compárese con el valor teórico P(X < 2) = −∞ Φ(2 − y)e / 2πdy .
(Nota: la variable X es Y + Z , donde Y y Z son N (0, 1) independientes).
Ejercicio
Tres niveles.
Una urna contiene 3 bolas (roja, verde y azul). Se extrae una bola. Su color determina cuál es la
siguiente urna (roja, verde o azul) que se va a usar. Las urnas contienen bolas blancas y negras,
en diferentes proporciones.
De la urna elegida se extraen 5 bolas: la proporción blancas/negras observada es el parámetro
de una Bernoulli.
Finalmente, se sortea esa Bernoulli.
Transformación de variables aleatorias
Ya hemos visto una larga lista de modelos aleatorios (valores y probabilidades). En la

práctica, las variables de interés suelen ser transformaciones de estos modelos básicos.
Para “transformar” un modelo, podemos
Cambiar los valores. Es decir, considerar funciones de unas variables aleatorias

básicas. El objetivo es entender cómo es el modelo transformado (página 58).
Generalmente, es muy laborioso obtener toda la información sobre el modelo trans-

formado. Por eso, resulta útil disponer de aproximaciones, bien de las medias, de la
distribución completa, o de los percentiles (página 72 y siguientes).
O bien, aunque suene más extraño, podemos también cambiar las probabilidades.
Un mecanismo que será muy útil en lo sucesivo, del que aquı́ mostraremos dos
ilustraciones (página 83), y sobre el que volveremos más adelante (página 157).
Funciones de variables aleatorias

Habitualmente, hay variables básicas que se modelizan, y variables que dependen de las
básicas. Ası́ que, en muchas ocasiones, tendremos que considerar transformaciones
de variables aleatorias:
Y = h(X)
ր ↑ տ
variable aleatoria función R → R variable aleatoria
O, más generalmente,
Y = h(X1, X2, . . . , Xn) .
Por ejemplo,
Si X es un tipo continuo de plazo T , Y = e−XT es el factor de descuento

correspondiente;
Derivados: X es el valor de un cierto subyacente, Y el de un derivado sobre X. Por
ejemplo, si Y es una call sobre X de strike K,
Y = máx{X − K, 0} .
V es un instrumento que paga flujos c1, . . . , cn en tiempos t1, . . . , tn. Entonces, para
cada t ≤ t1,
Xn
valor de V en tiempo t = cj e−(tj −t) Rj ,
j=1
que es una variable aleatoria que depende de las variables aleatorias (tipos continuos)
R1, . . . , Rn de tiempo t a plazos (t1 − t), (t2 − t), . . .
Capital económico/Basilea:
−1

−ρY + Φ (P D)
porcentaje de incumplimientos en una cartera = Φ p
1 − ρ2
donde Y es una variable normal estándar que recoge el estado de la Economı́a y PD

es la probabilidad de default sin condicionar a la Economı́a.
Simulación y cálculo de medias
Digamos que
Y = h(X) .
X es el modelo que conocemos (disponemos de sus valores y sus probabilidades). Por
su parte, h es una cierta función (que conocemos explı́citamente).
1.- Simulación. Es directa:
Utilizamos el mecanismo que sortea muestras de X para obtener la muestra xj ;

y transformamos, con h, para obtener una muestra de Y : yj = h(xj ).
2.- Cálculo de esperanzas. Supongamos que X toma valores x1, x2, . . . con proba-
bilidades p1, p2, . . . . Entonces, Y = h(X) toma los valores h(x1), h(x2), . . . con las
probabilidades originales. Ası́ que
X
E(h(X)) = h(xj )pj .
j
Algo análogo ocurre en el caso continuo: si fX es la función de densidad de X, entonces

Z ∞
E(Y ) = E(h(X)) = h(x)fX (x)dx .
−∞
De nuevo, las probabilidades (función de densidad) son las de X, aunque los valores
que se integran son los transformados por h. ¡Muy cómodo!
Pero pongámonos más ambiciosos: supongamos que queremos conocer cómo es la

variable Y , sus valores y probabilidades. Si X toma los valores x1, x2, . . . , podrı́a ocurrir
que en la lista de valores transformados h(x1), h(x2 ) . . . hubiera valores repetidos.
Si, por ejemplo, X toma valores −1, 0 y 1 con probabilidades 1/3 cada uno, entonces
Y = X 2 sólo toma valores 0 (con probabilidad 1/3) y 1 (con probabilidad 2/3).
En general, determinar la lista de valores y probabilidades de Y puede ser bastante
complicado, sobre todo si la función h es complicada. En el caso continuo, sólo seremos
capaces de hacer los cálculo explı́citos en determinadas situaciones, especialmente
sencillas. Las analizamos a continuación.
Funciones de distribución y densidad de la variable transformada

Nos centramos en el caso continuo. Disponemos de las funciones de densidad fX y
distribución FX de X. Ahora, Y = h(X).
¿Podemos escribir fY y FY en términos de fX y FX ?
Caso 1.- h es creciente. Esto es, cuando h′ ≥ 0, si es que h es derivable.

h
La función de distribución de Y viene dada por
y
FY (y) = P(Y ≤ y) = P(X ≤ h−1(y)) = FX (h−1(y))
(el dibujo justifica la segunda igualdad). Derivando (y h−1 (y)
aplicando la regla de la cadena), obtenemos la función de

densidad de Y :
d d −1 −1 1
fY (y) = FY (y) = FX (h (y)) = fX (h (y)) ′ −1
dy dy h (h (y))
Si llamamos t = h−1(y), es decir, y = h(t), entonces la relación anterior se puede escribir como
fY (h(t))h′(t) = fX (t), que nos dice que la función de densidad de Y (en el punto transformado h(t)) es la
de X (en el punto original t), reescalada por el valor de la derivada de h en t.
Caso 2.- h es decreciente. Esto es, h′ ≤ 0, si es que h es derivable.

La función de distribución de Y viene dada por h
FY (y) = P(Y ≤ y) = P(X ≥ h−1(y)) = 1−FX (h−1(y)) y
De nuevo, el dibujo justifica la segunda igualdad. Derivan-

h−1 (y)
do, obtenemos
d −1 1
fY (y) = FY (y) = −fX (h (y)) ′ −1
dy h (h (y))
Nótese el cambio de signo.
Si llamamos de nuevo t = h−1 (y), es decir, y = h(t), entonces fY (h(t))h′(t) = −fX (t).
Caso general. Cuando h no tiene propiedades de monotonı́a (creciente o decreciente).
Tendremos entonces que considerar (y argumentar por separado en) las regiones donde
h′ cambia de signo.
Se trata de un cálculo en general muy aparatoso. Lo ilustramos con un ejemplo, que

nos desvelará las dificultades.
Digamos que Y = X 2. Entonces Y <y

✰
FY (y) = P(Y ≤ y)
✣
= P(X 2 ≤ y) −y
|X| < y
y
(
0 si y ≤ 0
= √ √ √ √
P(− y ≤ X ≤ y) = FX ( y) − FX (− y) si y > 0
√ √
1
Y, por tanto, fY (y) = √
2 y fX ( y) + fX (− y) para y > 0.
Un caso especialmente relevante: la distribución lognormal

Sea X es una variable aleatoria normal N (µ, σ) y consideremos
Y = eX .
Se trata de un ejemplo especialmente relevante (X es un rendimiento, Y un valor).

Se dice que la variable Y sigue una lognormal (nombre algo extraño: no es que Y sea
el logaritmo de una normal, sino que ln(Y ) es una normal).
¿Cuál es la función de densidad de una variable lognormal? Supongamos, para empezar,
que X sigue una N (0, 1):
1 −x2/2
fX (x) = √ e .
2π
Como h(x) = ex es una función creciente (h′(x) = ex > 0) y su inversa es h−1(y) =
ln(y) (sólo para y > 0),
1 1
fY (y) = fX (ln(y)) = fX (ln y) (si y > 0).
eln(y) y
Ası́ que
1 −(ln y)2 /2
fY (y) = √ e
y 2π
0.6
0.5
0.4
0.3
0.2
0.1
0 2 4 y 6 8 10
Ejercicio
Compruébese que si X es una N (µ, σ) e Y = eX , entonces
1 2 2
fY (y) = √ e−(ln y−µ) /(2σ )
yσ 2π
Dos cálculos con la (log)normal
Los cálculos a los que nos referimos son los siguientes:
E(eX ) y E([eX − K]+)
donde X es una variable normal con ciertos parámetros y (•)+ es la función “parte
positiva”: (•)+ = máx(•, 0).
Obsérvese que podemos calcular estas dos medias utilizando la función de densidad de la
lognormal, que ya conocemos. Pero aquı́ lo haremos empleando la función de densidad
de la normal.
Primer cálculo: E(eX )
Este primer cálculo se enmarca dentro de los “ajustes de convexidad” que analizamos
en el apartado siguiente.
Supongamos, por ejemplo, que X sigue una N (0, 1).
Obsérvese que E(X) = 0 y V(X) = 1. Uno dirı́a que E(eX ) = E(e0) = 1.

Pero en realidad
Z ∞ Z ∞
X 1 x −x 2
/2 1 1/2 −(x−1)2 /2
E(e ) = √ e e dx = √ e e dx
2π −∞ 2π −∞
Z ∞
1/2 1 −(x−1)2 /2
= e √ e dx = e1/2 .
2π −∞
Unos cálculos análogos, para una X que siga una N (µ, σ), nos conducen a
2
E(eX ) = eµ+σ /2
= eE(X)+V(X)/2
2
2

V(eX ) = e2µ+σ eσ −1
Ejercicio
Pruébense las dos identidades anteriores.
Segundo cálculo: E([eY − K]+)
Aquı́, Y es una N (A, B), ası́ que
E([eY − K]+ ) = E([eAeBX − K]+ ),
donde X sigue una N (0, 1).
Este cálculo aparecerá en diversos contextos. Como ilustración, digamos que, en el modelo de Black-Scholes, se
postula que el valor de un activo en tiempo T viene dado por
√
(r−σ 2 /2)T σ TX
ST = S0 e e ,
donde X ∼ N (0, 1). Entonces

+ −rT
E [ST − K] e
serı́a el precio (descontado con el tipo r ) de una call europea con strike K y con vencimiento T . (Es la fórmula
de Black-Scholes).
2 √
En la notación de arriba, eA serı́a S0 e(r−σ /2)T , mientras que B = σ T .
Tenemos que calcular

Z ∞
2 dx
E([e e A BX
− K] ) = +
[eAeBx − K]+e−x /2
√
−∞ 2π
Para “quitar” la parte positiva, determinamos para qué valores de x no se anula esa
función:
−A 1
A Bx
e e −K ≥0 =⇒ eBx
≥Ke =⇒ x ≥ ln(K e−A )
|B {z }
≡C
Y ası́, la integral anterior queda

Z ∞ Z ∞ ∞ Z
−x2 /2 dx Bx −x2 /2 dx 2 dx
= A Bx
[e e − K]e √ =e A
e e √ −K e−x /2 √ .
C 2π |C {z 2π} |C {z 2π}
I1 I2
La integral I2 es, simplemente, 1−Φ(C) = Φ(−C), donde Φ es la función de distribución

de la normal estándar. La primera integral requiere algo más.
x2
El truco habitual es “completar cuadrados”. Reescribimos el exponente como Bx − 2
2
como − 12 (x − B)2 + B2 , y la integral queda
Z ∞ Z ∞
2
/2 dx 2 dx2
eBx−x √ = eB /2 e−(x−B) √ /2
C 2π C 2π
Z ∞
z=x−B 2
B /2 −z 2 /2 dz B 2 /2
= e e √ =e Φ(B − C) .
C−B 2π
Reuniéndolo todo,
A BX + A B 2 /2
E([e e − K] ) = e e Φ(B − C) − K Φ(−C)
Ejercicio
Fórmula de Black-Scholes para la call. Compruébese que, si ST es como en la página 69,

+ −rT −rT 1 S 0 1 √
E [ST −K] e = S0 Φ(d+)−Ke Φ(d− ) , con d± = √ ln −rT
± σ T
σ T Ke 2
Aproximación de transformaciones
de variables aleatorias
Ya hemos visto cuán aparatoso es obtener información sobre una variable aleatoria
Y = h(X) a partir de la información del modelo X y del conocimiento de la función h.
Por eso, es conveniente disponer de aproximaciones que nos proporcionen información
parcial, no exacta, pero fácilmente calculable, sobre ciertas caracterı́sticas de Y :
podemos, por ejemplo, interesarnos por la media de Y = h(X). En particular, por la

relación entre el valor de esa media, E(h(X)) (la media de la función) y la cantidad
h(E(X)) (la función de la media). Véase la página 73.
Aunque también, más ambiciosos, podemos aproximar la distribución completa de
Y = h(X) con combinaciones de la distribución de X y de ciertas transformaciones
sencillas de ella. Muy en plan serie de Taylor, véase la página 77.
Por último, para ciertos cálculos (por ejemplo, en riesgos), lo relevante es conocer
percentiles de una cierta variable aleatoria X. Resulta cómodo calcular estos
percentiles (aproximadamente) en términos de percentiles de la normal. Véase la
página 81.
Aproximando medias: ajustes de convexidad
Consideremos unas variables aleatorias X e Y = h(X), donde h es cierta función.

Queremos entender la relación entre E(h(X)) y h(E(X)).
Ejemplo 1. Ya hemos visto que si X es una N (µ, σ), la media de eX no es eE(X) = eµ,
como uno esperarı́a, sino que
ajuste de convexidad
z }| {
2
−σ 2 /2
E(eX ) = eµ+σ /2
. En otras palabras, E(eX ) = eµ .
Ejemplo 2. Digamos que X toma los valores ±σ, cada uno con probabilidad 1/2.
Nótese que E(X) = 0 y V(X) = σ 2 . Consideramos de nuevo la variable Y = eX , que
toma valores eσ y e−σ , con probabilidad 1/2. Su media no es eE(X) = 1, sino que
ajuste
e +e σ −σ z }| {
X X−ln(cosh(σ))
E(Y ) = E(e ) = = cosh(σ) es decir, E e = 1.
2
Si la función h es convexa, disponemos de una relación general:
Desigualdad de Jensen: si h es convexa, entonces E(h(X)) ≥ h(E(X))
Nota
Convexidad. Una función h es convexa si,
como se muestra en el dibujo, la gráfica de
h(x2 )
la función queda por debajo de la recta que
ph(x1)+(1−p)h(x2)
une cada dos puntos. Es decir, si h(px1 +(1−p)x2)
h(x1 )
p h(x1 )+(1−p) h(x2) ≥ h(px1+(1−p)x2 )
x1 x
De donde se deduce la desigualdad de Jensen px1 +(1−p)x2 2
X X
h( pi xi ) ≤ pih(xi )
i i
Si la función h tiene derivadas, entonces la condición de convexidad es, simplemente, h′′(x) ≥ 0.
Ejemplo 3. X es el tipo simple a 1 año, e Y es el factor de descuento correspondiente:

✻
1 1
Y = .
1+X 1
1+x
✲
Entonces, si E(X) = x0 y E(Y ) = y0,
1
y0 ≥ .
1 + x0
Aproximación de medias. Sea X de media E(X) = µ y varianza V(X) = σ 2 .

Consideremos Y = h(X). Desarrollamos h(x) en serie de Taylor en torno a x = µ:
′ h′′(µ)
h(x) = h(µ) + h (µ) (x − µ) + (x − µ)2 + · · ·
2!
Entonces, en términos de las variables aleatorias, y tomando medias,
h′′(E(X))
′ 2

E(h(X)) = h(E(X)) + h (E(X)) E(X − µ) + E (X − µ) + · · ·
| {z } 2 | {z }
=0 =V(X)
Esto es,
h′′(µ) 2
E(h(X)) − h(µ) = σ + ···
2!
Es decir, la diferencia entre E(h(X)) y h(E(X)) viene controlada, en primera aproxi-

mación, por la varianza de X.
Ejercicio
Utilizar la aproximación anterior para el caso en que Y = 1/(1 + X).
Aproximando toda la distribución: aproximación Delta-Gamma

Se trata de una aproximación muy habitual en riesgos y cobertura.
Partimos de una variable X que registra los valores que toma un cierto instrumento (y
con qué probabilidades). Tiene media E(X) = µ.
El valor de un cierto derivado (su valor se “deriva” del valor del instrumento anterior)
viene dado por h(X). La función h puede ser muy complicada (y habitualmente no es
una función lineal).
Podemos aproximar (por ejemplo en torno a µ) la variable h(X) linealmente (aproxi-
mación delta):
h(X) − h(µ) ≈ h′(µ) (X − µ)
O quizás hasta orden cuadrático (aproximación delta-gamma):
′h′′(µ)
h(X) − h(µ) ≈ h (µ) (X − µ) + (X − µ)2
2
Si, por ejemplo, X sigue una normal N (µ, σ),
h(X) − h(µ) ≈ h′(µ) (X − µ)

| {z }
una variable N (0, σ)
es decir, h(X) es una normal de media h(µ) y desviación tı́pica h′(µ) σ.

O, con más precisión,
′ h′′(µ)
h(X) − h(µ) ≈ h (µ) (X − µ) + (X − µ)2 .
| {z } 2 | {z }
una variable N (0, σ) el cuadrado de una normal
lo que supone que aproximamos h(X) como la suma de una normal y una normal al
cuadrado.
Ilustración
Supongamos que X sigue una normal N (0, σ) y que Y = eX . Compárese el histograma de

eX con los de las sucesivas aproximaciones 1 + X , 1 + X + X 2 /2, 1 + X + X 2 /2 + X 3 /6,
1 + X + X 2/2 + X 3/6 + X 4/24, etc. Obsérvese el papel del valor de σ .
Un ejemplo con la fórmula de Black-Scholes

X es el valor de un cierto activo (el subyacente). BS(X) es el precio dado por la
fórmula de Black-Scholes de una call (con cierto strike y vencimiento) sobre ese activo:
BS(X) = X · Φ (d+) − Ke−RT Φ (d−)
donde σ es la volatilidad implı́cita (anual), T es el vencimiento, K el strike y R el tipo

de interés (anual), Φ es la función de distribución de la normal estándar y
2

ln X K + R ± (σ /2) T
d± = √
σ T
Supongamos que T = 1 año, K = 130, σ = 35 % y R = 3 %. El valor del activo

subyacente hoy es X0 = 100, lo que nos da el valor de la call: BS(100) = 5.9178.
Queremos conocer el precio de la call “mañana”. Si suponemos que todos los demás
datos permanecen invariables (¡incluido el tiempo a vencimiento!), este precio sólo
depende del valor X1 del activo subyacente mañana: será BS(X1). X1 es una variable
aleatoria, y por tanto BS(X1) también.
Vamos a suponer que la variación de valor (en un dı́a) del activo sigue una normal:
X1 − X0 p
∼ N (0, σdiaria) , donde σdiaria = σ × 1/255.
X0
La correspondiente variación de precio de la call, BS(XBS

1 )−BS(X0 )
(X0 ) , una variable aleatoria
que no es una normal (tiene una cola gruesa hacia la derecha). Podemos aproximar el
valor de la opción mediante el desarrollo de Taylor
de primer orden: BS(X1) − BS(X0) ≈ ∆(X1 − X0);
Γ
o de segundo orden: BS(X1) − BS(X0) ≈ ∆(X1 − X0) + (X1 − X0)2 .
2
En este caso, disponemos de fórmulas explı́citas para ∆ y Γ:
∂BS(X) ∂ 2BS(X) Φ′(d+)
∆= = Φ(d+) y Γ= 2
= √ .
∂X ∂X σX T
Ilustración
Compárense los histogramas (de variación de valor de la opción) obtenidos con la fórmula de BS y
con aproximaciones Delta y Delta-Gamma. Para los datos anteriores, ∆ = 0.3125 y Γ = 0.0101.
Aproximación de percentiles
Tenemos una variable aleatoria X, con función de distribución F y función de densidad f .

Nuestro objetivo es escribir un percentil F −1(α) en términos del percentil Φ−1 (α) de la
distribución normal estándar y, quizás, algunos momentos de la variable X.
Digamos que X tiene media E(X) = 0 y varianza V(X) = 1. Los primeros términos
de este desarrollo (de Cornish-Fisher) son
h Φ−1 (α)2 − 1 i
−1 −1
F (α) = Φ (α) + × skewness
6
h Φ−1(α)3 − 3Φ−1 (α) i
+ × exceso de kurtosis + · · ·
24
Nota. Si X tiene media µ y varianza σ 2 , se procede de la siguiente manera: 1) consideramos la variable

X ∗ = (X − µ)/σ , que ya tiene media 0 y varianza 1; 2) sus momentos centrales vienen dados por µ∗r = µr /σ r
(por tanto, skewness∗ = skewness y kurtosis∗ = kurtosis); 3) se calcula el percentil x∗ de X ∗ con la fórmula
anterior; 4) el percentil x de X viene dado por x = σx∗ + µ.
Ilustración
Calcular percentiles con esta aproximación en distribuciones conocidas: N (µ, σ), Exp(λ),
lognormal, etc.; comparar con los valores obtenidos analı́ticamente.
Ilustración
Repetir el ejercicio con una serie de datos.
Ilustración
Supongamos que los rendimientos de una cartera tienen media µ = −0.2 % y desviación tı́pica
σ = −2.2 %. Calcúlese el percentil 1 % si suponemos que los rendimientos siguen una normal con
esos parámetros. Ajústese ese percentil si asumimos que hay un skewness de −0.4 %.
Cambio de probabilidad, primera parte

En la sección anterior hemos transformado variables cambiando los valores. Si, por
ejemplo, X toma valores x1, x2, . . . con probabilidades p1, p2, . . . y llamamos yj = h(xj ),
X x1 p2 Y = h(X) h(x1 ) p2
.. .. ✲
.. ..
. . . .
xn pn h(xn ) pn
x1 x2x3 x4 x5 y1 y2 y3 y4 y5
Pero también podrı́amos cambiar las probabilidades. Es

decir, tomar un nuevo juego de probabilidades q1, q2, . . . y X Y
considerar la variable Y que toma valores xj con probabilida- x1 p2 x1 q2
.. .. ✲ .. ..
des qj . Aunque claro, si queremos cambiar las probabilidades . . . .
xn pn xn qn
de manera que las medias se conserven, ¡habrá que cambiar
también los valores!. Todo esto parece raro, pero. . .
El cambio de probabilidad
La idea es bien sencilla y general: de una cierta variable aleatoria X nos interesa calcular
la media, X
E(X) = xi pi .
i
Pero, por alguna razón, este cálculo no es fácil de hacer. Sin embargo, dados unos
número ϕ1, ϕ2, . . . , todos positivos, resulta que sı́ sabemos calcular E(X) a través de
X xi
· |pi{zϕi}
i
ϕi
|{z}
nuevos valores nuevas
probs
Eso sı́, si queremos interpretar lo de la derecha como “nuevas probabilidades”, deberemos

exigir que X
pi ϕi = 1.
i
Añadimos un poco de notación: los números p1, p2, . . . conforman la probabilidad P,

mientras que los números q1, q2, . . . dados por qi = pi ·ϕi forman una nueva probabilidad,
que llamaremos Q. El cálculo original de la media se hace con las probabilidades pi,
ası́ que lo denotaremos como X
EP(X) = xi pi.
i
Pero esa misma cantidad se puede escribir como
X xi
EP(X) = qi, a la que simbólicamente nos referiremos como EQ(X/ϕ).
i
ϕ i
En la otra dirección, si queremos calcular

X X
EQ(X) = xi qi = xi ϕi pi , que nombrarı́amos como EP(X · ϕ).
i i
Estas relaciones nos dicen, simplemente, que podemos calcular EP(X) haciendo prome-
dios, con Q, de otra variable aleatoria (la variable X/ϕ).
O alternativamente, que podemos calcular EQ(X) haciendo promedios, con P, de otra
variable aleatoria (la variable X · ϕ).
El cambio de probabilidad, en un lenguaje más general

Nos ponemos en un marco abstracto. En un experimento aleatorio se producen “resul-
tados” ω. Podrı́an ser números del 1 al 6 (si fuera un dado), números reales. . .
Hay una probabilidad para cada de cada uno de estos resultados, que representamos
simbólicamente por dP(ω) (puede ser directamente la probabilidad de que salga ω, o
quizás una función de densidad).
Una variable aleatoria X asocia, a cada ω, un número X(ω). Su media se calcula
mediante
Z X
EP(X) = X(ω)dP(ω) (en el caso discreto serı́a EP(X) = X(ωj )P(ωj )) .
j
Ahora tomamos una función ϕ > 0 y definimos una nueva medida de probabilidad dQ:
dQ
dQ(ω) = ϕ(ω)dP(ω); o, simbólicamente, ϕ =
dP
ϕ es el diccionario entre P y Q. Allá donde Q asigne más probabilidad que P,
tendremos ϕ > 1 (y ϕ < 1 en caso contrario).
Para que todo funcione, es decir, para que dQ sea una verdadera medida de probabilidad,
la función ϕ deberá cumplir que
Z Z
1= dQ(ω) = ϕ(ω)dP(ω)
Es decir, EP(ϕ) = 1. Comparemos cómo se calculan medias de una variable aleatoria

X con una u otra probabilidad. Primero, cómo se pasa de P a Q:
Z Z Z dP
dQ(ω) dP(ω)
EP(X) = X(ω)dP(ω) = X(ω) = X(ω) dQ(ω) = EQ X
ϕ(ω) dQ(ω) dQ
Es un promedio, con la nueva Q, de una variable aleatoria distinta. Y de Q a P:
Z Z Z dQ
dQ(ω)
EQ(X) = X(ω)dQ(ω) = X(ω)ϕ(ω)dP(ω) = X(ω) dP(ω) = EP X
dP(ω) dP
Una aplicación: muestreo por importancia
Más adelante tendremos ocasión de descubrir diversos contextos donde es útil aplicar
este truco. Pero veamos ahora unos cuantos ejemplos en los que estamos interesados
en calcular una media por simulación.
Ejemplo 1. La variable X toma el valor 1 con probabilidad p, y el 0 con probabilidad

1 − p. La media es, claro, E(X) = p. Pero queremos estimarla por simulación.
Digamos que p es muy pequeño; por ejemplo, p = 10−6. Si sorteamos 1000 muestras de
X y hacemos la media aritmética de los resultados,casi con toda seguridad obtendremos
1000 ceros. ¡Y nuestra estimación de la media de X serı́a 0!
Si p fuera 10−3, entonces, en 1000 muestras de X aparecerán, o bien ningún 1 (y la

media serı́a 0), o bien un 1 (estimación correcta: media 10−3 ), o quizás 2 (obtendrı́amos
2/1000). . . Demasiada variabilidad, en todo caso.
Vamos a diseñar un mecanismo de simulación alternativo: lanzamos monedas, pero

ahora con probabilidad q = 50 %. En la notación general, el cambio de probabilidad es
ϕ = q/p = 500.
Pero ahora, en lugar de registrar 0 ó 1 (los valores de X), registramos ahora 0 ó 1/500
(los valores de X/ϕ).
Ilustración
Estimar EP (X) con los dos procedimientos.
Ejemplo 2. Lanzamos 30 veces una moneda equilibrada (p = 50 %). Los resultados

del experimento son listas ω = (x1, . . . , x30), donde cada xj = ±1. La probabilidad
“natural” P asocia, a cada lista, una probabilidad 1/230.
Ahora apostamos a los resultados de la moneda. Apostamos 1 a que sale cara (+1) en
la primera, y en las demás vamos doblando nuestra apuesta (siempre a cara), si tenemos
dinero para hacerlo. El resultado de nuestra estrategia es la variable aleatoria
Y (ω) = (1 + x1) × (1 + x2) × · · · × (1 + x30) ,
que vale 0 en cuanto alguna de las xj sea −1 (en cuanto salga una cruz), y vale 230 en
caso contrario. El pago de 230 se produce con probabilidad 1/230. Luego EP(Y ) = 1.
Queremos obtener este valor medio por simulación. Sorteamos en Excel los 30 lanza-
mientos de moneda, que nos dan un valor de Y . Esto lo repetimos, digamos, 5000
veces, y promediamos estos resultados. Ası́ obtendremos, casi con toda seguridad, un
promedio de 0 (porque las simulaciones con pago no nulo no van a aparecer “nunca”).
El esquema de simulación no está bien adaptado a nuestro problema.
Cambiemos de probabilidad. Digamos que el valor +1 se toma ahora con probabilidad

q = 95 %. Esto da lugar a una nueva asignación de probabilidades Q en la que cada
lista ω = (x1, . . . , x30) tiene probabilidad
q #{xj = +1} × (1 − q)#{xj = −1} .
Simular con esta nueva Q es sencillo. El “cambio de probabilidad”, sin embargo, es más
aparatoso, pues en cada lista ω = (x1, . . . , x30) tiene un valor distinto:
dP 1/230
ϕ(ω) = (ω) = #{x = +1} #{x = −1}
.
dQ q j (1 − q) j
Pero recordemos que pretendemos calcular EP(Y ) por simulación. Ahora, la probabilidad
de obtener pagos no nulos (es decir, 30 unos seguidos) ya es apreciable; en concreto, es
q 30 = 21.46 %.
Es decir, con la nueva probabilidad Q,

0 con probabilidad 1 − q 30 = 78.53 %,
Y =
230 con probabilidad q 30 = 21.46 %.
Pero no es el promedio con Q de Y el que hay que hacer, sino el promedio de una
variación de Y . En concreto, de
(
0 con probabilidad 1 − q 30,
Z = Y /ϕ = 30 1/2
30
30
2 q 30 con probabilidad q
(obsérvese que sólo hemos tenido que calcular ϕ para la lista de los 30 unos).
Simbólicamente, hemos aplicado de nuevo la receta
dP
EP(Y ) = EQ(Z) = EQ Y .
dQ
Ilustración
Calcúlese EP (Y ) por simulación con este procedimiento.
Ejemplo 3 (una opción tipo put muy fuera de dinero). En nuestro modelo,
√
(r−σ 2 /2)T σ TX
ST = S0 e e , donde X ∼ N (0, 1).
Datos: S0 = 100, r = 5 %, σ = 10 % y T = 1 año. Un derivado Y paga

0 si ST /S0 > 75 %;
Y = h(X) =
h1(X) si ST /S0 < 75 %,
donde h1(x) es una cierta función. Obsérvese que ST /S0 < 75 % (que es cuando se
producen pagos no nulos) es equivalente a que
− ln(75 %) − (r − σ 2/2)
X< = −3.3268 . . .
σ
Calculamos el valor medio (sin descontar) del pago de la opción por simulación:
sorteamos valores de X, comprobamos si ST /S0 < 75 % y obtenemos el pago de la
opción. Esto lo repetimos muchas veces y promediamos los resultados. Pero, claro, sólo
tendremos pagos no nulos cuando obtengamos muestras de X que sean menores que
−3.3268 . . . Y esto, a priori, tiene probabilidad Φ(−3.3268 . . . ) = 0.0439 %. En 1000
simulaciones esperamos obtener 0, 1, quizás 2, valores no nulos. Demasiada variabilidad.
¿Qué hacemos?
Vamos a cambiar la probabilidad de manera que se muestree “más veces” la zona de
interés. Por ejemplo,
modelo original nuevo modelo
multiplicamos por 20 multiplicamos por a
−3, 3268 . . . −3, 3268 . . .
En la nomenclatura habitual, hemos cambiado a una nueva probabilidad dQ(x) =

ϕ(x)dP(x), donde ϕ(x) = 20 si x < −3.3268 . . . y ϕ(x) = a en caso contrario. El valor
de a se obtiene exigiendo que el área total sea 1. Es decir,
Z ∞ Z ∞ −x2 /2
e
1 = EP(ϕ(X)) = ϕ(x)dP(x) = ϕ(x) √ dx
−∞ −∞ 2π
= 20 Φ(−3.3268 . . . ) + a(1 − Φ(−3.3268 . . . )) ,
que nos dice que a = 0.9916513 . . .
Pero, ¡atención!, ahora

Z Z h(X)
1
EP(h(X)) = h(x)dP(x) = h(x) dQ(x) = EQ
ϕ(x) ϕ(X)
Ası́ que podemos promediar con Q, pero los valores son h(x)/ϕ(x).
Ilustración
Impleméntese en Excel este procedimiento de simulación. ¡Obsérvese que el “nuevo modelo” ya no
es una normal! ¿Cómo nos las apañamos para sortear de él? Aplı́quese al cálculo del precio de la
opción en la que h1(x) = 15, cuyo valor podemos calcular analı́ticamente:
Z 2 Z 2
e−x /2∞ −3,33
e−x /2
EP (h(X)) = h(x) √ dx = 15 √ dx = 15 Φ(−3.3268) ≈ 0.006588
−∞ 2π −∞ 2π
Ejercicio
Impleméntese en Excel el procedimiento de simulación para otro posible cambio de probabilidad.
Por ejemplo, que el nuevo modelo sea una normal de media cercana al strike de la put; por ejemplo,
que la media sea el propio valor −3.3268.
2. Interludio: Álgebra matricial
Para la manipulación y la simulación a partir de modelos multidimensionales, será ne-

cesario contar con una serie de funciones matriciales en Excel. Algunas de ellas están
incluidas como funciones de Excel, pero otras forman parte de los paquetes:
matrix.xla
(disponible en http://digilander.libero.it/foxes/SoftwareDownload.htm)
poptools (disponible en http://www.cse.csiro.au/poptools/)
Las funciones matriciales requieren una escritura especial:
se escribe la función en la celda superior izquierda del rango a la que afecte;

se selecciona el rango deseado;
se presiona F2;
se presionan, simultáneamente, las teclas Ctrl, ↑ y Enter.
Matrices y vectores
Los objetos que vamos a manejar en estas sesiones son las matrices (rectangulares) de
dimensiones m × n, disposiciones ordenadas de m × n números:
 
a11 a12 · · · a1n
 a21 a22 · · · a2n  m filas y n columnas
A=  .. .. ... 
..  el elemento aij está en la fila i y en la columna j
am1 am2 · · · amn
Los casos que más nos interesarán serán

   
a11 a12 · · · a1n v1
 a21 a22 · · · a2n   v2 
A=  .. .. ... ..  v= 
 ..  v = (v1, v2, . . . , vn)
an1 an2 · · · ann vn
matrices cuadradas n × n vectores columna n × 1 vectores fila 1 × n
Unos casos particulares de matrices cuadradas:

 
    a11 a12 · · · a1,n−1 a1n
1 0 ··· 0 d11 0 ··· 0  
 0  0 a22 · · · a2,n−1 a2,n 
1 ··· 0   0 d22 ··· 0   
In = 
 ... .. ... ..  D=
 ... .. ... ..  A= 0 0 a33 ··· a3,n 
. .  . .   .. .. .. ... .. 
 . . . . 
0 0 ··· 1 0 0 ··· dnn
0 0 ··· 0 ann
matriz identidad n × n matriz diagonal n × n matriz triangular superior
(y la definición análoga para triangular inferior).
La traspuesta AT de una matriz A de dimensiones m × n es la matriz de dimensiones

n × m que se obtiene al intercambiar filas por columnas:
   
a11 a12 ··· a1n a11 a21 ··· am1
 a21 a22 ··· a2n   a12 a22 ··· am2 
A=
 ... ... ... ...  −→ A = 
 T
 ... ... ... ... 

am1 am2 ··· amn a1n a2n ··· amn
La matriz A (cuadrada) es simétrica si AT = A. Esto es, si aij = aji para todo i 6= j.
Suma de matrices
No hay sorpresas: debemos sumar objetos del mismo tipo (matrices de idénticas
dimensiones). Si A y B son matrices m × n, los elementos (entradas, registros) de la
matriz C = A + B (que tiene también dimensiones m × n) vienen dados por
cij = aij + bij para cada i, j.
Al multiplicar una matriz A por un número λ obtenemos una matriz C = λA cuyos

registros vienen dados por
cij = λaij para cada i, j.
Con las propiedades habituales:
A + B = B + A (conmutativa);
λ(A + B) = λA + λB;
etc.
Producto de matrices
Ahora debemos tener cuidado, porque no siempre podemos multiplicar dos matrices.
Dada una matriz A de dimensiones m × n, para definir el producto AB, la matriz B
debe ser de dimensiones n × p. En ese caso, el resultado C = AB es una matriz m × p
cuyas entradas son
n
X
cij = aik bkj para cada i = 1, . . . , m, j = 1, . . . , p.
k=1
Por ejemplo,
 
 1 0  
1 3 5 1  2 1  22 0
 −1 0 3 1     8 −1 
 3 −1  =
2 3 4 1 20 1
0 2
A es 3 × 4 B es 4 × 2 C es 3 × 2
No podrı́amos definir, en este ejemplo, el producto BA.
Pero incluso cuando tanto AB como BA estén definidos (como, por ejemplo, cuando
ambas son matrices cuadradas n × n), los resultados no tienen por qué coincidir (el
producto de matrices no es conmutativo). Por ejemplo,

1 01 −1 1 −1
=
2 23 0 8 2

1 −1 1 0 −1 −2
=
3 0 2 2 3 0
Si partimos de una matriz A de dimensiones n × n y un vector v de dimensiones n × 1

(columna), podemos definir
    Pn 
a11 a12 · · · a1n v1 j=1 a1j vj
 a21 a22 · · · a2n   v2   Pn 
 . . .  . =
 j=1 a2j vj 

 . . . .. .  .   .. 
Pn
an1 an2 · · · ann vn j=1 anj vj
Obsérvese que no obtenemos lo mismo al multiplicar

 
a11 a12 · · · a1n  
Xn Xn Xn
 a21 a22 · · · a2n 
(v1, v2, . . . , vn) 
 .. .. ... .. 
=
 aj1vj , aj2vj , · · · , ajnvj 
j=1 j=1 j=1
an1 an2 · · · ann
sino cuando transponemos la matriz A:

 
a11 a21 · · · an1  
Xn Xn Xn
 a12 a22 · · · an2 
(v1, v2, . . . , vn) 
 .. .. ... .. 
=
 a1j vj , a2j vj , · · · , anj vj 
j=1 j=1 j=1
a1n a2n · · · ann
Es decir,
si Av = b, entonces bT = (Av)T = vTAT
Ésta es una regla general:

(AB)T = BTAT
Producto escalar de vectores

Es, en realidad, un caso particular del producto de matrices, pero tiene un significado
propio sobre el que merece la pena reflexionar.
Partimos de dos vectores (columna) u y v de dimensiones n × 1. Su producto escalar
es el número  
v1
Xn
 
v2 
uTv = (u1, u2, . . . , un) 
 ..  = uj vj
j=1
vn
Obsérvese que esta operación sı́ es conmutativa: obtenemos el mismo resultado al
multiplicar vTu.
En Excel, podemos utilizar
la instrucción sumaproducto (para lo que ambos deberán ser vectores fila, o vectores
columna);
o bien la instrucción matricial mmult (o bien m prod, del paquete Matrix.xla), pero
entonces habrá que multiplicarlos en el orden correcto.
Esto ya lo hemos usado, por ejemplo, cuando calculábamos la media de una variable alea-
toria X que tomaba valores x = (x1, x2, . . . , xn) con probabilidades p = (p1, p2, . . . , pn):
   
p1 x1
n
X  p2   x2 
E(X) = T  
xj pj = x p = (x1, x2, . . . , xn)  .  = p x = (p1, p2, . . . , pn) 
T
 .. 
.
.
j=1
pn xn
Si uTv = 0, decimos que los vectores u y v son perpendiculares (ortogonales).
Obsérvese que cuando multiplicamos escalarmente un vector u por sı́ mismo, obtenemos
n
X
uTu = u2j = kuk2 ,
j=1
la longitud (al cuadrado) del vector.
Inversa de una matriz

Dada una matriz cuadrada A de dimensiones n × n, definimos su inversa A−1 como la
matriz n × n para la que
AA−1 = In
Si la matriz A−1 existe, entonces AA−1 = A−1A = In.

Pero no toda matriz cuadrada tiene inversa. Por ejemplo, dada

1 0
A=
0 0
la matriz inversa deberı́a cumplir que

1 0 a b 1 0
=
0 0 c d 0 1
Y no hay valores a, b, c, d que cumplan lo anterior.

Nota: una matriz cuadrada A tiene inversa si y sólo si det(A) 6= 0.
Apliquémoslo a la resolución de un sistema de ecuaciones lineales. Buscamos números

x, y, z tales que 
 3x + 2y + 5z = 3
x − 2y + z = 1

2x + 2y − z = 5
Lo que, escrito en términos matriciales, es
    
3 2 5 x 3
 1 −1 1   y = 1  =⇒ Ax = b
2 2 −1 z 5
| {z }| {z } | {z }
=A =x =b
Si A tiene inversa, entonces, multiplicando por A−1,
−1 −1
|A {z A} x = A b =⇒ x = A−1b
=In
y la solución es, directamente, A−1b. Nota: el cálculo de la matriz inversa no es el

mejor método (computacionalmente) para resolver sistemas.
Ilustración
Cálculo de carteras replicantes
De un cierto subyacente se sabe que mañana puede alcanzar siete niveles de precio: 70, 80, 90,
100, 110, 120 y 130. Éstos son los siete escenarios posibles.
Una opción paga, en cada una de los escenarios, 30, 20, 10, 0, 0, 10 y 20, respectivamente.
Queremos formar una cartera que replique esos posibles pagos. Para ello disponemos de 6 calls
de strikes diversos, además de dinero (con un tipo de interés R).
Ilustración
Ahora sólo disponemos de cinco instrumentos para la replicación. Por ejemplo, dinero y las cuatro
calls de menores strikes. Ahora no podremos hacer una replicación exacta. Obtener la cartera “más
cercana” a la opción en el sentido de los mı́nimos cuadrados (usando el solver).
Resolución matricial del problema de mı́nimos cuadrados. Seguimos en el contexto anterior: la opción u con siete pagos
posibles. Ahora sólo disponemos, digamos, de tres instrumentos x, y, z para formar nuestra cartera. Buscamos
ũ = αx + β y + γ z
tal que kũ − uk sea mı́nima.
2 T
kũ − uk = (αx + β y + γ z − u) (αx + β y + γ z − u)
2 2 2 2 2 2 2
= α kxk + β kyk + γ kzk + kuk
T T T T T T
+2αβ x y + 2αγ x z + 2βγ y z − 2αx u − 2β y u − 2γ z u
Ahora hallamos los valores de α, β, γ que hacen que esa cantidad sea mı́nima:
∂ 2 T T T
0= kũ − uk = 2αkxk + 2β x y + 2γ x z − 2x u
∂α
Y las derivadas análogas con respecto a β y γ . Reuniendo la información en forma matricial, deducimos que α, β, γ son
solución de     
2 T T T
kxk xy xz α xu
 T 2 T   
 xy kyk yz  β  =  yTu 
xTz yTz kzk2 γ zT u
Y sólo hay que invertir la matriz de la izquierda para hallar la solución.
Nótese que si x, y, z son perpendiculares y de longitud 1, entonces la matriz de la izquierda es la identidad (y la solución
viene dada directamente por los productos escalares de los x, y, z con u).
Matrices especiales
Por un lado, tenemos las matrices simétricas:
AT = A
Por otro, son muy relevantes las matrices ortogonales, las que cumplen que
AT = A−1 , esto es, AAT = ATA = In .
Obsérvese que esto supone que las columnas de A son de longitud 1, y perpendiculares
dos a dos.
(Además el determinante de A es ±1).
Descomposición de Cholesky
La utilizaremos para simular variables aleatorias (normales) con cierta correlación.
Si A es una matriz simétrica y definida positiva, entonces se puede escribir como
A = CCT ,
donde C es una matriz triangular inferior.
¿Qué significa ser “definida positiva”. Veremos los detalles en la página 188. Definición provisional: una matriz (simétrica)
A es definida positiva si, al calcular la matriz C de Cholesky (con la función MCholesky del matrix.xla) y multiplicar CCT ,
recuperamos la matriz A. Las matrices de covarianza (y de correlación) son simétricas y definidas positivas.
¿Cómo se calcula C? Resolviendo un sistema de ecuaciones (especialmente sencillo).

Veamos el caso de una matriz 3 × 3, que ya nos da una idea:
 
A B C
A= B D E 
C E F
Buscamos una matriz C (triangular inferior) tal que

    
a 0 0 a b c A B C
 b d 0  0 d e  =  B D E 
c e f 0 0 f C E F
De donde deducimos, primero, que

 2
A=a 
B = ab −→ a, b, c

C = ac
Y luego
2 2
D =b +d
−→ d, e
E = bc + de
Finalmente,
F = c2 + e2 + f 2 −→ f
Se trata, como se puede apreciar, de un procedimiento recursivo y rápido que está incor-
porado en los paquetes matemáticos habituales (por ejemplo, en el matrix.xla) para
el caso general de matrices n × n.
Lista de funciones matriciales útiles

En azul, funciones de matrix.xla (versión 2.3).
Suma de matrices Directamente en Excel. Por ejemplo: A1:B20+A1:B20

Producto por escalares Directamente en Excel. Por ejemplo: C3*A1:B20
Transpuesta transponer, MT
Producto de matrices mmult, MProd
Potencia de una matriz MPow
Rango de una matriz MRank
Producto escalar de vectores sumaproducto, ProdScal
Producto vectorial de vectores ProdVect
Inversa de una matriz minversa, MInv
Determinante de una matriz MDet
Matriz de Cholesky MCholesky
3. Modelos multidimensionales y simulación
Varias variables aleatorias
Vamos ahora a considerar dos variables aleatorias, X e Y , que toman valores x1, . . . , xn
e y1, . . . , ym, respectivamente, con ciertas probabilidades.
Pero ahora nos interesa considerarlas conjuntamente, como un “vector” (X, Y ). La
información por separado no basta, y deberemos prescribir las probabilidades conjuntas
P(X = xj , Y = yk ), que recogemos en la tabla siguiente:
x1 x2 ··· xn
y1 ··· → P(Y = y1)
y2 P(X = x2 , Y = y2 ) ··· → P(Y = y2)
... ...
ym ··· → P(Y = ym)
↓ ↓ ··· ↓
P(X = x1) P(X = x2 ) ··· P(X = xn)
Estos números P(X = xj , Y = yk ) deben ser no negativos, y su suma (la suma de

todas las entradas de la tabla) debe ser 1.
En el dibujo, a la derecha y debajo de la tabla, hemos sumado por filas y columnas para
obtener las “marginales” de X e Y :
m
X n
X
P(X = xj ) = P(X = xj , Y = yk ) y P(Y = yk ) = P(X = xj , Y = yk )
k=1 j=1
Nótese que, en general, esta información “marginal” no basta para recuperar la tabla.
Aunque sı́ en un caso muy especial, a saber, cuando X e Y son independientes, porque
en este caso, las probabilidades conjuntas se obtienen multiplicando las marginales
correspondientes:
P(X = xj , Y = yk ) = P(X = xj )P(Y = yk ) .
Si tenemos una variable aleatoria Z = h(X, Y ), donde h es cierta función, su media se

calcula de la siguiente manera:
n X
X m
E(h(X, Y )) = h(xj , yk ) P(X = xj , Y = yk ).
j=1 k=1
En los modelos continuos, (X, Y ) tiene una función de densidad conjunta fX,Y (x, y):
Z ∞Z ∞
fX,Y (x, y) ≥ 0 y fX,Y (x, y) dx dy = 1
−∞ −∞
Z x Z y
La función de distribución conjunta es FX,Y (x, y) = fX,Y (u, v) du dv.
−∞ −∞
Las marginales se obtienen integrando en una de las variables:

Z ∞ Z ∞
fX (x) = fX,Y (x, y) dy y fY (y) = fX,Y (x, y) dx
−∞ −∞
Los cálculos de medias son como sigue:

Z ∞Z ∞
E(h(X, Y )) = h(x, y) fX,Y (x, y) dx dy
−∞ −∞
Finalmente, X e Y son independientes si (y solo si) la función de densidad se factoriza:
fX,Y (x, y) = fX (x) fY (y) .
Medidas de dependencia lineal

Habitualmente manejamos un par de medidas de dependencia (lineal) entre dos variables:
La covarianza: cov(X, Y ) = E[(X − E(X))(Y − E(Y )] = E(XY ) − E(X)E(Y ) .
Y la versión sin unidades, la correlación, que es un número entre −1 y 1:
cov(X, Y )
ρ(X, Y ) = p
V(X) V(Y )
La correlación es una medida adimensional, absoluta, entre -100 % y 100 %, fácilmente

interpretable. La covarianza, por su parte, tiene unidades (cuadráticas). Sin embargo,
muchos cálculos se hacen con covarianzas (para pasar a correlaciones al final).
Ilustración
En un modelo bidimensional discreto (una tabla n × m de probabilidades conjuntas), calcular las

marginales, la covarianza y la correlación.
¿Qué significa la covarianza/correlación?
Observemos la definición de la covarianza:
cov(X, Y ) = E[(X − E(X))(Y − E(Y )]
Si esa cantidad es positiva, quiere decir que es más probable que X − E(X) e Y − E(Y )
tengan el mismo signo. Es decir, que si X produce un valor “grande” por encima de la
media, es altamente probable que Y produzca un valor también grande (por encima de
la suya). O al revés, si X es pequeño, es bastante probable que Y sea pequeño.
Si simuláramos muestras de dos variables alea- 4
torias con correlación, por ejemplo, del 50 %, 3
y las representáramos en un gráfico de disper- 2
sión, esperarı́amos ver una situación como la de 1
la figura, en la que (relativamente) pocos pun- -4 -3 -2 -1

0
0 1 2 3 4
tos caen en los cuadrantes superior/izquierda e -1
inferior/derecha. -2
-3
-4
Correlación e independencia
Si X e Y son independientes, su covarianza (y su correlación es 0). Porque si son
independientes, entonces
E(XY ) = E(X)E(Y ),
lo que nos da inmediatamente que la covarianza es 0.
Pero, ¡atención!, no al revés, en general. Dos variables incorreladas no tienen por qué ser
independientes. La independencia es una condición muy fuerte, que determina toda la
tabla de probabilidades conjuntas; mientras que correlación cero es solo una restricción.
Una cuenta de grados de libertad nos ayuda a entenderlo. Digamos que la tabla de
probabilidades conjuntas es 2 × 3. Tenemos, en principio, 6 grados de libertad (que
son 5, en realidad, por la condición de suma 1).
Supongamos que conocemos las marginales. Al ir rellenando la
x1 x2
tabla, descubrimos que solo tenemos 2 grados de libertad. Si las
y1 A X
variables independientes, la tabla se rellenarı́a automáticamente.
y2 B X
Correlación 0 solo nos quita un grado de libertad. Ası́ que tenemos
y3 X X
infinitas tablas (pares de variables) incorreladas, y solo una de ellas
se corresponde con el caso de la independencia.
Varianza de una suma
En muchas ocasiones necesitaremos calcular la varianza de una suma de variables

aleatorias. Si X e Y son dos variables aleatorias, entonces
E(X + Y ) = E(X) + E(Y ).
(da igual que sean independientes que no). Sin embargo,
V(X + Y ) = V(X) + V(Y ) + 2 cov(X, Y ) .
Ası́ que, si X e Y son independientes (basta incorreladas), entonces la varianza de la

suma es la suma de las varianzas.
detalle.
2 2 2 2 2 2
V(X + Y ) = E((X + Y ) ) − E(X + Y ) = E(X + Y − 2XY ) − E(X) − E(Y ) − 2E(X)E(Y )
= V(X) + V(Y ) + 2(E(XY ) − E(X)E(Y )).
El caso multidimensional: matriz de correlaciones

Tenemos un vector X = (X1, X2, . . . , Xn) de variables aleatorias.
Conjuntamente, tienen una tabla (n-dimensional) de probabilidades conjuntas (en el

caso discreto), o una función de densidad conjunta fX1,...,Xn (x1, . . . , xn) en el caso
continuo.
El vector aleatorio X tiene
un vector de medias µ = (µ1, µ2, . . . , µn) = (E(X1), E(X2), . . . , E(Xn));
y un vector de varianzas: (V(X1), V(X2), . . . , V(Xn)) , donde
V(Xj ) = E((Xj − µj )2) = E(Xj2) − µ2j .
O también elp
correspondiente vector de desviaciones tı́picas, σ = (σ1, σ2, . . . , σn) ,
donde σj = V(Xj ).
Para registrar la información sobre la dependencia (lineal) entre (los pares de) variables
utilizamos una tabla n × n, la matriz de varianzas/covarianzas:
 
V(X1) cov(X1, X2) · · · cov(X1, Xn)
 cov(X2, X1) V(X2) · · · cov(X2, Xn) 
V=  .. .. .. 
... 
cov(Xn, X1) cov(Xn, X2) · · · V(Xn)
donde cov(Xi, Xj ) = E([(Xi − µi)(Xj − µj )]) = E(XiXj ) − µiµj
O la matriz de correlaciones:
 
1 ρ12 · · · ρ1n
 ρ21 1 · · · ρ2n  cov(Xi, Xj )
Σ=  .. .. ... .. ,
 donde ρij =
σiσj
ρ1n ρ2n · · · 1
Obsérvese que si disponemos de V podemos calcular Σ. Si tenemos Σ, necesitamos

también el vector de desviaciones tı́picas σ para calcular V. Tanto V como Σ son
simétricas y definidas positivas (véase el detalle en la página 188).
Cálculo de matrices de covarianza y de correlaciones.
Partimos de Y = (Y1 , . . . , Yn ), con vector de medias µ = (µ1, . . . , µn ), y queremos calcular su matriz de correlaciones.
Pasamos a Ye = Y − µ = (Y1 − µ1 , Y2 − µ2 , . . . , Yn − µn ). Y ahora
 
Y1 − µ 1
 µ2 
Y e =  Y2 −
eT Y .  (Y1 − µ1 , Y2 − µ2 , . . . , Yn − µn) =
 .. 
Yn − µ n
 
(Y1 − µ1 )2 (Y1 − µ1 )(Y1 − µ2 ) ··· (Y1 − µ1 )(Yn − µn)
 (Y − µ )(Y − µ ) (Y2 − µ2 ) ··· (Y2 − µ2 )(Yn − µn) 
 2 2 1 1 
= .. .. ... .. 
 . . . 
(Yn − µn )(Y1 − µ1 ) (Yn − µn )(Y1 − µ2 ) ··· (Yn − µn)2
Luego
eT Y
E(Y e) = V
De manera análoga, si hacemos
Y − µ Y − µ Yn − µ n
b = 1 1 2 2 bT Y
b) = Σ
Y , ,..., , entonces E(Y
σ1 σ2 σn
La normal bidimensional (y multidimensional)
El modelo multidimensional más importante, por su amplio uso en el contexto financiero

(y porque permite cálculos explı́citos y se presta a mecanismos sencillos de simulación),
es, sin duda, la normal multidimensional.
Se trata de un modelo en el que cada variable por separado es una normal (con cierta
media y varianza). Pero, además, toda la información conjunta queda (únicamente)
codificada por las correlaciones.
Lo emplearemos, por ejemplo, para describir rendimientos conjuntos de una cartera de

activos financieros: el rendimiento de cada activo es una normal, y conjuntamente siguen
una normal multidimensional.
Para empezar, veamos el caso bidimensional.
La normal bidimensional. Primera versión. El par (X, Y ) sigue una normal bidimen-
sional, y tanto X como Y son N (0, 1). Hay un único parámetro, −1 ≤ ρ ≤ 1 (que
resulta ser, justamente, la correlación entre X e Y ). La función de densidad conjunta es

1 1 2 2
f (x, y) = p exp − 2)
(x − 2ρxy + y )
2π 1 − ρ2 2(1 − ρ
RR ρ ∈ [−1, 1], la superficie definida por la función anterior encierra

Para cualquier
volumen 1 ( f (x, y)dxdy = 1) y sus marginales son normales N (0, 1).
Ejercicio
De integración. Comprobar que, para cualquier ρ,
Z ∞ Z ∞
• f (x, y)dxdy = 1 ;
−∞ −∞
Z ∞ 2
Z ∞ 2
1 1
• f (x, y)dx = √ e−y /2 , f (x, y)dy = √ e−x /2 ;
−∞ 2π −∞ 2π
Z ∞ Z ∞
cov(X, Y )
• ρ(X, Y ) = = E(XY ) = xyf (x, y)dxdy = ρ .
σ(X)σ(Y ) −∞ −∞
Las gráficas siguientes dan una idea del papel de ρ.

U= 0 U= 70% U= -70%
0,0016 0,0024 0,0024

0,002 0,002
0,0012
0,0016 0,0016
0,0008 0,0012 0,0012
-4 -4 -4
-3 -3 0,0008 -3 0,0008
0,0004
-2 -2 0,0004 -2 0,0004
-1 0 -1 0 -1 0
0 0 0
1 4 1 4 1 4
2 3 2 3 2 3
2 2 2
3 1 3 1 3 1
0 0 0
4 -1 4 -1 4 -1
-2 -2 -2
-3 -3 -3
Nota importante. En la normal bidimensional, el que X e Y sean incorreladas (ρ = 0)

es equivalente a que sean independientes.
Razón: si ρ = 0, entonces la función de densidad conjunta se factoriza en dos funciones, una en cada variable.
• Segunda versión (más general). El par de variables (X, Y ) sigue una normal
bidimensional, pero ahora
X es N (µ1, σ1);
mientras que Y es N (µ2, σ2);
el parámetro ρ es, de nuevo, la correlación entre X e Y .
La función de densidad conjunta, que tiene cinco parámetros,
−1 < ρ < 1, µ1 , µ2 ∈ R y σ1, σ2 > 0,
viene dada por:

!
1 1 h (x−µ )2 (y −µ2)2 (x−µ1 )(y −µ2) i
1
f (x, y) = p exp − + − 2ρ
2πσ1σ2 1−ρ 2 2(1−ρ2 ) σ12 σ22 σ1 σ2
De nuevo, correlación cero es lo mismo que independencia.
La normal multidimensional. Las variables (X1, . . . , Xn) siguen una normal multidi-
mensional
con vector de medias µ = (µ1, . . . , µn);

y matriz de varianza-covarianza V
si la función de densidad conjunta viene dada por

1 1 T −1
f (x) = n/2 1/2
exp − (x − µ) V (x − µ)
(2π) det(V) 2
donde x = (x1, . . . , xn).
Si la matriz V es diagonal (es decir, si las Xj son incorreladas), entonces las variables Xj
son independientes.
Algunos comentarios sobre la normal bidimensional (o multidimensional).
1.- Sobre sumas de normales. Si (X, Y ) sigue una normal bidimensional, de parámetros
µ1, µ2, σ1, σ2, ρ, entonces cualquier combinación lineal Z = aX + bY sigue una
distribución normal de parámetros
E(Z) = aµ1 + bµ2 , V(Z) = a2σ12 + b2σ22 + 2abσ1σ2ρ .
2.- Transformaciones lineales. Con más generalidad, si (X, Y ) sigue una normal
bidimensional, entonces el vector (X ′, Y ′) dado por

′ ′ a c X ′ = aX + bY
(X , Y ) = (X, Y ) =⇒
b d Y ′ = cX + dY
sigue una normal bidimensional.
Si X es una normal n-dimensional N (µ, V) e Y = XA, donde A es una matriz n × n, entonces Y sigue
una normal multidimensional N (µA, ATVA)
3.- Normales que no son, conjuntamente, una normal bidimensional. Pero podemos
tener dos variables X a Y normales para las que (X, Y ) no sea una normal
bidimensional.

X si |X| > c,
Ejemplo 1. Para un c > 0, X ∼ N (0, 1) e Y =
−X si |X| < c.
Detalle: P(Y ≤ y) = P(|X| > c, X ≤ y) + P(|X| < c, −X ≤ y)

(por simetrı́a) = P(|X| > c, X ≤ y) + P(|X| < c, X ≤ y) = P(X ≤ y) .
De manera que Y tiene la misma distribución (normal) que X . Pero X + Y toma el valor 0 con probabilidad
positiva, ası́ que (X, Y ) no puede ser una normal bidimensional.
Obsérvese que ahora X + Y , una suma de normales, no es una variable normal.

Ejemplo 2. Tomamos X e Y normales y creamos una estructura conjunta a través
de un procedimiento de cópula –no normal– (véase la página 145 y siguientes).
4.- Aunque si X e Y son normales independientes, entonces (X, Y ) es una normal

bidimensional3.
3
¡Ojo!, puede ocurrir que X e Y sean normales incorreladas, pero que el par (X, Y ) no sea una normal bidimensional.
Simulación conjunta de varias variables
Nuestro objetivo es diseñar mecanismos que permitan obtener muestras de unas variables
aleatorias X1, X2, . . . , Xn que tienen una cierta distribución conjunta de probabilidad.
Si tenemos un par de variables (X, Y ) (discretas) y disponemos de la tabla de probabi-
lidades conjuntas, para sortear muestras del par de variables podrı́amos
−→ empezar sorteando el valor de X (teniendo en cuenta su marginal) y, condicionando
al valor obtenido, sortear el valor de Y (lo que exigirá mirar las probabilidades de la
columna correspondiente, convenientemente reescaladas).
−→ O quizás poner “en fila” las probabilidades (que suman 1) y sortear de la manera
habitual (aunque ahora los “valores” son pares de números).
Ilustración
Simulación a partir de un modelo bidimensional discreto (una tabla n × m de probabilidades

conjuntas).
En la práctica, tendremos muy buena información sobre las marginales, pero no sobre
la distribución conjunta. Y justamente lo que querremos es crear (o parametrizar) una
estructura de dependencia. Los procedimientos que “crean” una distribución conjunta a
partir de las marginales se denominan genéricamente cópulas (véase la página 145).
Es muy habitual que el objetivo sea simular unas variables
con unas ciertas marginales;

y con una cierta matriz de correlación especificada.
El caso de las normales es bien especial.
Simulación de (dos) normales con correlación. Queremos sortear un par (X, Y ),

donde X e Y son N (0, 1) y, conjuntamente, son una normal bivariante con correlación ρ.
Observaciones (recuérdense las reflexiones de la página 129):
Primero, “sabemos” sortear dos normales X1 e Y1 independientes (esto es, sabemos

sortear del par (X1, Y1) normal bidimensional e independiente).
Además, cualquier combinación lineal de X1 e Y1 es una normal.
Obsérvese que el par de variables

p
(X, Y ) = (X1, ρX1 + 1 − ρ2Y1)
verifica las propiedades buscadas: tanto X como Y son N (0, 1), conjuntamente son
una normal bidimensional y su correlación es ρ.
p
Detalle. Si X = X1 e Y = ρX1 + 1 − ρ2 Y1 , donde X1 , Y1 ∼ N (0, 1) independientes, entonces,
q
E(X) = E(X1 ) = 0 , E(Y ) = ρE(X1 ) + 1 − ρ2 E(Y1 ) = 0
q
2 2
V(X) = V(X1 ) = 1 , V(Y ) = V(ρX1 + 1 − ρ2 Y1 ) = ρ V(X1) + (1 − ρ )V(Y1 ) = 1
q q
2
corr(X, Y ) = E(XY ) = E(X1 (ρX1 + 1 − ρ2 Y1 )) = ρE(X1 ) + 1 − ρ2 E(X1 Y1 ) = ρ
El procedimiento de simulación va como sigue: generamos (independientemente) dos

muestras x1 y x2 de normales estándar y las transformamos en
p
(y1 , y2) = (x1, ρx1 + 1 − ρ2 x2)
Ilustración
En Excel, sortear dos normales correladas con este procedimiento. Mover el parámetro ρ.
Para preparar el argumento general, observemos que la transformación (lineal) que

hemos empleado se puede escribir, matricialmente, como

1 p ρ
(y1, y2) = (x1 , x2)
0 1 − ρ2
| {z }
=CT
si es que utilizamos vectores fila; o, si preferimos los vectores columna:

y1 1 p 0 x1
=
y2 ρ 1 − ρ2 x2
| {z }
=C
Pero la matriz C, que es triangular inferior, cumple que

T 1 p 0 1 p ρ 1 ρ
CC = =
ρ 1 − ρ2 0 1 − ρ2 ρ 1
es decir, es la que se obtiene al hacer la descomposición de Cholesky de la matriz de

correlaciones buscada.
El uso de la transformación de Cholesky en simulación

Escribamos el procedimiento general.
Queremos simular las variables Z = (Z1, . . . , Zn), que siguen una normal multivariante
con vector de medias µ = (µ1, . . . , µn), vector de desviaciones tı́picas σ = (σ1, . . . , σn)
y matriz de correlaciones
 
1 ρ1,2 · · · ρ1,n
 ρ2,1 1 · · · ρ2,n 
Σ= .  . . . 
. . .. . 
ρn,1 ρn,2 · · · 1
1.- X = (X1, . . . , Xn) es una normal multivariante de medias (0, . . . , 0), desviaciones
tı́picas (1, . . . , 1) y matriz de correlaciones Σ1 = identidad.
2.- La matriz Σ es simétrica y definida positiva. La escribimos (descomposición de
Cholesky) como
Σ = CCT ,
donde C es una matriz triangular inferior.
3.- Entonces, el vector Y = (Y1, . . . , Yn) definido mediante
Y = XCT
sigue una normal multivariante de medias (0, . . . , 0), desviaciones tı́picas (1, . . . , 1) y
matriz de correlaciones Σ.
4.- Finalmente,
Z = (Z1, . . . , Zn) = (σ1Y1 + µ1, . . . , σnYn + µn)
tiene la misma matriz de correlaciones, y cada Zj tiene media µj y desviación tı́pica σj .
Detalle: Y = (Y1 , . . . , Yn ) = (X1 , . . . , Xn )CT , con CCT = Σ.

Cada Yj tiene media 0, pues es combinación lineal de variables con media 0:
T T
E(Y) = E(XC ) = E(X)C = 0.
Y la matriz de varianzas/covarianzas de Y es
T T T T T T
V(Y) = V(XC ) = E(CX XC ) = C E(X X) C = CC = Σ ,
ası́ que las desviaciones tı́picas de las Yj son 1 y tiene las correlaciones correctas.
Matrices de covarianza y de correlación muestrales
Partimos de n series, cada una de las cuales consta serie 1 serie 2 ······ serie n
de N datos. La media (muestral, estadı́stica) de la x1
(1)
x1
(2)
··· x1
(n)
serie j es x2
(1)
x2
(2)
··· x2
(n)
N
X ... ... ... ...
1 (j)
µ(j) = xk ... ... ... ...
N ... ... ... ...
k=1
(que podemos calcular en Excel con la función xN
(1)
xN
(2)
··· xN
(n)
promedio aplicada a la columna que contenga los

datos de la serie j).
La varianza y la desviación tı́pica (muestrales, estadı́sticas) de cada serie j se definen

mediante
1 XN p
(j) (j) (j) 2 (j)
V = (xk − µ ) y σ = V(j)
N
k=1
Nota. Hay quien usa la cuasivarianza estadı́stica (y la correspondiente cuasidesviación tı́pica), que se define con un N − 1
en el denominador. La función desvest de Excel hace uso de esta definición.
La covarianza (estadı́stica) entre las series i y j es
N
X
1 (i) (j)
V(i,j) = (xk − µ(i))(xk − µ(j))
N
k=1
Y las correspondientes correlaciones (estadı́sticas)
(i,j) V(i,j)
ρ = (i) (j)
σ σ
Las matrices de covarianza y de correlación (muestrales, estadı́sticas) son
   
(1) (1,2) (1,n) (1,2) (1,n)
V V ··· V 1 ρ ··· ρ
   (2,1) 
 V(2,1) V(2) ··· V(2,n)   ρ 1 ··· ρ(2,n) 
Vmuestral = ... ... ... ...  y Σmuestral = ... ... ... ... 
   
V(n,1) V(n,2) ··· V(n) ρ(n,1) ρ(n,2) ··· 1
Cálculo de matrices de covarianza y de correlación muestrales.

Consideramos los datos como una matriz H (de dimensiones N × n):
 
(1) (2) (n)
x1 x1 ··· x1
 (1) (2) (n)

 x x2 ··· x2 
 2 
 .. .. .. .. 
H =  ..
.
..
.
..
.
..
. 

 . . . . 
 .. .. .. .. 
 . . . . 
(1) (2) (n)
xN xN ··· xN
Obsérvese que
 
(1) (2) (n)
  x1 x1 ··· x1
(1) (1) (1)  (1) (2) (n) 
x1 x2 ··· ··· ··· xN  x x2 ··· x2 
 (2)  2 
 x (2) (2) 
  .. .. .. .. 
T x2 ··· ··· ··· xN   . . . . 
HH =

1
. .. .. .. .. ..  .. .. .. .. 
 .. . . . . .  . . . . 
.. .. .. .. 
(n) (n) (n)  . . . . 
x1 x2 ··· ··· ··· xN  
(1) (2) (n)
xN ···
xN xN
 P (1) (1) PN (1) (2) PN (1) (n)

N
k=1 xk xk k=1 xk xk ··· x
k=1 k x k
 
 PN (2) (1) PN (2) (2) PN (2) (n) 
 x xk ··· 
= k=1 k k=1 xk xk k=1 xk xk 
 .. .. ... .. 
 . . . 
 
PN (n) (1) PN (n) (2) PN (n) (n)
k=1 xk xk k=1 xk xk ··· k=1 xk xk
Si hacemos que todas las series tengan media 0 y formamos la correspondiente matriz H̃ (de dimensiones N × n):
 
(1) (1) (2) (2) (n) (n)
x −µ x1 − µ · · · x1 − µ
 1(1) (2) (n)

 x − µ (1)
x − µ (2)
· · · x − µ (n) 
 2 2 2 
 .. .. .. ..  1 eT e
He = . . . .  entonces Vmuestral = H H
 .. .. .. ..  N
 . . . . 
 .. .. .. .. 
 . . . . 
(1) (2) (n)
xN − µ(1) xN − µ(2) ··· xN − µ(n)
Y si lo que hacemos es normalizar cada una de las series (media 0 y desviación tı́pica 1):
 (1) (2) (n)

x1 −µ(1) x1 −µ(2) x1 −µ(n)
 ··· 
 σ (1) σ (2) σ (n) 
 (1) (2) (n) 
 x2 −µ(1) x2 −µ(2) x2 −µ(n) 
 ··· 
e
e  σ (1) σ (2) σ (n) 
H = .. .. .. .. 
 . . . . 
 .. .. .. .. 
 . . . . 
 (1) (2) (n)

 x −µ(1) x −µ(2) x −µ (n) 
N N ··· N
σ (1) σ (2) σ (n)
entonces
1 e T
e H e
e
Σmuestral = H
N
El paquete matrix tiene incorporadas funciones para hacer estos cálculos. MCorr, MCovar.
Observaciones sobre la simulación utilizando

la descomposición de Cholesky
1.- Hemos empleado la descomposición de Cholesky Σ = CCT (donde C es triangular

inferior), que es cómoda y computacionalmente rápida. Pero cualquier otra descom-
posición del tipo Σ = AAT valdrı́a para nuestros propósitos. Y de hecho, utilizaremos
otra descomposición (con autovalores y autovectores) más adelante, en especial cuando
tratemos las componentes principales.
2.- Podrı́a dar la impresión de que podemos utilizar el método anterior para simular
un vector cualquiera (Z1, . . . , Zn) con correlación Σ, donde las Zj siguieran modelos
especificados (no necesariamente normales).
Podrı́amos empezar simulando (X1, . . . , Xn) independientes (y tipificadas), siguiendo las

marginales del modelo. El vector (Y1, . . . , Yn) = (X1, . . . , Xn)CT tendrı́a las correlaciones
correctas. Y luego podrı́amos incorporar las medias y desviaciones.
Pero, ¡atención!, cada Yj serı́a una combinación lineal de X1, . . . , Xn y, excepto en el

caso de las normales, las marginales de las Yj no seguirán el modelo de partida.
3.- Corrección de muestras. Estamos aplicando el método “a la Cholesky” para

simular muestras de n normales con ciertas correlaciones.
Hemos empezado generando N muestras del vector (X1, . . . , Xn) (normales estándar
independientes), que forman una tabla N × n que llamamos H. Se supone que están
generados de manera que cada columna tenga media 0 y desviación tı́pica 1. Además,
(se supone que) las correlaciones son todas nulas.
Pero resulta que no es el caso: el vector de medias muestrales (µ(1), µ(2), . . . , µ(n)) no
es exactamente el vector nulo, y la matriz de covarianza muestral
1 t
Vmuestral = H ·H
N
no es exactamente la matriz identidad.
Para la siguiente etapa, la incorporación de correlaciones, partir de series que no tengan
exactamente vector de medias (muestrales) 0 y matriz de covarianzas (muestrales)
identidad hace que el método no funcione tan bien como quisiéramos.
Ası́, que antes de nada, corregimos las muestras.
1. Corrección de las medias

Si tenemos unas series fijas, podemos restar a cada una de ellas la media que corresponda.
Pero es más conveniente el siguiente procedimiento: duplicamos el tamaño de la
muestra añadiendo los negativos de las muestras ya obtenidas (un ejemplo de la técnica
de variables antitéticas que desarrollaremos más adelante). Esto asegura que la muestra
de tamaño 2N tiene la requerida media muestral (0, 0, . . . , 0).
2. Corrección de desviaciones tı́picas y correlaciones
Digamos que las columnas de la tabla de muestras H ya tienen medias muestrales 0.
La matriz de covarianzas muestrales VH de la muestra H no es diagonal. Vamos a
modificar la muestra para que sus columnas tengan desviación tı́pica 1 y para que las
correlaciones entre las columnas sean todas 0.
• Paso 1. Calculamos la descomposición de Cholesky de VH:
VH = CholVH · CholTVH .
La matriz CholVH es triangular inferior.
Obtenemos una nueva matriz de muestras, J, de las mismas dimensiones que H, de la

siguiente manera:
−1 T
J = H · CholVH .
La muestra J tiene
columnas de media 0;
columnas con desviación tı́pica 1 y correlación 0 entre columnas (es decir, la matriz
de covarianzas muestrales VJ es la identidad).
Detalle (recuérdese que (A−1 )T = (AT )−1):

=V
z }|H {
1 1 −1 T −1 1 −1 T −1 T
VJ = T
JJ = Chol−1
VH H
T
H CholVH = Chol VH N H
T
H Chol VH = Chol−1
V
VH H Chol VH
N N
−1 T −1 −1
= CholV VH CholV = CholV CholV = identidad
H H H H
Ilustración
Simulación de muestras de la normal bidimensional con matriz de correlaciones Σ, incluyendo
corrección de muestras.
Cópulas
Las cópulas son procedimientos para crear o codificar la estructura de probabilida-

des conjuntas de unas variables aleatorias. Ya sabemos que la información sobre las
marginales no basta para tener la estructura conjunta.
Ejemplo 1. Empezamos con un ejemplo sen- X Y
cillo: dos variables aleatorias X e Y que toman valores probs valores probs
dos valores cada una, a y b, con las probabilida- a 90 % a 50 %
des que se muestran a la derecha. Para construir b 10 % b 50 %
la distribución conjunta tenemos que rellenar, en
principio, una tabla con cuatro números.
Pero en realidad sólo tenemos un grado de libertad. a b
El parámetro x, además, debe cumplir las siguiente a x 50 % − x −→ 50 %
restricción: 40 % ≤ x ≤ 50 %. Cualquiera elección b 90 % − x x − 40 % −→ 50 %
de x en este rango es una cópula. Si, por ejemplo, ↓ ↓
90 % 10 %
tomamos x = 45 %, las variables son independientes.
Ejemplo 2. Con más generalidad, si X toma el valor a con probabilidad p (y b

con probabilidad 1 − p), mientras que Y toma el valor a con probabilidad q (y b con
probabilidad 1−q), entonces la tabla de probabilidades conjuntas se puede escribir como
a b
a x p−x −→ p
y la restricción es
b q−x x − (p + q − 1) −→ (1 − p)
máx(p + q − 1, 0) ≤ x ≤ mı́n(p, q).
↓ ↓
q (1 − q)
Ejemplo 3. La situación más general (para dos variables binarias): la tabla de

probabilidades está parametrizada con ε (nótese que ε = 0 significa independencia):
X Y a b
valores probs valores probs c pq + ε p(1 − q) − ε −→ q
a p c q d q(1 − p) − ε (1 − q)(1 − p) + ε −→ (1 − q)
b 1−p d 1−q ↓ ↓
(con a < b) (con c < d) p (1 − p)
Los momentos y la correlación entre las variables X e Y son

2
p
E(X) = ap + b(1 − p) ; V(X) = (b − a) p(1 − p) ; σ(X) = (b − a) p(1 − p) ,
2
p
E(Y ) = cq + d(1 − q) ; V(Y ) = (d − c) q(1 − q) ; σ(Y ) = (d − c) q(1 − q) ,
cov(X, Y ) ε
corr(X, Y ) = =p
σ(X)σ(Y ) pq(1 − p)(1 − q)

Detalle: E(XY ) = ac(pq + ε) + cb(p(1 − q) − ε) + ad(q(1 − p) − ε) + db((1 − p)(1 − q) + ε) , de donde
cov(X, Y ) = E(XY ) − E(X)E(Y ) = ε(b − a)(d − c)
¡Obsérvese cómo la correlación no depende de los valores que toman las variables!
Además, incorreladas, en este caso, es lo mismo que independientes.
Ejercicio
1. X toma 3 valores; Y toma 2 valores. Las marginales están dadas. ¿Cuántos grados de libertad
hay para las probabilidades conjuntas? Compruébese que incorreladas 6= independientes.
2. Si X toma n valores e Y toma m valores, entonces la tabla de probabilidades conjuntas consta
de nm probabilidades. Compruébese que nos quedan (n − 1)(m − 1) grados de libertad.
Cópulas en la práctica
Partimos del conocimiento de las marginales de unas variables (X1, . . . , Xn), es decir,
de las funciones de distribución FX1 , . . . , FXn . Queremos crear una estructura de
probabilidades conjuntas.
Supongamos que tenemos una distribución de probabilidad en el cubo [0, 1]n, cuyas
marginales son variables U1, . . . , Un uniformes en [0, 1]. Ahora consideremos el vector
de variables
−1 −1
X = (FX 1
(U 1 ), . . . , F X n
(Un))
que se obtiene de (U1, . . . , Un) transformando cada variable con la inversa de cada
función de distribución FXj . La componente j del vector X tiene, como ya sabemos,
la misma distribución que la variable Xj . Pero además tienen una cierta estructura de
probabilidades conjuntas, que “hereda” en cierta manera la original entre las Uj .
Ésta es la idea básica de los procedimientos de cópula (la teorı́a general puede consultarse
en la página 155). Aquı́ nos centraremos en las dos cópulas que más uso tienen en
Finanzas: la cópula normal y la cópula t. Ambas se basan en que sabemos correlar
normales (vı́a la transformación de Cholesky).
Cópula normal
Tenemos unas ciertas variables aleatorias (X1, . . . , Xn) que siguen una cierta distribución
conjunta. Digamos que tenemos buena información sobre las marginales: por ejemplo,
las respectivas funciones de distribución F1(x), . . . , Fn(x).
Tenemos una matriz de correlaciones Σ objetivo, que va a guiar el proceso de cópula.
La descomposición de Cholesky de Σ es Σ = CCT (otras descomposiciones de este tipo
valdrı́an también, pero ya hemos visto lo eficiente que es el cálculo de la de Cholesky).
El proceso de simulación va como sigue:
generamos una muestra (a1, . . . , an) de normales N (0, 1) independientes.

La transformamos, vı́a la descomposición de Cholesky, en una muestra (b1, . . . , bn)
de normales N (0, 1) correladas con Σ.
Ahora, utilizamos la función de distribución de la normal, Φ, para obtener una
muestra de uniformes: (c1, . . . , cn), donde cj = Φ(bj ).
Finalmente, con las funciones de distribución inversas F1−1, . . . , Fn−1, generamos una
muestra de las variables originales (X1, . . . , Xn): (d1, . . . , dn), donde dj = Fj−1(cj ).
En la práctica, por ejemplo para variables discretas, nos podemos “saltar” el paso por
las uniformes:
área p3
área p2
X área p4
p3 área p1
❄
diccionario
p1 p2 p4 ✛ ✲
◆ ✰
cortes con la normal
❫
x1 x2 x3 x4 c1 c2 c3
área q3 área q
área q2 4
Y área q5
q2 q5 área q1 ✠
❄
diccionario
q1 q3 q4 ✛ ✲
◆ ✰
cortes con la normal
❫
y1 y2 y3 y4 y5 d1 d2 d3 d4
generamos muestra (a1, a2) de normales N (0, 1) independientes.

generamos muestra (b1, b2) = (a1, a2)CT de normales N (0, 1) correladas con Σ.
Utilizamos los respectivos diccionarios de los cortes de la normal para obtener la
muestra final (c1, c2) del vector aleatorio (X, Y ).
Ilustración
Generar dos muestras de uniformes [0, 1]. Transformarlas en normales. Correlar con Cholesky y
volver hacia atrás.
Ilustración
Correlar dos muestras extraı́das de dos variables aleatorias con ciertas distribuciones.
Ilustración
Dos tiempos a default: X1 y X2 toman valores 0, 1, 2, 3, 4, 5, 6 con probabilidades respectivas
0, 0.1, 0.4, 0.2, 0.15, 0.10, 0.05. Crear correlación.
Ilustración
Dos tiempos a default X1 y X2 , que siguen ciertas distribuciones exponenciales. Simular con
correlación.
La cópula t de Student
De nuevo tenemos una matriz de correlaciones Σ objetivo, que va a guiar el proceso de
cópula. La descomposición de Cholesky de Σ es Σ = CCT. El proceso de simulación va
como sigue:
generamos una muestra (a1, . . . , an) de normales N (0, 1) independientes.

La transformamos, vı́a la C de Cholesky, en una muestra (b1, . . . , bn) de normales
N (0, 1) correladas con Σ.
Ahora sorteamos (independientemente de lo anterior) una s que siga una χ2 con ν
grados de libertad (por ejemplo, con la función de Excel correspondiente, o bien
sorteando normales).
√ bj
Formamos la muestra (c1, . . . , cn) mediante cj = ν √s .
Ahora, utilizamos la función de distribución de la tν para obtener una muestra de
uniformes: (d1, . . . , dn), donde dj = [función de distr. de la tν ](cj ).
Finalmente, con las funciones de distribución inversas F1−1, . . . , Fn−1 generamos una
muestra de las variables originales (X1, . . . , Xn): (e1, . . . , en), donde ej = Fj−1(dj ).
Comentarios sobre la cópula t. Obsérvese que, en el procedimiento anterior, hemos sorteado una única variable χ2ν (la
muestra s), que sirve como denominador (siempre el mismo) en la construcción de las t’s.
• (X1 , . . . , Xn ) sigue una normal n-dimensional. Cada Xj es una N (0, 1). Las correlaciones son E(Xi · Xj ) = ρij .
• Ahora formamos el vector (T1 , . . . , Tn ) mediante
√ Xj
Tj = ν √ para cada j = 1, . . . , n, donde Z es una χ2ν (independiente de las Xj ).
Z
Cada variable Tj es una t de Student con ν grados de libertad. Es decir, E(Tj ) = 0 y V(Tj ) = ν/(ν − 2).
• La covarianza entre dos de ellas es
X · X 1 ν
i j
E(Ti · Tj ) = ν E = ν E(Xi · Xj ) E = ρij ,
Z | {z } | {zZ} ν−2
=ρij
de manera que la correlación es justamente: 1/(ν−2)
E(Ti · Tj )
ρ(Ti , Tj ) = q = ρij .
V(Ti )V(Tj )
El vector (T1 , . . . , Tn ) ası́ construido sigue lo que se llama una t de Student multidimensional. Su función de densidad es
Γ [(n + ν)/2]
fT1 ,...,Tn (t) = h i(n+ν)/2
n/2 n/2 1/2 1 T −1
Γ(ν/2)ν π |Σ| 1 + νt Σ t
Más comentarios sobre la cópula t. ¿Qué ocurrirı́a si, en el procedimiento de cópula t, sorteamos una χ2 para cada
variable (en lugar de una única para todos ellos)?
Lo ilustramos en el caso bidimensional. Digamos que X1 y X2 son normales N (0, 1) que ya llevan correlación ρ. Ahora
formamos
√ X1 √ X2
T1 = ν √ y T2 = ν√ ,
Z1 Z2
donde Z1 y Z2 son sendas χ2ν independientes. Cada variable es una t de Student con ν grados de libertad. Pero su
correlación es ahora
E(T1 · T2 ) ν X ·X 1 2
1 2
ρ(T1 , T2 ) = p = E √ √ = ρ (ν − 2) E √ .
V(T1 )V(T2 ) ν/(ν − 2) Z1 Z2 Z1
La última media resulta ser

1 2 1 h Γ( n−1
2 )
i2 1
E √ = < .
Z1 2 Γ( n 2 ) ν − 2
Ası́ que la correlación entre T1 y T2 no es ρ, sino que es menor (sobre todo si ν es pequeño). Pero todo tiene ventajas y
desventajas:

X1 X2 X1 X2
(T1 , T2 ) = ν √ , √ (T1 , T2 ) = ν √ , √
Z Z Z1 Z2
ρ = 100 % correlación entre T1 y T2 es 100 % correlación entre T1 y T2 es < 100 %
ρ = 0% T1 y T2 no son independientes(∗) T1 y T2 son independientes(∗∗)

(∗)
La función de densidad de la página anterior no se factoriza. (∗∗) Pues X1 y X2 los son.
La teorı́a sobre funciones de cópula.

De un vector aleatorio (X1 , . . . , Xn) conocemos su función de distribución conjunta FX1 ,...,Xn y sus marginales
FX1 , . . . , FXn . Tratamos de captar la estructura de dependencia entre las variables.
Sabemos que las variables U1 = FX1 (X1 ), . . . , Un = FXn (Xn) son uniformes en [0, 1].
La función de distribución conjunta de estas U1 , . . . , Un ,
C(u1 , . . . , un ) = P(U1 ≤ u1 , . . . , Un ≤ un ) ,
es la llamada función de cópula de (X1, . . . Xn ).

Esta función codifica la estructura de dependencia, porque, si conocemos explı́citamente la función C (y las marginales),
podemos calcular la función de distribución conjunta:
C(FX1 (x1 ), . . . , FXn (xn )) = P(U1 ≤ FX1 (x1 ), . . . , Un ≤ FXn (xn ))
= P(FX1 (X1 ) ≤ FX1 (x1 ), . . . , FXn (Xn ) ≤ FXn (xn )) = P(X1 ≤ x1 , . . . , Xn ≤ xn )
= FX1 ,...,Xn (x1 , . . . , xn )
Una función de cópula C(u1 , . . . , un ) debe cumplir ciertas propiedades, que

podemos resumir informalmente:
“una función de cópula es una función de distribución en [0, 1]n cuyas
marginales son uniformes [0, 1]”.
cópula mı́nima cópula máxima cópula producto

C(u, v) = máx(0, u + v − 1) C(u, v) = mı́n(u, v) C(u, v) = uv
Y hay otras muchos ejemplos: cópulas arquimedianas, de Gumbel, de Frank, de Clayton, etc. En estos casos tendremos
fórmulas explı́citas para C , pero el mecanismo de simulación puede ser muy sofisticado.
Otra opción parte de la siguiente observación: si conocemos la distribución conjunta FX1 ,...,Xn y las marginales
FX1 , . . . , FXn , entonces
C(u1 , . . . , un ) = P(U1 ≤ u1 , . . . , Un ≤ un ) = P(F1 (X1 ) ≤ u1 , . . . , Fn (Xn ) ≤ un )
−1 −1 −1 −1
= P(X1 ≤ F1 (u1 ), . . . , Xn ≤ Fn (un )) = FX1 ,...,Xn (FX (u1 ), . . . , FXn (un ))
1
Esto no nos da una fórmula manejable para C , desde luego. Pero la simulación puede ser sencilla cuando, por ejemplo,
trabajamos con normales (o con t de Student). La clave es que sabemos correlar normales (con la transformación de
Cholesky).
Por “simular” una cópula C entendemos obtener una muestra de (U1, . . . , Un ), donde las Uj son uniformes [0, 1] que
siguen, conjuntamente, una función de distribución dada por C . Esa muestra puede ser transformada en muestras de las
variables originales (X1, . . . , Xn ) por medio de las (inversas de las) funciones de distribución de cada Xj .
Cambio de probabilidad, segunda parte
Tenemos una probabilidad P. Hay dos variables, X e Y , que toman valores x1, . . . , xn
e y1, . . . ym con probabilidades (conjuntas) P(X = xi, Y = yj ).
Bajo esta probabilidad P podemos calcular medias del tipo EP(g(X)), EP(h(Y ))
ó EP(u(X, Y )). Por ejemplo,
XX X X
EP(g(X)) = g(xi )P(X = xi, Y = yj ) = g(xi) P(X = xi , Y = yj )
i j i j
X
= g(xi)P(X = xi )
i
Obsérvese que, como debe ser, para calcular EP(g(X)) sólo necesitamos las probabili-
dades (la marginal) de X.
En este esquema podemos cambiar directamente la probabilidad, pasando a una Q.
Bajo Q, las variables X e Y seguirán modelos distintos (conjuntamente y por separado).
Hagamos un cambio de probabilidad especial, en el que interviene Y (sus valores):
Q(X = xi, Y = yj ) = P(X = xi, Y = yj )ϕ(yj ) ,
para cierta función ϕ. Representamos simbólicamente este cambio como

dQ
dQ = dP ϕ(Y ) o bien = ϕ(Y ) .
dP
Pero la función ϕ debe cumplir ciertas propiedades. Para que Q sea una probabilidad,
X X X
1= Q(X = xi , Y = yj ) = ϕ(yj )P(X = xi , Y = yj ) = ϕ(yj )P(Y = yj ) = EP(ϕ(Y ))
i,j i,j j
Ası́ que debe cumplirse que EP(ϕ(Y )) = 1. Con esta nueva probabilidad,
X X
EQ(h(X, Y )) = h(xi, yj )Q(X = xi, Y = yj ) = h(xi, yj )P(X = xi, Y = yj )ϕ(yj )
i,j i,j
dQ
= EP(h(X, Y )ϕ(Y )) = EP h
dP
Cambios lognormales
En la modelización financiera, los cambios más habituales son lognormales. Tenemos una
probabilidad P, bajo la que X es una normal N (µX , σX ), Y es una normal N (µY , σY )
y, conjuntamente, el par (X, Y ) es una normal bidimensional con correlación ρ.
Ahora cambiamos de probabilidad con la regla siguiente:
dQ Y
dQ = dP e o bien = eY .
dP
Para que sea un cambio de probabilidad, necesitamos que
2
1 = EP(eY ) = eµY +σY /2 =⇒ µY + σY2 /2 = 0 .
La conclusión es que, bajo Q, X sigue siendo una normal, de parámetros
media: µX + ρ σX σY y desviación tı́pica σX .
Obsérvese que la desviación tı́pica no cambia. Ası́ que se trata de un procedimiento para
cambiar (por ejemplo, quitar) la media a X.
Detalle matemático. Necesitamos dos observaciones:

Como (X, Y ) es, bajo P, una normal bidimensional, tX + Y es una normal de media tµX + µY y varianza
2 2 2 2
V(tX + Y ) = t V(X) + V(Y ) + 2t cov(X, Y ) = t σX + σY + 2tρσX σY .
La segunda tiene que ver con la función generatriz de momentos (véase el apéndice II):
tX 1 2 2
X es una N (µ, σ) bajo P ⇐⇒ EP (e ) = exp(tµ + t σ )
2
Calculamos entonces
1
tX
EQ (e ) = EP (etX eY ) = EP (etX+Y ) = exp (tµX + µY ) + (t2 σX
2 2
+ σY + 2tρσX σY )
2
1 2 2
2
= exp(µY + σY /2) exp t(µX + ρσX σY ) + t σX
| {z } 2
=1
Por lo tanto, X es, bajo Q, una normal de media µX + ρσX σY y desviación tı́pica σX .
Ilustración
Comprobación empı́rica del cambio de probabilidad lognormal.
4. Sumas estocásticas
En análisis posteriores nos encontraremos en numerosas ocasiones con sumas de

variables aleatorias. Variables del tipo
n
X
Y = Xj , donde X1, . . . , Xn son variables aleatorias.
j=1
• En ocasiones podremos suponer que las Xj son variables i.i.d. (idénticas e indepen-
dientemente distribuidas). En este caso, las leyes de los Grandes Números y el Teorema
del Lı́mite Central nos darán mucha información sobre las propiedades de Y , o quizás
sobre la variable “promedio” Y /n.
• En otras ocasiones, n, el número Pn de sumandos, será también aleatorio. O, sin ser

aleatorio, las sumas tienen pesos: j=1 rj Xj . El lenguaje de las funciones generatrices
(véase el Apéndice II) nos sirve de ayuda para tratar estos casos.
• El caso especial en el que las Xj son variables Bernoulli (sean o no independientes o

idénticas) merece un tratamiento especial, que veremos aquı́.
Concentración de promedios.
Leyes de los grandes números y TLC
Si X1, . . . , Xn son variables aleatorias i.i.d. con media común µ y desviación tı́pica
común σ, entonces
n
X
E(Sn) = nµ
(suma) Sn = Xj −→ √
j=1
V(Sn) = nσ 2 y σ(Sn) = nσ

n 
 E(Yn) = µ
1X
(promedio) Yn = Xj −→ σ2 σ
n j=1 
 V(Yn) = n y σ(Yn) = √
n
(En realidad, las expresiones de las varianzas son válidas sin más que las variables Xi
sean incorreladas).
Detalle matemático. Supongamos que X1 , . . . , Xn son variables incorreladas. Esto es, E(XiXj ) = E(Xi )E(Xj )
si i 6= j . Entonces
n
X n
h X n
i2 h X i2 n
h X n
i2 h X i2
V Xj =E Xj − E Xj =E Xj − E(Xj ) .
j=1 j=1 j=1 j=1 j=1
Pero
n
h X i2 n
X X n
X X n
X X
2 2 2
E Xj =E Xj + Xi Xj = E(Xj ) + E(Xi Xj ) = E(Xj ) + E(Xi )E(Xj )
j=1 j=1 i6=j j=1 i6=j j=1 i6=j
n
X X n
X n
X X
2 2
= V(Xj ) + E(Xj ) + E(Xi )E(Xj ) = V(Xj ) + E(Xj ) + E(Xi)E(Xj )
j=1 i6=j j=1 j=1 i6=j
n
X n
hX i2
= V(Xj ) + E(Xj ) .
j=1 j=1
De manera que, simplemente,

n
X n
X
V Xj = V(Xj )
j=1 j=1
P
Si además las Xj tienen varianza común σ 2 , entonces V( n 2
j=1 Xj ) = nσ .
La varianza de la variable promedio se obtiene sin más que aplicar que V(aX) = a2 V(X) .
Ası́ que la variable promedio

n
1X
Yn = Xj
n j=1
tiene media µ.
√
Pero además tiene una desviación tı́pica σ/ n, cantidad que, si n es muy grande, es
muy pequeña.
De manera que los valores del promedio Yn se concentran extraordinariamente en
torno a la media.
La cuantificación de esta primera impresión es lo que se conoce como ley (débil) de

los grandes números.
El ingrediente fundamental de este resultado es la propiedad general conocida como

desigualdad de Chebyshev, que ya mencionamos en la página 20.
Ley (débil) de los grandes números

X1, . . . , Xn son i.i.d. con media µ y varianza σ 2. Consideramos la variable “promedio”

1X
n  E(Yn) = µ;
Yn = Xj . −→ σ
n j=1  σ(Yn) = √ (por independencia).
n
Si n es grande, los valores de Yn se concentran en torno a la media común a las Xj ,

esto es, µ. Más precisamente, y con la ayuda de la desigualdad de Chebyshev,
1X n σ2
P Xj − µ > λ ≤ 2
.
n j=1 nλ
Con probabilidad tan próxima a 1 como queramos, la media aritmética se desvı́a de µ

tan poco como queramos (si el número n de “copias” de Xj es suficientemente grande).
Ilustración
Comprobar este hecho con Excel (con variables Bernoulli).
El Teorema del Lı́mite Central

De unas variables X1, X2, . . . “sólo” sabemos que son i.i.d., con media y varianza
comunes µ y σ 2. Sabemos que el promedio Yn = (X1 +· · ·+Xn)/n es, aproximadamente,
como µ. Pero, ¿podemos estimar cantidades como
P(Yn ≤ a) ?
Es decir, ¿podemos conocer (con cierta precisión) la función de distribución de Yn?

Parecerı́a que depende de la distribución de las Xj , pero. . .
Ilustración
Un trabajo de campo previo:
Obtenemos, por simulación, valores del promedio de n = 10 Bernoullis de p = 0.3.
Centramos en 0 (restando la media, p).√
Ahora normalizamos, dividiendo por σ/ n.
Obtener el histograma. Repetir el procedimiento cuando cada Xj toma, por ejemplo, 5 valores con
determinadas probabilidades.
Enunciado del Teorema del Lı́mite Central
Tenemos variables aleatorias X1, X2, . . . i.i.d., todas con media µ y varianza σ 2 . La
variable aleatoria promedio tipificada (es decir, con media 0 y desviación tı́pica 1)
X n
1 1
Zn = √ Xj − µ
σ/ n n j=1
cumple que Z x
1
n→∞ 2
P(Zn ≤ x) −−−−→ Φ(x) = √ e−y /2
dy .
2π −∞
y Z
x2
n→∞ 1 2
P(x1 ≤ Zn ≤ x2 ) −−−−→ Φ(x2) − Φ(x1) = √ e−y /2dy .
2π x1
Es decir, la variable Zn se distribuye (aproximadamente, y si n es grande) como una
N (0, 1).
Pn
j=1 Xj −nµ
Versión para sumas (no promedios): la variable √
σ n
se distribuye (aproxima-
damente, y si n es grande) como una N (0, 1).
Algunas observaciones sobre el TLC
Obsérvese que
Pn
j=1 Xj − nµ
Ley débil de los grandes números: →0
n
Pn
j=1 Xj − nµ
Teorema central del lı́mite: √ → N (0, 1)
σ n
Ilustración
• Simulación, tanto de la ley débil como del TLC, para diversos modelos de variable aleatoria Xj .
• Comprobar gráficamente qué ocurre si en el denominador ponemos n1/4, n3/2, etc.
Un par de comentarios más sobre el Teorema del Lı́mite Central.

¿Cómo de preciso es el TLC?
• Sea Yn = n 1 Pn
j=1 Xj , donde las Xj son i.i.d.
• Digamos que las Xj tienen media E(Xj ) = 0 y varianza V(Xj ) = σ 2 .
• Supongamos además que E(|Xj |3 ) = d.
√
• Llamemos Fn (x) a la función de distribución de la versión tipificada, Yn /(σ/ n).
El TLC afirma que Fn (x) se “parece” a Φ(x) cuando n → ∞. Pero, ¿cuánto? Tenemos, por ejemplo, la siguiente
estimación (válida para todo x ∈ R y n ∈ N):
d
|Fn (x) − Φ(x)| ≤ √ .
σ3 n
Versiones más generales del TLC

• Variables no idénticas. Si cada Xj tiene media E(Xj ) = µj y varianza V(Xj ) = σj2 , y además se cumplen algunas
condiciones técnicas adicionales (sobre el crecimiento de los segundos y terceros momentos –condición de Lyapunov,
de Lindeberg–), entonces
Pn Pn
j=1 jX − j=1 µj
P 1/2 sigue una distribución que es, aproximadamente, una N (0, 1) si n es grande.
n 2
j=1 σj
• Variables no independientes. Hay algunas versiones del TLC en las que se relaja (un poco) la condición de
independencia.
Aplicación del TLC al cálculo de probabilidades
Dadas unas variables aleatorias X1, . . . , Xn i.i.d., consideramos la variable aleatoria
n
1X
Yn = Xj ,
n j=1
el promedio de las Xj .
El Teorema Central del Lı́mite nos dice que

Y − µ a − µ n grande
a − µ
n
P(Yn ≤ a) = P(Yn − µ ≤ a − µ) = P √ ≤ √ ≈ Φ √ .
σ/ n σ/ n σ/ n
Esta aproximación (cuando sea aplicable) nos permite entender la variable Y sin
necesidad de conocer explı́citamente la distribución de las Xj : de ellas basta conocer la
media µ y la desviación tı́pica σ (además, claro, del número de sumandos n).
ejemplo. Lanzamos 1000 veces la moneda (p = 1/2). Esperamos 500 caras, pe-
ro. . . ¿cuál es la probabilidad de obtener entre 450 y 550 caras?
La variable de interés,
Y = X1 + X2 + · · · + X10000
cuenta el número de caras, donde las Xj son ber(1/2), que tienen media E(Xj ) = 1/2
y varianza V(Xj ) = 1/4.
• En realidad, Y es una bin(1000,

√ 1/2), de media E(Y ) = 500, varianza V(Y ) = 250
y desviación tı́pica σ(Y ) = 5 10. Ası́ que podrı́amos calcular numéricamente la
probabilidad de que tome valores entre 450 y 550.
• Alternativamente, y a modo de aproximación, la desigualdad de Chebyshev nos da

P(|Y − 500| > 50) ≤ 250
50 2 = 1
10 . Una probabilidad de más del 90 %.
• Pero, en realidad, con el TLC podemos obtener una mejor aproximación:

50 Y −500 50
P(450 ≤ Y ≤ 550) = P(−50 ≤ Y − 500 ≤ 50) = P − 5√ 10
≤ √
5 10
≤ √
5 10
≈ P(− √1010 ≤ Z ≤ √10 )

10
= P(−3.1622 ≤ Z ≤ 3.1622) = 99.843 %
Intervalos de confianza
Buen parte del análisis de cuestiones aleatorias que hemos visto hasta aquı́ se basa en
un enfoque “experimental”, y como tal, está expuesto a “errores de medida”.
Por ejemplo, si disponemos de un mecanismo de simulación de una cierta variable
aleatoria Y , para calcular su media E(Y ) generamos una muestra grande de valores
y1, y2, . . . , yN
para luego tomar la media aritmética
N
1 X
ȳ = yj .
N j=1
Nos gustarı́a disponer estimaciones de la posible discrepancia entre el valor “real” E(Y )
y el promedio ȳ obtenido.
O mejor aún, estimar a priori cuántas muestras (el valor de N ) son necesarias para que
esa discrepancia no supere un cierto umbral (un 1 %, por ejemplo).
Los números y1, . . . , yN son muestras (independientes) de la variable aleatoria Y ,

cuyas caracterı́sticas son en principio desconocidas. Consideremos la variable aleatoria
promedio,
N
1 X
Y = Yj ,
N j=1
de la que sabemos que
V(Y ) √
E(Y ) = E(Y ) y V(Y ) = (esto es, σ(Y ) = σ(Y )/ N ).
N
No conocemos la distribución precisa de Y , pero el teorema del lı́mite central nos dice
que
Y − E(Y )
√ es, aproximadamente, como una N (0, 1).
σ(Y )/ N
Lo que nos permite establecer la siguiente estimación a priori.
Zα correspondiente al 95% de nivel de confianza
Dado un cierto α (por ejemplo, α = 5 %), llamemos zα 0.5
0.45
al valor para el que 0.4
0.35
0.3
P(−zα < N (0, 1) < zα) = 1 − α 0.25
0.2
0.15
0.1
(en Excel, zα =distr.norm.estand.inv (1 − α/2)). 0.05 Z

α
0
−5 −4 −3 −2 −1 0 1 2 3 4 5
Entonces,
Y − E(Y )
1 − α ≈ P − zα < √ < zα
σ(Y )/ N
σ(Y ) σ(Y )
= P Y − zα √ < E(Y ) < Y + zα √
N N
Es decir, que hay una alta probabilidad (1 − α) de que el valor medio buscado, E(Y ),
no difiera de Y en más de zα σ(Y
√ .
N
)
El problema es que, en general, no conocemos σ(Y ).
Pero, una vez que dispongamos de las muestras y1, . . . , yN de Y , tendremos que la
muestra de la variable Y es
N
1 X
y= yj
N j=1
y podemos estimar σ(Y ) con la desviación tı́pica muestral
N
1 X
s= (yj − y)2
N − 1 j=1
Para, a posteriori, tener confianza 1 − α de que se tenga

s s
y − zα √ ≤ E(Y ) ≤ y + zα √
N N
El intervalo de confianza tiene tamaño 2zα √s .
N
Ilustración
Obtención de intervalos de confianza para muestras dadas. Evolución del intervalo de confianza en
función de N .
Sumas de variables Bernoulli
Un tipo de sumas muy relevante en las aplicaciones (crédito, seguros) son del tipo
n
X n
X
Sn = Ij o quizás S̃n = mj Ij para ciertos números mj ,
j=1 j=1
donde las variables Ij son Bernoulli (toman valores 0 ó 1). Ij puede representar el
default (o no) de un cierto instrumento.
Sn registra el número de defaults que se producen, mientras que S̃n puede representar
el impacto (pérdida) total que tenemos, si mj es el impacto (pérdida) asociado al
instrumento j.
Para analizar este tipo de variables aleatorias, disponemos de técnicas diversas, en
función de las caracterı́sticas de las Ij (de si son independientes o no, de si son idénticas
o no). Lo que sigue es un resumen de estas posibilidades.
Si las Ij son independientes
En este caso, disponemos de la técnica general de las funciones generatrices (véase

el apéndice II), que nos permiten codificar eficazmente las probabilidades de las
variables Sn, e incluso las de S̃n.
Pero hay otras técnicas útiles para nuestro análisis.
Caso 1.- Las Ij son idénticas
Es decir, cada Ij es una Bernoulli de parámetro p (el mismo para todas). Entonces
sabemos que
Sn es una bin(n, p);
si p es pequeña, n es grande y np = λ, entonces Sn se puede aproximar por una

poisson(λ).
Si n es grande,
p se puede aplicar el Teorema del Lı́mite Central, que nos dice que
(Sn − np)/ np(1 − p) es, aproximadamente, una N (0, 1).
Caso 2.- Las Ij no son idénticas
Es decir, cada Ij es una Bernoulli de parámetro pj , de media E(Ij ) = pj y varianza

V (Ij ) = pj (1 − pj ). Pero Sn, que sigue tomando valores entre 0 y n, ya no es una
binomial. La variable Sn tiene media y varianza
n
X n
X
E(Sn) = pj , V(Sn) = pj (1 − pj ) ,
j=1 j=1
Sin embargo,
si todas las pjP

son muy pequeñas, entonces Sn se puede aproximar por una Poisson
de parámetro pj (véase el argumento en el apéndice II).
Y el Teorema del Lı́mite Central (una versión más general, que no requiere que las
variables sean idénticas, véase la página 170) también se puede aplicar:
Pn
Sn − j=1 pj
qP ∼ N (0, 1) si n es grande.
n
j=1 pj (1 − pj )
En un rango intermedio (n no es muy grande, y las pj no son muy pequeñas), ¿hay

alguna manera eficiente de calcular las probabilidades con las que Sn toma los valores
0, 1, . . . , n? Sı́, un procedimiento recursivo y muy rápido.
Sk Sk+1
Digamos que disponemos de las probabilidades con las que Sk
❄ ❄
toma los valores 0, 1, . . . , k. Ahora escribimos la probabilidad pk pk+1
con la que Sk+1 toma un cierto valor, digamos j, de la

siguiente manera:
j −1
■
P(Sk+1 = j) = P(Sk = j, Ik+1 = 0) + P(Sk = j − 1, Ik+1 = 1) j ✛
indep.
= P(Sk = j)P(Ik+1 = 0) + P(Sk = j − 1)P(Ik+1 = 1)
= P(Sk = j)(1 − pk+1) + P(Sk = j − 1)pk+1
Ilustración
• Implementar en Excel el procedimiento anterior.
• Comprobar que, si los pj son todos iguales, entonces tenemos una binomial.
• Comprobar que, si los pj son todos muy pequeños, entonces tenemos la aproximación de Poisson.
¿Se puede implementar un procedimiento análogo para S̃n? Podemos suponer que los
mj de la suma Xn
S̃n = mj Ij
j=1
son números naturalesP
(múltiplos de una cierta unidad de medida). Ahora los valores de
n
S̃n van desde 0 hasta j=1 mj (y no se toman todos los valores intermedios).
Sk Sk+1
De nuevo, escribimos la probabilidad con la que Sk+1 tome
❄ ❄
mkmk+1
un cierto valor, digamos j, de la siguiente manera:
pk pk+1
j − mk+1
P(Sk+1 = j) ❖
= P(Sk = j, Ik+1 = 0) + P(Sk = j − mk+1, Ik+1 = 1)

= P(Sk = j)(1 − pk+1) + P(Sk = j − mk+1)pk+1
j ✛
Ilustración
Implementar en Excel el procedimiento anterior.
Si las Ij no son independientes

Vamos a analizar un caso especial, en el que las Ij son todas idénticas (Bernoullis de
parámetro p) y, además, hay una correlación común a todas las parejas de variables.
Para incorporar esta correlación fija, diseñamos un procedimiento tipo cópula normal
(Vasicek, Basilea): partimos de X1 . . . , Xn normales N (0, 1) independientes. Además,
consideramos una variable Y que sea N (0, 1) e independiente de las anteriores. Es decir,
el vector (X1, . . . , Xn, Y ) sigue una normal multidimensional. Definimos
√ p
Z j = ρ Y + 1 − ρ Xj , para cada j = 1, . . . , n
Las variables Zj son N (0, 1) y la correlación entre cualesquiera dos de ellas es ρ.
Detalle. Son normales, pues son combinación lineal de normales que provienen de una multidimensional.
√ p
E(Zj ) = ρ E(Y ) + 1 − ρ E(Xj ) = 0
q
2 2 2
V(Zj ) = E(Zj ) = ρE(Y ) + (1 − ρ)E(Xj ) + ρ(1 − ρ)E(Xi · Xj ) = 1
p p q
2
corr(Zi, Zj ) = E(Zi Zj ) = ρE(Y ) + 1 − ρE(Y Xi) + 1 − ρE(Y Xj ) + ρ(1 − ρ)E(Xi Xj ) = ρ
Finalmente, cada Bernoulli Ij viene dada por

prob p
1 si Zj ≤ Φ−1(p)
Ij =
0 si Zj > Φ−1(p) ⑦
Φ−1 (p)
el diccionario habitual entre variables Bernoulli y normales.
Nótese que Ij toma el valor 1 con probabilidad p, pero las Ij no son independientes
entre sı́ (porque las Zj no lo son).
Observaciones:
podemos considerar Y como el “estado de la economı́a”. Si Y es grande, entonces

las Zj son grandes y será más difı́cil que las Ij sean 1 (es decir, que haya defaults).
Las Xj registran la incertidumbre especı́fica sobre cómo de probable es que Ij valga 1

(es decir, que la exposición j haga default).
Condicionando sobre el valor de Y , las variables Zj (y, por tanto, las Ij ) son
independientes.
Si llamamos
√
Φ−1(p) − ρ Y
Π(Y ) = Φ √ ,
1−ρ
entonces la correlación entre dos de las Bernoulli es

E Π(Y ) − p2 2
corr(Ii, Ij ) =
p(1 − p)
Detalle.
E(Ii Ij ) − E(Ii )E(Ij ) E(Ii Ij ) − p2

corr(Ii , Ij ) = =
σ(Ii )σ(Ij ) p(1 − p)
√ √

−1 −1
Φ−1 (p) − ρY Φ−1 (p) − ρY
E(Ii Ij ) = P Zi ≤ Φ (p), Zj ≤ Φ (p) = P Xi ≤ √ , Xj ≤ √
1−ρ 1−ρ
Z ∞ √ √
Φ−1 (p) − ρy Φ−1 (p) − ρy −y 2 /2 dy
= P Xi ≤ √ , Xj ≤ √ e √
−∞ 1−ρ 1−ρ 2π
Z ∞ √ √
Φ−1 (p) − ρy Φ−1 (p) − ρy −y 2 /2 dy
= P Xi ≤ √ P Xj ≤ √ e √
−∞ 1 − ρ 1 − ρ 2π
Z ∞
2 −y 2 /2 dy 2
= Π(y) e √ = E(Π(Y ) )
−∞ 2π
Condicionando sobre el valor de Y , por ejemplo Y = y, la variable
n
X n
X n
X
Sn = Ij = 1{Zj ≤Φ−1(p)} = 1 √
Φ−1 (p)− ρy
{Xj ≤ √ }
j=1 j=1 j=1 1−ρ
es una binomial de parámetros n y Π(y).
Si n es grande, entonces Sn es, aproximadamente, una normal de parámetros

p
N nΠ(y), nΠ(y)(1 − Π(y))
Ilustración
Obtener, por simulación, el histograma de Sn.
5. Componentes principales
Previo: diagonalización
Matrices simétricas. Diagonalizar una matriz simétrica Σ es factorizarla en la forma
Σ = SΛST ,
donde S es una matriz ortogonal y Λ es una matriz diagonal.
Recordemos que una matriz (cuadrada n × n) W es ortogonal si
T T
W W = W W = In (la identidad n × n).
Es decir, si WT = W−1 . Esto supone que

las filas (y columnas) de W son perpendiculares (ortogonales) y de longitud 1.
Conserva los productos escalares: si u y v son dos vectores (columna), su producto escalar coincide con el producto
escalar entre los vectores transformados Wu y Wv:
T T T T
(Wu) (Wv) = u W Wv = uv .
2 2
Y por tanto (tomando u = v en la expresión anterior), conserva también las longitudes: kuk = kWuk
Matrices simétricas y definidas positivas
Si además de ser simétrica, Σ es definida positiva (como ocurre cuando Σ es una

matriz de correlaciones o de covarianzas), entonces, en la factorización
Σ = SΛST ,
las entradas de la diagonal de Λ son positivas.
Una matriz cuadrada M es definida positiva si xTMx > 0 para todo vector x no nulo. Esto equivale a
que los determinantes de todas las (sub)matrices cuadradas que se obtienen de M partiendo de la esquina
superior izquierda son positivos.
Si M es además simétrica, entonces ser definida positiva es equivalente a cualquiera de las siguientes
condiciones:
a) todos sus autovalores son positivos;
b) M se puede escribir como M = AAT , para cierta matriz invertible A (la descomposición de Cholesky es
un ejemplo).
¿Cómo se diagonaliza?
Las entradas (de la diagonal de) Λ son los autovalores de Σ.

Las columnas de S son los autovectores de Σ.
Los autovalores y los autovectores se calculan con procedimientos numéricos, en general

muy costosos. (En el paquete matrix, MEigenvalJacobi, MEigenvecJacobi).
Para una matriz cuadrada A (de dimensiones n × n) general, decimos que λ es un autovalor y que v 6= 0 es un autovector
si son solución de
Av = λv
Cálculo de autovalores Cálculo de autovectores

Obsérvese que Una vez que disponemos de los autovalores, basta resolver,
(A − λIn )v = 0 , para cada λj , el sistema de ecuaciones
esto es, la matriz A − λIn no es invertible, lo que supone
(A − λj In )v = 0
que
det(A − λIn) = 0 que nos da el autovector (o autovectores) que corresponden
Ésta es una ecuación algebraica (en λ) de grado n cuyas a cada λj .
n soluciones son los autovalores de A. Pero los autovalores En todo caso, el cálculo de los autovalores y los autovectores
pueden repetirse, ser números complejos, etc. es un problema computacionalmente complicado.
Nota
Matrices de correlación.
Una matriz de correlaciones Σ es simétrica, definida positiva y tiene unos en la diagonal.
1 Por ser simétrica, es diagonalizable de la siguiente manera:
T
Σ = SΛS ,
donde Λ es la matriz (diagonal) de autovalores y S es una matriz ortogonal (sus columnas, los
autovectores de Σ, son de longitud unidad y perpendiculares).
2 Por ser definida positiva, los autovalores son todos positivos.
3 Por tener unos en la diagonal, si escribimos
√ √ T
Σ= S Λ S Λ ,
√
las filas de S Λ tienen, vistas como vectores, longitud unidad.
Nota
El caso general. Sea A una matriz cuadrada de dimensiones n × n, no necesariamente simétrica.
La matriz se dice diagonalizable si se puede factorizar en la forma
−1
A = SΛS
(nótese que a la derecha aparece la inversa de S).

No toda matriz cuadrada es diagonalizable.
Ilustración
• Diagonalización en Excel de una matriz A, con ayuda del paquete matrix.xla.
• Diagonalización de una matriz simétrica Σ. Compruébese que los autovectores son ortonormales
(perpendiculares y de longitud 1).
• Diagonalización de una matriz de correlaciones Σ. Compruébese que, además, los autovalores son
positivos.
• Diagonalización consiguiendo que los autovalores vayan ordenados de mayor a menor. Nota: las
funciones MEigenvalJacobi y MEigenvecJacobi no ordenan los autovalores de mayor a menor.
Ası́ que pueden resultar útiles también las funciones MEigensortJacobi y MDiagExtr.
Simulación de normales correladas con diagonalización
Queremos simular un vector Y = (Y1, . . . , Yn) normal multivariante de media 0 y matriz

de correlaciones Σ (recuérdese que podemos imputar medias y desviaciones tı́picas al
final del proceso, sin más que reescalar y desplazar las variables por separado).
Sea X = (X1, . . . , Xn) un vector normal multivariante de media 0 y matriz de

correlaciones identidad. Si conseguimos escribir
Σ = AAT ,
donde A es una matriz invertible cualquiera, entonces
Y = XAT
tiene a Σ como matriz de correlaciones (véase el detalle del argumento en la página 136).
Una posibilidad, ya lo hemos visto, viene dada por la descomposición de Cholesky. Pero
otra posibilidad pasa por utilizar la descomposición dada por la diagonalización.
Como Σ es una matriz de correlaciones (simétrica), entonces se podrá diagonalizar:
Σ = SΛST, donde S es una matriz ortogonal.
Pero como además es definida positiva, sus autovalores son todos positivos. Ası́ que
podremos tomar raı́ces cuadradas y escribir
√ √ √ √ T
Σ = SΛST = S Λ ΛST = S Λ S Λ
Y ya tenemos la descomposición que buscábamos.
Ilustración
Simulación de normales correladas con Σ con el procedimiento de diagonalización.
No parece que obtengamos ventajas. El cálculo de la descomposición de Cholesky

exige, simplemente, resolver un sistema de ecuaciones. Es muy sencillo de implementar.
Mientras que el cálculo de los autovalores y los autovectores requiere el uso de métodos
iterativos (no exactos y costosos, desde el punto de vista computacional). Sin embargo,
en ocasiones, es un método útil. Sobre todo en combinación con la simplificación dada
por las componentes principales.
Componentes principales
La técnica de componentes principales sirve

para describir
• cómo han variado conjuntamente en el pasado varias variables
con el objetivo de
• capturar las fuentes/factores comunes responsables de su variación conjunta
con la expectativa de que
• bastarán (esencialmente) pocas dimensiones o factores para describir esa variación
conjunta
todo ello encaminado a
• utilizar esa descripción simplificada para generar muestras alternativas futuras de ese
conjunto de variables.
Ese conjunto de variables puede ser
la lista de tipos swap (a distintos plazos);

la matriz de volatilidades (strikes/vencimientos);
la lista de spreads de crédito (plazos);
variables macro: PIB, desempleo, . . .
cotizaciones de acciones del Ibex35.
En ocasiones, serán los propios niveles de las variables, o también sus variaciones o
rendimientos (diarios, semanales,. . . )
La descripción basada en componentes principales se puede utilizar para
el análisis de coberturas;
la medición de riesgos;
la detección de posiciones extremas (oportunidades) que ¿han de revertir?
Ejemplo estilizado
Datos originales de dos variables

4,00 4,00
y = 0,2827x - 0,0404
3,00 3,00
2,00 2,00
1,00 1,00
0,00 0,00
-4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 -4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00
-1,00 -1,00
-2,00 -2,00
-3,00 -3,00
-4,00 -4,00
correladas/dependientes
(Re-)interpretación de los datos variables

4,00 4
3,00 3
2,00 2
1,00 1
0,00 0
-4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 -4 -3 -2 -1 0 1 2 3 4
-1,00 -1
-2,00 -2
-3,00 -3
-4,00 -4
~1, w
ejes w ~2 incorreladas/independientes
Componentes principales
Datos iniciales: U
Se quiere analizar el comportamiento conjunto de ciertas n variables financieras. Para
ello se dispone
en T fechas pasadas,
de los valores de n variables.
fechas U1 U2 ··· Un
t=1 u1(1) u2(1) ... un(1) ← u(1)
t=2 u1(2) u2(2) ... un(2) ← u(2)
t=3 u1(3) u2(3) ... un(3) ← u(3)
.. .. .. ... ..
t=T u1(T ) u2(T ) ... un(T ) ← u(T )
cada fila: una fecha t datos de las n variables

cada columna: una variable j valores en todas las fechas t
uj (t) es valor de la variable j en la fecha t.
Los datos conforman una matriz U de dimensiones T × n.
Por ejemplo,
podrı́amos considerar T quincenas consecutivas
y disponer de U
los niveles de tipos de interés para n plazos distintos;

o las diferencias semanales de esos tipos de interés;
o los rendimientos (variaciones porcentuales) de esos mismos tipos;
o...
ejemplo
La matriz de datos U contiene niveles diarios de tipos swap a 1, 3, 5 y 10 años:
Datos normalizados: X
Normalización. Para el análisis y la adecuada comparación e interpretación de los
resultados se precisa normalizar las variables que componen los datos.Es decir, se han
de normalizar las columnas.
Anotamos y reservamos para uso posterior
las medias de las columnas (µ1, µ2, . . . , µn)
las desviaciones tı́picas de las columnas (σ1 , σ2, . . . , σn)
Para cada columna, a cada uno de los datos uj (t)

se les resta la media µj de la columna;
se les divide por la desviación tı́pica σj de esa columna.
Nota
Restar las medias es un paso imprescindible. Normalizar las desviaciones tı́picas no es, sin embargo,
imprescindible: el análisis se puede hacer con la matriz de covarianzas en lugar de la de correlaciones.
Véase la página 221.
De los datos originales U pasamos a los datos normalizados X:
fechas X1 X2 ··· Xn
t=1 x1 (1) x2(1) ... xn(1) ← x(1)
t=2 x1 (2) x2(2) ... xn(2) ← x(2)
t=3 x1 (3) x2(3) ... xn(3) ← x(3)
.. .. .. ... ..
t=T x1(T ) x2(T ) ... xn(T ) ← x(T )
es decir,
x(t) = (x1(t), x2(t), . . . , xn(t)), t = 1, 2, . . . , T
donde
uj (t) − µj
xj (t) = .
σj
Los datos X conforman una matriz de dimensiones T × n.
Cada columna de X tiene ahora media 0 y desviación tı́pica 1.
Las columnas de U (y asimismo las de X) están correladas.
Representación de los datos X a través de componentes
Base
Hay una base de n vectores de dimensión n (una base de autovectores),
w1 , w2 , . . . , wn
que recogemos en una matriz:

   
− − w1 − − primer vector
 − − w2 − −  segundo vector
W=
 .. =
  .. 

− − wn − − n-ésimo vector
donde cada fila es uno de los vectores de la base.
• Los vectores w1, w2, . . . , wn son perpendiculares entre sı́.
• Los vectores están ordenados por tamaño, de mayor a menor:
|w1|2 ≥ |w2|2 ≥ . . . ≥ |wn|2

| {z } | {z } | {z }
=λ1 =λ2 =λn
p
• El tamaño de cada w1 es λj .
Representación e importancia
Se representará cada lista/dato x(t) como combinación de los vectores fijos
w1 , w2 , . . . , wn
Hay n factores tan sólo, aunque el número de datos T sea arbitrariamente grande.
El vector w1 es el más “importante”.
La importancia de cada vector de la base viene dada por su tamaño al cuadrado.
La importancia relativa de cada vector de la base viene dada por
λj
importancia relativa de wj = .
λ1 + λ2 + · · · + λn
La importancia relativa mide cuánta de la variación conjunta de las variables que

conforman X queda explicada por ese vector wj .
Los pesos en cada componente: Z
Cada uno de los vectores X(t) se puede expresar en términos de los vectores
w1 , w2 , . . . , wn
Los coeficientes que se usan en esa representación se denominan componentes o pesos:

t=1 x(1) = z1(1) · w1 + z2(1) · w2 + · · · + zn(1) · wn
t=2 x(2) = z1(2) · w1 + z2(2) · w2 + · · · + zn(2) · wn
t=3 x(3) = z1(3) · w1 + z2(3) · w2 + · · · + zn(3) · wn
.. .. .. ..
t=T x(T ) = z1(T ) · w1 + z2(T ) · w2 + · · · + zn(T ) · wn
Es decir, para cada t,
x(t) = z1(t) · w1 + z2(t) · w2 + · · · + zn(t) · wn
Los zj (t) forman una matriz T × n que llamamos Z.
Cada zj (t), el peso del factor wj en la representación de x(t), se calcula como sigue:
x(t) · wj
zj (t) = .
λj
Columnas de Z.
• Cada una de las columnas de Z tiene media 0.
• Cada una de las columnas de Z tiene desviación tı́pica 1.
• Cada par de columnas de Z tiene correlación 0.
Interpretación de la representación.
• z1, z2, . . . , zn son muestras de variables aleatorias tipificadas e incorreladas.
• Cada x(t) es muestra de un vector/lista aleatorio que se obtiene mediante
x = z1 · w1 + z2 · w2 + · · · + zn · wn .
Cálculo de componentes
PT
1
1.- Partimos de la matriz de correlaciones Σ = Σi,j ⇚ Σi,j = T t=1 Xi(t)Xj (t)
2.- Calculamos los autovalores y autovectores de Σ:

   
λ1 − − v1 − −
 λ2   − − v2 − − 
Autovalores :  . ; Autovectores por filas  . .
 .   . 
λn − − vn − −
3.- Finalmente, las componentes principales se obtienen:

√  
w1 = √λ1 · v1
 w2 = λ2 · v2 
W=
 .. ,

√
wn = λn · vn
p
es decir, wj = λj vj para cada j = 1, . . . , n.
Componentes principales de los tipos swap
otros ejemplos
1,00
primera
segunda
0,50
tercera
0,00
TEF ELE SAN
-0,50
-1,00
Tef, Ele, San
1,00
0,50
primera
segunda
0,00
5 - 7 Govt Spread
Banks Senior A 5
AAA 5 - 7 Govt
Banks Senior AA
Banks Senior
- 7 Govt Spread
Spread
-0,50
-1,00
Spreads: AAA, AA, A
superficie de volatilidades
Componente 1 Componente 2
9% 5%
8% 4%
3%
7%
2%
6%
1%
5%
0%
4%
-1%
3%
-2%
2%
-3%
1%
-4%
-10%
0% -10% -5%
-5%
Moneyness 4Y -5% 4Y
0%
3Y Moneyness
2Y 0% 3Y
5%
1Y 2Y
Vcto 5% 1Y Vcto
6M
10%
3M 6M
10%3M
primera segunda
Reducción de dimensión
Aproximamos cada x(t) quedándonos sólo con las tres primeras componentes, por
ejemplo, creando nuevas listas
x̂(t), t = 1, 2, . . . , T .
t=1 x̂(1) = z1(1) · w1 + z2(1) · w2 + z3(1) · w3

t=2 x̂(2) = z1(2) · w1 + z2(2) · w2 + z3(2) · w3
t=3 x̂(3) = z1(3) · w1 + z2(3) · w2 + z3(3) · w3
... ... ... ...
t=T x̂(T ) = z1(T ) · w1 + z2(T ) · w2 + z3(T ) · w3
sólo las 3 primeras componentes
Por ejemplo, para t = 15,
x(15) ≈ x̂(15) = z1(15) · w1 + z2(15) · w2 + z3(15) · w3.
Interpretación.
• z1, z2, z3 son muestras de variables aleatorias tipificadas e incorreladas.
• Cada x(t) es aproximadamente muestra de un vector/lista aleatorio que se
obtiene mediante
x ≈ z1 · w1 + z2 · w2 + z3 · w3.
Error en la aproximación
Al aproximar con 3 componentes se comete un error:
error cuadrático medio λ4 + · · · + λn

=
tamaño medio de X λ1 + λ2 + λ3 + λ4 + · · · + λn
λ4 + · · · + λn λ1 + λ2 + λ3
= = 1−
n | n
{z }
=capacidad explicativa
Nota
La suma λ1 + λ2 + · · · + λn es siempre n y coincide con el tamaño medio al cuadrado de las
listas x(t).
En el ejemplo: La importancia relativa de las componentes es

 
primera → 97.56 %
segunda → 2.12 % 
 
 tercera → 0.30 % 
cuarta → 0.02 %
Las tres primeras componentes explican el 99.98 % de la variación conjunta de los tipos
swaps. Pero ya solo la primera explica el 97.56 %.
Modelación y simulación
Se pueden obtener muestras potenciales/simuladas de las listas x apoyándose en la
aproximación, por ejemplo, con las tres primeras componentes principales:
1. Partimos de los tres vectores fijos w1, w2 y w3;
2. sorteamos muestras
z1, z2, z3
de las variables tipificadas Z1, Z2, Z3 (por ejemplo, normales estándar independien-
tes),
3. formando muestras x de X mediante
x = z1 · w1 + z2 · w2 + z3 · w3
4. y destipificando para obtener muestra de u (es decir, multiplicando cada coorde-

nada de x por su correspondiente σj y sumando la correspondiente media µj ).
Obsérvese que se sortean únicamente 3 números, para generar listas de longitud n.
Ilustración
Simulación de curvas de tipos swaps.
Nota
Las variables Zj han de ser tipificadas e incorreladas. La distribución conjunta de las Zj no
está especificada.
La hipótesis de normalidad es cómoda.
Pero también pueden usarse variables t de Student, que suelen ajustar mejor. O bien ajustes
especı́ficos (basados, por ejemplo, en las propias muestras de las Zj ).
Modelos, modelos. Hasta ahora tenı́amos únicamente unas series de datos, y hemos hallado una base en la que la
variabilidad total se redistribuye de manera conveniente.
Pero ahora queremos proponer modelos que guı́en la generación de los pesos. ¿De dónde los sacamos? Hay varias opciones.
Una, por supuesto, es proponer un cierto modelo, uno que se pueda ajustar a los comportamientos habituales de las
variables de interés, y en el que nos sintamos cómodos calculando. Como, por ejemplo, un modelo normal, o una t de
Student, o. . .
Pero otra alternativa pasa por considerar que los propios datos de la serie son ya un modelo. Partimos de la serie X,
hacemos el análisis habitual y llegamos a la serie Z. Sus columnas zj están tipificadas y son incorreladas.
→ Vamos un poco más allá y suponemos que las zj son, además, independientes.
→ Ahora tomamos los datos de cada columna y hacemos el histograma correspondiente. Interpretamos este histograma
como un modelo probabilı́stico (discreto), del que podemos sortear. Como hemos supuesto que hay independencia, la
simulación conjunta es directa(∗) .
→ Alternativamente, podemos tomar los datos de cada columna, aplicarles algún procedimiento de “estimación de
densidades” (véase la página 236) con lo que en el modelo aparecen escenarios nuevos que no estaban en los datos. A
partir de ese modelo, simulamos (siempre independientemente).
(∗)
Aunque quizás, en este caso, en lugar de simular, vale la pena manejar todos los posibles escenarios. Si, por ejemplo, hay
cuatro variables (d = 4) y tenemos 1000 datos (N = 1000), podemos combinar cada z1 (t) con todos los datos de las
otras 3 columnas. Obtenemos ası́ 10004 = 1012 datos, en lugar de los 1000 originales.
¿Covarianzas o correlaciones?
En el procedimiento descrito hemos tipificado las series originales, lo que supone emplear
la matriz de correlaciones. Por otro lado, hemos anotado las desviaciones tı́picas, que
incorporamos al final del proceso.
Pero en ocasiones no se normalizan las series: se restan las medias, pero no se divide
por las desviaciones tı́picas. Esto supone que utilizamos la matriz de covarianzas, en
lugar de la de correlaciones. El procedimiento de cálculo de componentes se aplica a
esta matriz de covarianzas.
Si manejamos todas las componentes principales, no hay diferencia entre los dos
procedimientos. Sin embargo, al reducir la dimensión, tendremos diferencias entre ellos.
En finanzas, hay quienes optan por un procedimiento, y quienes lo hacen por el otro.
Ajuste fino de covarianzas/correlaciones
Digamos que Σ es la matriz de correlaciones. La descomposición de componentes

principales es
Σ = WTW.
Las filas de W son las componentes w1, w2, . . . , wd. Llamemos F a la matriz 3 × d de
las tres primeras componentes principales. Entonces
Σ ≈ FTF
Ası́ que FTF es “parecida” a Σ, pero no es, en general, una matriz de correlaciones: es
simétrica y definida positiva, pero no tiene unos en la diagonal.
Truco: normalizar las columnas de F para que tengan norma 1. La matriz G que se
obtiene cumple que
G × GT ≈ Σ y G es matriz de correlación
En muchas ocasiones se utilizan, como componentes, las filas de G.
Escenarios de Jamshidian
Hay una técnica que permite evitar la simulación para generar escenarios de posibles
curvas en el caso en que no se contemplen un número grande de saltos. Las ventajas de
esta técnica (debida a Jamshidian) son:
las curvas potenciales a tener el futuro serán finitas en número;

a cada curva se le asignará una determina probabilidad;
los escenarios extremos aparecen con probabilidades asignadas.
Idea de la aproximación
Sea W una variable aleatoria con distribución de probabilidad P. La metodologı́a de
Montecarlo consiste en escoger un número grande de realizaciones de esa variable (w’s),
ajustándose a la probabilidad P.
Ası́, si tomamos una muestra de M valores w’s, la proporción de los que caen en un
determinado intervalo, [a, b], ha de ser aproximadamente igual a la probabilidad teórica
P(a ≤ W ≤ b)
Una idea para entender y analizar la variable W consiste en seleccionar un valor que
represente al intervalo completo [a, b] para luego asignarle a ese valor concreto toda la
probabilidad teórica del intervalo que representa.
De esta forma se consigue aproximar la distribución de la variable aleatoria mediante

una distribución de probabilidad con un número finito de valores y sus probabilidades
asociadas.
Se consigue con esto:
reducir un espacio muestral infinito a uno finito;
garantizar la aparición de estados extremos.
Aproximación de normales por multinomiales
Si Y es una normal estándar N (µ, σ), una buena aproximación discreta es una variable
X multinomial, de parámetros µ, σ y m (un número par).
La variable X toma m + 1 valores, dados por
2σ
xj = µ + √ j , para j = − m
2 , − m
2 + 1, . . . , −1, 0, 1, . . . , m
2 − 1, m
2.
m
Las probabilidades con las que se toman estos valores son

1 m
P(X = xj ) = P Bin(m, 21 ) = j + m
= m j = −m , . . . , m
2 2 j+m2
2 2
Es decir, la probabilidad de que una binomial de m repeticiones con probabilidad de

éxito de 50 % tome el valor j + m
2.
Obsérvese que
2σ m
X =µ+√ Y − ,
m 2
1
donde Y es una binomial de m repeticiones y probabilidad de éxito 2 (recuérdese que
E(Y ) = m/2 y V(Y ) = m/4).
La media de X es
2σ m
E(X) = µ + √ E(Y ) − = µ.
m 2
Y la varianza,
h 2σ m i 2σ 4σ 2
V(X) = V µ + √ Y − =V √ Y = V(Y ) = σ 2 ,
m 2 m m
como corresponde.
Ejemplo. Las multinomiales de parámetros m = 4 y m = 6 para aproximar una

N (0, 1) toman los siguientes valores y probabilidades asociadas.
xi P(xi ))
xi P(xi )) −2,4495 0,0156
−2 0,0625 −1,6330 0,0938
−1 0,25 −0,8165 0,2344
0 0,375 0 0,3125
1 0,25 0,8165 0,2344
2 0,0625 1,6330 0,0938
2,4495 0,0156
Multinomial m=4
0.4
Multinomial m=6
0.35
0.35
0.3
0.3
0.25
0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
−2 −1 0 1 2 −3 −2 −1 0 1 2 3
Generación de escenarios
Vamos a combinar ahora las componentes principales con la aproximación multinomial.
Tenemos 3 componente principales y vamos a substituir cada una de esas normales

estándar por una multinomial, cada una con su correspondiente parámetro m.
Una regla sencilla que supone una excelente aproximación usa los siguientes parámetros:
Componente ppal. Aproximación por Multinomial(m) Número de estados

1 m=6 7
2 m=4 5
3 m=2 3
Ahora ya no simulamos. No obtenemos muestras de las tres normales, sino que tenemos
escenarios. El total de escenarios es 7 × 5 × 3 = 105. La probabilidad de cada escenario
será el producto de las probabilidades de los estados de cada multinomial.
Es decir, tenemos exactamente 105 posibles curvas para el salto de curva. Y cada una
de ellas tiene su correspondiente probabilidad. No hay una infinidad de posibles curvas
de las que debamos obtener muestras.
6. Apéndice I. Estadı́stica
¿Cómo se compara lo teórico con lo observado? Con tests estadı́sticos.
En las páginas que sigue, tratamos tres cuestiones:
Por ejemplo, queremos decidir si es aceptable la hipótesis de que una cierta muestra
está extraı́da de una distribución de probabilidad dada. Presentaremos dos tests
sencillos y ampliamente utilizados:
• el test de Kolmogorov-Smirnov;
• el test de la χ2.
En ocasiones, disponemos de una muestra de datos, que se suponen generados a partir

de un cierto mecanismo aleatorio, cuyo modelo depende de uno o varios parámetros.
Describiremos el método de máxima verosimilitud, que permite establecer los
valores de los parámetros que “mejor” se ajustan a la muestra.
En el tercer apartado de este apéndice se analiza el concepto de histograma (y de

suavización de histogramas) como aproximación a una densidad de probabilidad.
Test de Kolmogorov-Smirnov
(Sólo para distribuciones continuas). Tenemos una muestra de tamaño n y generamos
la función de distribución empı́rica ordenando esas muestras de menor a mayor: digamos
que y1, . . . , yn son los datos ya ordenados. Comparamos entonces con la función de
distribución teórica.
} salto 1/n
y1 y2 y3 ··· yn
La medida relevante es:
Dn = máx |F (yj ) − F emp(yj )| ,

1≤j≤n
donde
emp j
F (yj ) = .
N
Si Dn es mayor que un cierto valor crı́tico, rechazamos la hipótesis de partida (el que la
muestra corresponda a una variable aleatoria con la función de distribución teórica F ).
Los valores crı́ticos dependen de n y de un nivel de significación, y están tabulados.
Contraste χ2
Tenemos una muestra x1, . . . , xn. Agrupamos los datos en k clases. Oj es la frecuencia
observada en la muestra de la clase j.
El modelo que estamos contrastando asigna probabilidad pj a la clase j. La frecuencia
esperada es Ej = npj .
Calculamos
Xk
(Oj − Ej )2
discrepancia observada = ,
j=1
E j
que se distribuye aproximadamente como una χ2 (con k − 1 grados de libertad)

cuando el modelo es correcto.
Rechazaremos el modelo si la probabilidad de obtener una discrepancia mayor o igual
que la observada sea suficientemente baja.
Ejercicio
Contraste χ2 para alguna de las simulaciones anteriores.
Máxima verosimilitud
Tenemos unos datos x1, . . . , xn, que suponemos que son muestras independientes de
una cierta variable aleatoria X con función de densidad fθ (x). Hacemos explı́cito en
la propia notación que la función de densidad depende de un parámetro θ (también
podrı́an ser varios parámetros). Buscamos el valor de θ que mejor se ajuste a los datos.
Para ello, calculamos los valores de la función de densidad en los datos,
fθ (x1), fθ (x2), . . . , fθ (xn)
y formamos la función n
Y
Lθ (x1, . . . , xn) = fθ (xj ) .
j=1
O mejor, su logaritmo:
n
X
verosimilitud(θ) = ln Lθ (x1, . . . , xn)) = ln fθ (xj ) .
j=1
Ahora buscamos (con algún método de búsqueda de extremos, quizás numérico) el valor
de θ que maximiza la función verosimilitud(θ).
Observación
Nótese que maximizar una función o su logaritmo produce el mismo resultado (el logaritmo es
una función continua y estrictamente creciente).
En ocasiones, puede haber varios máximos de la función de verosimilitud, o ninguno.
Puede producir estimadores sesgados de los parámetros.
Ilustración
Ajústense los parámetros de una normal N (µ, σ) a una serie de datos.
Ejercicio
Compruébese, analı́ticamente, que para una normal N (µ, σ), los estimadores que se obtienen por
máxima verosimilitud son
n n
1X b 1X
µ
b= xj 2
(la media muestral x̄), y σ = (xi − x̄)2 (la varianza muestral).
n j=1 n j=1
El segundo es un estimador sesgado.
Estimación de densidades
Partimos de una muestra de datos x1, . . . , xn (quizás históricos, quizás producto de
algún mecanismo de simulación). Nuestro objetivo es estimar la función de densidad
f (x) subyacente.
1.- El primer método (habitual) es la representación gráfica en un histograma. Fijamos
un origen x0 y un paso h. Las clases son los intervalos

x0 + mh, x0 + (m + 1)h
para cada entero m.

El histograma es un estimador de la función de densidad f (x), dado por
1 1
fb(x) = #{de observaciones xj en la misma clase que x}
h
|{z} |n {z }
para tener área 1 proporción de observaciones xj en la misma clase que x
La función fb(x) es discontinua, claro. h es el “parámetro de suavización”. El mayor

problema es que puede depender bastante del origen x0 elegido.
2.- Segundo intento. Fijamos h > 0 (pequeño) y definimos
1 1
fb(x) = #{de observaciones xj en el intervalo (x − h, x + h)}
2h
|{z} n
| {z }
para tener área 1 proporción de observaciones xj en el intervalo (x − h, x + h)
Que se puede reescribir como

w(z)
n
X 1/2
b 1 1 x − xj
f (x) = w donde
n j=1 h h −1 0 1 z
Nótese que ya no hay elección de origen x0. La función fb(x) sigue sin ser continua
(tiene saltos en los valores x = xj ± h) y no es diferenciable en punto alguno.
3.- Un intento más general: consideramos un núcleo K(x) que cumpla que
Z ∞
K(x) dx = 1 .
−∞
Habitualmente, K(x) es una función de densidad (i.e., no negativa), y además simétrica.

La estimación es n
1X1 x − xj
fb(x) = K
n j=1 h h
Ventajas: si K(x) es una función de densidad, fb(x) también (y de hecho heredará las
propiedades de continuidad y diferenciabilidad que tenga K(x)).
Posibles elecciones:

una elección óptima (Epanechnikov): K(x) = máx 34 (1 − x2), 0 .
una elección sencilla: “suavizar” el histograma cambiando la altura en cada clase por
un promedio de las clases vecinas. Por ejemplo, 50 % de ella misma, y 25 % para las
dos vecinas.
7. Apéndice II. Funciones generatrices
Funciones generatrices y variables aleatorias

En varios de los modelos que hemos visto hasta aquı́, la variable aleatoria X toma valores
0, 1, 2, 3 . . . con probabilidades respectivas p0, p1, p2, . . . (donde pj = P(X = j)).
Para ciertas manipulaciones con este tipo de variables aleatorias, es muy conveniente
codificar las probabilidades con una función generatriz:
∞
X
GX (s) = P(X = j) sj
j=0
P
(que siempre converge para |s| < 1, pues j pj = 1). Obsérvese que, en lugar de dar la
lista de los pj , o una fórmula general para ellos, basta con dar la expresión de la función
generatriz GX que los representa.
En ocasiones, GX (s) se escribe como E(sX ), porque, condicionando,

X∞ X∞
E(sX ) = X
E(s |X = j) = sj P(X = j) = GX (s) .
j=0 j=0
Algunos ejemplos
Si X es una Bernoulli de parámetro p,
Gber(p)(s) = (1 − p) + ps .
Si X es una Binomial de parámetros n y p,
Gbin(n,p)(s) = [(1 − p) + ps]n
(nótese la analogı́a con la expresión de la Bernoulli).

Si X es una Poisson de parámetro λ,
Gpoisson(λ)(s) = eλ(s−1)
Si X es una Geométrica de parámetro p,

ps
Ggeom(p)(s) =
1 − (1 − p)s
Detalle matemático. Es conveniente recordar que
teorema del binomio serie geométrica serie de la exponencial

X∞ X∞ ∞ j
X
n j 1 x
(1 + x)n = x = xj para |x| < 1 ex =
j 1−x j!
j=0 j=0 j=0
n n
X n j n−j j nX n ps j n
h ps in
n
X ∼ bin(n, p) −→ GX (s) = p (1−p) s = (1−p) = (1−p) 1 + = [(1−p)+ps]
j j 1−p 1−p
j=0 j=0
X∞ j ∞ j
λ −λ j −λ X (λs) −λ λs λ(s−1)
X ∼ poiss(λ) −→ GX (s) = e s =e =e e =e
j! j!
j=0 j=0
∞
X ∞
j−1 j p X j p 1 ps
X ∼ geom(p) −→ GX (s) = p(1 − p) s = [(1 − p)s] = −1 =
1−p 1 − p 1 − (1 − p)s 1 − (1 − p)s
j=0 j=1
Al revés también. Dada la función GX (s), su desarrollo en serie de potencias (serie de

Taylor en torno a s = 0) nos da los coeficientes:
′ G′′X (0) 2 G′′′ (0) 3

GX (s) = GX (0) + GX (0) s + s + X s + ···
| {z } | {z } 2!
| {z } 3!
| {z }
p0 p1
p2 p3
Existen procedimientos numéricos rápidos para calcular estos coeficientes.
Cálculo de medias, varianzas, etc., con funciones generatrices
Si X toma valores 0, 1, 2, 3 . . . con probabilidades respectivas P(X = j) = pj , entonces
∞
X
E(X) = j P(X = j) .
j=0
Obsérvese que
∞
X ∞
X
GX (s) = P(X = j)sj =⇒ G′X (s) = P(X = j)j sj−1 ,
j=0 j=1
de manera que
E(X) = G′X (1) .
Ası́ que, para calcular la media de X, basta derivar su función generatriz y evaluar en
s = 1. Derivadas de orden mayor nos darı́an los sucesivos momentos (varianza, etc.)
• Si, por ejemplo, X sigue una bin(n, p),
GX (s) = [(1 − p) + ps]n =⇒ G′X (s) = n [(1 − p) + ps]n−1 p ,
de manera que E(X) = G′X (1) = np.

• Si X es una poiss(λ), entonces
GX (s) = eλ(s−1) =⇒ G′X (s) = λeλ(s−1) =⇒ E(X) = G′X (1) = λ .
• Si X es una geom(p), entonces

ps p 1
GX (s) = =⇒ G′X (s) = =⇒ E(X) = G′X (1) = .
1 − (1 − p)s (1 − (1 − p)s)2 p
Ejercicio
Ampliar el argumento al cálculo de varianzas para comprobar que
′′ ′ ′
V(X) = GX (1) + GX (1) [1 − GX (1)] .
Funciones generatrices y sumas de variables aleatorias

Consideremos dos variables X e Y (independientes) que toman valores 0, 1, 2, 3 . . . y
sea Z = X + Y . La variable Z también toma valores 0, 1, 2, 3 . . . , y podrı́amos calcular
con qué probabilidades se toman estos valores mediante
Xj j
X
independencia
P(Z = j) = P(X = k, Y = j − k) = P(X = k)P(Y = j − k)
k=0 k=0
Pero es más eficaz el siguiente procedimiento: observamos primero que, si GX , GY y

GZ son las respectivas funciones generatrices, entonces
GZ (s) = GX (s)GY (s)
∞
X X∞ X j X∞ ∞
GZ (s) = j
P(Z = j)s =
j
P(X = k)P(Y = j − k)s = P(X = k)s
k X P(Y = j − k)sj−k
j=0 j=0 k=0 k=0 j=k
| {z } | {z }
GX (s) GY (s)
Una vez que tenemos la expresión de GZ (s) (como producto de GX (s) y GY (s)), la
desarrollamos en serie de potencias para obtener sus coeficientes.
Ejemplo 1. Si X es una bin(n, p), entonces X = X1 + · · · + Xn, donde cada Xj (que

son independientes entre sı́) es una ber(p), de función generatriz
GXj (s) = (1 − p) + ps.
Por eso
n
Y
GX (s) = GX1+···+Xn (s) = [(1 − p) + ps] = [(1 − p) + ps]n
j=1
Aproximación de Poisson. Supongamos además que n es grande, p pequeño, y que

su producto es np = λ. Entonces
h np(s − 1) in h λ(s − 1) in
[(1 − p) + ps]n = [1 + p(s − 1)]n = 1 + = 1+ ≈ eλ(s−1) .
n n
Lo que nos vuelve a sugerir que, si np = λ (con n grande y p pequeño), una variable
bin(n, p) es, aproximadamente, una variable Poisson con parámetro λ.
Ejemplo 2. Las Xj son independientes, y cada una de ellas es una ber(pj ). Aten-
ción, ahora no son idénticas, y por tanto Sn no es una bin(n, p). Pero si todas las
probabilidades pj son muy pequeñas, entonces
GXj (s) = [(1 − pj ) + pj s] = 1 + pj (s − 1) ≈ epj (s−1)
y, por tanto,
n
Y n
Y Pn
pj (s−1) (s−1) j=1 pj
GSn (s) = GXj (s) ≈ e =e
j=1 j=1
Pn
y Sn es aproximadamente una Poisson de parámetro j=1 pj .
Ejercicio
Función generatriz de una X que sea binneg(r, p). Sugerencia: se trata de una suma de variables
geométricas independientes.
Ilustración 1: combinación lineal de Bernoullis

En una cartera de n préstamos, modelamos el incumplimiento de cada uno de ellos
con una variable Bernoulli Xj de parámetro pj (generalmente, un número pequeño).
Suponemos que los incumplimientos son independientes entre sı́.
En caso de que el préstamo j incumpla, la pérdida es rj (que podemos suponer que es
un entero positivo). La variable que mide la pérdida en nuestra cartera es
n
X
Z= rj Xj .
j=1
Obsérvese que Z toma valores enteros. ¿Cómo podemos obtener información sobre la
P(Z = k), para cada k? Es decir, ¿cuál es la función generatriz GZ (s)?
1.- Si X es una variable que toma valores 0, 1, 2, 3 . . . y a es un entero, la variable
Y = aX toma valores 0, a, 2a, 3a, . . . De manera que
∞
X ∞
X
GY (s) = P(Y = ka)ska = P(X = k)ska = GX (sa) .
k=0 k=0
2.- En nuestro caso, si llamamos Yj = rj Xj y recordamos que Xj es una Bernoulli de

parámetro pj ,
GXj (s) = (1 − pj ) + pj s =⇒ GYj (s) = (1 − pj ) + pj srj
3.- Por lo tanto, como Z es suma de las Yj (que son independientes),

n h
Y n h
i Y i
rj rj
GZ (s) = (1 − pj ) + pj s = (1 + pj (s − 1)
j=1 j=1
4.- Si además los pj son muy pequeños, entonces

n h
Y i Yn X
n
rj
rj pj (s −1) rj
GZ (s) = (1 + pj (s − 1) ≈ e = exp pj (s − 1)
j=1 j=1 j=1
Pn
Si llamamos µ = j=1 pj , entonces
n
1X
GY (s) ≈ eµ(P(s)−1) , donde P(s) = p j s rj
µ j=1
Ilustración 2: suma de v.a. con número aleatorio de sumandos

Hay un cierto número de asegurados. Cada año se registra un número N de incidencias.
N es una cantidad aleatoria. En caso de incidencia, el montante del pago es también una
cantidad aleatoria, digamos X, que toma valores 0, 1, 2, 3 . . . . La variable que registra
los pagos del año es
XN
Y = Xj ,
j=1
donde las Xj son “copias” independientes de la X. ¡Atención!, el número de sumandos
N es también aleatorio (e independiente de los Xj ). Nos interesa conocer la distribución
de probabilidad de Y , esto es, su función generatriz GY (s).
Si llamamos GN a la función generatriz de la variable N y GX a la de la variable X,
entonces
GY (s) = GN (GX (s)) .
Ejemplo. Si N es una Poisson de parámetro λ (f.g.: GN (s) = eλ(s−1)) y X es Bernoulli

de parámetro p (f.g.: GX (s) = (1 − p) + ps), entonces
GY (s) = GN ((1−p)+ps) = eλ((1−p)+ps−1) = eλp(s−1) (Poisson de parámetro λp).
Detalle matemático. Las funciones generatrices relevantes son

∞
X ∞
X
n j
GN (s) = P(N = n)s , GX (s) = P(X = j)s .
n=0 j=0
Sabemos que, si llamamos Z = X1 + · · · + Xn (con n fijo), GZ (s) = GX (s)n.
Entonces, condicionando,
X N
X X N
XX X
j j j
GY (s) = P(Y = j)s = P Xk = j s = P Xk = j N = n P(N = n)s
j j k=1 j n k=1
n
XX X X n
X X
j j
= P Xk = j P(N = n)s = P(N = n) P Xk = j s
j n k=1 n j k=1
| {z }
GX (s)n
X n
= P(N = n)GX (s) = GN (GX (s))
n
(se requiere un cierto cuidado con el caso n = 0 del argumento anterior).
Funciones generatrices de momentos

Digamos que tenemos una variable aleatoria X cualquiera. Su función generatriz de
momentos es
MX (t) = E(etX )
X tx
Es decir, MX (t) = e j P(X = xj ) si X toma los valores xj ;
j
Z ∞
MX (t) = etx fX (x)dx si X tiene densidad fX .
−∞
Pero claro, estas sumas (o integrales) no tienen por qué estar definidas para valores
arbitrarios de t (más allá del obvio t = 0).
Por ejemplo, si X sigue una lognormal, entonces MX (t) no está definida (salvo en
t = 0).
2 2
Sin embargo, si X sigue una N (µ, σ), MX (t) = E(etX ) = eµt+σ t /2
para todo t.
Si X toma valores 0, 1, 2 . . . , entonces MX (t) = E(etX ) = E((et)X ) = GX (et).
La función generatriz de momentos (cuando existe) caracteriza la variable en cuestión:
• MX (t) = MY (t) para todo |t| < ε ⇐⇒ X e Y tienen la misma distribución.
La explicación del nombre “función generatriz de momentos”:

P∞ E(X n) n
• si MX (t) existe para |t| < ε, entonces MX (t) = n=0 n! t ,
es decir, MX (t) es una serie de potencias cuyos coeficientes son (salvo los factoriales)
los momentos de la variable X. Esto es, los momentos se obtienen derivando MX y
(n)
evaluando en 0: E(X n) = MX (0).
Por último, la función generatriz de momentos está bien adaptada a la suma de variables
aleatorias independientes:
• si X e Y son independientes, MX+Y (t) = MX (t)MY (t).
Detalle.
t(X+Y ) tX tY indep. tX tY
MX+Y (t) = E(e ) = E(e e ) = E(e )E(e ) = MX (t)MY (t) .

MES Probabilidad

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

MES Probabilidad

Cargado por

Copyright:

Formatos disponibles

Fundamentos matemáticos

Pilar Barrios (pbarrios@afi.es)

Máster Executive en Gestión de Riesgos en Seguros, 2014

4 Sumas estocásticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

Unas ilustraciones, para empezar

¿Tenemos, realmente, intuición probabilı́stica?

Interesa la proporción de videos VHS en el mercado. Ésta podrı́a ser la historia:

Pero veamos: vamos a construir un modelo probabilı́stico, un modelo “de contagio”.

Tenemos una urna, con una bola blanca y una bola

¿Cuál es la probabilidad de que se haya elegido la urna U1?

Y si salen 6 negras y 4 blancas, ¿cuál es la probabilidad de haber elegido U1?

¿Aceptan participar en este juego?

Simulación del juego/apuesta en Excel.

La esencia del método Montecarlo

El dibujo de la derecha representa los posibles tiempos

En la ilustración mostramos un posible histograma, junto al que dibujamos el “teórico”.

Del histograma experimental también podemos, por supuesto, obtener estimaciones de

Nuestro objetivo es analizar una estrategia de inversión en la que estamos cortos en

A cada factor de descuento le asignamos un modelo de evolución (por ejemplo,

Sin embargo, por simulación. . .

Ahora cada simulación es

1. Modelos: variables aleatorias y simulación

Variables aleatorias discretas

Una variable aleatoria es

un modelo: un conjunto de valores que se pueden tomar con determinadas probabi-

valores → x1, . . . , xn con probabilidades respectivas → p1 , . . . , pn .

Es decir, p1 es la probabilidad de que X tome el valor x1, p2 la probabilidad de que

Debajo dibujamos el “histograma potencial” de la variable.

Algunas cantidades asociadas a una variable aleatoria

La media (o esperanza) de una variable aleatoria X, E(X), se define como:

Se trata de un “punto de equilibrio”. En Finanzas, está asociada a precios. Para

Cálculo de medias de transformaciones de una variable aleatoria

La siguiente observación es muy útil. Partimos de una variable X, de la que conocemos

Consideramos una variable Y que sea una transformación de X, digamos Y = g(X),

Pero, en general, como veremos más adelante, obtener cómo es la variable Y es

ejemplo. Supongamos que X viene dada por

De manera que E(Y ) = 0 · 20 % + 2 · 40 % + 4 · 40 % = 2.4. Pero podrı́amos haber

Varianza y desviación tı́pica

Se trata de un promedio de cuánto se apartan los valores de la variable de la media. En

p positiva. La desviación tı́pica σ(X) es, simple-

Pero la media y la varianza son apenas un resumen

(nótese la estimación cuadrática en λ). Por ejemplo, para λ = 2,

Momentos de una variable aleatoria

E(X), E(X 2), E(X 3), E(X 4), . . .

(el primero es la media), o bien de los llamados momentos centrados

En general, una función de distribución cumple que

Nos referiremos a éstas probabilidades como probabilidades acumuladas. Obsérvese que

Las funciones de distribución, en este caso discreto, son funciones “escalonadas”.

Simulación de variables aleatorias discretas

Simular consiste en obtener (muchas) muestras de la variable de manera que las

Paso 1 Generación de números aleatorios

Un generador de números aleatorios es un procedimiento para obtener muestras de

Paso 2 Transformación en muestras de la variable

Sorteamos, con aleatorio(), un número entre 0

Variables aleatorias continuas

Una variable continua X toma valores en R.

Esto requiere algo más de técnica: en lugar de “pro-

R ∞no negativa (f (x) ≥ 0) y que

Ahora f (x) no representa la probabilidad de obtener el valor x en el experimento aleatorio

Las probabilidades se calculan integrando: para todo a < b,

Cálculo de medias, varianzas y otros momentos

Media de una transformación de X:

V(X) = E[(X − E(X)2)] = E(X 2) − E(X)2