Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual Material PDF
Manual Material PDF
Teorı́a y Aplicaciones
Materiales complementarios
Este material puede distribuirse como el usuario desee sujeto a las siguientes condiciones:
4. Procesos Estocásticos 29
4.1. Derivación alternativa del Proceso de Poisson . . . . . . . . . . . . . . . . . . . . 29
4.2. Planificación de semáforos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3. Cadenas de Markov continuas en el tiempo: fiabilidad de un multiprocesador . . 34
4.4. Procesos de nacimiento y muerte (Birth-death) . . . . . . . . . . . . . . . . . . . 37
4.4.1. Colas de longitud infinita . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4.2. Colas con parámetros de nacimiento y muerte constantes y longitud finita 39
4.4.3. Aplicación a la transmisión de datos a través de una red de comunicaciones 39
Bibliografı́a 48
Capı́tulo 1
50 50
45 45
40 40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
5 10 15 20 25 30 35 40 45 50 5 10 15 20 25 30 35 40 45 50
Figura 1.1: Incidencia geográfica de cierto suceso en una misma ciudad. Sin cluster en la iz-
quierda y con un posible cluster en la parte sombreada de la derecha
Parece pues difı́cil de asumir la existencia de un cluster. Aunque debemos señalar que la asig-
nación de una probabilidad a priori tan pequeña para B tiene una una gran influencia en el
1.2 Estimación del tamaño de una población animal a partir de datos de recaptura
3
resultado final, lo que debe de hacernos reflexionar sobre dicha asignación antes de llevarla
acabo.
cation, Vol. I, 3rd. Edition, un libro clásico cuya lectura y consulta recomendamos vivamente.
4 Probabilidad. Variable aleatoria. Vector aleatorio
√ 1
(podemos valernos de la fórmula de Stirling, n! ≈ 2πnn+ 2 e−n , para aproximar las factoriales),
habremos de aceptar que ha ocurrido un suceso, X = 100, con una probabilidad extraordina-
riamente pequeña. Resulta difı́cil de admitir una hipótesis que exige casi un milagro para que
el suceso observado tenga lugar. Otro tanto nos ocurre si suponemos que N es muy grande, por
ejemplo N = 106 . También ahora p100 (106 ) es muy pequeña.
Una respuesta adecuada puede ser la de buscar el valor de N que maximiza px (N ). Dicho
valor, que designamos mediante N̂ , recibe el nombre de estimación máximo-verosı́mil de N .
Para encontrarlo, observemos que
px (N ) (N − r)(N − n) N 2 − N r − N n + rn
= = 2 ,
px (N − 1) (N − r − n + x)N N − Nr − Nn + Nx
de donde se deduce
Ası́ pues, a medida que aumenta N la función px (N ) crece primero para decrecer después,
alcanzando su máximo en N = [rn/x], la parte entera de rn/x. En nuestro ejemplo, N̂ = 10000.
Recordemos que una variable Poisson toma valores enteros no negativos, N = {0, 1, 2, 3, . . .}
y su función de cuantı́a es de la forma,
λk
fN (k) = P (N = k) = exp(−λ) .
k!
El problema para el experto era conocer el valor del parámetro λ, pero para eso hizo sus
observaciones, porque λ depende de las caracterı́sticas del fenómeno y representa el número
medio de ocurrencias del suceso en estudio por unidad de tiempo. En su caso estaba claro,
λ = 1, 167 clientes/minuto. Con estos datos para una sola caja,
2
X µ ¶
λ2
P (N ≤ 2) = fN (k) = exp(−λ) 1 + λ + ,
2
k=0
· µ ¶¸2
0,5832
= exp(−0,583) 1 + 0,583 + = 0,957.
2
La solución que aportó el experto fue por tanto abrir una nueva caja en ese horario punta.
N =2
t
t 1 t 2 t t 3 t 4 t 5
X 1 X2 X 3 X
4 X
5
En la Figura 1.2 hemos representado un esquema del proceso en la que se muestran los
tiempos en los que ha ocurrido el suceso. Dos conjuntos de variables son de interés en un
proceso de estas caracterı́sticas,
{Nt }t∈R+ , variables discretas con distribución Poisson que denotan el número de ocu-
rrencias del suceso en el intervalo de longitud t, y
{Xi }i≥1 , variables continuas que denotan el tiempo transcurrido entre dos ocurrencias
consecutivas del suceso, la i-ésima y la (i-1)-ésima.
¿Cómo de distribuyen las variables Xi ? Dada la independencia entre las ocurrencias de los su-
cesos, las Xi son independientes y, lógicamente, todas tiene la misma distribución. Obtengamos
la función de distribución común. Recordemos que
Fi (t) = 1 − exp(−λt),
y tomando probabilidades
Sustituyendo en (1.3),
(λt)n
P (Nt = n) = exp(−λt) ,
n!
Con este modelo, la amplitud X toma valores alrededor de 0, valores tanto más dispersos cuanto
mayor sea σ 2 , el parámetro de dispersión del modelo. En la gráfica de la izquierda de la Figura
1.3 se aprecia cómo se ensancha la curva a medida que crece σ 2 , que está por ello directamente
relacionado con la potencia de la señal.
Los recortes automáticos de señal actúan tal como se muestra en la gráfica de la derecha de la
Figura 1.3. Mientras la el valor absoluto de la potencia esté dentro de los lı́mites establecidos,
|X| ≤ U , la entrada y la salida coincidirán, si |X| > U , la señal de salida se recorta. El
valor U es una caracterı́stica del sistema que debe ser diseñado de forma tal que sólo en muy
pocas ocasiones sea superado. Muy pocas ocasiones ha de ser interpretado aquı́ en términos
de probabilidad. Por ejemplo, si deseamos que a lo sumo en un 1 % del tiempo la señal sea
8 Probabilidad. Variable aleatoria. Vector aleatorio
0.7
0.6
U
0.5
0.4
0.3
−U U
0.2
−U
0.1
0.0
−4 −2 0 2 4
y de aquı́ Ã r ! r µ ¶
2 σ2 1
exp − U ≤ 0,01 −→ U ≥ ln . (1.6)
σ2 2 0,01
El aumento de la potencia de la voz, medida a través de σ 2 , exige incrementar el umbral U
para evitar recortes frecuentes. Por ejemplo, si σ 2 = 2, y el valor de U fuera fijo e igual a 2,
sustituyendo en (1.5) obtendrı́amos Precorte = 0,1357 un valor muy alejado del 0,01 deseado.
El valor de U deberı́a ser µ ¶
1
U ≥ ln = 4,60.
0,01
1.5 Control de la señal de voz 9
Proposición 1.1 (Transformada integral de probabilidad) Sea U ∼ U (0, 1), F una fun-
ción de distribución de probabilidad y definimos X = F −1 (U ). Entonces, FX = F .
Para aplicarlo a nuestra situación hemos de obtener en primer lugar la función de distribución
de la variable Laplace. Integraremos (1.4),
Z x à r !
1 2
FX (x) = √ exp − |t| dt.
−∞ 2σ 2 σ2
Para x <= 0,
Z Ã r !
x
1 2
FX (x) = √ exp − |t| dt
−∞ 2σ 2 σ2
Z x Ãr !
1 2
= √ exp t dt
−∞ 2σ 2 σ2
Ãr !
1 2
= exp x , (1.7)
2 σ2
y para x ≥ 0,
Z Ã r !
x
1 2
FX (x) = √ exp − |t| dt
−∞ 2σ 2 σ2
Z 0 à r ! Z x à r !
1 2 1 2
= √ exp − |t| dt + √ exp − t dt (1.8)
−∞ 2σ 2 σ2 0 2σ 2 σ2
" Ã r !¯x #
1 1 2 ¯
¯
= − − exp − t ¯ (1.9)
2 2 σ 2 ¯
0
à r !
1 2
= 1 − exp − x , (1.10)
2 σ2
donde el paso de (1.8) a (1.9) se justifica porque dada la simetrı́a de la variable Laplace,
R0
P (X ≤ 0) = −∞ fX (x)dx = 1/2.
−1
Según la Proposición 1.1, si definimos X = FX (Z), siendo Z ∼ U (0, 1), obtendremos una
variable Laplace. Hemos de obtener las inversas de (1.7) y (1.10). Para ello observemos que
10 Probabilidad. Variable aleatoria. Vector aleatorio
6
0.4
4
histograma y función de densidad
2
0.3
0
0.2
−2
−4
0.1
−6
0.0
−9 −7 −5 −3 −1 1 3 5 7 0 10 20 30 40 50 60 70 80 90 100
x muestra
Figura 1.4: Histograma de 5000 simulaciones de una variable aleatoria Laplace y su correspon-
diente densidad teórica superpuesta (izquierda). Simulación de 100 valores de variable aleatoria
Laplace con σ 2 = 2 (derecha)
La gràfica de derecha en la Figura 1.4 muestra los valores de 100 simulaciones Laplace con
σ 2 = 4, en ella sendas rectas, U = 2 y U = −2, indican los umbrales a partir de los cuales la
señal de voz será recortada, lo que ocurre para 14 de los 100 valores simulados, lo que da una
frecuencia relativa de 0,14 muy próxima a Precorte = 0,1357.
edad de 87 años, dado que ya se ha sobrevivido a los 85 años”, que indudablemente será mayor
que la probabilidad absoluta de sobrepasar los 87 años. Estas probabilidades condicionadas,
y algunas funciones con ellas relacionadas, son de interés en todos los procesos que exigen un
control de los fallos del sistema.
Si X es la variable aleatoria que denota el tiempo en que se producen los fallos, el teorema
de Bayes nos permite calcular la probabilidad del suceso “que el fallo se produzca en [t, t+dt]
dado que el objeto ha sobrevivido al tiempo t“,
P (t < X ≤ t + dt, X > t) P (t < X ≤ t + dt)
P (t < X ≤ t + dt|X > t) = = ,
P (t < X) P (t < X)
porque {t < X ≤ t + dt} ⊂ {X > t}. Pero P (t < X ≤ t + dt) = FX (t + dt) − FX (t), y
P (t < X) = 1 − FX (t). Sustituyendo,
FX (t + dt) − FX (t)
P (t < X ≤ t + dt|X > t) = .
1 − FX (t)
0 0
Si FX (t) es diferenciable, FX (t + dt) − FX (t) = FX (t)dt, y como FX (t) es una densidad de la
variable aleatoria X podemos escribir
0
FX (t)dt fX (t)dt
P (t < X ≤ t + dt|X > t) == = = α(t)dt, (1.11)
1 − FX (t) 1 − FX (t)
donde
fX (t)
α(t) = ,
1 − FX (t)
es conocida como la tasa condicional de fallo o simplemente tasa de fallo, aunque según el
contexto recibe otros nombres, como fuerza de mortalidad o tasa de morbilidad en el campo
actuarial. Un objeto con un determinada tasa de fallo tiene mayor probabilidad de sobrevivir
en el próximo 4t que otro con una tasa menor.
A partir de (1.11) podemos obtener sendas expresiones para las funciones de distribución y
densidad de X. Partamos de
0
FX (t)dt dFX (t)
= = α(t)dt, (1.12)
1 − FX (t) 1 − FX (t)
e integremos, teniendo en cuenta que es lógico exigir a FX (t) las siguientes condiciones iniciales,
1. FX (0) = 0 por la naturaleza de la variable tiempo, y
2. lı́mt→∞ FX (t) = 1 porque asumimos que el objeto acabará fallando.
Tendremos,
Z FX (t) Z t
dFX
= − ln[1 − FX (t)] = α(u)du, (1.13)
FX (0) 1 − FX 0
y de aquı́ µ Z t ¶
FX (t) = 1 − exp − α(u)du . (1.14)
0
Derivando (1.14) obtendremos la función de densidad,
µ Z t ¶
fX (t) = α(t) exp − α(u)du . (1.15)
0
Weibull sugiere en 1939 un modelo en el que α(t) crece como una potencia de t en lugar
de hacerlo exponencialmente, α(t) = ktn , t > 0, y
µ ¶ µ ¶
tn+1 tn+1
FX (t) = 1 − exp −k , fX (t) = ktn exp −k .
n+1 n+1
Si suponemos que la tasa de fallo es constante, α(t) = λ, t > 0, nos encontramos con que
X ∼ Exp(λ),
FX (t) = 1 − exp(−λt), fX (t) = λ exp(−λt).
Capı́tulo 2
Esperanza. Desigualdades.
Función caracterı́stica
La entropı́a, definida en términos del logaritmo natural, utiliza como unidad de medida el
nat, pero si utilizamos el logaritmo en base 2 para su definición, cosa que suele hacerse, la
unidad es el bit. Ambas unidades difieren en un factor constante puesto que ln a = ln 2 log2 a.
cuya gráfica para los distintos valores de p se muestra en la Figura 2.1. Se observa que el
máximo de la entropı́a se alcanza para p = (1 − p) = 1/2, situación en la que se da, efecti-
vamente, la máxima incertidumbre en cuanto al valor que pueda tomar X. Como veremos a
continuación, este resultado se generaliza al caso de una variable discreta uniforme, es decir,
con equiprobabilidad para todos los valores de su soporte.
14 Esperanza. Desigualdades. Función caracterı́stica
1.0
0.8
0.6
Hx(p)
0.4
0.2
Figura 2.1: Entropı́a de una variable aleatoria binaria para los distintos valores de p = P (X = 0)
Ejemplo 2.2 Un urna contiene 32 bolas numeradas del 1 al 8 siendo su composición la que
muestra la Tabla 2.1. Se extrae una al azar y queremos saber qué estrategia seguir para mini-
mizar el número de preguntas necesarias para conocer el número extraı́do.
dı́gito 1 2 3 4 5 6 7 8
número de bolas 8 8 4 4 2 2 2 2
P (bola = i) 1/4 1/4 1/8 1/8 1/16 1/16 1/16 1/16
Puesto que los números que aparecen en un mayor número de bolas son más probables, una
estrategia razonable consiste en preguntar por los números en orden de probabilidad descendente.
El esquema 1 de la figura nos muestra dicha estrategia. Otra estrategia alternativa consiste en
preguntar de forma que las dos posibles respuestas tengan la misma probabilidad. El esquema 2
muestra esta segunda estrategia.
sí X=1
sí
sí
X = 1? X ≤ 2? X = 1?
no X=2
X=1 no no
sí X=3
sí
sí
X = 2? X ≤ 4? X = 3?
no X=4
X=2 no no
sí X=5
X = 3?
sí
sí X ≤ 6? X = 5?
no X=6
X=3 no no
sí
X = 7? X=7
X = 7? no
sí
X=7 no X=8
X=8
Esquema 1 Esquema 2
Figura 2.2: Estrategias para averiguar la bola extraı́da mediante preguntas de respuesta di-
cotómica
bola extraı́da 1 2 3 4 5 6 7 8
valor de N1 1 2 3 4 5 6 7 7
valor de N2 2 2 3 3 4 4 4 4
P (bola = i) 1/4 1/4 1/8 1/8 1/16 1/16 1/16 1/16
fácilmente a partir de los esquemas de la Figura 2.2. Se muestran en la Tabla 2.2. A partir de
la tabla podemos calcular las esperanzas de ambas variables,
1 1 1 51
E(N1 ) = (1 + 2) + (3 + 4) + (5 + 6 + 7 + 8) =
4 8 16 16
y
1 1 1 44
E(N2 ) = (2 + 2) + (3 + 3) + (4 + 4 + 4 + 4) = .
4 8 16 16
La segunda estrategia es mejor que la primera.
Si definimos ahora X como el número que muestra la bola, su entropı́a en bits vale
1 1 1 1 1 1 44
HX = −2 × log2 − 2 × log2 − 4 × log2 = ,
4 4 8 8 16 16 16
que coincide con E(N2 ), coincidencia que explicaremos a continuación.
El problema de diseñar una estrategia de preguntas con respuesta dicotómica para identificar
exactamente el valor de la variable X ={número que nos muestra la bola extraı́da}, es el mismo
que se presenta cuando queremos codificar la salida de una fuente de información. En efecto, la
secuencia de respuestas que conduce a la identificación del valor de X puede asimilarse a una
secuencia de 0’s y 1’s, según las respuestas hayan sido negativas o positivas, respectivamente.
Se trata en definitiva de un código binario y el problema de encontrar la mejor estrategia de
preguntas es equivalente al de encontrar el código binario más corto.
Dos resultados fundamentales de teorı́a de la información nos permiten establecer el papel
relevante del concepto de entropı́a. Los enunciaremos sin demostración.
1. La longitud media de cualquier código binario no puede ser menor que el valor en bits de
la entropı́a.
Como consecuencia de estos dos resultados podemos afirmar que “la entropı́a de una variable
aleatoria X es el menor número medio de bits necesarios para identificar su valor”.
Veamos un ejemplo ficticio que nos ayude a relacionar lo expuesto en los apartados anteriores
con el proceso de compresión de datos.
La Tabla 2.3 resume las caracterı́sticas de un archivo de datos compuesto por una secuen-
cia de las primeras 8 letras del alfabeto, ABCDEFGH. La columna frec recoge las frecuencias
relativas de aparición de cada letra en la secuencia, la letras están ordenadas según las frecuen-
cias decrecientes. Las columnas cod1 y cod2 recogen dos codificaciones binarias distintas, cuyas
correspondientes longitudes (número de bits) aparecen en las columnas lcod1 y lcod2, respec-
tivamente. Las codificaciones se corresponden con las estrategias 1 y 2 de la Figura 2.2. Ası́,
cod1 supone que vamos preguntando secuencialmente de qué letra se trata, estando las letras
ordenadas según las frecuencias decrecientes y no alfabéticamente, porque lo lógico es asignar
los códigos más cortos a las letras más frecuentes. Por otra parte, cod2 es un código binario
de 3 dı́gitos que se corresponde, es sencillo comprobarlo, con el supuesto de uniformidad en las
frecuencias de aparición.
Tabla 2.3: Distribución de frecuencias de las letras en los datos y dos posibles códigos
Un ejemplo de esta segunda situación son los programas que hacen funcionar nuestros apara-
tos electrodomésticos o nuestros teléfonos móviles. Pero imaginemos el software que controla el
funcionamiento de un avión o de un dispositivo clı́nico del cual depende la vida de una persona.
En estos casos los fallos esperables han de ser mı́nimos, del orden quizás de 1 fallo por cada
106 horas de funcionamiento. Si reparamos que tal cantidad de horas son, aproximadamente,
114 años caeremos en la cuenta de la dificultad que implica efectuar un control de calidad del
software para comprobar si, efectivamente, su tasa de fallos es la deseada.
En la industria, ante situaciones semejantes, se somete a los sistemas a una situación de
stress que induzca fallos más frecuentes. Un método semejante puede adoptarse para controlar
la calidad de este tipo de software altamente fiable. Para ello podemos introducir en el sistema
datos que produzcan tasas de fallo mucho más elevadas de las habituales en la práctica, calcular
la frecuencia relativa de fallos obtenida y aplicar el reajuste correspondiente mediante el factor
de stress utilizado. Lo que se propone, si T es la variable que mide el tiempo de fallo, es
simplemente multiplicar P (T > t0 ) por un factor adecuado. Esta aproximación probabilı́stica
al problema se conoce con el nombre de muestro de importancia 1 , cuya aplicación veremos a
continuación con un ejemplo simulado.
Queremos estimar P (T > t0 ), donde t0 es el lı́mite admitido de fallo del software. La
metodologı́a habitual consiste en probar repetidamente el software y contar las ocasiones en
las que el tiempo de fallo, T , sobrepasa t0 , pero si la probabilidad a estimar es del orden
de 10−6 necesitarı́amos llevar a cabo del orden de 108 simulaciones para poder efectuar la
estimación. Aunque en la práctica raras veces se conoce la distribución de T , para el ejemplo
podemos suponer que T ∼ N (0, 1) y vamos a estimar P (T > 4,75) que sabemos es del orden
de 2, 85 × 10−6 . Recordemos que
Z +∞ µ 2¶
1 x
P (T > 4,75) = √ exp − dx,
4,75 2π 2
donde f (x) es la densidad de alguna variable aleatoria Y tal que P (Y > 4,75) À P (T > 4,75).
Por ejemplo, si Y ∼ Exp(1), P (Y > 4,75) = exp(−4,75) = 0,086. Si utilizamos esta distribución,
(2.2) se escribe
³ 2´
Z +∞ exp − x2
1
P (T > 4,75) = √ exp(−x)dx
4,75 2π exp(−x)
Z +∞ µ 2 ¶
1 x
= 1]4,75;+∞[ (x) √ exp − + x exp(−x)dx
0 2π 2
Z +∞
= g(x) exp(−x)dx. (2.3)
0
³ 2 ´
Pero (2.3) no es más que E[(g(Y )] con g(y) = 1]4,75;+∞[ (y) √12π exp − y2 + y y donde 1]4,75;+∞[ (y)
es la función indicatriz del intervalo ]4,75; +∞[.
¿Cómo utilizar esta esperanza a efectos prácticos? Podemos estimar la esperanza mediante
la media aritmética de los valores de g(y) obtenidos mediante una simulación de Montecarlo.
1 R. Y. Rubinstein (1981), Simulation and the Monte Carlo Method. New York. Wiley.
2.3 Codificación de imágenes 19
P (T > 4,75)
N estimada real #{Y > 4,75}
104 8,13 × 10−7 1,02 × 10−6 83
105 9,86 × 10−7 1,02 × 10−6 880
106 1,03 × 10−6 1,02 × 10−6 8765
107 9,89 × 10−7 1,02 × 10−6 86476
Tabla 2.4: Aplicación del muestreo de importancia a la estimación de probabilidades muy pe-
queñas
Para ello generaremos N valores de la Exp(1) y con ellos calcularemos g(x) y a continuación
su media aritmética,
N
1 X
P̂ (T > 4,75) = g(xi )
N i=1
N µ 2 ¶
1 X 1 xi
= 1]4,75;+∞[ (xi ) √ exp − + xi .
N i=1 2π 2
La ventaja del método estriba en que obtener valores de Y que excedan 4,75 es mucho más
probable. Por ejemplo, si N = 10000 esperaremos que haya alrededor de 86 valores mayores
que 4,75.
Señalemos que g(y) representa el cociente entre dos densidades, la que realmente corresponde
a al variable a controlar y la ficticia que corresponde a una nueva variable elegida porque
P (Y > t0 ) À P (T > t0 ). Es este cociente el que estimamos con el método de Montecarlo
descrito.
La Tabla 2.4 muestra las estimaciones obtenidas para P (T > 4,75) con simulaciones de
distinto tamaño. Se muestra también en cada caso el número de valores de la variable de
importancia que han excedido el umbral de 4,75.
La función más sencilla posible es la recta y por lo que respecta a la bondad haremos uso del
principio de los mı́nimos cuadrados, lo que implica elegir los parámetros de la recta de forma
que © ª
L(a, b) = E (Y − aX − b)2
sea mı́nimo.
La obtención de a y b se reduce a un problema de máximos y mı́nimos y basta igualar a 0
las derivadas parciales ∂L/∂a y ∂L/∂b. Si lo hacemos obtendremos,
cov(X, Y )
a= , b = E(Y ) − aE(X).
var(X)
La ecuación de la que se conoce como recta de regresión de Y sobre X tendrá por expresión,
cov(X, Y )
Y − E(Y ) = (X − E(X)). (2.4)
var(X)
cov(Xi , Xj ) cov(Xi , Xj )
ρXi Xj = p p = ,
var(Xi ) var(Xj ) var(Xi )
puesto que var(Xi ) = var(Xj ). A partir de (2.4), la recta de regresión de Xj sobre Xi adop-
tará la expresión
Xj = ρXi Xj Xi .
Si se trata de pı́xels vecinos con |ρXi Xj = 1|, el valor que tome Xj será ±Xi , dependiendo
del signo de ρXi Xj . Parece absurdo, desde el punto de vista de la optimización de recursos,
sea para almacenar o transmitir, escribir Xi = xi y a continuación Xi+1 = xi+1 = ±xi .
Podemos almacenar Xi y predecir Xi+1 como X̂i+1 = |Xi | = ±xi . Ahora bien, si |ρXi Xi+1 | < 1
cometeremos un error que será tanto más perceptible cuanto más alejado esté de la unidad el
valor de ρXi Xi+1 .
La codificación JPEG utiliza las propiedades de la correlación entre las componentes del
vector aleatorio X = (X1 , X2 , . . . , Xn ) constituido por los n pı́xels de la imagen. Se trata de
una versión de la transformada de Karhunen-Loève, de la que más adelante nos ocuparemos,
cuyo algoritmo es el siguiente:
2. Eliminar aquellas componentes de Y cuya varianza es muy pequeña frente a las del resto.
Ello dar lugar a un nuevo vector Ŷ con algunas componentes iguales a 0, que será el que se
almacena o transmite. Lógicamente, las componentes nulas no necesitan ser codificadas,
pero sı́ es necesario conocer su posición.
3. Deshacer la transformación inicial para obtener X̂ = A−1 Ŷ que será una aproximación
del vector original.
2.3 Codificación de imágenes 21
ΣY = AΣX AT
= V T ΣX V
var(Y1 ) 0 ··· 0
0 var(Y 2) ··· 0
= Λ= .. .. .. .. .
. . . .
0 0 ··· var(Yn )
En los dos ejemplos que siguen consideramos dos situaciones distintas: la primera que permite
una reconstrucción idéntica de la imagen original y la segunda en la que la reconstrucción
comporta errores.
Ejemplo 2.3 (Reconstrucción idéntica) Supongamos que la imagen a codificar está repre-
sentada por el vector X = (X1 , X2 , X3 , X4 ), con vector de medias nulo y cuyas matrices de
covarianzas y correlaciones valen,
5 1 2 5 1,0000 0,2582 0,4473 0,4663
1 3 1 5 0,2582 1,0000 0,2887 0,6019
ΣX = 2 1 4 9 ,
ρ= 0,4473 0,2887 1,0000 0,9383 .
Aun cuando ninguna correlación es la unidad, si calculamos E[(X4 − (X2 + 2X3 ))2 ], recordando
que E(Xi ) = 0, ∀i, obtendremos,
y como (X4 − (X2 + 2X3 ))2 ≥ 0, se deduce que P (X4 = X2 + X3 ) = 1, con lo que el valor de
X4 viene determinado por el de X2 y X3 .
La matriz A es la traspuesta de la matriz de los vectores propios de ΣX ,
−0,2236 −0,1940 −0,3478 −0,8896
0,9718 −0,1123 −0,0450 −0,2022
A=VT = 0,0743
,
0,8849 −0,4587 −0,0324
0,0000 −0,4082 −0,8165 0,4082
y ΣY valdrá,
28,8660 0 0 0
0 3,7513 0 0
ΣY = Λ = AΣX AT =
.
0 0 2,3826 0
0 0 0 0
22 Esperanza. Desigualdades. Función caracterı́stica
0 0 0 0
Si queremos ahora reconstruir el vector original, como V V T = I, A−1 = V , tendremos
X̂ = A−1 Ŷ = V Ŷ = V BY = V BV T X.
Calculemos V BV T ,
1 0 0 0
0 5
− 13 1
V BV T =
6 6 ,
0 − 13 1
3
1
3
1 1 5
0 6 3 6
con lo que
X1
X1
5
6 X2 − 3 X3 + 16 X4
1 X2
X̂ =
1
= (sustituyendo X4 = X2 + 2X3 ) =
.
− 3 X2 + 13 X3 + 13 X4 X3
X4
1 1 5
6 X2 + 3 X3 + 6 X4
Ejemplo 2.4 (Reconstrucción con error) Supongamos ahora que la imagen a codificar está re-
presentada por el vector X = (X1 , X2 , X3 , X4 ), con vector de medias nulo y cuyas matrices de
covarianzas y correlaciones valen,
6 5,7 0 0 1,00 0,95 0,00 0,00
5,7 6 0 0 0,95 1,00 0,00 0,00
ΣX = 0
,
ρ= 0,00 0,00 1,00 0,95 .
0 4 3,8
0 0 3,8 4 0,00 0,00 0,95 1,00
A diferencia del ejemplo anterior, observamos ahora que las variables X1 , X2 , y X3 , X4 están
muy correlaciondas, ρX1 X2 = ρX3 X4 = 0,95. Veamos ahora que valen las distintas matrices y,
en particular, cómo es el vector reconstruido.
La matriz A es la traspuesta de la matriz de los vectores propios de ΣX ,
0,7071 0,7071 0,0000 0,0000
0,0000 0,0000 0,7071 0,7071
A=VT = 0,7071 −0,7071 0,0000
,
0,0000
0,0000 0,0000 0,7071 −0,7071
y ΣY valdrá,
11,7 0 0 0
0 7,8 0 0
ΣY = Λ = AΣX AT =
0
.
0 0,3 0
0 0 0 0,2
2.3 Codificación de imágenes 23
Como las varianzas de las dos últimas componentes del vector transformado son muy pequeñas
frente a las de las los primeras, podemos prescindir de ellas. El vector que almacenaremos o
transmitiremos será Ŷ = (Y1 , Y2 , 0, 0). Observemos que Ŷ = BY con
1 0 0 0
0 1 0 0
B= 0 0 0 0 .
0 0 0 0
X̂ = A−1 Ŷ = V Ŷ = V BY = V BV T X.
Obtengamos V BV T ,
1 1
2 2 0 0
1 1
0 0
V BV T
=
0
2 2
1
,
1
0 2 2
1 1
0 0 2 2
y finalmente
1
2 (X1 + X2 )
1
2 (X1 + X2 )
X̂ =
.
1
2 (X3 + X4 )
1
2 (X3 + X4 )
Las componentes originales X1 y X2 son reemplazadas por la media de sus valores, al igual que
X3 y X4 . La explicación reside en los valores elevados, cercanos a 1, de los correspondientes
coeficientes de correlación. El error cuadrático medio, M SE, que esta reconstrucción supone
podemos calcularlo.
" 4 #
X
2
M SE = E (Xi − X̂i )
i=1
" 2
# " 4
#
X 2
X 2
= E {Xi − (X1 + X2 )/2} +E {Xi − (X3 + X4 )/2}
i=1 i=3
1 1
= E[(X1 − X2 )2 ] + E[(X3 − X4 )2 ]
2 2
1 1
= [var(X1 ) + var(X2 ) − 2cov(X1 , X2 )] + [var(X3 ) + var(X4 ) − 2cov(X3 , X4 )]
2 2
1
= (6 + 6 − 2 × 5,7 + 4 + 4 − 2 × 3,7) = 0,5.
2
Obsérvese que, dados los valores de las varianzas, si las correlaciones hubieran valido 1 el error
cuadrático medio hubiera sido 0.
Por último, hemos generado 20 vectores X = (X1 , X2 , X3 , X4 ) de una normal multivariante
con vector de medias nulo y matriz de covarianzas la ΣX del ejemplo. Estos 4 × 20 = 80 valores
constituyen la imagen original. Ella y su imagen recuperada se muestran en la Figura 2.3 con
el fin de comprobar visualmente la calidad del proceso.
24 Esperanza. Desigualdades. Función caracterı́stica
Imagen original
X4 2
X3 0
X2 −2
−4
X1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Imagen recuperada
X4 2
X3 0
X2 −2
−4
X1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Cuando todas las variables tienen la misma distribución, Fn (x, ω) es el estimador natural de
la función de distribución común, F (x). El acierto en la elección de este estimador se pone de
manifiesto en el siguiente resultado.
Teorema 3.1 Sea {Xk } una sucesión de variables aleatorias i.i.d. con función de distribución
a.s.
común F (x), entonces Fn (x, ω) −→ F (x).
Demostración.- Para cada x, Fn (x, ω) es una variable aleatoria resultante de sumar las n
variables aleatorias independientes, 1]−∞,x] (Xk (ω)), k = 1, . . . , n, cada una de ellas con la
misma esperanza, E(1]−∞,x] (Xk (ω))) = P(Xk ≤ x) = F (x). Aplicando la ley fuerte de los
grandes números,
a.s.
Fn (x, ω) −→ F (x),
Teorema 3.2 (Glivenko-Cantelli) Sea {Xk } una sucesión de variables aleatorias i.i.d. con
función de distribución común F (x). Hagamos Dn (ω) = supx |Fn (x, ω) − F (x)|, entonces
a.s.
Dn −→ 0.
Ası́ definidas las Zi son variables Bernoulli con parámetro p = E(Zi ) = P (f (Xi ) ≥ Yi ) =
R1
0
f (x)dx, y aplicándoles la ley fuerte de los grandes números tendremos que
n Z
1X a.s.
1
Zi −→ f (x)dx,
n i=1 0
Además g estará también acotada y por tanto |g(x)| < M, ∀x ∈ [0, 1].
Sea ahora un x cualquiera en [0, 1],
¯ n µ ¶ µ ¶µ ¶ ¯
¯ X n k Xn
k n k ¯
¯ n−k n−k ¯
|g(x) − Bn (x)| = ¯g(x) x (1 − x) − g x (1 − x) ¯
¯ k n k ¯
k=0 k=0
X¯n ¯ µ ¶¯ µ ¶
¯
≤ ¯g(x) − g k ¯ n xk (1 − x)n−k
¯ n ¯ k
k=0
X ¯ ¯ µ ¶¯ µ ¶
¯
= ¯g(x) − g k ¯ n xk (1 − x)n−k +
¯ n ¯ k
|k/n−x|<δ
X ¯¯ µ ¶¯ µ ¶
¯
+ ¯g(x) − g k ¯ n xk (1 − x)n−k
¯ n ¯ k
|k/n−x|≥δ
X µn¶
≤ ² + 2M xk (1 − x)n−k .
k
|k/n−x|≥δ
3.2 Una curiosa aplicación del TCL: estimación del valor de π 27
y tendremos µ¯ ¯ ¶
¯ Zn ¯
¯
|g(x) − Bn (x)| ≤ ² + 2M P ¯ − x¯¯ ≥ δ ,
n
pero por la ley de los grandes números
µ¯ ¯ ¶
Zn P ¯ Zn ¯
−→ x y por tanto P ¯ − x¯ ≥ δ −→ 0,
n ¯ n ¯
tuvo la suerte de obtener exactamente el número de cortes, m, que conducı́a a tan excelente
aproximación. La pregunta inmediata es, cual es la probabilidad de que ello ocurriera?, y para
responderla podemos recurrir a (3.1) de la siguiente forma,
1 (m−np)2 1
P (X = m) ≈ p e− 2np(1−p) ≤ p ,
2πnp(1 − p) 2πnp(1 − p)
Para el caso de Lazzarini n=3408 y P (X = m) ≤ 0,0146, ∀m. Parece ser que Lazzarini era un
hombre de suerte, quizás demasiada.
Capı́tulo 4
Procesos Estocásticos
CA1) si t1 < t2 < t3 , los sucesos {Nt2 −t1 = n} y {Nt3 −t2 = m} son independientes, para
cualesquiera valores no negativos de n y m,
CA2) los sucesos {Nt2 −t1 = n}, n = 0, 1, . . ., constituyen una partición del espacio
muestral y P (Nt2 −t1 = n) depende sólo de la diferencia t2 − t1 ,
lo que equivale a
1 − P (Nt = 0)
lı́m = 1. (4.2)
t↓0 P (Nt = 1)
Comencemos por observar que dadas las tres condiciones se deduce que P (N0 = 0) = 1,
P (N0 = k) = 0, k ≥ 1, y P (Nt = 0) es una función monótona decreciente. Estas propiedades
junto las condiciones CA1 y CA2 nos permiten escribir, para t1 < t2 < t3 , t2 − t1 = t y
t3 − t2 = s,
Se trata por tanto de una función aditiva. Un función exponencial que cumple esta condición
puede ser la solución. Ası́, podemos suponer que
P (Nt = 0) = pt . (4.3)
Obviamente se cumple que 0 ≤ P (Nt = 0) ≤ 1 por tratarse de una probabilidad. Ello supone
que p puede responder a una de las tres alternativas siguientes:
1. p = 0, lo que implica P (Nt > 0) = 1, ∀t, y supone que ocurrirán una infinidad de sucesos
en cualquier intervalo de tiempo. Un proceso de estas caracterı́sticas carece de interés.
2. p = 1, supone que no ocurre nunca ningún suceso y estamos nuevamente ante un fenómeno
carente de interés.
3. 0 < p < 1, que representa la única alternativa de interés y de la que nos vamos a ocupar
en adelante.
Supuesto por tanto que en (4.3) 0 < p < 1, podemos escribir p = e−λ , con λ = − ln p > 0.
Podremos reescribir (4.3) de la forma
P (Nt = 0) = e−λt . (4.4)
Para determinar el valor de P (Nt = k), observemos en primer lugar que
P (N∆t = k)
lı́m = 0, k ≥ 2. (4.5)
∆t→0 ∆t
En efecto,
X
0 ≤ P (Nt = k) ≤ P (Nt = k) = 1 − P (Nt = 0) − P (Nt = 1), k ≥ 2,
k≥2
y de aquı́,
P (N∆t = k) 1 − P (N∆t = 0) − P (N∆t = 1) P (N∆t = 1)
0≤ ≤ × . (4.6)
∆t P (N∆t = 1) ∆t
Si aplicamos ahora (4.1) al primer factor del último miembro de la desigualdad obtendrı́amos
(4.5) siempre que
P (N∆t = 1)
lı́m
∆t→0 ∆t
se mantuviera finito, pero si recurrimos a (4.2),
[1 − P (N∆t = 0)]/∆t
lı́m = 1.
∆t→0 P (N∆t = 1)/∆t
Es decir,
1 − P (N∆t = 0) P (N∆t = 1)
lı́m = lı́m , (4.7)
∆t→0 ∆t ∆t→0 ∆t
pero el primer lı́mite es justamente −P 0 (N0 = 0), que existe dada la expresión (4.4), y el segundo
lı́mite será por tanto finito. En definitiva, (4.5) se cumple y si tenemos en cuenta además que
P (N0 = k) = 0, se deduce que
P 0 (N0 = k) = 0, k ≥ 2, (4.8)
lo que prueba la existencia de dicha derivada.
Supongamos ahora que {el suceso ha ocurrido k veces en el intervalo [0, t + ∆t[ }. Tres son
las posibles alternativas para este hecho,
4.2 Planificación de semáforos 31
De aquı́,
P (N0 = 0) = 1 ⇒ CO (0) = 1
P (N0 = k) = 0 ⇒ CO (k) = 0, ∀k ≥ 1.
(λt)k
Ck (t) = , (4.14)
k!
y finalmente,
(λt)k −λt
P (Nt = k) = e , k ≥ 0. (4.15)
k!
Es decir, que la variable Nt se distribuye como una Poisson de parámetro λt.
5
S-N
4
N−S
llegadas de automóviles
| | ||| | || | | | | | | || || | | || | || | |
3
E-O
2
E−O
S
T | | || | || | | | | || || | || | | || | |
1
O STOP
P
0
0 500 1000 1500 2000 2500 3000
segundos
Figura 4.1: Esquema del cruce de calles (izquierda) y secuencia de llegadas de automóviles en
ambas calles (derecha)
es elevada, probablemente debida a que los conductores no respetan la señal de Stop, a lo sumo
reducen su velocidad. Esta es la hipótesis de manejan los ingenieros de tráfico de la ciudad.
Para corroborarla deben estimar la media de accidentes que cabe esperar que ocurran si dicha
hipótesis es cierta.
La estimación requiere, en primer lugar, un análisis del tráfico en el cruce. Concretamente
datos referidos a los tiempos de llegada de los vehı́culos en cada una de las dos calles. La Figura
(4.1) muestra parte de las dos secuencias de llegada. Una primera y razonable hipótesis, que
puede corroborarse con los datos observados, es aceptar que se trata de sendos proceso de Pois-
son con igual parámetro, λ, y que los tiempos entre llegadas en cada sentido son independientes.
Si por TE y TN designamos los tiempos de llegadas en el sentido E-O y N-S, respectivamente,
ambos se distribuyen Exp(λ).
Si la hipótesis de que los conductores no se detienen es cierta, dos vehı́culos colisionarán
cuando lleguen ambos en un corto intervalo de tiempo, |TE −TN | ≤ t0 . El diferencial de tiempo t0
se calcula en función de la longitud de los coches y de su velocidad. Si por simplificar admitimos
que tienen igual longitud, l, y circulan a igual velocidad, v, t0 = l/v. Por ejemplo, para coches de
4,5 metros de longitud que circulen a 40 km/hora (unos 11 m/s) t0 ≈ 0,4 segundos. Ocurrirá un
accidente si los coches llegan con un lapso de tiempo menor a 4 décimas de segundo.
Para poder contar los accidentes definimos una nueva variable
½ (i) (j)
1, si ∃ al menos un j tal que |TE − TN | ≤ t0 ;
Yi =
0, en caso contrario,
(i) (j)
donde TE es el tiempo de llegada del i-ésimo automóvil en sentido E-O, y TN es el tiempo de
llegada del j-ésimo automóvil en sentido N-S. Tal como la condición está planteada, comparamos
la llegada de un automóvil fijo, el i-ésimo, en la dirección E-O con todos los automóviles que
llegan en la otra dirección. Podrı́amos también expresar la condición de la forma
(i) (j)
mı́n |TE − TN | ≤ t0 .
j
4.2 Planificación de semáforos 33
El número total de accidentes en un intervalo de tiempo [0, t] vendrá dado por la suma,
Nt
X
Xt = Yi . (4.16)
i=1
Hemos de llamar la atención sobre esta suma porque su lı́mite superior es una variable aleatoria,
concretamente el número de llegadas que han tenido lugar en la dirección E-O durante el
intervalo de tiempo [0, t], cuya distribución es P o(λ). A la hora de calcular su esperanza lo más
sencillo es recurrir a la esperanza condicionada y hacer uso de la igualdad,
pero
nt
X
E(Xt |Nt = nt ) = E(Yi ) = nt E(Yi ).
i=1
De aquı́
E(Xt ) = E[E(Xt |Nt )] = E[Nt E(Yi )] = λtE(Yi ).
Por otra parte
(i) (j)
E(Yi ) = P (mı́n |TE − TN | ≤ t0 ). (4.17)
j
(i)
donde fE (t) es la función densidad de TE . El paso de (4.18) a (4.19) se justifica porque las
(i) (j) (j)
variables TE y TN son independientes ∀j. El suceso {t − t0 ≤ mı́nj TN ≤ t + t0 } que aparece
en la integral (4.20) equivale a que en el intervalo [t − t0 , t + t0 ] tenga lugar al menos una llegada
de vehı́culos en sentido N-S, su complementario supone que no hay ninguna llegada en dicho
intervalo y por tanto,
(j)
P (t − t0 ≤ mı́n TN ≤ t + t0 ) = 1 − P (N[t−t0 ,t+t0 ] = 0) (4.21)
j
= 1 − P (N2t0 = 0) (4.22)
= 1 − exp(−2λt0 ). (4.23)
El paso de (4.21) a (4.22) se justifica por la propiedad de los incrementos independientes esta-
cionarios. Sustituyendo (4.23) en (4.20) y a su vez en (4.17)
(i) (j)
E(Yi ) = P (mı́n |TE − TN | ≤ t0 )
j
Z ∞
= (1 − exp(−2λt0 ))fE (t)dt
0
= 1 − exp(−2λt0 ).
34 Procesos Estocásticos
Por último
E(Xt ) = λt(1 − exp(−2λt0 )),
que podemos expresar también en términos de número medio de accidentes por unidad de
tiempo.
E(Xt )
= λ(1 − exp(−2λt0 )).
t
Si, como en el ejemplo que proponı́amos t0 = 0,4 segundos, la media de accidentes por segundo
serı́a
E(Xt )
= λ(1 − exp(−0,8λ)).
t
Para utilizar la hora como unidad de tiempo haremos el cambio λh = 3600λ y al sustituir en la
anterior expresión,
· µ ¶¸
3600E(Xt ) 0,8λh
Mh = = λh 1 − exp − ,
t 3600
donde t se expresa ahora en horas. En la gráfica de la Figura 4.2 vemos la evolución de Mh a
medida que aumenta λh .
1.0
0.8
media de accidentes por hora
0.6
0.4
0.2
0.0
0 10 20 30 40 50 60
tasa de llegadas
El modelo probabilı́stico que describe los tiempos de espera, sea de un fallo o de una reparación,
es el modelo exponencial. Supondremos por tanto que el tiempo de fallo Tf ∼ Exp(λ) y el tiempo
de reparación Tr ∼ Exp(µ), y que ambos son independientes.
El proceso Xt , t ≥ 0 designa el estado del sistema en el instante t. Se trata de una cadena
de Markov continua en el tiempo y homogénea. Para comprobarlo obtendremos los tiempos de
transición para cada cada estado, y siendo éstos exponenciales la propiedad de falta de memoria
hará el resto. Veamos dichos tiempos.
Transición 0 → 1.- Una transición de este tipo se produce cuando ambos procesadores están
fuera de servicio y uno de ellos es reparado. Si T01 es el tiempo de transición correspon-
diente y Tr1 y Tr2 los tiempos de reparación de los procesadores, T01 coincidirá con el
tiempo del que primero esté reparado, luego
y de aquı́
y T01 ∼ Exp(2µ).
Transición 1 → 2.- Esta transición implica que el procesador averiado ha sido reparado y
por tanto T12 = Tr ∼ Exp(µ).
Transición 1 → 0.- Para que ello ocurra el procesador que funciona debe fallar y T10 = Tf ∼
Exp(λ).
Transición 2 → 1.- Uno de los dos procesadores en funcionamiento ha de fallar y T21 será el
tiempo del que menos tarde en hacerlo, por tanto
e−µt − e−µ(t+∆t)
=
e−µt
= 1 − e−µ∆t
= µ∆t + o(∆t).
De forma análoga podemos obtener las probabilidades para las restantes transiciones entre
diferentes estados para un instante de tiempo ∆t. Para las transiciones a un mismo estado
utilizaremos las relaciones,
p00 (∆t) = P (Xt+∆t = 0|Xt = 0) = P (mı́n(Tr1 , Tr2 ) > t + ∆t| mı́n(Tr1 , Tr2 ) > t),
p11 (∆t) = P (Xt+∆t = 1|Xt = 1) = P (Tf > t + ∆t, Tr > t + ∆t|Tf > t, Tr > t),
p22 (∆t) = P (Xt+∆t = 2|Xt = 2) = P (mı́n(Tf1 , Tf2 ) > t + ∆t| mı́n(Tf1 , Tf2 ) > t).
Con unas sencillas operaciones con matrices podemos reescribir la anterior igualdad de la forma
π0 (t + ∆t) − π0 (t) −2µ λ 0 π0 (t)
π1 (t + ∆t) − π1 (t) = 2µ −(µ + λ) 2λ π1 (t) ∆t + o(∆t).
π2 (t + ∆t) − π2 (t) 0 µ −2λ π2 (t)
dπ(t)
= Aπ(t). (4.24)
dt
La matriz A recibe el nombre de generador de la cadena de Markov.
La solución de la ecuación diferencia matricial (4.24) con condición inicial dada por π(0) =
π, distribución inicial sobre los estados, es
π(t) = eAt π, t ≥ 0,
La solución del anterior sistema de ecuaciones no es sencilla, pero bajo ciertos supuestos
puede resolverse con facilidad. Uno de ellos es suponer que las πi son constantes en el tiempo,
la derivada en (4.24) será nula y Aπ(t) = 0. El correspondiente sistema de ecuaciones es
−2µπ0 + λπ1 = 0,
+µπ1 − 2λπ2 = 0,
π0 + π1 + π2 = 1,
con solución 2
λ
1 2µλ .
π=
(λ + µ)2
µ2
Se observa que la probabilidad de que ambos procesadores fallen vale π0 = [λ/(λ + µ)]2 . Se
puede comprobar que en un modelo para un solo procesador y con la misma distribución para
los tiempos de fallo y reparación π0 = λ/(λ + µ), mayor que la anterior.
λ i-1 λ i λ i+1
i i+1
µ i µ i+1
µ i+2
Este tipo de modelos se han utilizan en teorı́a de colas para modelizar su evolución. Un
nacimiento se corresponde con la llegada de un individuo a la cola y una muerte con su abandono
38 Procesos Estocásticos
por haber sido ya atendido. Nos vamos a ocupar de una cola hipotética sin restricciones en
cuanto a su longitud, en teorı́a puede ser infinita. En una cola de estas caracterı́sticas, el
tiempo que ha de esperar en la cola el n-ésimo llegado hasta que empieza a ser atendido puede
expresarse
Wn = máx(0, Wn−1 + τs − τi ),
donde τs es el tiempo que tarda en ser servido el (n − 1)-ésimo cliente de la cola y τi el tiempo
entre la llegadas de los clientes n − 1 y n.
Siguiendo el procedimiento del ejemplo anterior podemos escribir
π(t + ∆t) = Bπ(t),
donde la matriz B se obtiene por un razonamiento similar, la única diferencia ahora es que la
matriz tiene infinitas filas y columnas.
1 − λ0 ∆t µ1 ∆t 0 ··· ···
λ0 ∆t 1 − (µ + λ )∆t µ ∆t 0 ···
1 1 2
B= 0 λ 1 ∆t 1 − (µ2 + λ 2 )∆t µ 2 ∆t 0 .
.. .. .. .. ..
. . . . .
Operando, dividiendo por ∆t y haciendo que ∆t → 0,
dπ(t)
= Aπ(t). (4.25)
dt
donde la matriz generador A vale
−λ0 µ1 0 ··· ···
λ0 −(µ1 + λ1 ) µ 0 ···
2
A= 0 λ 1 −(µ2 + λ2 ) µ2 0 .
.. .. .. .. ..
. . . . .
Si se alcanza equilibrio π 0 = 0 y de Aπ = 0 obtendremos
π 1 = ρ1 π 0 ,
π2 = ρ2 π1 = ρ1 ρ2 π0 ,
·········
πj = ρj πj−1 = ρ1 · · · ρj π0 ,
donde ρj = λj−1 /µj , j > 1. P
Hagamos rj = ρ1 · · · ρj , con r0 = 1. Para que i≥0 πi = 1 debe cumplirse,
X X X
πi = ρ1 · · · ρi π0 = π0 ri = 1
i≥0 i≥0 i≥0
P
lo que exige que la serie i≥0 ri sea convergente. Si ası́ ocurre,
1
π0 = P ,
i≥0 ri
πj = ρj π0 , 0 ≤ j ≤ N,
donde ρ = λ/µ. Como la colas deben contener necesariamente algún número de clientes j, 0 ≤
j ≤ N , se cumple,
XN
1−ρ
ρj π0 = 1 =⇒ π0 = .
j=0
1 − ρN +1
ρN (1 − ρ)
πN = .
1 − ρN +1
Por ejemplo, para una ratio nacimiento/muerte de 1/2 y con un tamaño máximo de cola de 10
clientes, la probabilidad de saturación es ≈ 4,8 × 10−4 .
Buffer infinito
Si las llegadas tienen lugar según un proceso de Poisson homogéneo de parámetro λ llegadas
por unidad de tiempo, y el tiempo en ser despachado el paquete es una Exp(µ), la expresión
(4.26) adquiere la forma,
πi = ρi π0 , 0 ≤ i,
P
con ρ = λ/µ. La serie i≥0 ρi converge y suma (1 − ρ)−1 , sólo si ρ < 1, única situación que
por otra parte tiene sentido. Tendremos como distribución de equilibrio
πi = ρi (1 − ρ), i ≥ 0.
40 Procesos Estocásticos
y sustituyendo en (4.27),
ρ
E(N ) = .
1−ρ
Buffer finito
Con las mismas caracterı́sticas del sistema anterior, pero con un buffer de capacidad finita,
N , es interesante obtener la probabilidad de perder un paquete. Precisemos que entendemos
por ello. Supongamos que en instante t el buffer está lleno, un paquete está siendo procesado y
otro paquete está de camino. Si el tiempo que transcurre entre el último paquete que llegó y el
que está en camino, τi , es menor que el tiempo que tarda la CPU en procesar su paquete, τs ,
el paquete en camino se perderá. La probabilidad de este suceso, A, es
porque los sucesos {buffer lleno} y {τs − τi > 0} son independientes. Los tiempos τs y τi son
también independientes, su densidad conjunta vale
y Z ·Z ¸
∞ ∞
λ ρ
P (τs − τi > 0) = λ exp(−λti ) µ exp(−µts )dts dti = = .
0 ti λ+µ 1+ρ
Sustituyendo,
ρN +1 (1 − ρ)
P (A) = .
(1 − ρN +1 )(1 + ρ)
Para ρ = 1/2 y N = 10, la probabilidad de perder el paquete es ≈ 1,6 × 10−4 , tres veces menor
que la que habı́amos calculado para llenar el buffer en las mismas condiciones.
Capı́tulo 5
Transformación lineal de un
proceso estacionario
con β0 = 1.
Como Zt es un ruido blanco de varianza σ 2 , la media y varianza de Xt valen,
q
X
µ(t) = 0, σ 2 (t) = σ 2 βj2 .
j=1
Como Zt es una sucesión de ruido blanco, las esperanzas que aparecen en (5.5) serán distintas
de cero sólo cuando t − j = t − k − i, es decir, j = i + k. Ası́,
P
σ 2 q−ki=0 βi+k βi , k = 0, 1, . . . , q;
R(k) = (5.6)
0, k > q.
Un rasgo caracterı́stico de los procesos MA(q) es el corte que se produce en la función de
autocovarianza para valores de k > q.
El espectro del proceso se deduce fácilmente de la expresión que obtuvimos para el espectro
del filtrado lineal de una sucesión de ruido blanco, el denominado proceso lineal general (véase
(5.15) de Montes (2007)). Esta expresión era
PX (ω) = σ 2 |h(ω)|2 ,
5.1 Procesos autoregresivos de medias móviles (ARMA) 43
Ası́ pues,
PX (ω) = σ 2 |h(ω)|2
2 2
X q X q
= σ 2
βj cos 2πωj + βj sin 2πωj
j=0
j=0
2 2
Xq X q
= σ 2 1 + βj cos 2πωj + βj sin 2πωj (5.7)
j=1 j=1
La existencia de PX (ω) esta condicionada a que el denominador de (5.8) sea siempre distinto
de 0, lo que exige imponer ciertas restricciones a los coeficientes de φ(B). Por ejemplo, para
p = 1 y α1 = 1, (5.8) adquiere la forma,
σ2
PX (ω) = ,
2(1 − cos2πω)
44 Transformación lineal de un proceso estacionario
que vale 0 para ω = 0. El problema enlaza directamente con la WSS del proceso. En efecto, si
desarrollamos [φ(B)]−1 como serie de potencias de B, se puede expresar Xt como un proceso
lineal general
Xt = [φ(B)]−1 Zt
¡X ¢
= a j B j Zt
j≥0
X
= aj Zt−j . (5.9)
j≥0
De
P acuerdo con (5.18) de Montes (2007), la condición para que el proceso sea WSS es que
2
j≥0 a j < ∞. Esta condición puede a su vez expresarse en términos de los αi a través del
siguiente teorema, cuya demostración puede consultarse en la página 76 de Diggle (1990).
Teorema 5.1 La condición necesaria y suficiente para que un proceso AR(p), φ(B)XY = Zt ,
sea WSS es que el módulo de todas la raı́ces del polinomio φ(u) sea mayor que la unidad.
Multiplicando ambas partes de la igualdad por Xt−k , tomando esperanzas y teniendo en cuenta
que Xt−k y Zt son independientes,
p
X
R(k) = E(Xt Xt−k ) = αi E(Xt−i Xt−k ).
i=1
Si dividimos por R(0), obtendremos una expresión análoga para la función de correlación,
p
X
ρ(k) = αi ρ(i − k), k = 1, 2, . . . (5.11)
i=1
que proporciona un sistema de ecuaciones conocido como las ecuaciones de Yule-Walker. Estas
ecuaciones y las (5.10) permiten calcular ρ(k) y R(k) a partir de los coeficientes αi , pero pueden
también usarse en sentido inverso para estimar dichos coeficientes a partir de las autocorrela-
ciones o correlaciones muestrales.
Xt = α1 Xt−1 + α2 Xt−2 + Zt .
Se trata de una ecuación en diferencias homogénea cuyas soluciones dependen a su vez de las
soluciones de su ecuación caracterı́stica
λ2 − α1 λ − α2 = 0. (5.13)
Supondremos que hay dos soluciones reales y distintas, λ1 y λ2 , en cuyo caso la solución de
(5.12) es
ρ(k) = aλk1 + bλk2 .
La condiciones iniciales determinan los valores de a y b. Ası́, sabemos que
ρ(0) = 1 =⇒ b = 1 − a.
ρ(1) = α1 + α2 ρ(1),
pero
ρ(1) = aλ1 + (1 − a)λ2 .
Despejando ρ(1) e igualando obtendremos el valor de a.
Supongamos que α1 = 0,4 y α2 = 0,2. Con estos valores las dos raı́ces de (5.13) son
λ1 ≈ 0,69 y λ2 ≈ −0,29, ρ(1) = 0,5 y a ≈ 0,81. Puede comprobarse que con los valores
asignados a α1 y α2 raı́ces de φ(u) = 0 tiene ambas módulos mayores que 1, tal como exige el
Teorema 5.1 para que el proceso sea WSS.
La expresión general de las correlaciones del proceso es
o en forma polinómica
φ(B)Xt = θ(B)Zt .
Aplicando los resultados del filtrado lineal de un ruido blanco ((5.18) de Montes (2007)), el
espectro del proceso verifica,
Y de aquı́,
PX (ω) = σ 2 |h(ω)|2 = σ 2 |θ(e−i2πω )|2 |φ(e−i2πω )|−2 ,
que bajo el supuesto de WSS se expresa,
2 2
Xq X q
PX (ω) = σ 2 1+
βj cos 2πωj + βj sin 2πωj
j=1 j=1
" #2 " #2 −1
p
X p
X
× 1− αl cos 2πωl + αl sin 2πωl . (5.14)
l=1 l=1
46 Transformación lineal de un proceso estacionario
Las condiciones para que el proceso sea WSS son las mismas que las exigidas para el proceso
AR(p).
Por lo que respecta a la función de autocorrelación, su obtención es más sencilla si expresa-
mos el proceso de la forma,
X X
Xt = [φ(B)]−1 θ(B)Zt = aj B j Zt = aj Zt−j ,
j≥0 j≥0
3
2
1
0
frecuencia
8x1010
8x1015
7
7
6
6
5
5
PXn(w)
PXt(w)
4
3
3
2
2
1
1
0
frecuencia frecuencia
Figura 5.2: Densidad espectral de potencia de la vibración aleatoria (TBL) teórica (izquierda)
y muestreada (derecha)
Xn = αXn−1 + Zn . (5.18)
σ 2 = RXn (0)(1 − α2 ),
En la Figura 5.3 se comprueba que el modelo AR(1) tiene una PSD que se ajusta bien a la
original, excepto en los valores alrededor de 0. Podemos utilizar para generar una señal continua
que simulará muy aproximadamente la vibración real sobre la mesa de pruebas.
5.2 Vibraciones aleatorias 49
4x1015
3
PSD
2
1
frecuencia
Figura 5.3: Densidad espectral de potencia del proceso real (- - -) y del AR(1) ajustado (-----)
50 Transformación lineal de un proceso estacionario
Bibliografı́a
Diggle, P. (1990). Time Series. A Biostatistical Introduction. Oxford University Press, N.Y.