Manual Material PDF

Procesos Estocásticos para Ingenieros:
Teorı́a y Aplicaciones
Materiales complementarios
Francisco Montes Suay
Departament d’Estadı́stica i Investigació Operativa

Universitat de València
c 2007 de Francisco Montes
Copyright °
Este material puede distribuirse como el usuario desee sujeto a las siguientes condiciones:
1. No debe alterarse y debe por tanto constar su procedencia.

2. No está permitido el uso total o parcial del documento como parte de otro distribuido
con fines comerciales.
Departament d’Estadı́stica i Investigació Operativa

Universitat de València
46100-Burjassot
Spain
Índice general
1. Probabilidad. Variable aleatoria. Vector aleatorio 1

1.1. Detección de agrupaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Estimación del tamaño de una población animal a partir de datos de recaptura . 3
1.3. Atención al cliente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Distribución de Poisson vs distribución Exponencial . . . . . . . . . . . . . . . . 5
1.5. Control de la señal de voz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1. Simulación de una variable aleatoria Laplace . . . . . . . . . . . . . . . . 9
1.6. Tasa de fallo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2. Esperanza. Desigualdades. Función caracterı́stica 13

2.1. Entropı́a de una variable discreta: compresión de datos . . . . . . . . . . . . . . . 13
2.1.1. Entropı́a relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2. La entropı́a como medida de información . . . . . . . . . . . . . . . . . . 15
2.1.3. Compresión de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2. Comprobación de software crı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3. Codificación de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.1. Recta de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.2. Codificación de imágenes y regresión mı́nimo cuadrática . . . . . . . . . . 20
3. Sucesiones de variables aleatorias. Teoremas de convergencia 25

3.1. Aplicaciones de la ley de los grandes números . . . . . . . . . . . . . . . . . . . . 25
3.1.1. El teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.2. Cálculo aproximado de integrales por el método de Monte-Carlo . . . . . 26
3.1.3. Aproximación de funciones . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2. Una curiosa aplicación del TCL: estimación del valor de π . . . . . . . . . . . . . 27
4. Procesos Estocásticos 29
4.1. Derivación alternativa del Proceso de Poisson . . . . . . . . . . . . . . . . . . . . 29
4.2. Planificación de semáforos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3. Cadenas de Markov continuas en el tiempo: fiabilidad de un multiprocesador . . 34
4.4. Procesos de nacimiento y muerte (Birth-death) . . . . . . . . . . . . . . . . . . . 37
4.4.1. Colas de longitud infinita . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4.2. Colas con parámetros de nacimiento y muerte constantes y longitud finita 39
4.4.3. Aplicación a la transmisión de datos a través de una red de comunicaciones 39
5. Transformación lineal de un proceso estacionario 41

5.1. Procesos autoregresivos de medias móviles (ARMA) . . . . . . . . . . . . . . . . 41
5.2. Vibraciones aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 ÍNDICE GENERAL
Bibliografı́a 48
Capı́tulo 1
Probabilidad. Variable aleatoria.

Vector aleatorio
1.1. Detección de agrupaciones

La detección de agrupaciones (clusters) es de gran interés en muchas áreas. En epidemiologı́a,
por ejemplo, es importante conocer si ciertas enfermedades aparecen con mayor frecuencia en
determinadas áreas geográficas, dando lugar a una agrupación anormal de casos. La asignación
de recursos por parte de la policı́a local a los distintos distritos de una ciudad deberı́a hacerse
teniendo en cuenta la posible existencia de clusters de mayor criminalidad. La acumulación
inesperada e inexplicada de accidentes de tráfico en ciertos sectores de una ciudad, o de una
carretera, exige la atención de las autoridades de tráfico. Todos estos ejemplos, y muchos más
que podrı́an citarse, exigen previamente comprobar que, efectivamente, en la zona geográfica
observada el fenómeno en estudio ocurre con mayor frecuencia de lo que cabrı́a esperar. Como
se trata de fenómenos aleatorios de lo que estamos hablando es de frecuencia de un suceso:
casos de gripe, robos a personas o accidentes mortales.
Una forma sencilla, por los conceptos teóricos que exige, es la que vamos a presentar a
continuación, aunque puden encontrarse métodos más sofisticados y eficientes para abordar el
problema. Supongamos que para facilitar la incidencia y localización del suceso que nos interesa,
hemos dividido el área geográfica de una ciudad en un total de 2500 celdas sobre un retı́culo de
50 × 50. La Figura 1.1 muestra a la izquierda un conjunto de ocurrencias del suceso, celdas en
negro, en las que hay ausencia de cluster. El suceso ha ocurrido en 29 de las 2500, es decir en
un 29/2500 = 1,16 % de ellas. En la parte derecha de la figura se observa un área sombreada
que contiene 145 celdas en las que hay 11 incidencias. De acuerdo con la incidencia observada
en el patrón de no agrupación, la derecha, hubiéramos esperado 145 × 0,0116 = 1,68 ocurrencias
en las 145 celdas, un número muy inferior a las 11 observadas. ¿Significa ello que estamos en
presencia de un cluster?
Designemos por B ={existe un cluster } y por A ={datos observados} y vamos a calcular el
cociente
P (no cluster|datos observados) P (B c |A)
= . (1.1)
P (cluster|datos observados) P (B|A)
Este tipo de cocientes recibe el nombre de odds en contra y nos indica cuantas veces es más
probable que no ocurra un suceso frente a que ocurra. Si (1.1) es claramente mayor que 1, nos
inclinaremos a rechazar la hipótesis de la existencia de un cluster en los datos observados.
2 Probabilidad. Variable aleatoria. Vector aleatorio
50 50
45 45
40 40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
5 10 15 20 25 30 35 40 45 50 5 10 15 20 25 30 35 40 45 50
Figura 1.1: Incidencia geográfica de cierto suceso en una misma ciudad. Sin cluster en la iz-
quierda y con un posible cluster en la parte sombreada de la derecha
Para el cálculo de (1.1) utilizaremos la fórmula de Bayes,

P (B c |A) P (A|B c )P (B c )/P (A) P (A|B c )P (B c )
= = , (1.2)
P (B|A) P (A|B)P (B)/P (A) P (A|B)P (B)
lo que exige conocer P (B), P (A|B) y P (A|B c ). Veamos cómo podemos conocerlas. La pro-
babilidad de que exista un cluster dependerá del fenómeno en estudio y nuestro conocimiento
del mismo nos ayudará a asignar un valor a priori a P (B). Si creemos que un cluster es muy
improbable, asignaremos un valor muy pequeño, por ejemplo P (B) = 10−6 . Las otras dos son,
respectivamente, las probabilidades de haber observado 11 veces el suceso en el área sombreada
según que admitamos o no la existencia de un cluster. Para su cálculo observemos que en cada
celda ocurre o no el suceso con independencia de las demás y que lo hace en todas ellas con
la misma probabilidad, pc o pnc según el caso. Es decir, la ocurrencia del suceso en cada celda
puede asimilarse a una prueba de Bernoulli y por tanto el total de ocurrencias en las 145 celdas
serán una variable aleatoria Binomial. Es decir,
µ ¶
145 11
P (A|B) = P (k = 11|cluster) = p (1 − pc )134 ,
11 c
y µ ¶
c 145 11
P (A|B ) = P (k = 11|no cluster) = p (1 − pnc )134 .
11 nc
¿Qué decir respecto de pc y pnc ? Hemos visto que cuando no habı́a cluster sólo en un 1,16 % de
celdas habı́a ocurrido un suceso, con lo que podemos tomar pnc ≈ 0,01. Si admitiéramos que la
zona sombreada es un cluster, la incidencia del suceso ha sido 11/145 = 0,07 y podemos tomar
pc ≈ 0,1. Sustituyendo en las anteriores expresiones y en (1.2) tendremos,
¡145¢
(0,01)11 (0,99)134 (1 − 10−6 )
odds = 11 ¡145¢ 11 134 10−6
= 3,52.
11 (0,1) (0,9)
Parece pues difı́cil de asumir la existencia de un cluster. Aunque debemos señalar que la asig-
nación de una probabilidad a priori tan pequeña para B tiene una una gran influencia en el
1.2 Estimación del tamaño de una población animal a partir de datos de recaptura
3
resultado final, lo que debe de hacernos reflexionar sobre dicha asignación antes de llevarla
acabo.
1.2. Estimación del tamaño de una población animal a

partir de datos de recaptura
Queremos estimar la población de peces en un lago1 , para ello hemos capturado 1000 peces a
los que, marcados mediante una mancha roja, hemos arrojado nuevamente al lago. Transcurrido
un cierto tiempo, el necesario para que se mezclen con los restantes peces del lago, llevamos a
cabo una nueva captura de otros 1000 peces entre los que hay 100 marcados. ¿Qué podemos
decir acerca del total de peces en el lago?
El problema que planteamos en un problema tı́pico de estimación estadı́stica y vamos a dar
una solución que, aunque particular para la situación descrita, está basada en una metodologı́a
de aplicación general en los problemas de estimación. Observemos en primer lugar que el número
de peces marcados en la segunda captura (recaptura) es una variable aleatoria Hipergeométrica,
X ∼ H(1000, N, 1000), siempre bajo el supuesto de que ambas capturas constituyen sendas
muestras aleatorias de la población total de peces del lago (en la práctica semejante suposición
excluye situaciones en las que las capturas se efectúan en el mismo lugar y en un corto periodo
de tiempo). Suponemos también que el número de peces en el lago, N , no cambia entre las dos
capturas.
Generalizemos el problema admitiendo tamaños arbitrarios para ambas muestras:
N = población de peces en el lago (desconocida)

r = número de peces en la 1a captura
n = número de peces en la 2a captura
x = número de peces en con mancha roja en la 2a captura
px (N ) = probabilidad de x peces con mancha roja en la 2a captura
Con esta formulación sabemos que

µ ¶µ ¶
r N −r
x n−x
px (N ) = µ ¶ .
N
n
En la práctica, r, n y x son conocidos por observación, como en el ejemplo que planteamos,

mientras que N es desconocido pero fijo y en modo alguno depende del azar. Al menos una
cosa conocemos de N y es que N ≥ r + n − x, que es el total de peces capturados entre
ambas capturas. En nuestro ejemplo, N ≥ 1000 + 1000 − 100 = 1900. ¿Qué ocurre si aceptamos
N = 1900? Aunque se trata de un valor teóricamente posible, si calculamos p100 (1900),
µ ¶µ ¶
1000 900
100 900
p100 (1900) = µ ¶ ≈ 10−430 ,
1900
1000
1 El ejemplo está sacado del libro de W. Feller (1968), An Introduction to Probability Theory and Its Appli-
cation, Vol. I, 3rd. Edition, un libro clásico cuya lectura y consulta recomendamos vivamente.
√ 1
(podemos valernos de la fórmula de Stirling, n! ≈ 2πnn+ 2 e−n , para aproximar las factoriales),
habremos de aceptar que ha ocurrido un suceso, X = 100, con una probabilidad extraordina-
riamente pequeña. Resulta difı́cil de admitir una hipótesis que exige casi un milagro para que
el suceso observado tenga lugar. Otro tanto nos ocurre si suponemos que N es muy grande, por
ejemplo N = 106 . También ahora p100 (106 ) es muy pequeña.
Una respuesta adecuada puede ser la de buscar el valor de N que maximiza px (N ). Dicho
valor, que designamos mediante N̂ , recibe el nombre de estimación máximo-verosı́mil de N .
Para encontrarlo, observemos que
px (N ) (N − r)(N − n) N 2 − N r − N n + rn
= = 2 ,
px (N − 1) (N − r − n + x)N N − Nr − Nn + Nx
de donde se deduce
px (N ) > px (N − 1), si N x < rn,

px (N ) < px (N − 1), si N x > rn.
Ası́ pues, a medida que aumenta N la función px (N ) crece primero para decrecer después,
alcanzando su máximo en N = [rn/x], la parte entera de rn/x. En nuestro ejemplo, N̂ = 10000.
1.3. Atención al cliente

El problema de atender a los clientes que llegan a una cola, es de vital importancia en
muchas actividades. Se trata de hacer compatible una atención eficiente al cliente, reduciendo
al máximo su tiempo de espera, con un uso racional de los recursos disponibles. Evidentemente
poner en funcionamiento un gran número de puestos de atención es una solución, pero sin duda
no es la mejor para la empresa.
Imaginemos una situación sencilla y veamos cómo hacerle frente recurriendo a una distribu-
ción de probabilidad bien conocida, la distribución de Poisson. Supongamos para ello la hora
punta de un supermercado, entre las 7 y las 8 de la tarde cuando la gente aprovecha la vuelta a
casa desde el trabajo para hacer algunas compras de necesidad imperiosa, que no suelen ser muy
numerosas. El gerente del supermercado abre todos los dı́as a esa hora una caja rápida, no más
de 10 artı́culos, pero viene observando que últimamente se acumulan en ella los clientes y, lo que
es peor para su negocio, muestran claramente su descontento quejándose de la falta de servicio.
Para remediar la situación ha decidido recurrir a un experto, se supone que probabilista, para
que le aconseje cuantas cajas adicionales debe abrir.
La experiencia acumulada a lo largo del tiempo le permite saber que la duración media de
la atención a los clientes de la cola rápida es de 1 minuto, y lo que desea es que en el 95 %
de las ocasiones no haya más de una persona esperando a ser atendida. Teniendo en cuenta el
minuto que tardan en ser atendidos, lo ideal serı́a que a lo sumo llegaran 2 personas a la caja
por minuto.
Lo primero que hizo el experto fue observar el total de gente que era atendida en la única
caja rápida disponible entre las 7 y las 8 de la tarde. Lógicamente la observación la hizo a lo
largo de varios dı́as, de martes a viernes, y obtuvo como resultado 68, 70, 59 y 66 clientes,
respectivamente. Es decir, por término medio aproximadamente unos 70 clientes a la hora o
1,167 por minuto. Por otra parte, el experto interpretó, “... que en el 95 % de las ocasiones
no haya más de una persona esperando a ser atendida”, en términos de probabilidad, a saber,
que P (N ≤ 2) = 0,95, donde N es la variable que representa el número de personas en la
cola de la caja. Las caracterı́sticas del problema no ofrecieron duda al experto en cuanto al
comportamiento probabilı́stico de N , se trataba de una variable aleatoria Poisson.
1.4 Distribución de Poisson vs distribución Exponencial 5
Recordemos que una variable Poisson toma valores enteros no negativos, N = {0, 1, 2, 3, . . .}
y su función de cuantı́a es de la forma,
λk
fN (k) = P (N = k) = exp(−λ) .
k!
El problema para el experto era conocer el valor del parámetro λ, pero para eso hizo sus
observaciones, porque λ depende de las caracterı́sticas del fenómeno y representa el número
medio de ocurrencias del suceso en estudio por unidad de tiempo. En su caso estaba claro,
λ = 1, 167 clientes/minuto. Con estos datos para una sola caja,
2
X µ ¶
λ2
P (N ≤ 2) = fN (k) = exp(−λ) 1 + λ + ,
2
k=0
que para λ = 1, 167 vale

P (N ≤ 2) = 0,88.
Este resultado no satisfacı́a las exigencias del gerente y explicaba, por otra parte, la indeseada
acumulación de clientes en la caja. Habı́a que abrir más cajas rápidas, ¿pero cuantas? El experto
pensó que abrir otra caja suponı́a dividir por 2 el número de medio de clientes por minutos,
con lo que el parámetro de Poisson común a las dos cajas valdrı́a ahora λ2 = 1, 167 = 0, 583.
Observemos que la condición de “que no lleguen más de dos clientes a la caja” significa ahora,
“a ninguna de las dos cajas” ahora abiertas. La probabilidad de este suceso se calcula haciendo
uso de las variables de Poisson asociadas a cada caja,
P (a lo sumo 2 llegadas a ambas cajas) = P (a lo sumo 2 llegadas a la caja 1) ×

P (a lo sumo 2 llegadas a la caja 2)
= P (a lo sumo 2 llegadas a la caja 1)2
· µ ¶¸2
0,5832
= exp(−0,583) 1 + 0,583 + = 0,957.
2
La solución que aportó el experto fue por tanto abrir una nueva caja en ese horario punta.
1.4. Distribución de Poisson vs distribución Exponencial

La distribución de Poisson y la distribución Exponencial surgen de manera natural en el
denominado Proceso de Poisson, del que nos ocuparemos con detalle en el capı́tulo dedicado a
los procesos estocásticos. PA los efectos que ahora nos interesa bastará con hacer una sencilla
descripción del mismo.
Un proceso de Poisson surge cuando nos ocupamos de la ocurrencia de un suceso a lo
largo del tiempo: llamadas que llegan una centralita telefónica, desintegraciones radioactivas
que alcanzan un contador Geiger, clientes que llegan a un punto de atención, accidentes en
un central nuclear,.... Para el estudio de este tipo de fenómenos se hacen ciertas hipótesis
simplificadoras,
1. las distintas ocurrencias del suceso son independientes unas de otras,
2. la probabilidad de dos o más ocurrencias del suceso en un intervalo pequeño de tiempo

es prácticamente nula, y
3. si I1 e I2 son dos intervalos de tiempo tales que I1 ∩ I2 = ∅, las variables aleatoria N1 y

N2 , que designan el número de ocurrencias en cada uno de ellos, son independientes.
Con estas hipótesis, se puede demostrar que el número de ocurrencias en cualquier intervalo de
longitud t sigue una distribución de Poisson de parámetro λt, Nt ∼ P o(λt). A señalar que a la
hora de determinar la distribución de Nt lo único que importa es la longitud del intervalo y no
donde esté situado, esta propiedad recibe el nombre de estacionariedad.
N =2
t
t 1 t 2 t t 3 t 4 t 5
X 1 X2 X 3 X
4 X
5
Figura 1.2: Tiempos de ocurrencia en un proceso de Poisson
En la Figura 1.2 hemos representado un esquema del proceso en la que se muestran los
tiempos en los que ha ocurrido el suceso. Dos conjuntos de variables son de interés en un
proceso de estas caracterı́sticas,
{Nt }t∈R+ , variables discretas con distribución Poisson que denotan el número de ocu-
rrencias del suceso en el intervalo de longitud t, y
{Xi }i≥1 , variables continuas que denotan el tiempo transcurrido entre dos ocurrencias
consecutivas del suceso, la i-ésima y la (i-1)-ésima.
¿Cómo de distribuyen las variables Xi ? Dada la independencia entre las ocurrencias de los su-
cesos, las Xi son independientes y, lógicamente, todas tiene la misma distribución. Obtengamos
la función de distribución común. Recordemos que
Fi (t) = P (Xi ≤ t) = 1 − P (Xi > t),
pero el suceso {Xi > t} = {Nt = 0} y por tanto,
Fi (t) = 1 − exp(−λt),
con lo que su función de densidad vale

½
λ exp(−λt), t ≥ 0;
fi (t) =
0, t < 0,
que es la función de densidad de una Exponencial con parámetro λ, Xi ∼ Exp(λ), ∀i.

El proceso de Poisson podrı́a también haberse definido a partir de los tiempos transcurridos
entre las ocurrencias consecutivas del suceso. Si postulamos como hipótesis la independencia de
dichos tiempos y como distribución común la Exp(λ), ¿cómo se distribuyen entonces las Nt ?
Para obtenerla consideremos Sn = X1 + X2 + · · · + Xn ; se verifica
{Nt = n} = {Sn ≤ t} ∩ {Sn+1 > t},
pero como {Sn+1 ≤ t} ⊂ {Sn ≤ t},
{Sn ≤ t} ∩ {Sn+1 > t} = {Sn ≤ t} − {Sn+1 ≤ t},

1.5 Control de la señal de voz 7
y tomando probabilidades
P (Nt = n) = P (Sn ≤ t) − P (Sn+1 ≤ t). (1.3)
La distribución de una suma de n exponenciales independientes, idénticamente distribuidas es

(ver Capı́tulo 2, apartado de Función Caracterı́stica) una G(n, λ), cuya función de distribución
es
 ³ ´
 (λt)n−1
 1 − exp(−λt) 1 + λt 1! + · · · + (n−1)! , t ≥ 0;
P (Sn ≤ t) =


0, en el resto.
Sustituyendo en (1.3),
(λt)n
P (Nt = n) = exp(−λt) ,
n!
y concluimos que Nt ∼ P o(λt).

Este resultado evidencia la dualidad de ambos conjuntos de variables y su equivalencia a la
hora de definir el proceso de Poisson.
1.5. Control de la señal de voz

Cuando se transmite la voz es importante que no se produzcan distorsiones. Las emisoras
comerciales de radio controlan la potencia de la señal mediante instrumentos adecuados, que
permiten reducirla manualmente en el caso de que sea demasiado grande. En otras ocasiones,
las comunicaciones telefónicas, por ejemplo, el control se lleva a cabo de manera automática.
En cualquier caso, es necesario conseguir un control de la señal para evitar distorsiones cuando
la transmisión es analógica, o recortes (clip) cuando la transmisión es digital.
El modelo probabilı́stico utilizado para describir el comportamiento de la potencia de la
señal es el modelo de Laplace cuya función de densidad viene dada por
Ã r !
1 2
fX (x) = √ exp − |x| . (1.4)
2σ 2 σ2
Con este modelo, la amplitud X toma valores alrededor de 0, valores tanto más dispersos cuanto
mayor sea σ 2 , el parámetro de dispersión del modelo. En la gráfica de la izquierda de la Figura
1.3 se aprecia cómo se ensancha la curva a medida que crece σ 2 , que está por ello directamente
relacionado con la potencia de la señal.
Los recortes automáticos de señal actúan tal como se muestra en la gráfica de la derecha de la
Figura 1.3. Mientras la el valor absoluto de la potencia esté dentro de los lı́mites establecidos,
|X| ≤ U , la entrada y la salida coincidirán, si |X| > U , la señal de salida se recorta. El
valor U es una caracterı́stica del sistema que debe ser diseñado de forma tal que sólo en muy
pocas ocasiones sea superado. Muy pocas ocasiones ha de ser interpretado aquı́ en términos
de probabilidad. Por ejemplo, si deseamos que a lo sumo en un 1 % del tiempo la señal sea
0.7
0.6
U
0.5
0.4
0.3
−U U
0.2
−U
0.1
0.0
−4 −2 0 2 4
Figura 1.3: Densidad de Laplace con σ 2 = 1 (-----) y σ 2 = 4 (- - -) y relación entre la entrada y

la salida de una señal de voz recortada
recortada, Precorte ≤ 0,01, y U deberá satisfacer,

Precorte = P (|X| > U )
Z +∞ Ã r !
1 2
= 2 √ exp − |x| dx
U 2σ 2 σ2
 Ã r !¯+∞ 
1 2 ¯
¯ 
= 2 − exp − x ¯
2 σ2 ¯
U
Ã r !
2
= exp − U , (1.5)
σ2
y de aquı́ Ã r ! r µ ¶
2 σ2 1
exp − U ≤ 0,01 −→ U ≥ ln . (1.6)
σ2 2 0,01
El aumento de la potencia de la voz, medida a través de σ 2 , exige incrementar el umbral U
para evitar recortes frecuentes. Por ejemplo, si σ 2 = 2, y el valor de U fuera fijo e igual a 2,
sustituyendo en (1.5) obtendrı́amos Precorte = 0,1357 un valor muy alejado del 0,01 deseado.
El valor de U deberı́a ser µ ¶
1
U ≥ ln = 4,60.
0,01
1.5 Control de la señal de voz 9
1.5.1. Simulación de una variable aleatoria Laplace

La comprobación empı́rica de la probabilidad de recorte obtenida en el párrafo anterior,
cuando U = 2 y σ 2 = 2, podemos llevarla cabo simulando valores de una distribución de
Laplace con esas caracterı́sticas y calculando la frecuencia relativa de los que superan dicho
umbral. ¿Cómo simular los valores de una variable aleatoria Laplace o, en general, de cualquier
otra variable?
La transformación integral de probabilidad explicada en la Sección 1.6 del manual “Proce-
sos Estocásticos para Ingenieros: Teorı́a y Aplicaciones” responde a la pregunta. El resultado
concreto que nos interesa se enuncia en la siguiente proposición:
Proposición 1.1 (Transformada integral de probabilidad) Sea U ∼ U (0, 1), F una fun-
ción de distribución de probabilidad y definimos X = F −1 (U ). Entonces, FX = F .
Para aplicarlo a nuestra situación hemos de obtener en primer lugar la función de distribución
de la variable Laplace. Integraremos (1.4),
Z x Ã r !
1 2
FX (x) = √ exp − |t| dt.
−∞ 2σ 2 σ2
Para x <= 0,
Z Ã r !
x
1 2
FX (x) = √ exp − |t| dt
−∞ 2σ 2 σ2
Z x Ãr !
1 2
= √ exp t dt
−∞ 2σ 2 σ2
Ãr !
1 2
= exp x , (1.7)
2 σ2
y para x ≥ 0,
Z Ã r !
x
1 2
FX (x) = √ exp − |t| dt
−∞ 2σ 2 σ2
Z 0 Ã r ! Z x Ã r !
1 2 1 2
= √ exp − |t| dt + √ exp − t dt (1.8)
−∞ 2σ 2 σ2 0 2σ 2 σ2
" Ã r !¯x #
1 1 2 ¯
¯
= − − exp − t ¯ (1.9)
2 2 σ 2 ¯
0
Ã r !
1 2
= 1 − exp − x , (1.10)
2 σ2
donde el paso de (1.8) a (1.9) se justifica porque dada la simetrı́a de la variable Laplace,
R0
P (X ≤ 0) = −∞ fX (x)dx = 1/2.
−1
Según la Proposición 1.1, si definimos X = FX (Z), siendo Z ∼ U (0, 1), obtendremos una
variable Laplace. Hemos de obtener las inversas de (1.7) y (1.10). Para ello observemos que
x < 0 → 0 < z < 1/2 y x ≥ 0 → 1/2 ≤ z < 1. En definitiva

 q
 σ2

 2 ln(2z), 0 < z < 1/2;
X= q ³ ´


 σ2 1
2 ln 2(1−z) , 1/2 ≤ z < 1.
La gràfica de izquierda en la Figura 1.4 muestra el histograma de 5000 simulaciones de X

obtenidas a partir de las expresiones anteriores mediante 5000 simulaciones de una variable
U (0, 1), accesible a través de la función rnd() en cualquier sistema operativo, hoja de cálculo
o software apropiado. Se ha utilizado σ 2 = 2. Al histograma le hemos superpuesto la gráfica
de la correspondiente función de densidad teórica que se ajusta, como era de esperar, a los
frecuencias observadas.
0.5
6
0.4
4
histograma y función de densidad
2
0.3
0
0.2
−2
−4
0.1
−6
0.0
−9 −7 −5 −3 −1 1 3 5 7 0 10 20 30 40 50 60 70 80 90 100
x muestra
Figura 1.4: Histograma de 5000 simulaciones de una variable aleatoria Laplace y su correspon-
diente densidad teórica superpuesta (izquierda). Simulación de 100 valores de variable aleatoria
Laplace con σ 2 = 2 (derecha)
La gràfica de derecha en la Figura 1.4 muestra los valores de 100 simulaciones Laplace con
σ 2 = 4, en ella sendas rectas, U = 2 y U = −2, indican los umbrales a partir de los cuales la
señal de voz será recortada, lo que ocurre para 14 de los 100 valores simulados, lo que da una
frecuencia relativa de 0,14 muy próxima a Precorte = 0,1357.
1.6. Tasa de fallo

Son muchas las actividades en las que es necesario llevar un control riguroso de los fallos
de los objetos, sean estos máquinas o humanos. Por ejemplo, en pólizas de seguros de vida la
probabilidad de muerte (fallo) del sujeto es un criterio determinante del precio de la prima. No
pagará lo mismo una mujer de 25 años que un hombre de 75. El precio se establece a partir de
las llamadas tablas de vida, o mortalidad, que recogen las probabilidades de muerte por edades
en función de varios factores, principalmente el sexo.
No sólo las probabilidades absolutas de muerte son de interés, también lo son las condiciona-
das al hecho de haber sobrevivido a un cierta edad. Por ejemplo, “probabilidad de sobrevivir a la
1.6 Tasa de fallo 11
edad de 87 años, dado que ya se ha sobrevivido a los 85 años”, que indudablemente será mayor
que la probabilidad absoluta de sobrepasar los 87 años. Estas probabilidades condicionadas,
y algunas funciones con ellas relacionadas, son de interés en todos los procesos que exigen un
control de los fallos del sistema.
Si X es la variable aleatoria que denota el tiempo en que se producen los fallos, el teorema
de Bayes nos permite calcular la probabilidad del suceso “que el fallo se produzca en [t, t+dt]
dado que el objeto ha sobrevivido al tiempo t“,
P (t < X ≤ t + dt, X > t) P (t < X ≤ t + dt)
P (t < X ≤ t + dt|X > t) = = ,
P (t < X) P (t < X)
porque {t < X ≤ t + dt} ⊂ {X > t}. Pero P (t < X ≤ t + dt) = FX (t + dt) − FX (t), y
P (t < X) = 1 − FX (t). Sustituyendo,
FX (t + dt) − FX (t)
P (t < X ≤ t + dt|X > t) = .
1 − FX (t)
0 0
Si FX (t) es diferenciable, FX (t + dt) − FX (t) = FX (t)dt, y como FX (t) es una densidad de la
variable aleatoria X podemos escribir
0
FX (t)dt fX (t)dt
P (t < X ≤ t + dt|X > t) == = = α(t)dt, (1.11)
1 − FX (t) 1 − FX (t)
donde
fX (t)
α(t) = ,
1 − FX (t)
es conocida como la tasa condicional de fallo o simplemente tasa de fallo, aunque según el
contexto recibe otros nombres, como fuerza de mortalidad o tasa de morbilidad en el campo
actuarial. Un objeto con un determinada tasa de fallo tiene mayor probabilidad de sobrevivir
en el próximo 4t que otro con una tasa menor.
A partir de (1.11) podemos obtener sendas expresiones para las funciones de distribución y
densidad de X. Partamos de
0
FX (t)dt dFX (t)
= = α(t)dt, (1.12)
1 − FX (t) 1 − FX (t)
e integremos, teniendo en cuenta que es lógico exigir a FX (t) las siguientes condiciones iniciales,
1. FX (0) = 0 por la naturaleza de la variable tiempo, y
2. lı́mt→∞ FX (t) = 1 porque asumimos que el objeto acabará fallando.
Tendremos,
Z FX (t) Z t
dFX
= − ln[1 − FX (t)] = α(u)du, (1.13)
FX (0) 1 − FX 0
y de aquı́ µ Z t ¶
FX (t) = 1 − exp − α(u)du . (1.14)
0
Derivando (1.14) obtendremos la función de densidad,
µ Z t ¶
fX (t) = α(t) exp − α(u)du . (1.15)
0
La forma de α(t) determina la forma de FX (t) y fX (t). Veamos algunos ejemplos.

Gompertz propuso en 1825 un crecimiento exponencial para la fuerza de mortalidad,

α(t) = Bct , t > 0, lo que da lugar a
· ¸ · ¸
B t B t
FX (t) = 1 − exp (c − 1) , fX (t) = Bct exp (c − 1) .
ln c ln c
Weibull sugiere en 1939 un modelo en el que α(t) crece como una potencia de t en lugar
de hacerlo exponencialmente, α(t) = ktn , t > 0, y
µ ¶ µ ¶
tn+1 tn+1
FX (t) = 1 − exp −k , fX (t) = ktn exp −k .
n+1 n+1
Si suponemos que la tasa de fallo es constante, α(t) = λ, t > 0, nos encontramos con que
X ∼ Exp(λ),
FX (t) = 1 − exp(−λt), fX (t) = λ exp(−λt).
Capı́tulo 2
Esperanza. Desigualdades.
Función caracterı́stica
2.1. Entropı́a de una variable discreta: compresión de da-

tos
Consideremos la variable aleatoria discreta X cuyo soporte es DX = {x1 , x2 , . . . , xk } con
función de cuantı́a, fX (xi ) = P (X = xi ) = pi i = 1, . . . , k. Queremos encontrar una función
que mida la incertidumbre del suceso Ai = {X = xi }. Sabemos que cuanto mayor sea pi menor
será esta incertidumbre, por lo que la función,
1
I(X = xi ) = ln = − ln P (X = xi ),
P (X = xi )
satisface el objetivo buscado. A partir de la incertidumbre de cada uno de los sucesos elementales
ligados a X definimos el concepto de entropı́a de la variable X.
Definición 2.1 (Entropı́a de una variable aleatoria discreta) La entropia de X es la es-
peranza de la incertidumbre de sus resultados, es decir,
k
X Xk
1
HX = E[I(X)] = P (X = xi ) ln =− P (X = xi ) ln P (X = xi ).
i=1
P (X = xi ) i=1
La entropı́a, definida en términos del logaritmo natural, utiliza como unidad de medida el
nat, pero si utilizamos el logaritmo en base 2 para su definición, cosa que suele hacerse, la
unidad es el bit. Ambas unidades difieren en un factor constante puesto que ln a = ln 2 log2 a.
Ejemplo 2.1 (Entropı́a de una variable binaria) Si DX = {0, 1} y p = P (X = 0), la

entropı́a de X viene dada por
HX = −p log2 p − (1 − p) log2 (1 − p),
cuya gráfica para los distintos valores de p se muestra en la Figura 2.1. Se observa que el
máximo de la entropı́a se alcanza para p = (1 − p) = 1/2, situación en la que se da, efecti-
vamente, la máxima incertidumbre en cuanto al valor que pueda tomar X. Como veremos a
continuación, este resultado se generaliza al caso de una variable discreta uniforme, es decir,
con equiprobabilidad para todos los valores de su soporte.
14 Esperanza. Desigualdades. Función caracterı́stica
1.0
0.8
0.6
Hx(p)
0.4
0.2
0.0 0.2 0.4 0.6 0.8 1.0
Figura 2.1: Entropı́a de una variable aleatoria binaria para los distintos valores de p = P (X = 0)
2.1.1. Entropı́a relativa

Supongamos dos distribuciones de probabilidad sobre un mismo soporte, p = (p1 , p2 , . . . , pk )
y q = (q1 , q2 , . . . , qk ). La entropı́a relativa de q respecto a p se define mediante
k
X X k
1 pi
H(q; p) = pi ln − HXp = pi ln , (2.1)
i=1
qi i=1
qi
donde HXp es la entropı́a de X bajo la distribución p.
De esta definición se derivan los siguientes resultados de interés.
1. H(q; p) ≥ 0 y H(q; p) = 0 ↔ pi = qi , ∀i.
En efecto, si en (2.1) tenemos en cuenta que ln(1/x) ≥ 1 − x, podemos escribir,
Xk Xk µ ¶ X k Xk
pi qi
H(q; p) = pi ln ≥ pi 1 − = pi − qi = 0,
i=1
qi i=1
pi i=1 i=1
y la igualdad se alcanza si y sólo si pi = qi , ∀i.

2. Si DX = {x1 , x2 , . . . , xk } entonces HXp ≤ ln k alcanzándose el máximo si y solo pi =
1/k, ∀i.
Supongamos que qi = 1/k, ∀i, tendremos en (2.1) que
k
X X k
1 pi
H(q; p) = pi ln − HXp = ln k − HXp = pi ln ≥ 0,
i=1
1/k i=1
1/k
de donde se deduce la desigualdad, que se convierte en igualdad cuando hay equiprobabi-
lidad, pi = 1/k, ∀i. Se generaliza ası́ el resultado que habı́amos obtenido para la variable
binaria.
2.1 Entropı́a de una variable discreta: compresión de datos 15
2.1.2. La entropı́a como medida de información

Al llevar cabo el experimento ligado a la variable X cuyo soporte es DX = {x1 , x2 , . . . , xk },
el resultado será X = xi . Un interlocutor está interesado en dicho resultado y para conocerlo
realiza una serie de preguntas que sólo admiten como respuesta un sı́ o un no. ¿Cuál será el
número medio de preguntas que habrá de plantear para conocer el resultado? ¿Existe un mı́nimo
para dicha media? Antes de responder y de establecer la relación entre la respuesta y HX ,
veamos un ejemplo que ayude a comprender el problema que hemos planteado.
Ejemplo 2.2 Un urna contiene 32 bolas numeradas del 1 al 8 siendo su composición la que
muestra la Tabla 2.1. Se extrae una al azar y queremos saber qué estrategia seguir para mini-
mizar el número de preguntas necesarias para conocer el número extraı́do.
dı́gito 1 2 3 4 5 6 7 8
número de bolas 8 8 4 4 2 2 2 2
P (bola = i) 1/4 1/4 1/8 1/8 1/16 1/16 1/16 1/16
Tabla 2.1: Composición de la urna
Puesto que los números que aparecen en un mayor número de bolas son más probables, una
estrategia razonable consiste en preguntar por los números en orden de probabilidad descendente.
El esquema 1 de la figura nos muestra dicha estrategia. Otra estrategia alternativa consiste en
preguntar de forma que las dos posibles respuestas tengan la misma probabilidad. El esquema 2
muestra esta segunda estrategia.
sí X=1
sí
sí
X = 1? X ≤ 2? X = 1?
no X=2
X=1 no no
sí X=3
sí
sí
X = 2? X ≤ 4? X = 3?
no X=4
X=2 no no
sí X=5
X = 3?
sí
sí X ≤ 6? X = 5?
no X=6
X=3 no no
sí
X = 7? X=7
X = 7? no
sí
X=7 no X=8
X=8
Esquema 1 Esquema 2
Figura 2.2: Estrategias para averiguar la bola extraı́da mediante preguntas de respuesta di-
cotómica
Si representamos por N1 y N2 el número de preguntas necesarias en cada estrategia para

conocer el número de la bola extraı́da, sus valores dependen de dicho número y pueden obtenerse
bola extraı́da 1 2 3 4 5 6 7 8
valor de N1 1 2 3 4 5 6 7 7
valor de N2 2 2 3 3 4 4 4 4
P (bola = i) 1/4 1/4 1/8 1/8 1/16 1/16 1/16 1/16
Tabla 2.2: Valores N1 y N2 en función de la bola extraı́da
fácilmente a partir de los esquemas de la Figura 2.2. Se muestran en la Tabla 2.2. A partir de
la tabla podemos calcular las esperanzas de ambas variables,
1 1 1 51
E(N1 ) = (1 + 2) + (3 + 4) + (5 + 6 + 7 + 8) =
4 8 16 16
y
1 1 1 44
E(N2 ) = (2 + 2) + (3 + 3) + (4 + 4 + 4 + 4) = .
4 8 16 16
La segunda estrategia es mejor que la primera.
Si definimos ahora X como el número que muestra la bola, su entropı́a en bits vale
1 1 1 1 1 1 44
HX = −2 × log2 − 2 × log2 − 4 × log2 = ,
4 4 8 8 16 16 16
que coincide con E(N2 ), coincidencia que explicaremos a continuación.
El problema de diseñar una estrategia de preguntas con respuesta dicotómica para identificar
exactamente el valor de la variable X ={número que nos muestra la bola extraı́da}, es el mismo
que se presenta cuando queremos codificar la salida de una fuente de información. En efecto, la
secuencia de respuestas que conduce a la identificación del valor de X puede asimilarse a una
secuencia de 0’s y 1’s, según las respuestas hayan sido negativas o positivas, respectivamente.
Se trata en definitiva de un código binario y el problema de encontrar la mejor estrategia de
preguntas es equivalente al de encontrar el código binario más corto.
Dos resultados fundamentales de teorı́a de la información nos permiten establecer el papel
relevante del concepto de entropı́a. Los enunciaremos sin demostración.
1. La longitud media de cualquier código binario no puede ser menor que el valor en bits de
la entropı́a.
2. Si los valores de la función de cuantı́a de X son potencias de 2, existe una estrategia

(codificación) cuyo valor medio iguala a la entropı́a. Tal como ocurre con la segunda
estrategia del ejemplo anterior.
Como consecuencia de estos dos resultados podemos afirmar que “la entropı́a de una variable
aleatoria X es el menor número medio de bits necesarios para identificar su valor”.
2.1.3. Compresión de datos

El crecimiento exponencial que la información en formato digital ha experimentado en los
últimos años, ha obligado a recurrir a técnicas de compresión de los datos con el fin de optimizar
los recursos de almacenamiento y de facilitar su transmisión. ¿Qué nivel de compresión podemos
alcanzar? La entropı́a, expresada en bits, es la respuesta a la pregunta, porque como acabamos
de ver, establece el mı́nimo número medio de bits necesarios para codificar una información.
2.2 Comprobación de software crı́tico 17
Veamos un ejemplo ficticio que nos ayude a relacionar lo expuesto en los apartados anteriores
con el proceso de compresión de datos.
La Tabla 2.3 resume las caracterı́sticas de un archivo de datos compuesto por una secuen-
cia de las primeras 8 letras del alfabeto, ABCDEFGH. La columna frec recoge las frecuencias
relativas de aparición de cada letra en la secuencia, la letras están ordenadas según las frecuen-
cias decrecientes. Las columnas cod1 y cod2 recogen dos codificaciones binarias distintas, cuyas
correspondientes longitudes (número de bits) aparecen en las columnas lcod1 y lcod2, respec-
tivamente. Las codificaciones se corresponden con las estrategias 1 y 2 de la Figura 2.2. Ası́,
cod1 supone que vamos preguntando secuencialmente de qué letra se trata, estando las letras
ordenadas según las frecuencias decrecientes y no alfabéticamente, porque lo lógico es asignar
los códigos más cortos a las letras más frecuentes. Por otra parte, cod2 es un código binario
de 3 dı́gitos que se corresponde, es sencillo comprobarlo, con el supuesto de uniformidad en las
frecuencias de aparición.
Letra frec cod1 lcod1 cod2 lcod2

A 0,58 1 1 000 3
B 0,11 10 2 001 3
E 0,09 100 3 010 3
C 0,07 1000 4 011 3
D 0,06 10000 5 100 3
G 0,05 100000 6 101 3
F 0,03 1000000 7 110 3
H 0,01 0000000 7 111 3
Tabla 2.3: Distribución de frecuencias de las letras en los datos y dos posibles códigos
Las longitudes medias de cada uno de los códigos valen,

8
X 8
X 8
X
lcodi 3
L1 = lcod1i × f reci = 2, 23 y L2 = = = 3.
i=1 i=1
8 i=1
8
Como la equiprobabilidad, en nuestro caso la igualdad de frecuencias, supone la máxima incer-

tidumbre, L2 = 3 es el máximo número de bits por carácter que necesitaremos para codificar
el archivo. El código 1 exige, por término medio, 2,23 bits y supondrı́a una reducción del 25 %.
La entropı́a de una variable X con soporte DX = {A, B, C, D, F, G, H} y función de cuantı́a,
pi = f reci , i = 1, . . . , 8, vale
8
X
HX = − f reci log2 (f reci ) = 2, 0651.
i=1
Esta es la máxima reducción que podremos alcanzar.
2.2. Comprobación de software crı́tico

Son muchos los dispositivos hoy en dı́a que funcionan con un software interno. Algunos
de estos dispositivos, por el tipo de actividad a la que están ligados, no pueden fallar nunca,
entendiendo por “nunca” que su tasa de fallos sea extremadamente pequeña. En otras ocasiones,
el fallo del dispositivo da lugar a molestias soportables y las exigencias de funcionamiento del
software son, lógicamente, menores.
Un ejemplo de esta segunda situación son los programas que hacen funcionar nuestros apara-
tos electrodomésticos o nuestros teléfonos móviles. Pero imaginemos el software que controla el
funcionamiento de un avión o de un dispositivo clı́nico del cual depende la vida de una persona.
En estos casos los fallos esperables han de ser mı́nimos, del orden quizás de 1 fallo por cada
106 horas de funcionamiento. Si reparamos que tal cantidad de horas son, aproximadamente,
114 años caeremos en la cuenta de la dificultad que implica efectuar un control de calidad del
software para comprobar si, efectivamente, su tasa de fallos es la deseada.
En la industria, ante situaciones semejantes, se somete a los sistemas a una situación de
stress que induzca fallos más frecuentes. Un método semejante puede adoptarse para controlar
la calidad de este tipo de software altamente fiable. Para ello podemos introducir en el sistema
datos que produzcan tasas de fallo mucho más elevadas de las habituales en la práctica, calcular
la frecuencia relativa de fallos obtenida y aplicar el reajuste correspondiente mediante el factor
de stress utilizado. Lo que se propone, si T es la variable que mide el tiempo de fallo, es
simplemente multiplicar P (T > t0 ) por un factor adecuado. Esta aproximación probabilı́stica
al problema se conoce con el nombre de muestro de importancia 1 , cuya aplicación veremos a
continuación con un ejemplo simulado.
Queremos estimar P (T > t0 ), donde t0 es el lı́mite admitido de fallo del software. La
metodologı́a habitual consiste en probar repetidamente el software y contar las ocasiones en
las que el tiempo de fallo, T , sobrepasa t0 , pero si la probabilidad a estimar es del orden
de 10−6 necesitarı́amos llevar a cabo del orden de 108 simulaciones para poder efectuar la
estimación. Aunque en la práctica raras veces se conoce la distribución de T , para el ejemplo
podemos suponer que T ∼ N (0, 1) y vamos a estimar P (T > 4,75) que sabemos es del orden
de 2, 85 × 10−6 . Recordemos que
Z +∞ µ 2¶
1 x
P (T > 4,75) = √ exp − dx,
4,75 2π 2
que podemos escribir,

³ 2´
Z x
+∞
1 exp − 2
P (T > 4,75) = √ fY (x)dx (2.2)
4,75 2π fY (x)
donde f (x) es la densidad de alguna variable aleatoria Y tal que P (Y > 4,75) À P (T > 4,75).
Por ejemplo, si Y ∼ Exp(1), P (Y > 4,75) = exp(−4,75) = 0,086. Si utilizamos esta distribución,
(2.2) se escribe
³ 2´
Z +∞ exp − x2
1
P (T > 4,75) = √ exp(−x)dx
4,75 2π exp(−x)
Z +∞ µ 2 ¶
1 x
= 1]4,75;+∞[ (x) √ exp − + x exp(−x)dx
0 2π 2
Z +∞
= g(x) exp(−x)dx. (2.3)
0
³ 2 ´
Pero (2.3) no es más que E[(g(Y )] con g(y) = 1]4,75;+∞[ (y) √12π exp − y2 + y y donde 1]4,75;+∞[ (y)
es la función indicatriz del intervalo ]4,75; +∞[.
¿Cómo utilizar esta esperanza a efectos prácticos? Podemos estimar la esperanza mediante
la media aritmética de los valores de g(y) obtenidos mediante una simulación de Montecarlo.
1 R. Y. Rubinstein (1981), Simulation and the Monte Carlo Method. New York. Wiley.
2.3 Codificación de imágenes 19
P (T > 4,75)
N estimada real #{Y > 4,75}
104 8,13 × 10−7 1,02 × 10−6 83
105 9,86 × 10−7 1,02 × 10−6 880
106 1,03 × 10−6 1,02 × 10−6 8765
107 9,89 × 10−7 1,02 × 10−6 86476
Tabla 2.4: Aplicación del muestreo de importancia a la estimación de probabilidades muy pe-
queñas
Para ello generaremos N valores de la Exp(1) y con ellos calcularemos g(x) y a continuación
su media aritmética,
N
1 X
P̂ (T > 4,75) = g(xi )
N i=1
N µ 2 ¶
1 X 1 xi
= 1]4,75;+∞[ (xi ) √ exp − + xi .
N i=1 2π 2
La ventaja del método estriba en que obtener valores de Y que excedan 4,75 es mucho más
probable. Por ejemplo, si N = 10000 esperaremos que haya alrededor de 86 valores mayores
que 4,75.
Señalemos que g(y) representa el cociente entre dos densidades, la que realmente corresponde
a al variable a controlar y la ficticia que corresponde a una nueva variable elegida porque
P (Y > t0 ) À P (T > t0 ). Es este cociente el que estimamos con el método de Montecarlo
descrito.
La Tabla 2.4 muestra las estimaciones obtenidas para P (T > 4,75) con simulaciones de
distinto tamaño. Se muestra también en cada caso el número de valores de la variable de
importancia que han excedido el umbral de 4,75.
2.3. Codificación de imágenes

El almacenamiento y transmisión de archivos de imágenes plantea problemas semejantes a
los generados por los archivos de datos. Si cabe de mayor entidad dada la mayor complejidad
de aquellos archivos. El formato de codificación JPEG, uno de los más standard, se basa en el
hecho de que existen partes en una imagen en las que no cambia sustancialmente su contenido.
Por ejemplo, si estamos barriendo horizontalmente la imagen de una casa cuyas paredes son de
color blanco existirán largas secuencias de pı́xels con prácticamente el mismos valor, de forma
que conocido el valor en pı́xel conocemos, casi con seguridad, cual es el valor del siguiente o,
de forma más general, de sus vecinos. La razón para ello es que las variables aleatorias que
representan el valor en cada pixel están fuertemente correlacionadas. Es decir, si X1 y X2
representa a dos pı́xels vecinos, ρX1 X2 ≈ 1. ¿Qué ventaja podemos obtener de este hecho? Para
dar respuesta a la pregunta necesitamos introducir el concepto de recta de regresión.
2.3.1. Recta de regresión

Consideremos un vector aleatorio (X, Y ). Queremos encontrar una relación funcional entre
Y y X, Y = f (X), con fines predictivos que cumpla las condiciones de bondad y sencillez.
La función más sencilla posible es la recta y por lo que respecta a la bondad haremos uso del
principio de los mı́nimos cuadrados, lo que implica elegir los parámetros de la recta de forma
que © ª
L(a, b) = E (Y − aX − b)2
sea mı́nimo.
La obtención de a y b se reduce a un problema de máximos y mı́nimos y basta igualar a 0
las derivadas parciales ∂L/∂a y ∂L/∂b. Si lo hacemos obtendremos,
cov(X, Y )
a= , b = E(Y ) − aE(X).
var(X)
La ecuación de la que se conoce como recta de regresión de Y sobre X tendrá por expresión,
cov(X, Y )
Y − E(Y ) = (X − E(X)). (2.4)
var(X)
2.3.2. Codificación de imágenes y regresión mı́nimo cuadrática

El pixel i de la imagen se modeliza mediante una variable aleatoria, Xi , de manera que
todas las Xi tienen la misma distribución de probabilidad. Sin perdida de generalidad podemos
suponer que las variables están centradas y su media es 0. En este caso, el coeficiente de
correlación entre dos cualesquiera de ellas puede escribirse,
cov(Xi , Xj ) cov(Xi , Xj )
ρXi Xj = p p = ,
var(Xi ) var(Xj ) var(Xi )
puesto que var(Xi ) = var(Xj ). A partir de (2.4), la recta de regresión de Xj sobre Xi adop-
tará la expresión
Xj = ρXi Xj Xi .
Si se trata de pı́xels vecinos con |ρXi Xj = 1|, el valor que tome Xj será ±Xi , dependiendo
del signo de ρXi Xj . Parece absurdo, desde el punto de vista de la optimización de recursos,
sea para almacenar o transmitir, escribir Xi = xi y a continuación Xi+1 = xi+1 = ±xi .
Podemos almacenar Xi y predecir Xi+1 como X̂i+1 = |Xi | = ±xi . Ahora bien, si |ρXi Xi+1 | < 1
cometeremos un error que será tanto más perceptible cuanto más alejado esté de la unidad el
valor de ρXi Xi+1 .
La codificación JPEG utiliza las propiedades de la correlación entre las componentes del
vector aleatorio X = (X1 , X2 , . . . , Xn ) constituido por los n pı́xels de la imagen. Se trata de
una versión de la transformada de Karhunen-Loève, de la que más adelante nos ocuparemos,
cuyo algoritmo es el siguiente:
1. Transformar X en un nuevo vector Y cuyas componentes son incorreladas, mediante una

transformación lineal Y = AX, donde A es una matriz cuadrada invertible de dimensión
n.
2. Eliminar aquellas componentes de Y cuya varianza es muy pequeña frente a las del resto.
Ello dar lugar a un nuevo vector Ŷ con algunas componentes iguales a 0, que será el que se
almacena o transmite. Lógicamente, las componentes nulas no necesitan ser codificadas,
pero sı́ es necesario conocer su posición.
3. Deshacer la transformación inicial para obtener X̂ = A−1 Ŷ que será una aproximación
del vector original.
Si ΣX y ΣY designan las matrices de covarianza del vector original y del transformado, la

incorrelación de las componentes de Y implica que ΣY es una matriz diagonal. La matriz A
es por tanto la matriz que diagonaliza ΣX , es decir, A = V T , donde V es la matriz de los
vectores propios de ΣX . Tendremos
ΣY = AΣX AT
= V T ΣX V
 
var(Y1 ) 0 ··· 0
 0 var(Y 2) ··· 0 
 
= Λ= .. .. .. .. .
 . . . . 
0 0 ··· var(Yn )
En los dos ejemplos que siguen consideramos dos situaciones distintas: la primera que permite
una reconstrucción idéntica de la imagen original y la segunda en la que la reconstrucción
comporta errores.
Ejemplo 2.3 (Reconstrucción idéntica) Supongamos que la imagen a codificar está repre-
sentada por el vector X = (X1 , X2 , X3 , X4 ), con vector de medias nulo y cuyas matrices de
covarianzas y correlaciones valen,
   
5 1 2 5 1,0000 0,2582 0,4473 0,4663
 1 3 1 5   0,2582 1,0000 0,2887 0,6019 
ΣX =   2 1 4 9 ,
 ρ=  0,4473 0,2887 1,0000 0,9383  .

5 5 9 23 0,4663 0,6019 0,9383 1,0000
Aun cuando ninguna correlación es la unidad, si calculamos E[(X4 − (X2 + 2X3 ))2 ], recordando
que E(Xi ) = 0, ∀i, obtendremos,
E[(X4 − (X2 + X3 ))2 ] = E[X42 + (X2 + 2X3 )2 − 2X4 (X2 + 2X3 )]

= E(X42 ) + E((X2 + 2X3 )2 ) − 2E[X4 (X2 + 2X3 )]
= E(X42 ) + E(X22 + 4X32 + 4X2 X3 ) − 2[E(X4 X2 ) + 2E(X4 X3 )]
= var(X4 ) + var(X2) + 4var(X3 ) + 4cov(X2 , X3 )
−2[cov(X4 , X2 ) + cov(X4 , X3 )]
= 0,
y como (X4 − (X2 + 2X3 ))2 ≥ 0, se deduce que P (X4 = X2 + X3 ) = 1, con lo que el valor de
X4 viene determinado por el de X2 y X3 .
La matriz A es la traspuesta de la matriz de los vectores propios de ΣX ,
 
−0,2236 −0,1940 −0,3478 −0,8896
 0,9718 −0,1123 −0,0450 −0,2022 
A=VT =  0,0743
,
0,8849 −0,4587 −0,0324 
0,0000 −0,4082 −0,8165 0,4082
y ΣY valdrá,
 
28,8660 0 0 0
 0 3,7513 0 0 
ΣY = Λ = AΣX AT = 

.
0 0 2,3826 0 
0 0 0 0
En el vector transformado, Y , podemos prescindir de la cuarta componente por tener varianza

nula. El vector que almacenaremos o transmitiremos será Ŷ = (Y1 , Y2 , Y3 , 0). Observemos que
Ŷ = BY con  
1 0 0 0
 0 1 0 0 
B=  0 0 1 0 .

0 0 0 0
Si queremos ahora reconstruir el vector original, como V V T = I, A−1 = V , tendremos
X̂ = A−1 Ŷ = V Ŷ = V BY = V BV T X.
Calculemos V BV T ,  
1 0 0 0
 
 0 5
− 13 1 
V BV T = 

6 6 ,

 0 − 13 1
3
1
3 
1 1 5
0 6 3 6
con lo que
 
X1  
  X1
 5 
 6 X2 − 3 X3 + 16 X4
1   X2 
X̂ = 
 1
 = (sustituyendo X4 = X2 + 2X3 ) = 
 
.
 − 3 X2 + 13 X3 + 13 X4  X3 
  X4
1 1 5
6 X2 + 3 X3 + 6 X4
Hemos recuperado un vector idéntico al original.
Ejemplo 2.4 (Reconstrucción con error) Supongamos ahora que la imagen a codificar está re-
presentada por el vector X = (X1 , X2 , X3 , X4 ), con vector de medias nulo y cuyas matrices de
covarianzas y correlaciones valen,
   
6 5,7 0 0 1,00 0,95 0,00 0,00
 5,7 6 0 0   0,95 1,00 0,00 0,00 
ΣX =   0
,
 ρ=  0,00 0,00 1,00 0,95  .

0 4 3,8
0 0 3,8 4 0,00 0,00 0,95 1,00
A diferencia del ejemplo anterior, observamos ahora que las variables X1 , X2 , y X3 , X4 están
muy correlaciondas, ρX1 X2 = ρX3 X4 = 0,95. Veamos ahora que valen las distintas matrices y,
en particular, cómo es el vector reconstruido.
La matriz A es la traspuesta de la matriz de los vectores propios de ΣX ,
 
0,7071 0,7071 0,0000 0,0000
 0,0000 0,0000 0,7071 0,7071 
A=VT =  0,7071 −0,7071 0,0000
,
0,0000 
0,0000 0,0000 0,7071 −0,7071
y ΣY valdrá,  
11,7 0 0 0
 0 7,8 0 0 
ΣY = Λ = AΣX AT = 
 0
.
0 0,3 0 
0 0 0 0,2
Como las varianzas de las dos últimas componentes del vector transformado son muy pequeñas
frente a las de las los primeras, podemos prescindir de ellas. El vector que almacenaremos o
transmitiremos será Ŷ = (Y1 , Y2 , 0, 0). Observemos que Ŷ = BY con
 
1 0 0 0
 0 1 0 0 
B=  0 0 0 0 .

0 0 0 0
Para reconstruir el vector original, como V V T = I, A−1 = V , y
X̂ = A−1 Ŷ = V Ŷ = V BY = V BV T X.
Obtengamos V BV T ,  
1 1
2 2 0 0
 
 1 1
0 0 
V BV T
=
 0
2 2
1
,
1 
 0 2 2 
1 1
0 0 2 2
y finalmente  
1
 2 (X1 + X2 )

 1 
 2 (X1 + X2 ) 
X̂ = 

.

 1 
 2 (X3 + X4 ) 
1
2 (X3 + X4 )
Las componentes originales X1 y X2 son reemplazadas por la media de sus valores, al igual que
X3 y X4 . La explicación reside en los valores elevados, cercanos a 1, de los correspondientes
coeficientes de correlación. El error cuadrático medio, M SE, que esta reconstrucción supone
podemos calcularlo.
" 4 #
X
2
M SE = E (Xi − X̂i )
i=1
" 2
# " 4
#
X 2
X 2
= E {Xi − (X1 + X2 )/2} +E {Xi − (X3 + X4 )/2}
i=1 i=3
1 1
= E[(X1 − X2 )2 ] + E[(X3 − X4 )2 ]
2 2
1 1
= [var(X1 ) + var(X2 ) − 2cov(X1 , X2 )] + [var(X3 ) + var(X4 ) − 2cov(X3 , X4 )]
2 2
1
= (6 + 6 − 2 × 5,7 + 4 + 4 − 2 × 3,7) = 0,5.
2
Obsérvese que, dados los valores de las varianzas, si las correlaciones hubieran valido 1 el error
cuadrático medio hubiera sido 0.
Por último, hemos generado 20 vectores X = (X1 , X2 , X3 , X4 ) de una normal multivariante
con vector de medias nulo y matriz de covarianzas la ΣX del ejemplo. Estos 4 × 20 = 80 valores
constituyen la imagen original. Ella y su imagen recuperada se muestran en la Figura 2.3 con
el fin de comprobar visualmente la calidad del proceso.
Imagen original
X4 2
X3 0
X2 −2
−4
X1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Imagen recuperada
X4 2
X3 0
X2 −2
−4
X1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Figura 2.3: Imágenes original y recuperada

Capı́tulo 3
Sucesiones de variables aleatorias.

Teoremas de convergencia
3.1. Aplicaciones de la ley de los grandes números

3.1.1. El teorema de Glivenko-Cantelli
Para las variables aleatorias X1 , X2 , . . . , Xn se define la función de distribución empı́rica
mediante
n
1X
Fn (x, ω) = 1]−∞,x] (Xk (ω)).
n
k=1
Cuando todas las variables tienen la misma distribución, Fn (x, ω) es el estimador natural de
la función de distribución común, F (x). El acierto en la elección de este estimador se pone de
manifiesto en el siguiente resultado.
Teorema 3.1 Sea {Xk } una sucesión de variables aleatorias i.i.d. con función de distribución
a.s.
común F (x), entonces Fn (x, ω) −→ F (x).
Demostración.- Para cada x, Fn (x, ω) es una variable aleatoria resultante de sumar las n
variables aleatorias independientes, 1]−∞,x] (Xk (ω)), k = 1, . . . , n, cada una de ellas con la
misma esperanza, E(1]−∞,x] (Xk (ω))) = P(Xk ≤ x) = F (x). Aplicando la ley fuerte de los
grandes números,
a.s.
Fn (x, ω) −→ F (x),
que es el resultado buscado. ♠

Este resultado es previo al teorema que da nombre al apartado y que nos permite contrastar
la hipótesis de suponer que F es la distribución común a toda la sucesión.
Teorema 3.2 (Glivenko-Cantelli) Sea {Xk } una sucesión de variables aleatorias i.i.d. con
función de distribución común F (x). Hagamos Dn (ω) = supx |Fn (x, ω) − F (x)|, entonces
a.s.
Dn −→ 0.
La demostración, muy técnica, la omitimos y dejamos al interés del lector consultarla en el

texto de Billingsley (1995), Probability and Measure. 3rd Edition, Wiley, N.Y.
26 Sucesiones de variables aleatorias. Teoremas de convergencia
3.1.2. Cálculo aproximado de integrales por el método de Monte-

Carlo
R1
Sea f (x) ∈ C([0, 1]) con valores en [0, 1]. Una aproximación al valor de 0 f (x)dx puede
obtenerse a partir de una sucesión de pares de variables aleatorias distribuidas uniformemente
en [0, 1], (X1 , Y1 ), (X2 , Y2 ), . . .. Para ello hagamos,
½
1, si f (Xi ) ≥ Yi
Zi =
0, si f (Xi ) < Yi .
Ası́ definidas las Zi son variables Bernoulli con parámetro p = E(Zi ) = P (f (Xi ) ≥ Yi ) =
R1
0
f (x)dx, y aplicándoles la ley fuerte de los grandes números tendremos que
n Z
1X a.s.
1
Zi −→ f (x)dx,
n i=1 0
lo que en términos prácticos supone simular los pares (Xi , Yi ), i = 1, . . . , n, con Xi e Yi ∼

U (0, 1), y calcular la proporción de ellos que caen por debajo de la gráfica y = f (x).
3.1.3. Aproximación de funciones

Sea g una función acotada definida sobre [0, 1], la función Bn definida sobre [0, 1] mediante
n
X µ ¶µ ¶
k n k
Bn (x) = g x (1 − x)n−k ,
n k
k=0
es conocida como polinomio de Bernstein de grado n.

El teorema de aproximación de Weierstrass asegura que toda función continua sobre un
intervalo cerrado puede ser aproximada uniformemente mediante polinomios. Probemos dicha
afirmación para los polinomios de Bernstein.
Si la función g a aproximar es continua en [0, 1], será uniformemente continua, entonces
∀² > 0, ∃δ > 0 tal que |g(x) − g(y)| < ², si |x − y| < δ.
Además g estará también acotada y por tanto |g(x)| < M, ∀x ∈ [0, 1].
Sea ahora un x cualquiera en [0, 1],
¯ n µ ¶ µ ¶µ ¶ ¯
¯ X n k Xn
k n k ¯
¯ n−k n−k ¯
|g(x) − Bn (x)| = ¯g(x) x (1 − x) − g x (1 − x) ¯
¯ k n k ¯
k=0 k=0
X¯n ¯ µ ¶¯ µ ¶
¯
≤ ¯g(x) − g k ¯ n xk (1 − x)n−k
¯ n ¯ k
k=0
X ¯ ¯ µ ¶¯ µ ¶
¯
= ¯g(x) − g k ¯ n xk (1 − x)n−k +
¯ n ¯ k
|k/n−x|<δ
X ¯¯ µ ¶¯ µ ¶
¯
+ ¯g(x) − g k ¯ n xk (1 − x)n−k
¯ n ¯ k
|k/n−x|≥δ
X µn¶
≤ ² + 2M xk (1 − x)n−k .
k
|k/n−x|≥δ
3.2 Una curiosa aplicación del TCL: estimación del valor de π 27
Si Zn ∼ B(n, x), el último sumatorio no es más que

µ¯ ¯ ¶ X µn¶
¯ Zn ¯
P ¯¯ ¯
− x¯ ≥ δ = xk (1 − x)n−k ,
n k
|k/n−x|≥δ
y tendremos µ¯ ¯ ¶
¯ Zn ¯
¯
|g(x) − Bn (x)| ≤ ² + 2M P ¯ − x¯¯ ≥ δ ,
n
pero por la ley de los grandes números
µ¯ ¯ ¶
Zn P ¯ Zn ¯
−→ x y por tanto P ¯ − x¯ ≥ δ −→ 0,
n ¯ n ¯
lo que demuestra la convergencia uniforme de Bn a g en [0, 1].
3.2. Una curiosa aplicación del TCL: estimación del valor

de π
De Moivre y Laplace dieron en primer lugar una versión local del TCL al demostrar que si
X ∼ B(n, p),
p 1 1 2
P (X = m) np(1 − p) ≈ √ e− 2 x , (3.1)
2π
para n suficientemente grande y x = √m−np . Esta aproximación nos va a servir para estudiar
np(1−p)
la credibilidad de algunas aproximaciones al número π obtenidas a partir del problema de la
aguja de Buffon.
Recordemos que en el problema planteado por Buffon se pretende calcular la probabilidad
de que una aguja de longitud l, lanzada al azar sobre una trama de paralelas separadas entre
si una distancia a, con a > l, corte a alguna de las paralelas. Puestos de acuerdo sobre el
significado de lanzada al azar, la respuesta es
2l
P (corte) = ,
aπ
resultado que permite obtener una aproximación de π si, conocidos a y l, sustituimos en π =
2l
aP (corte) la probabilidad de corte por su estimador natural la frecuencia relativa de corte, p, a
lo largo de n lanzamientos. Podremos escribir, si en lugar de trabajar con π lo hacemos con su
inverso,
1 am
= ,
π 2ln
donde m es el número de cortes en los n lanzamientos.
El año 1901 Lazzarini realizó 3408 lanzamientos obteniendo para π el valor 3,1415929 con
¡¡6 cifras decimales exactas!!. La aproximación es tan buena que merece como mı́nimo alguna
pequeña reflexión. Para empezar supongamos que el número de cortes aumenta en una unidad,
las aproximaciones de los inversos de π correspondientes a los m y m + 1 cortes diferirı́an en
a(m + 1) am a 1
− = ≥ ,
2ln 2ln 2ln 2n
1
que si n ≈ 5000, da lugar a 2n ≈ 10−4 . Es decir, un corte más produce una diferencia mayor
que la precisión de 10−6 alcanzada. No queda más alternativa que reconocer que Lazzarini
28 Sucesiones de variables aleatorias. Teoremas de convergencia
tuvo la suerte de obtener exactamente el número de cortes, m, que conducı́a a tan excelente
aproximación. La pregunta inmediata es, cual es la probabilidad de que ello ocurriera?, y para
responderla podemos recurrir a (3.1) de la siguiente forma,
1 (m−np)2 1
P (X = m) ≈ p e− 2np(1−p) ≤ p ,
2πnp(1 − p) 2πnp(1 − p)
que suponiendo a = 2l y p = 1/π nos da para P (X = m) la siguiente cota

r
π
P (X = m) ≤ .
2n(π − 1)
Para el caso de Lazzarini n=3408 y P (X = m) ≤ 0,0146, ∀m. Parece ser que Lazzarini era un
hombre de suerte, quizás demasiada.
Capı́tulo 4
Procesos Estocásticos
4.1. Derivación alternativa del Proceso de Poisson

Al describir el proceso de Poisson en el Capı́tulo 4 de Montes (2007), señalábamos la exis-
tencia de un método alternativo para derivar el proceso. Este método se basa en resultados
elementales de Teorı́a de la Probabilidad y requiere establecer las siguientes condiciones ini-
ciales para el fenómeno aleatorio, en las que la variable aleatoria Nt ={número de sucesos
ocurridos hasta el tiempo t}:
CA1) si t1 < t2 < t3 , los sucesos {Nt2 −t1 = n} y {Nt3 −t2 = m} son independientes, para
cualesquiera valores no negativos de n y m,
CA2) los sucesos {Nt2 −t1 = n}, n = 0, 1, . . ., constituyen una partición del espacio
muestral y P (Nt2 −t1 = n) depende sólo de la diferencia t2 − t1 ,
CA3) si t es suficientemente pequeño, entonces P (Nt ≥ 2) es despreciablemente pequeña

comparada con P (Nt = 1), es decir
P (Nt ≥ 2) 1 − P (Nt = 0) − P (Nt = 1)

lı́m = lı́m = 0, (4.1)
t↓0 P (Nt = 1) t↓0 P (Nt = 1)
lo que equivale a
1 − P (Nt = 0)
lı́m = 1. (4.2)
t↓0 P (Nt = 1)
Es decir, la probabilidad de que ocurra al menos un suceso es, en el lı́mite, igual a la

probabilidad de que ocurra exactamente uno.
Comencemos por observar que dadas las tres condiciones se deduce que P (N0 = 0) = 1,
P (N0 = k) = 0, k ≥ 1, y P (Nt = 0) es una función monótona decreciente. Estas propiedades
junto las condiciones CA1 y CA2 nos permiten escribir, para t1 < t2 < t3 , t2 − t1 = t y
t3 − t2 = s,
P (Nt+s = 0) = P (Nt3 −t1 = 0)

= P (Nt2 −t1 = 0, Nt3 −t2 = 0)
= P (Nt2 −t1 = 0)P (Nt3 −t2 = 0)
= P (Nt = 0)P (Ns = 0).
30 Procesos Estocásticos
Se trata por tanto de una función aditiva. Un función exponencial que cumple esta condición
puede ser la solución. Ası́, podemos suponer que
P (Nt = 0) = pt . (4.3)
Obviamente se cumple que 0 ≤ P (Nt = 0) ≤ 1 por tratarse de una probabilidad. Ello supone
que p puede responder a una de las tres alternativas siguientes:
1. p = 0, lo que implica P (Nt > 0) = 1, ∀t, y supone que ocurrirán una infinidad de sucesos
en cualquier intervalo de tiempo. Un proceso de estas caracterı́sticas carece de interés.
2. p = 1, supone que no ocurre nunca ningún suceso y estamos nuevamente ante un fenómeno
carente de interés.
3. 0 < p < 1, que representa la única alternativa de interés y de la que nos vamos a ocupar
en adelante.
Supuesto por tanto que en (4.3) 0 < p < 1, podemos escribir p = e−λ , con λ = − ln p > 0.
Podremos reescribir (4.3) de la forma
P (Nt = 0) = e−λt . (4.4)
Para determinar el valor de P (Nt = k), observemos en primer lugar que
P (N∆t = k)
lı́m = 0, k ≥ 2. (4.5)
∆t→0 ∆t
En efecto,
X
0 ≤ P (Nt = k) ≤ P (Nt = k) = 1 − P (Nt = 0) − P (Nt = 1), k ≥ 2,
k≥2
y de aquı́,
P (N∆t = k) 1 − P (N∆t = 0) − P (N∆t = 1) P (N∆t = 1)
0≤ ≤ × . (4.6)
∆t P (N∆t = 1) ∆t
Si aplicamos ahora (4.1) al primer factor del último miembro de la desigualdad obtendrı́amos
(4.5) siempre que
P (N∆t = 1)
lı́m
∆t→0 ∆t
se mantuviera finito, pero si recurrimos a (4.2),
[1 − P (N∆t = 0)]/∆t
lı́m = 1.
∆t→0 P (N∆t = 1)/∆t
Es decir,
1 − P (N∆t = 0) P (N∆t = 1)
lı́m = lı́m , (4.7)
∆t→0 ∆t ∆t→0 ∆t
pero el primer lı́mite es justamente −P 0 (N0 = 0), que existe dada la expresión (4.4), y el segundo
lı́mite será por tanto finito. En definitiva, (4.5) se cumple y si tenemos en cuenta además que
P (N0 = k) = 0, se deduce que
P 0 (N0 = k) = 0, k ≥ 2, (4.8)
lo que prueba la existencia de dicha derivada.
Supongamos ahora que {el suceso ha ocurrido k veces en el intervalo [0, t + ∆t[ }. Tres son
las posibles alternativas para este hecho,
4.2 Planificación de semáforos 31
k − 1 ocurrencias en [0, t[ y 1 en [t, t + ∆t[,

k ocurrencias en [0, t[ y 0 en [t, t + ∆t[, o
a lo sumo k − 2 ocurrencias en [0, t[ y al menos 2 en [t, t + ∆t[.
De acuerdo con las CA1 y CA2 tendremos
P (Nt+∆t = k) = P (Nt = k − 1)P (N∆t = 1) + P (Nt = k)P (N∆t = 0) + R. (4.9)
De aquı́,
P (Nt+∆t = k) − P (Nt = k) = P (Nt = k)[P (N∆t = 0) − 1] + P (Nt = k − 1)P (N∆t = 1) + R,

(4.10)
y dividiendo por ∆t, pasando al lı́mite y teniendo en cuenta (4.3), (4.5) y que por (4.7) −P 0 (N0 =
0) = P 0 (N0 = 1), obtendremos
P 0 (Nt = k) = λ[P (Nt = k − 1) − P (Nt = k)], k = 1, 2, . . . , (4.11)
un sistema recursivo de ecuaciones diferenciales lineales de primer orden, cuyas condiciones

iniciales son, recordemos, P (N0 = 0) = 1, P (N0 = k) = 0, k ≥ 1, derivadas de las condiciones
iniciales impuestas al fenómeno. Conocemos además una solución particular, P (Nt = 0) = e−λt ,
la solución general será de la forma
P (Nt = k) = e−λt Ck (t). (4.12)
Respecto de las condiciones iniciales de Ck (t), por (4.4), CO (t) = 1, y
P (N0 = 0) = 1 ⇒ CO (0) = 1
P (N0 = k) = 0 ⇒ CO (k) = 0, ∀k ≥ 1.
Sustituyendo (4.15) en (4.11) obtenemos
Ck0 (t) = λCk−1 (t), (4.13)
y aplicando la recursividad y los valores iniciales encontrados, llegamos a
(λt)k
Ck (t) = , (4.14)
k!
y finalmente,
(λt)k −λt
P (Nt = k) = e , k ≥ 0. (4.15)
k!
Es decir, que la variable Nt se distribuye como una Poisson de parámetro λt.
4.2. Planificación de semáforos

La instalación de semáforos es una decisión que toman los ingenieros de tráfico en función
de una serie de criterios, entre los cuales el más decisivo es una elevada tasa de accidentes en
el lugar examinado. El proceso de Poisson es una herramienta válida para estimar la tasa de
accidentes en un punto conflictivo de tráfico. Veámoslo en un ejemplo hipotético.
En el cruce de calles que se muestra en la Figura (4.1) confluyen dos calles de sentido único,
N-S y E-O, y cuenta como única señalización con sendas señales de Stop. La tasa de accidentes
5
S-N
4
N−S
llegadas de automóviles
| | ||| | || | | | | | | || || | | || | || | |
3
E-O
2
E−O
S
T | | || | || | | | | || || | || | | || | |
1
O STOP
P
0
0 500 1000 1500 2000 2500 3000
segundos
Figura 4.1: Esquema del cruce de calles (izquierda) y secuencia de llegadas de automóviles en
ambas calles (derecha)
es elevada, probablemente debida a que los conductores no respetan la señal de Stop, a lo sumo
reducen su velocidad. Esta es la hipótesis de manejan los ingenieros de tráfico de la ciudad.
Para corroborarla deben estimar la media de accidentes que cabe esperar que ocurran si dicha
hipótesis es cierta.
La estimación requiere, en primer lugar, un análisis del tráfico en el cruce. Concretamente
datos referidos a los tiempos de llegada de los vehı́culos en cada una de las dos calles. La Figura
(4.1) muestra parte de las dos secuencias de llegada. Una primera y razonable hipótesis, que
puede corroborarse con los datos observados, es aceptar que se trata de sendos proceso de Pois-
son con igual parámetro, λ, y que los tiempos entre llegadas en cada sentido son independientes.
Si por TE y TN designamos los tiempos de llegadas en el sentido E-O y N-S, respectivamente,
ambos se distribuyen Exp(λ).
Si la hipótesis de que los conductores no se detienen es cierta, dos vehı́culos colisionarán
cuando lleguen ambos en un corto intervalo de tiempo, |TE −TN | ≤ t0 . El diferencial de tiempo t0
se calcula en función de la longitud de los coches y de su velocidad. Si por simplificar admitimos
que tienen igual longitud, l, y circulan a igual velocidad, v, t0 = l/v. Por ejemplo, para coches de
4,5 metros de longitud que circulen a 40 km/hora (unos 11 m/s) t0 ≈ 0,4 segundos. Ocurrirá un
accidente si los coches llegan con un lapso de tiempo menor a 4 décimas de segundo.
Para poder contar los accidentes definimos una nueva variable
½ (i) (j)
1, si ∃ al menos un j tal que |TE − TN | ≤ t0 ;
Yi =
0, en caso contrario,
(i) (j)
donde TE es el tiempo de llegada del i-ésimo automóvil en sentido E-O, y TN es el tiempo de
llegada del j-ésimo automóvil en sentido N-S. Tal como la condición está planteada, comparamos
la llegada de un automóvil fijo, el i-ésimo, en la dirección E-O con todos los automóviles que
llegan en la otra dirección. Podrı́amos también expresar la condición de la forma
(i) (j)
mı́n |TE − TN | ≤ t0 .
j
4.2 Planificación de semáforos 33
El número total de accidentes en un intervalo de tiempo [0, t] vendrá dado por la suma,
Nt
X
Xt = Yi . (4.16)
i=1
Hemos de llamar la atención sobre esta suma porque su lı́mite superior es una variable aleatoria,
concretamente el número de llegadas que han tenido lugar en la dirección E-O durante el
intervalo de tiempo [0, t], cuya distribución es P o(λ). A la hora de calcular su esperanza lo más
sencillo es recurrir a la esperanza condicionada y hacer uso de la igualdad,
E(Xt ) = E[E(Xt |Nt )],
pero
nt
X
E(Xt |Nt = nt ) = E(Yi ) = nt E(Yi ).
i=1
De aquı́
E(Xt ) = E[E(Xt |Nt )] = E[Nt E(Yi )] = λtE(Yi ).
Por otra parte
(i) (j)
E(Yi ) = P (mı́n |TE − TN | ≤ t0 ). (4.17)
j
Para obtener esta probabilidad podemos recurrir a condicionarla,

Z ∞
(i) (j) (i) (j) (i)
P (mı́n |TE − TN | ≤ t0 ) = P (mı́n |TE − TN | ≤ t0 |TE = t)fE (t)dt (4.18)
j j
Z0 ∞
(j)
= P (mı́n |t − TN | ≤ t0 )fE (t)dt (4.19)
j
Z0 ∞
(j)
= P (t − t0 ≤ mı́n TN ≤ t + t0 )fE (t)dt, (4.20)
0 j
(i)
donde fE (t) es la función densidad de TE . El paso de (4.18) a (4.19) se justifica porque las
(i) (j) (j)
variables TE y TN son independientes ∀j. El suceso {t − t0 ≤ mı́nj TN ≤ t + t0 } que aparece
en la integral (4.20) equivale a que en el intervalo [t − t0 , t + t0 ] tenga lugar al menos una llegada
de vehı́culos en sentido N-S, su complementario supone que no hay ninguna llegada en dicho
intervalo y por tanto,
(j)
P (t − t0 ≤ mı́n TN ≤ t + t0 ) = 1 − P (N[t−t0 ,t+t0 ] = 0) (4.21)
j
= 1 − P (N2t0 = 0) (4.22)
= 1 − exp(−2λt0 ). (4.23)
El paso de (4.21) a (4.22) se justifica por la propiedad de los incrementos independientes esta-
cionarios. Sustituyendo (4.23) en (4.20) y a su vez en (4.17)
(i) (j)
E(Yi ) = P (mı́n |TE − TN | ≤ t0 )
j
Z ∞
= (1 − exp(−2λt0 ))fE (t)dt
0
= 1 − exp(−2λt0 ).
Por último
E(Xt ) = λt(1 − exp(−2λt0 )),
que podemos expresar también en términos de número medio de accidentes por unidad de
tiempo.
E(Xt )
= λ(1 − exp(−2λt0 )).
t
Si, como en el ejemplo que proponı́amos t0 = 0,4 segundos, la media de accidentes por segundo
serı́a
E(Xt )
= λ(1 − exp(−0,8λ)).
t
Para utilizar la hora como unidad de tiempo haremos el cambio λh = 3600λ y al sustituir en la
anterior expresión,
· µ ¶¸
3600E(Xt ) 0,8λh
Mh = = λh 1 − exp − ,
t 3600
donde t se expresa ahora en horas. En la gráfica de la Figura 4.2 vemos la evolución de Mh a
medida que aumenta λh .
1.0
0.8
media de accidentes por hora
0.6
0.4
0.2
0.0
0 10 20 30 40 50 60
tasa de llegadas
Figura 4.2: Media de accidentes por hora en función de la tasa de llegadas
4.3. Cadenas de Markov continuas en el tiempo: fiabilidad

de un multiprocesador
Disponen de un computador con dos procesadores independientes y queremos modelizar el
comportamiento del sistema a lo largo del tiempo. Se trata de un sistema con tres estados:
s1 = 0, que indica que ambos procesadores no funcionan.
s1 = 1, que indica que sólo uno de los procesadores funciona.
s1 = 2, que indica que ambos procesadores funcionan.

4.3 Cadenas de Markov continuas en el tiempo: fiabilidad de un multiprocesador
35
El modelo probabilı́stico que describe los tiempos de espera, sea de un fallo o de una reparación,
es el modelo exponencial. Supondremos por tanto que el tiempo de fallo Tf ∼ Exp(λ) y el tiempo
de reparación Tr ∼ Exp(µ), y que ambos son independientes.
El proceso Xt , t ≥ 0 designa el estado del sistema en el instante t. Se trata de una cadena
de Markov continua en el tiempo y homogénea. Para comprobarlo obtendremos los tiempos de
transición para cada cada estado, y siendo éstos exponenciales la propiedad de falta de memoria
hará el resto. Veamos dichos tiempos.
Transición 0 → 1.- Una transición de este tipo se produce cuando ambos procesadores están
fuera de servicio y uno de ellos es reparado. Si T01 es el tiempo de transición correspon-
diente y Tr1 y Tr2 los tiempos de reparación de los procesadores, T01 coincidirá con el
tiempo del que primero esté reparado, luego
T01 = mı́n(Tr1 , Tr2 ),
y de aquı́
P (T01 > t) = P (mı́n(Tr1 , Tr2 ) > t)

= P (Tr1 > t, Tr2 > t)
= e−µt × e−µt
= e−2µt ,
y T01 ∼ Exp(2µ).
Transición 1 → 2.- Esta transición implica que el procesador averiado ha sido reparado y
por tanto T12 = Tr ∼ Exp(µ).
Transición 1 → 0.- Para que ello ocurra el procesador que funciona debe fallar y T10 = Tf ∼
Exp(λ).
Transición 2 → 1.- Uno de los dos procesadores en funcionamiento ha de fallar y T21 será el
tiempo del que menos tarde en hacerlo, por tanto
T21 = mı́n(Tf1 , Tf2 ),
y razonado como antes, T21 ∼ Exp(2λ).
El resto de transiciones, 0 → 2 y 2 → 0, tienen probabilidades nulas.

La obtención de π(t), la distribución sobre los estados en el tiempo t, requiere un pequeño
rodeo. Obtendremos en primer lugar la matriz de transición para el instante de tiempo ∆t,
P(∆t), y estableceremos su relación con π(t) y π(t + ∆t).
Consideremos, por ejemplo, los sucesos {Xt+∆t = 2} y {Xt = 1}, que representan “el sistema
está en 2 en el instante de tiempo t + ∆t” y “el sistema está en 1 en el instante de tiempo t”.
Con la consabida notación,
p12 (∆t) = P (Xt+∆t = 2|Xt = 1),

representa la correspondiente probabilidad de transición. Para su cálculo escribimos,
p12 (∆t) = P (Xt+∆t = 2|Xt = 1)

= P (t < Tr ≤ t + ∆t|Tr ≥ t)
FTr (t + ∆t) − FTr (t)

=
1 − FTr (t)
e−µt − e−µ(t+∆t)
=
e−µt
= 1 − e−µ∆t
= µ∆t + o(∆t).
De forma análoga podemos obtener las probabilidades para las restantes transiciones entre
diferentes estados para un instante de tiempo ∆t. Para las transiciones a un mismo estado
utilizaremos las relaciones,
p00 (∆t) = P (Xt+∆t = 0|Xt = 0) = P (mı́n(Tr1 , Tr2 ) > t + ∆t| mı́n(Tr1 , Tr2 ) > t),
p11 (∆t) = P (Xt+∆t = 1|Xt = 1) = P (Tf > t + ∆t, Tr > t + ∆t|Tf > t, Tr > t),
p22 (∆t) = P (Xt+∆t = 2|Xt = 2) = P (mı́n(Tf1 , Tf2 ) > t + ∆t| mı́n(Tf1 , Tf2 ) > t).
Podemos generalizar (4.48) de Montes (2007) mediante la expresión matricial siguiente,

    
π0 (t + ∆t) 1 − 2µ∆t λ∆t 0 π0 (t)
 π1 (t + ∆t)  =  2µ∆t 1 − (µ + λ)∆t 2λ∆t   π1 (t)  + o(∆t).
π2 (t + ∆t) 0 µ∆t 1 − 2λ∆t π2 (t)
Con unas sencillas operaciones con matrices podemos reescribir la anterior igualdad de la forma
    
π0 (t + ∆t) − π0 (t) −2µ λ 0 π0 (t)
 π1 (t + ∆t) − π1 (t)  =  2µ −(µ + λ) 2λ   π1 (t)  ∆t + o(∆t).
π2 (t + ∆t) − π2 (t) 0 µ −2λ π2 (t)
Y dividiendo ambos lados por ∆t y haciendo que ∆t → 0,
dπ(t)
= Aπ(t). (4.24)
dt
La matriz A recibe el nombre de generador de la cadena de Markov.
La solución de la ecuación diferencia matricial (4.24) con condición inicial dada por π(0) =
π, distribución inicial sobre los estados, es
π(t) = eAt π, t ≥ 0,
donde la matriz exponencial viene dada por la serie

1
eAt = I + At + (At)2 + · · · ,
2!
que converge para todo t finito.
4.4 Procesos de nacimiento y muerte (Birth-death) 37
La solución del anterior sistema de ecuaciones no es sencilla, pero bajo ciertos supuestos
puede resolverse con facilidad. Uno de ellos es suponer que las πi son constantes en el tiempo,
la derivada en (4.24) será nula y Aπ(t) = 0. El correspondiente sistema de ecuaciones es
−2µπ0 + λπ1 = 0,
+µπ1 − 2λπ2 = 0,
π0 + π1 + π2 = 1,
con solución  2 
λ
1  2µλ  .
π=
(λ + µ)2
µ2
Se observa que la probabilidad de que ambos procesadores fallen vale π0 = [λ/(λ + µ)]2 . Se
puede comprobar que en un modelo para un solo procesador y con la misma distribución para
los tiempos de fallo y reparación π0 = λ/(λ + µ), mayor que la anterior.
4.4. Procesos de nacimiento y muerte (Birth-death)

Una cadena de Markov en la que sólo están permitidas las transiciones entre estados vecinos
se denomina un proceso de nacimiento y muerte. Veamos dos ejemplos este tipo de procesos,
con un número infinito de estados el primero, y con un número finito el segundo.
4.4.1. Colas de longitud infinita

El diagrama de la Figura 4.3 muestra las transiciones entre estados vecinos, las únicas
posibles. Cuando el sistema cambia de i a i + 1 decimos que se ha producido un nacimiento,
mientras que el paso contrario i a i − 1 denota una muerte. Con la notación habitual, πj (t)
denota la probabilidad de que el proceso esté en el estado j en el instante t. Podemos también
decir que hay una población j en el instante t.
Los nacimientos y las muertes muertes están generados por un proceso de Poisson de manera
que los tiempos entre ellos son variables exponenciales independientes. Ası́, el tiempo entre
nacimientos, τB ∼ Exp(λi ), y el tiempo entre muertes, τD ∼ Exp(µj ), indicando los subı́ndices
que los parámetros dependen del estado donde se encuentra el sistema.
λ i-1 λ i λ i+1
i i+1
µ i µ i+1
µ i+2
Figura 4.3: Diagrama de transición en un proceso de nacimiento y muerte
Este tipo de modelos se han utilizan en teorı́a de colas para modelizar su evolución. Un
nacimiento se corresponde con la llegada de un individuo a la cola y una muerte con su abandono
por haber sido ya atendido. Nos vamos a ocupar de una cola hipotética sin restricciones en
cuanto a su longitud, en teorı́a puede ser infinita. En una cola de estas caracterı́sticas, el
tiempo que ha de esperar en la cola el n-ésimo llegado hasta que empieza a ser atendido puede
expresarse
Wn = máx(0, Wn−1 + τs − τi ),
donde τs es el tiempo que tarda en ser servido el (n − 1)-ésimo cliente de la cola y τi el tiempo
entre la llegadas de los clientes n − 1 y n.
Siguiendo el procedimiento del ejemplo anterior podemos escribir
π(t + ∆t) = Bπ(t),
donde la matriz B se obtiene por un razonamiento similar, la única diferencia ahora es que la
matriz tiene infinitas filas y columnas.
 
1 − λ0 ∆t µ1 ∆t 0 ··· ···
 λ0 ∆t 1 − (µ + λ )∆t µ ∆t 0 ··· 
 1 1 2 
B= 0 λ 1 ∆t 1 − (µ2 + λ 2 )∆t µ 2 ∆t 0 .
 
.. .. .. .. ..
. . . . .
Operando, dividiendo por ∆t y haciendo que ∆t → 0,
dπ(t)
= Aπ(t). (4.25)
dt
donde la matriz generador A vale
 
−λ0 µ1 0 ··· ···
 λ0 −(µ1 + λ1 ) µ 0 ··· 
 2 
A= 0 λ 1 −(µ2 + λ2 ) µ2 0 .
 
.. .. .. .. ..
. . . . .
Si se alcanza equilibrio π 0 = 0 y de Aπ = 0 obtendremos
π 1 = ρ1 π 0 ,
π2 = ρ2 π1 = ρ1 ρ2 π0 ,
·········
πj = ρj πj−1 = ρ1 · · · ρj π0 ,
donde ρj = λj−1 /µj , j > 1. P
Hagamos rj = ρ1 · · · ρj , con r0 = 1. Para que i≥0 πi = 1 debe cumplirse,
X X X
πi = ρ1 · · · ρi π0 = π0 ri = 1
i≥0 i≥0 i≥0
P
lo que exige que la serie i≥0 ri sea convergente. Si ası́ ocurre,
1
π0 = P ,
i≥0 ri
y la cadena alcanza una distribución de equilibrio,

rj
πj = rj π0 = P , j ≥ 0. (4.26)
i≥0 ri
En caso contrario, el denominador de (4.26) es infinito y las πj = 0, ∀j y no existe distribución

de equilibrio.
4.4 Procesos de nacimiento y muerte (Birth-death) 39
4.4.2. Colas con parámetros de nacimiento y muerte constantes y lon-

gitud finita
Una variación de interés en la situación anterior es suponer que los parámetros de los tiempos
de nacimiento y muerte no dependen del estado, son constantes, λi = λ, µi = µ, y que la cola
es finita y no puede sobrepasar los N individuos.
Las matrices A y B son de dimensión N × N y (4.25) proporciona el siguiente sistema de
ecuaciones,
dπ0 /dt = −λπ0 + µπ1 ,
dπ1 /dt = +λπ0 − (λ + µ)π1 + µπ2 ,
·········
dπN /dt = +λπN −1 − µπN .
La primera y la última ecuaciones contienen sólo dos términos porque aquélla no admite salidas
y ésta no permite más llegadas. Si existe distribución de equilibrio, las derivadas serán nulas y
las soluciones (4.26) adquieren la forma
πj = ρj π0 , 0 ≤ j ≤ N,
donde ρ = λ/µ. Como la colas deben contener necesariamente algún número de clientes j, 0 ≤
j ≤ N , se cumple,
XN
1−ρ
ρj π0 = 1 =⇒ π0 = .
j=0
1 − ρN +1
La cola se saturará con una probabilidad
ρN (1 − ρ)
πN = .
1 − ρN +1
Por ejemplo, para una ratio nacimiento/muerte de 1/2 y con un tamaño máximo de cola de 10
clientes, la probabilidad de saturación es ≈ 4,8 × 10−4 .
4.4.3. Aplicación a la transmisión de datos a través de una red de

comunicaciones
El movimiento de paquetes de datos a través de los nodos de una red de comunicación puede
describirse mediante los modelos de colas anteriores. Los tiempos de llegada de los paquetes, los
de espera en el nodo y el de procesamiento en la CPU son cantidades aleatorias cuya modelo
habitual es una Exponencial. Supongamos que los nodos funcionan con un protocolo del tipo
primer llegado/primer servido. Vamos a considerar los casos de buffer infinito y buffer finito.
Buffer infinito
Si las llegadas tienen lugar según un proceso de Poisson homogéneo de parámetro λ llegadas
por unidad de tiempo, y el tiempo en ser despachado el paquete es una Exp(µ), la expresión
(4.26) adquiere la forma,
πi = ρi π0 , 0 ≤ i,
P
con ρ = λ/µ. La serie i≥0 ρi converge y suma (1 − ρ)−1 , sólo si ρ < 1, única situación que
por otra parte tiene sentido. Tendremos como distribución de equilibrio
πi = ρi (1 − ρ), i ≥ 0.
Es interesante calcular el número medio de paquetes que habrá en la cola,

X X
E(N ) = iπi = (1 − ρ) iρi . (4.27)
i≥0 i≥0
Se trata de una serie aritmético-geométrica cuya suma se obtiene de la siguiente forma. Si

denotamos por S la suma de la serie,
S = 0ρ0 + 1ρ1 + 2ρ2 + 3ρ3 + 4ρ4 + · · · (4.28)

ρS = + 0ρ1 + 1ρ2 + 2ρ3 + 3ρ4 + · · · (4.29)
Restando (4.29) de (4.28),

X ρ ρ
S(1 − ρ) = ρj = , =⇒ S= ,
1−ρ (1 − ρ)2
j≥1
y sustituyendo en (4.27),
ρ
E(N ) = .
1−ρ
Buffer finito
Con las mismas caracterı́sticas del sistema anterior, pero con un buffer de capacidad finita,
N , es interesante obtener la probabilidad de perder un paquete. Precisemos que entendemos
por ello. Supongamos que en instante t el buffer está lleno, un paquete está siendo procesado y
otro paquete está de camino. Si el tiempo que transcurre entre el último paquete que llegó y el
que está en camino, τi , es menor que el tiempo que tarda la CPU en procesar su paquete, τs ,
el paquete en camino se perderá. La probabilidad de este suceso, A, es
P (A) = P ({buffer lleno} ∩ {τi < τs })

ρN (1 − ρ)
= × P (τs − τi > 0),
1 − ρN +1
porque los sucesos {buffer lleno} y {τs − τi > 0} son independientes. Los tiempos τs y τi son
también independientes, su densidad conjunta vale
fτs τi (ts , ti ) = µλ exp(−µts ) exp(−λti ), ts , ti ≥ 0,
y Z ·Z ¸
∞ ∞
λ ρ
P (τs − τi > 0) = λ exp(−λti ) µ exp(−µts )dts dti = = .
0 ti λ+µ 1+ρ
Sustituyendo,
ρN +1 (1 − ρ)
P (A) = .
(1 − ρN +1 )(1 + ρ)
Para ρ = 1/2 y N = 10, la probabilidad de perder el paquete es ≈ 1,6 × 10−4 , tres veces menor
que la que habı́amos calculado para llenar el buffer en las mismas condiciones.
Capı́tulo 5
Transformación lineal de un
proceso estacionario
5.1. Procesos autoregresivos de medias móviles (ARMA)

A partir de una sucesión de ruido blanco, Zt , podemos definir un proceso mediante el filtrado
lineal finito del proceso Zt ,
Xq
Xt = Zt + βj Zt−j . (5.1)
j=1
El nuevo proceso recibe el nombre de proceso de medias móviles de orden q, MA(q).

Otro tipo de proceso puede definirse mediante la combinación lineal de los elementos que le
preceden,
Xp
Xt = αi Xt−j + Zt , (5.2)
i=1
que recibe el nombre de proceso autoregresivo de orden p, AR(p). Obsérvese que de esta defi-
nición se deduce que Zt es el resultado de aplicar un filtro lineal finito al proceso Xt .
La combinación de ambos tipos de procesos da lugar a un proceso autoregresivo de medias
móviles de orden (p,q), ARMA(p,q), cuya expresión es,
p
X q
X
Xt = αi Xt−j + Zt + βj Zt−j . (5.3)
i=1 j=1
A efectos de simplificar la notación, podemos introducir el operador desplazamiento hacia

atrás, B, que actua de la siguiente forma,
BXt = Xt−1 ;
se aplica reiteradamente, B 2 Xt = B(BXt ) = BXt−1 = Xt−2 , y en general, B m Xt =
Xt−m ;
el operador nulo, B 0 , se representa mediante 1, de forma que 1Xt = Xt ;
las funciones matemáticas de B se interpretan de la forma habitual, por ejemplo,
X
(1 − B/2)−1 Xt = (B/2)i Xt = 2−i Xt−i .
i≥0
42 Transformación lineal de un proceso estacionario
Con este operador, un proceso ARMA(p,q) puede expresarse,

φ(B)Xt = θ(B)Zt , (5.4)
donde φ(B) y θ(B) so polinomios de grado p y q en B, respectivamente, que cumplen la condición
φ(0) = θ(0) = 1, impuesta para evitar confusiones derivadas de cambios de escala en el proceso.
Por ejemplo, si φ(B) = 4 − B y θ(B) = 2 + 3B, (5.4) se escribe de la forma,
4Xt − Xt−1 = 2Zt + 3Zt−1 ,
con Zt un ruido blanco de varianza σ 2 . Un expresión equivalente serı́a,
1 3 0
Xt − Xt−1 = Zt0 + Zt−1 ,
4 2
con Zt0 un ruido blanco de varianza σ 2 /4. Los polinomios en B del nuevo proceso, φ(B) = 1−B/4
y θ(B) = 1 + 3B/2, cumplen con la condición.
Funciones de momento y espectro del proceso MA(q)

En el proceso MA(q), Xt = θ(B)Zt , el polinomio θ(B) es un polinomio de grado q,
q
X
θ(B) = βj B j ,
j=0
con β0 = 1.
Como Zt es un ruido blanco de varianza σ 2 , la media y varianza de Xt valen,
q
X
µ(t) = 0, σ 2 (t) = σ 2 βj2 .
j=1
La función de autocovarianza y autocorrelación, que ahora coinciden, valen

R(k) = E(Xt xt−k )
 Ã !
Xq Xq
= E  βj Zt−j  βi Zt−k−i 
j=0 i=0
q X
X q
= βj βi E(Zt−j Zt−k−i ). (5.5)
j=0 i=0
Como Zt es una sucesión de ruido blanco, las esperanzas que aparecen en (5.5) serán distintas
de cero sólo cuando t − j = t − k − i, es decir, j = i + k. Ası́,
 P
 σ 2 q−ki=0 βi+k βi , k = 0, 1, . . . , q;
R(k) = (5.6)

0, k > q.
Un rasgo caracterı́stico de los procesos MA(q) es el corte que se produce en la función de
autocovarianza para valores de k > q.
El espectro del proceso se deduce fácilmente de la expresión que obtuvimos para el espectro
del filtrado lineal de una sucesión de ruido blanco, el denominado proceso lineal general (véase
(5.15) de Montes (2007)). Esta expresión era
PX (ω) = σ 2 |h(ω)|2 ,
5.1 Procesos autoregresivos de medias móviles (ARMA) 43
donde |h(ω)| es la función de transferencia, que ahora vale

q
X
h(ω) = θ(e−i2πω ) = βj e−i2πωj .
j=0
Ası́ pues,
PX (ω) = σ 2 |h(ω)|2
 2  2 

 X q X q 

= σ 2  
βj cos 2πωj +  βj sin 2πωj 

 j=0 

j=0
 2  2 

 Xq X q 

= σ 2 1 + βj cos 2πωj  +  βj sin 2πωj  (5.7)

 

j=1 j=1
Ejemplo 5.1 (Proceso MA(1)) Si Xt es un proceso MA(1), θ(B) = β0 + β1 B = 1 + βB.

Sustituyendo en (5.6) y en (5.7) obtendremos la función de autocorrelación y el espectro, res-
pectivamente.
2
R(0) = σX = (1 + β 2 )σ 2 , R(1) = βσ 2 ,
donde σ 2 es la varianza de Zt .
Para el espectro,
PX (ω) = σ 2 [(1 + β cos 2πω)2 + (β sin 2πω)2 ]
= σ 2 (1 + 2β cos 2πω + β 2 ).
Funciones de momento y espectro del proceso AR(p)

El proceso AR(p), (5.2),
Pp expresa Xt en función de los p valores anteriores del proceso más
un ruido blanco, Xt = i=1 αi Xt−j + Zt . Esta forma de presentar el proceso es muy intuitiva
y justifica el nombre que recibe.
Para el cálculo del espectro es más conveniente ver el proceso como un ruido blanco resultado
de aplicar un filtro lineal finito a Xt , Zt = φ(B)Xt , con
p
X
φ(B) = 1 − αi B i .
i=1
Si recordamos ahora que el espectro de Zt es constante y vale σ 2 y aplicamos la expresión (5.13)

de Montes (2007),
PZ (ω) = |φ(e−i2πω )|2 PX (ω) = σ 2 .
Despejando PX (ω),
" #2 " #2 −1
 p
X p
X 
PX (ω) = σ 2 1− αl cos 2πωl + αl sin 2πωl . (5.8)
 
l=1 l=1
La existencia de PX (ω) esta condicionada a que el denominador de (5.8) sea siempre distinto
de 0, lo que exige imponer ciertas restricciones a los coeficientes de φ(B). Por ejemplo, para
p = 1 y α1 = 1, (5.8) adquiere la forma,
σ2
PX (ω) = ,
2(1 − cos2πω)
que vale 0 para ω = 0. El problema enlaza directamente con la WSS del proceso. En efecto, si
desarrollamos [φ(B)]−1 como serie de potencias de B, se puede expresar Xt como un proceso
lineal general
Xt = [φ(B)]−1 Zt
¡X ¢
= a j B j Zt
j≥0
X
= aj Zt−j . (5.9)
j≥0
De
P acuerdo con (5.18) de Montes (2007), la condición para que el proceso sea WSS es que
2
j≥0 a j < ∞. Esta condición puede a su vez expresarse en términos de los αi a través del
siguiente teorema, cuya demostración puede consultarse en la página 76 de Diggle (1990).
Teorema 5.1 La condición necesaria y suficiente para que un proceso AR(p), φ(B)XY = Zt ,
sea WSS es que el módulo de todas la raı́ces del polinomio φ(u) sea mayor que la unidad.
Las funciones de autocorrelación y autocovarianza coinciden porque de (5.9) se deduce que

µ(t) = 0. Para su obtención recurriremos a la expresión original de Xt ,
p
X
Xt = αi Xt−j + Zt .
i=1
Multiplicando ambas partes de la igualdad por Xt−k , tomando esperanzas y teniendo en cuenta
que Xt−k y Zt son independientes,
p
X
R(k) = E(Xt Xt−k ) = αi E(Xt−i Xt−k ).
i=1
Pero E(Xt−i Xt−k ) = R(i − k) y por tanto,

p
X
R(k) = αi R(i − k), k = 1, 2, . . . (5.10)
i=1
Si dividimos por R(0), obtendremos una expresión análoga para la función de correlación,
p
X
ρ(k) = αi ρ(i − k), k = 1, 2, . . . (5.11)
i=1
que proporciona un sistema de ecuaciones conocido como las ecuaciones de Yule-Walker. Estas
ecuaciones y las (5.10) permiten calcular ρ(k) y R(k) a partir de los coeficientes αi , pero pueden
también usarse en sentido inverso para estimar dichos coeficientes a partir de las autocorrela-
ciones o correlaciones muestrales.
Ejemplo 5.2 El proceso Xt es un proceso AR(2),
Xt = α1 Xt−1 + α2 Xt−2 + Zt .
Para obtener su función de autocorrelación utilizamos las ecuaciones de Yule-Walker (5.11),
ρ(k) = α1 ρ(k − 1) + α2 ρ(k − 2). (5.12)

5.1 Procesos autoregresivos de medias móviles (ARMA) 45
Se trata de una ecuación en diferencias homogénea cuyas soluciones dependen a su vez de las
soluciones de su ecuación caracterı́stica
λ2 − α1 λ − α2 = 0. (5.13)
Supondremos que hay dos soluciones reales y distintas, λ1 y λ2 , en cuyo caso la solución de
(5.12) es
ρ(k) = aλk1 + bλk2 .
La condiciones iniciales determinan los valores de a y b. Ası́, sabemos que
ρ(0) = 1 =⇒ b = 1 − a.
Por otra parte, si k = 1 de (5.12) se obtiene
ρ(1) = α1 + α2 ρ(1),
pero
ρ(1) = aλ1 + (1 − a)λ2 .
Despejando ρ(1) e igualando obtendremos el valor de a.
Supongamos que α1 = 0,4 y α2 = 0,2. Con estos valores las dos raı́ces de (5.13) son
λ1 ≈ 0,69 y λ2 ≈ −0,29, ρ(1) = 0,5 y a ≈ 0,81. Puede comprobarse que con los valores
asignados a α1 y α2 raı́ces de φ(u) = 0 tiene ambas módulos mayores que 1, tal como exige el
Teorema 5.1 para que el proceso sea WSS.
La expresión general de las correlaciones del proceso es
ρ(k) = 0,81 × 0,69k + 0,19 × 0,29k .
Funciones de momento y espectro del proceso ARMA(p,q)

Recordemos que el proceso se expresa de la forma
p
X q
X
Xt = αi Xt−j + Zt + βj Zt−j ,
i=1 j=1
o en forma polinómica
φ(B)Xt = θ(B)Zt .
Aplicando los resultados del filtrado lineal de un ruido blanco ((5.18) de Montes (2007)), el
espectro del proceso verifica,
|φ(e−i2πω )|2 PX (ω) = σ 2 |θ(e−i2πω )|2 .
Y de aquı́,
PX (ω) = σ 2 |h(ω)|2 = σ 2 |θ(e−i2πω )|2 |φ(e−i2πω )|−2 ,
que bajo el supuesto de WSS se expresa,
 2  2 

 Xq X q 

PX (ω) = σ 2 1+ 
βj cos 2πωj +  βj sin 2πωj 

 

j=1 j=1
" #2 " #2 −1
 p
X p
X 
× 1− αl cos 2πωl + αl sin 2πωl . (5.14)
 
l=1 l=1
Las condiciones para que el proceso sea WSS son las mismas que las exigidas para el proceso
AR(p).
Por lo que respecta a la función de autocorrelación, su obtención es más sencilla si expresa-
mos el proceso de la forma,
 
X X
Xt = [φ(B)]−1 θ(B)Zt =  aj B j  Zt = aj Zt−j ,
j≥0 j≥0
donde los coeficientes aj dependen del desarrollo en serie de [φ(B)]−1 .

Ejemplo 5.3 El proceso Xt es el resultado de aplicar un filtro lineal a un ruido blanco Gaus-
siano, Zt , de varianza σ 2 . En concreto,
φ(B)Xt = θ(B)Zt ,
un proceso ARMA(2,2) con
φ(B) = 1 − 1,2B + 0,4B 2 , y θ(B) = 1 − 0,8B + 0,1B 2 .
El proceso es estacionario porque las raı́ces de φ(u) = 0 son
3 1 3 1
u1 = + i, u1 = − i,
2 2 2 2
cuyo módulo es mayor que la unidad, cumpliéndose ası́ el Teorema 5.1.
4
densidad espectral de potencia de X
3
2
1
0
0.0 0.1 0.2 0.3 0.4 0.5
frecuencia
Figura 5.1: Densidad espectral de potencia del proceso ARMA(2,2) con σ 2 = 1
El cuadrado del módulo de la función de transferencia vale,

|θ(e−i2πω )|2 1,65 − 1,44 cos 2πω − 0,2 cos 4πω
|h(ω)|2 = = .
|φ(e−i2πω )|2 2,60 − 3,36 cos 2πω − 0,8 cos 4πω
5.2 Vibraciones aleatorias 47
La PSD valdrá por tanto,

1,65 − 1,44 cos 2πω − 0,2 cos 4πω
PX (ω) = σ 2 . (5.15)
2,60 − 3,36 cos 2πω − 0,8 cos 4πω
La gráfica de este proceso, para σ 2 = 1, se muestra en la Figura 5.1
5.2. Vibraciones aleatorias

Durante los aterrizajes y despegues de los reactores se producen vibraciones de tal nivel,
que cualquier pasajero puede percibirlas. Estas vibraciones son debidas a la interacción de las
corrientes de aire con la estructura metálica del aparato, que producen cambios de presión
que se traducen en las vibraciones mencionadas, conocidas como turbulencias de la capa lı́mite
(TBL del inglés Turbulence Boundary Layer). Se trata de un fenómeno que puede ser descrito
mediante un proceso estocástico y cuya modelización es de gran interés para poder simularlo
en el laboratorio.
Los fabricantes de componentes para la aviación han de tener en cuenta el fenómeno y sus
posibles efectos negativos sobre sus productos. Para ello los someten a un test de vibraciones
aleatorias que reproduzcan, lo más fielmente posibles, las condiciones reales de vuelo. Con este
fin se monta el componente, por ejemplo una antena exterior, sobre una mesa a la que se hace
vibrar para que transmita sus vibraciones. El problema es cómo conseguir simular la realidad.
Veamos una posible solución que utiliza un proceso estocástico generado mediante un ordenador.
La PSD del proceso estocástico que describe estas turbulencias ha sido determinada median-
te estudios de laboratorio para el caso de los transportadores espaciales que utiliza la NASA.
Su expresión es

 P (500), 0 ≤ ω ≤ 500 Hz;

PXt (ω) = 14 2 (5.16)
 9 × 10 r , 500 < ω ≤ 50000 Hz,

ω + 11364
donde r2 es una constante de referencia cuyo valor es 20µPa, siendo µPa una unidad de presión
igual a 10−6 nw/m2 . La gráfica de P (ω) se muestra a la izquierda de la Figura 5.2 para un valor
normalizado de r = 1. Se observa su semejanza con un filtro de pasa bajo.
La señal que hemos de enviar a la tabla para que se agite y haga vibrar el componente
adosado como deseamos, se ha de generar en un ordenador y mediante un convertidor digital
analógico se convertirá en una señal continua. Hemos de encontrar un proceso WSS discreto
cuya PSD se ajuste a la PSD teórica de la Figura 5.2. Recordemos, para ello, cuanto se dice en
las páginas 121 y 122 de Montes (2007) respecto a la relación entre la RXt (τ ) de un proceso
continuo en el tiempo y la RXn (k) del proceso obtenido mediante muestro del anterior. En
concreto, RXn (k) = RXt (kT ), donde T es la frecuencia de muestreo.
A partir de (5.16) obtendremos la PSD muestreada tomando T = 1/(2ω0 ) = 1/100000
puesto que la máxima frecuencia era ω0 = 50000 Hz. La gráfica correspondiente a PXn (ω)
es la de la derecha en la Figura 5.2, cuyos valores están multiplicados por 1/2 porque hemos
representado la gama completa de frecuencias, |ω| ≤ 0,5, y también por un factor 1/T = 100000
que se introducer al muestrear.
Un modelo sencillo y con una PSD similar a la de la Figura 5.2 (izquierda) es el proceso
AR(1),
Xt = αXt−1 + Zt , (5.17)
con α > 0 (véase el Ejemplo 5.2 de Montes (2007)). Determinaremos α y σ 2 del ruido blanco,
Zt , para que sean compatibles con la PSD que conocemos, y una vez conocidos podemos generar
8x1010
8x1015
7
7
6
6
5
5
PXn(w)
PXt(w)
4
3
3
2
2
1
1
0
0 1 2 3 4 5x104 −0.2 0 0.2 0.4
frecuencia frecuencia
Figura 5.2: Densidad espectral de potencia de la vibración aleatoria (TBL) teórica (izquierda)
y muestreada (derecha)
una realización discreta del proceso a partir de la ecuación en diferencias
Xn = αXn−1 + Zn . (5.18)
Elevando al cuadrado ambos miembros de (5.18) y tomando esperanzas se obtiene la relación,
σ 2 = RXn (0)(1 − α2 ),
y si multiplicamos ahora ambos miembros por Xn y tomamos esperanzas obtendremos,

RXn (1)
a= .
RXt (0)
Los valores de RXn (0) y RXn (1) pueden calcularse a partir de las integrales,
Z +1/2
RXn (0) = PXn (ω)dω
−1/2
Z +1/2
RXn (1) = PXn (ω) cos 2πωdω,
−1/2
que pueden evaluarse de numéricamente. Una aproximación mediante sumas de rectángulos da

RXn (0) = 1,5169 × 1015 y RXn (1) = 4,8483 × 1014 , lo que conduce a
α = 0,3196 y σ 2 = 1,362 × 1015 .
En la Figura 5.3 se comprueba que el modelo AR(1) tiene una PSD que se ajusta bien a la
original, excepto en los valores alrededor de 0. Podemos utilizar para generar una señal continua
que simulará muy aproximadamente la vibración real sobre la mesa de pruebas.
5.2 Vibraciones aleatorias 49
4x1015
3
PSD
2
1
−0.4 −0.2 0 0.2 0.4
frecuencia
Figura 5.3: Densidad espectral de potencia del proceso real (- - -) y del AR(1) ajustado (-----)
Bibliografı́a
Diggle, P. (1990). Time Series. A Biostatistical Introduction. Oxford University Press, N.Y.
Montes, F. (2007). Procesos Estocásticos para Ingenieros: Teorı́a y Aplicaciones. Dpt.

d’Estadı́stica i I. O. Universitat de València.

Manual Material PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual Material PDF

Cargado por

Copyright:

Formatos disponibles

Procesos Estocásticos para Ingenieros:

Francisco Montes Suay

Departament d’Estadı́stica i Investigació Operativa

1. No debe alterarse y debe por tanto constar su procedencia.

Departament d’Estadı́stica i Investigació Operativa

1. Probabilidad. Variable aleatoria. Vector aleatorio 1

2. Esperanza. Desigualdades. Función caracterı́stica 13

3. Sucesiones de variables aleatorias. Teoremas de convergencia 25

5. Transformación lineal de un proceso estacionario 41

Probabilidad. Variable aleatoria.

1.1. Detección de agrupaciones

Para el cálculo de (1.1) utilizaremos la fórmula de Bayes,

1.2. Estimación del tamaño de una población animal a

N = población de peces en el lago (desconocida)

Con esta formulación sabemos que

En la práctica, r, n y x son conocidos por observación, como en el ejemplo que planteamos,

px (N ) > px (N − 1), si N x < rn,

1.3. Atención al cliente

que para λ = 1, 167 vale

P (a lo sumo 2 llegadas a ambas cajas) = P (a lo sumo 2 llegadas a la caja 1) ×

1.4. Distribución de Poisson vs distribución Exponencial

1. las distintas ocurrencias del suceso son independientes unas de otras,

2. la probabilidad de dos o más ocurrencias del suceso en un intervalo pequeño de tiempo

3. si I1 e I2 son dos intervalos de tiempo tales que I1 ∩ I2 = ∅, las variables aleatoria N1 y

Figura 1.2: Tiempos de ocurrencia en un proceso de Poisson

Fi (t) = P (Xi ≤ t) = 1 − P (Xi > t),

pero el suceso {Xi > t} = {Nt = 0} y por tanto,

con lo que su función de densidad vale

que es la función de densidad de una Exponencial con parámetro λ, Xi ∼ Exp(λ), ∀i.

{Nt = n} = {Sn ≤ t} ∩ {Sn+1 > t},

pero como {Sn+1 ≤ t} ⊂ {Sn ≤ t},

{Sn ≤ t} ∩ {Sn+1 > t} = {Sn ≤ t} − {Sn+1 ≤ t},

P (Nt = n) = P (Sn ≤ t) − P (Sn+1 ≤ t). (1.3)

La distribución de una suma de n exponenciales independientes, idénticamente distribuidas es

y concluimos que Nt ∼ P o(λt).

1.5. Control de la señal de voz

Figura 1.3: Densidad de Laplace con σ 2 = 1 (-----) y σ 2 = 4 (- - -) y relación entre la entrada y

recortada, Precorte ≤ 0,01, y U deberá satisfacer,

1.5.1. Simulación de una variable aleatoria Laplace

x < 0 → 0 < z < 1/2 y x ≥ 0 → 1/2 ≤ z < 1. En definitiva

La gràfica de izquierda en la Figura 1.4 muestra el histograma de 5000 simulaciones de X

1.6. Tasa de fallo

La forma de α(t) determina la forma de FX (t) y fX (t). Veamos algunos ejemplos.

Gompertz propuso en 1825 un crecimiento exponencial para la fuerza de mortalidad,

2.1. Entropı́a de una variable discreta: compresión de da-

Ejemplo 2.1 (Entropı́a de una variable binaria) Si DX = {0, 1} y p = P (X = 0), la

HX = −p log2 p − (1 − p) log2 (1 − p),

0.0 0.2 0.4 0.6 0.8 1.0

2.1.1. Entropı́a relativa

y la igualdad se alcanza si y sólo si pi = qi , ∀i.

2.1.2. La entropı́a como medida de información

Tabla 2.1: Composición de la urna

Si representamos por N1 y N2 el número de preguntas necesarias en cada estrategia para

Tabla 2.2: Valores N1 y N2 en función de la bola extraı́da

2. Si los valores de la función de cuantı́a de X son potencias de 2, existe una estrategia

2.1.3. Compresión de datos

Letra frec cod1 lcod1 cod2 lcod2

Las longitudes medias de cada uno de los códigos valen,

Como la equiprobabilidad, en nuestro caso la igualdad de frecuencias, supone la máxima incer-

Esta es la máxima reducción que podremos alcanzar.

2.2. Comprobación de software crı́tico

que podemos escribir,

2.3. Codificación de imágenes