Está en la página 1de 18

Actas de Fisiología, 6: 105-122, 2000

Técnicas de reducción recursiva de la


varianza para la simulación de modelos
estáticos y dinámicos de confiabilidad
Héctor Cancela Bosi

Departamento de Investigación Operativa, Instituto de Computación.


Facultad de Ingeniería, Universidad de la República. Montevideo, Uruguay

Abstract
Nowadays, the number of human activities that depend critically on comput-
er and communication systems grows at an increasing rate. Techniques for
reliability and dependability modeling and evaluation help to better under-
stand the behavior of these systems, and eventually to improve their perfor-
mances.
This work discusses a simulation method, called Recursive Variance Reduc-
tion (RVR), which can be used to evaluate different reliability measures more
accurately than possible with standard Monte Carlo simulation. The method
has been applied both to static (graph) models, and to Markovian models.
As application examples, we present the cases of perfect-node K-terminal
network reliability evaluation and of multi-component Markovian system
instantaneous reliability evaluation.

E-mail: cancela@fing.edu.uy

Técnicas de reducción recursiva de la varianza 105


1. Introducción

El avance tecnológico prevalente en nuestra sociedad se refleja en las nume-


rosas actividades que dependen para su desarrollo del correcto funcionamento
de distintos tipos de sistemas automatizados, como por ejemplo son los sistemas
informáticos y de comunicaciones. Es así como se han propuesto conceptos
tales como seguridad de funcionamiento, performabilidad y calidad de servicio,
que corresponden a la aptitud de estos sistemas a asegurar la función para la
cual son diseñados. Al mismo tiempo se han desarrollado diferentes técnicas de
modelado y cálculo, para permitir la evaluación cuantitativa de estos sistemas.
Las dos familias de modelos más utilizadas son los modelos de redes (grafos
ponderados), que dan una visión estática del sistema; y las cadenas de Markov,
que permiten la representación del comportamiento dinámico y la interacción
entre los distintos componentes de un sistema. En ambos casos, cuando el siste-
ma es pequeño, es posible evaluar analíticamente las medidas de interés; pero a
medida que el número de componentes crece, la aplicación de los métodos
analíticos deja de ser factibles, debido al incremento exponencial del tiempo de
cálculo.
Una alternativa es el empleo de técnicas de simulación Monte Carlo, que
proporcionan estimaciones (con un cierto intervalo de confianza) de las medidas
de seguridad de funcionamiento. El método Monte Carlo estándar (o “crudo”)
también sufre de inconvenientes cuando los eventos de interés son raros (ocu-
rren con muy baja probabilidad), lo que es común en los sistemas altamente
confiables. Es necesario entonces recurrir a técnicas de reducción de la varian-
za, que pueden calcular estimadores más precisos utilizando muestras del mismo
tamaño [Fishman, 1997].
Este trabajo se concentra en la evaluación de la confiabilidad, correspon-
diente a la probabilidad de que el sistema de interés se encuentre en funciona-
miento; esta es una de las medidas de seguridad de funcionamiento más impor-
tantes y utilizadas. En particular, se discute la familia de métodos de reducción
recursiva de la varianza (por sus siglas en inglés: RVR - Recursive Variance
Reduction) [Cancela & El Khadiri, 1995,1996b, 1998; Cancela, 1999; Cance-
la & Urquhart, 2000] para la evaluación por simulación de esta medida en los
distintos modelos. Estas técnicas garantizan reducción de la varianza respecto al
método Monte Carlo estándar, a través del empleo recursivo de un procedi-
miento de particionamiento del espacio de estado.

106 Actas de Fisiología


El resto del trabajo está organizado de la forma siguiente. Las secciones 2 y
3 presentan los modelos combinatorios basados en redes, y su evaluación por
simulación respectivamente. Las secciones 4 y 5 presentan brevemente los mo-
delos markovianos de seguridad de funcionamiento de sistemas multi-compo-
nentes, así como su evaluación utilizando reducción recursiva de la varianza. La
sección 6 corresponde a las conclusiones del trabajo.

2. Modelos de redes

Sea un grafo G=(NS, ES, K) que consiste de un conjunto finito de vértices


NS={u1,...,un} (correspondientes a los nodos de la red), un conjunto finito de
aristas ES={l1,...,lm} (que corresponden a enlaces o líneas de comunicación) y
un conjunto de terminales K (subconjunto prefijado del conjunto de nodos).
Cada componente c de la red (nodo o arista) puede estar funcionando correc-
tamente, o en estado de falla; consideramos que su estado xc es una variable
aleatoria de Bernoulli, que con probabilidad pc toma el valor 1 (correspondiente
al buen funcionamiento de c), y con probabilidad qc=1-pc toma el valor 0 (co-
rrespondiente a su falla). Decimos que pc es la confiabilidad elemental de c (de la
misma manera, qc es la probabilidad de falla o anti-confiabilidad elemental de c).
El conjunto de la información de estado de los componentes de la red está dado
por el vector aleatorio X=(xu1,...,xun,xl1,...,xlm) (cuyos componentes supondre-
mos independientes entre si).
Consideraremos que la red en su conjunto está en funcionamiento si los nodos
terminales (pertenecientes al conjunto K) pueden comunicarse entre si, una vez
eliminados los componentes de la red que están fallados (en ese caso, decimos
que la red es K-conexa). Formalizamos este concepto definiendo la función de
estructura Φ, asociada con la medida de K-confiabilidad. Ésta es una función de
{0,1}n+m en {0,1} que toma valor 1 o 0, según si la red resultado de eliminar de
G todos los componentes fallados (marcados con 0) es K-conexa o no respec-
tivamente. Por lo tanto, Φ(X) es una variable aleatoria binaria, que llamaremos
“estado de funcionamiento de la red G”.
La confiabilidad de la red se define entonces a través de los parámetros de
K-confiabilidad RK(G) = Prob(Φ(X)=1) y de anti-confiabilidad QK(G) =
Prob(Φ(X)=0) = 1-RK(G). En el caso genérico, el problema del cálculo exacto
de las medidas de confiabilidad pertenece a la clase de problemas NP-difíciles
[Ball, 1986]. Esto significa, en grandes líneas, que es sumamente improbable

Técnicas de reducción recursiva de la varianza 107


que exista un algoritmo general para calcular RK(G) en forma exacta cuyo tiem-
po de ejecución crezca polinomialmente con el tamaño del problema [Garey &
Johnson, 1979].
Estos modelos tienen diversas variantes. En las más usuales, se supone que
los nodos son perfectos (no fallan nunca), pero en cambio las aristas pueden
fallar en forma independiente. Alternativamente, se puede suponer que los nodos
son falibles, pero las aristas son perfectas; o que ambos tipos de componentes
son falibles.

3. Evaluación de la confiabilidad por simulación

Como hemos mencionado, el problema de la evaluación de las medidas de


confiabilidad en modelos de redes es NP-difícil, por lo que el tiempo de cálculo
de los métodos exactos existentes crece en forma exponencial con el número de
componentes de la red.
Una alternativa es el empleo de simulación (métodos de Monte Carlo), que
pueden dar una estimación de las medidas de confiabilidad, incluso en el caso de
redes de gran tamaño. En esta sección veremos en primera instancia el método
de Monte Carlo estándar, y a continuación el método de reducción recursiva de
la varianza, que permite obtener resultados más precisos.

3.1 Método Monte Carlo estándar


El empleo del método Monte Carlo estándar para la estimación de los pará-
metros de confiabilidad se basa en la idea de sortear una muestra aleatoria de
tamaño N del vector de estado X, y estimar el índice RK(G) por la frecuencia de
aparición del suceso “todos los nodos terminales están conectados en el subgra-
fo definido por los componentes en buen funcionamiento”. Formalmente, esti-
mamos RK(G) con el estimador sin sesgo WY(G), dado por
WY(G)= 1/N Σ Y(i) = 1/N Σ Φ(X(i) )
donde X(1),..., X(N) son vectores aleatorios independientes, idénticamente distri-
buidos a X.
La calidad de la estimación se evalúa, como es usual, mediante el cálculo de
intervalos de confianza, cuya amplitud es proporcional a la variancia del estima-
dor. Dicha varianza es
Var(WY(G)) = Var(Φ(X(i)))/N = RK(G)(1-RK(G))/N

108 Actas de Fisiología


siendo un estimador insesgado de la misma el siguiente:
V = 1/(N(N-1)) Σ (Y(i) - WY(G))2 = WY(G)(1-WY(G))/(N -1).
El algoritmo de simulación consiste en repetir de manera independiente N
veces el experimento siguiente. Se toma una muestra de cada variable xc para
formar una muestra del vector de estado X. Se emplea un procedimiento de tipo
DFS (Depth First Search) para decidir si los nodos terminales de K están co-
nectados entre si en el subgrafo resultante a partir de G. La estimación de RK(G)
es la frecuencia de subgrafos K-conexos.
El problema del método de Monte Carlo estándar es el tamaño N de la
muestra requerida para obtener estimaciones precisas, que es muy grande cuan-
do la red es altamente confiable. Para atacar esta dificultad, diversas técnicas de
reducción de la varianza han sido propuestas en distintos contextos. Estas técni-
cas permiten obtener una mejor precisión empleando una muestra de tamaño
reducido (algunas referencias en este tema son [Fishman, 1986; El Khadiri &
Rubino, 1992; Lomonosov, 1994; Ross, 1994; Cancela & Urquhart, 1995a;
Cancela & El Khadiri, 1996a; Ross, 1996; Fishman, 1997]). En la próxima
subsección, veremos los métodos de reducción recursiva de la varianza, en el
contexto de la evaluación de la confiabilidad de una red.

3.2 Métodos de reducción recursiva de la varianza


Los métodos de reducción recursiva de la varianza (introducidos en Cancela &
El Khadiri, 1995) garantizan una varianza menor a la del método Monte Carlo están-
dar, y están basados en el uso recursivo de un procedimiento de particionamiento.
Dado un grafo G y su vector de estado X, definimos el conjunto Ω={0,1}n+m
de todos los valores posibles de X (Ω es el espacio de los estados posibles
del grafo). Si tenemos un subconjunto E⊂Ω cualquiera, notaremos
RK(G|E)=Prob(Φ(X)=1|X∈E) la probabilidad de que el sistema funcione con-
dicionado al hecho que su estado pertenece al conjunto E.
Para aplicar la técnica de reducción recursiva de la variancia, es necesario
disponer de un método PART de particionamiento del conjunto Ω. Específica-
mente, el procedimiento PART debe generar (de manera eficiente) para cual-
quier grafo G una partición P={AO,AF,Bw,w∈W} de Ω tal que:
- E1,E2∈P tales que E1≠E2, entonces E1∩E2=Ø (por definición de parti-
ción).
- ∪Ε∈PE=Ω (por definición de partición).
- Si el conjunto AO no es vacío, todos sus elementos corresponden a estados
de buen funcionamiento del sistema: RK(G|AO)=1.

Técnicas de reducción recursiva de la varianza 109


- Si el conjunto AF no es vacío, todos sus elementos corresponden a estados
de rotura del sistema: RK(G|AF)=0.
- Para cada valor w∈W, es posible construir un grafo Gw, con menor número
de componentes que G, y tal que RK(Gw)=RK(G|Bw).

A partir del procedimiento PART, definimos:


- Una probabilidad de buen funcionamiento incondicional: PO =Prob(X∈AO).
- Una probabilidad de falla incondicional: PF=Prob(X∈AF).
- Una variable aleatoria W que toma valores en W, de distribución
Prob(W=w) =Prob(X∈Bw | X∈ Ω/(AO∪AF)).

El método de reducción recursiva de la varianza se basa en el esquema de


Monte Carlo estándar, pero sustituyendo la variable aleatoria Φ(X) por la varia-
ble aleatoria Z(G) definida de la manera siguiente:
Si P={AO,AF}: Z(G)= PO ;
De otro modo: Z(G)=PO+(1-PO-PF)Z(GW).

La variable Z está entonces definida de forma recursiva. Dado que para cual-
quier valor w que tome la variable aleatoria W, por la definición del método de
partionamiento, el grafo Gw tiene al menos un componente menos que G, la
recursión finaliza en un número finito de pasos. Es posible probar de manera
sencilla, empleando inducción completa en el tamaño del grafo [Cancela & El
Khadiri, 1995], que
E(Z(G)) = RK(G);
Var(Z(G)) ≤ (RK(G)-PO)(1-RK(G)-PF) ≤ RK(G)(1-RK(G)) = Var(Φ(X)).
Por lo tanto, el estimador de reducción recursiva de la varianza basado en
Z(G) es más preciso que el estimador Monte Carlo estándar basado en Φ(X).
Como ya hemos comentado, para aplicar reducción recursiva de la varianza
a un problema concreto de confiabilidad en grafos es imprescindible definir un
procedimiento de particionamiento adecuado. Incluso para un mismo problema,
el aumento de precisión obtenido y en general el comportamiento computacional
depende de este procedimiento.
En la subsección siguiente veremos a modo de ejemplo un particionamiento
apropiado para la evaluación de una red altamente confiable, con nodos perfec-
tos [Cancela & El Khadiri, 1995]. Los trabajos [Bulteau & El Khadiri, 1996;
Cancela, 1999; Cancela & Urquhart, 2000] estudian los casos de redes de

110 Actas de Fisiología


nodos perfectos y aristas con capacidades aleatorias (redes de flujo), redes con
nodos y aristas falibles, y redes con aristas perfectas respectivamente.

3.3 Reducción recursiva de la varianza en redes con nodos perfectos


Sea un grafo G=(NS,ES,K) tal que los nodos son perfectos, pero las aristas
pueden fallar de manera independiente. Dada una arista l, definimos:
- La operación “borrado de una arista”: G-l es el grafo con el mismo con-
junto de nodos que G y cuyo conjunto de aristas se obtiene quitando l del
conjunto de aristas de G.
- La operación “contracción de una arista”: G*l es el grafo que se obtiene a
partir de G, eliminando la arista l y haciendo coincidir sus extremos u y v
en un solo nodo.
- Un K-corte de aristas de un grafo G: es un conjunto C de aristas tal que si
eliminamos todas estas aristas de G, el grafo resultante no es K-conexo.
Es posible utilizar diversos procedimientos de particionamiento para este caso.
Discutimos a continuación el procedimiento presentado en el trabajo [Cancela
& El Khadiri, 1995], que se se basa en un K-corte C arbitrario del grafo G (otra
alternativa, basada en el uso de caminos, ha sido presentada en [Cancela & El
Khadiri, 1996b]). Para esto, definimos:
C {l1,l2,...,l|C|}: un K-corte de G
AC el evento “todas las aristas de C han fallado”
QC Prob(X∈A|C|) = ql1.ql2 ... ql|C|
Bi el evento “las aristas{l1,...,li-1} han fallado, la arista li funciona correcta-
mente”
G i (G-l1-...-li-1)*li
W variable aleatoria discreta, de distribución
Prob(W∈w) = Prob(Bw)/(1-QC ) = (1-qlw )ql1.ql2 ... qlw-1/(1-QC ), 1≤w≤|C|.
El procedimiento PART genera la partición {AO=Ø, AF=AC, Bi,i∈{1,...,|C|}},
que verifica las propiedades requeridas. Como casos particulares, si el grafo G
no es K-conexo, la partición tiene un único elemento {AF=Ω}, y la confiabilidad
es 0; por otro lado, si el conjunto de terminales K tiene un único elemento,
entonces el grafo es trivialmente siempre K-conexo, y la confiabilidad es 1. En
base a estas consideraciones, podemos definir la variable Z:
Si G no es K-conexo: Z(G)=0 ;
Si |K|=1: Z(G)=1 ;
De otro modo: Z(G)=(1-QC)Z(GW) .

Técnicas de reducción recursiva de la varianza 111


Es posible mejorar el comportamiento de este método aplicando reduccio-
nes serie-paralelo al grafo GW construido en cada paso recursivo [Cancela & El
Khadiri, 1998]. Estas reducciones permiten disminuir aún más el tamaño del
grafo, preservando el valor de su confiabilidad, y por lo tanto finalizar la recur-
sión en un número menor de etapas.

3.4 Resultados experimentales


Presentamos a continuación un ejemplo numérico para ilustrar el comporta-
miento de este procedimiento en la estimación de RK(G). Tomamos la red de 20
nodos y 30 aristas que aparece en la figura 1, con conjunto de terminales
K={1,20}, y asignamos a todas las aristas la misma confiabilidad elemental ql.
Veremos cuatro casos distintos, para ql = 0.50, 0.10, 0.05 y 0.02. Los valores
correspondientes de la anti-confiabilidad QK (G) son 0.7099, 0.002880,
0.0002946 y 0.00001702. Esta misma topología ha sido empleada en los
trabajos [Elperin et al., 1991; Fishman, 1986] para ilustrar el comportamiento
de diversos métodos de Monte Carlo, lo que nos permite comparar los resulta-
dos obtenidos.
Para comparar métodos de simulación es importante comparar tanto su pre-
cisión (la varianza o de forma equivalente, el intervalo de confianza), y el esfuer-
zo computacional (tiempo de cálculo) necesario para obtener dicha precisión.
Fijemos un tamaño de muestra N y notemos TM y VM respectivamente el tiempo
de ejecución y la varianza obtenida por un método M. Para comparar el método
M respecto al método Monte Carlo estándar (“crude Monte Carlo”, CMC),
emplearemos el cociente de varianzas VCMC/VM y el cociente de tiempos TCMC/
TM. Como medida combinada, definimos también la eficiencia relativa o acelera-
ción WCMC/WM=VCMC/VM . TCMC/TM.

112 Actas de Fisiología


Figura 1. Representación gráfica de una red “dodecaedro”

La tabla 1 presenta los cocientes de las varianzas, de los tiempos de cálculo


y las eficiencias relativas respecto de Monte Carlo estándar, tanto para el méto-
do de reducción recursiva de la varianza como para otros cinco métodos de la
literatura (total hazard, dagger sampling, bounds, failure sets, y merge pro-
cess). El algoritmo de reducción recursiva de la varianza (RVR) fue programado
en C, con el método de particionamiento presentado en la subsección anterior, e
incluyendo reducciones serie-paralelo. Para cada valor de ql, los resultados de
simulación se basaron en N=106 replicaciones. Igual procedimiento se siguió
para el método total hazard [Jun & Ross, 1992], dado que se disponía de una
implementación para el mismo. Los resultados para el método merge process
son los publicados en Elperin et al., 1991; para los otros tres métodos, los valo-
res tabulados se han tomado de Fishman, 1986.

Técnicas de reducción recursiva de la varianza 113


VCMC/VM Reducción Total Dagger Bounds Failure Sets Merge
Recursiva de la Hazard Sampling (1) (1) (1) Process
Varianza (2)
ql=.50 25.9 0.74 1.23 2.35 0.21 2.8
ql=.10 991 44.1 1.01 50.22 6981.31 37.1
ql=.05 11900 324 1.00 594.24 437230.32 246
ql=.02 236000 2510 * * * 3472

TCMC/TM Reducción Total Dagger Bounds Failure Sets Merge


Recursiva de la Hazard Sampling (1) (1) (1) Process
Varianza (2)
ql=.50 0.35 0.16 1.27 0.24 0.22 0.24
ql=.10 0.33 0.15 1.79 0.24 0.01 0.24
ql=.05 0.33 0.15 1.91 0.23 0.01 0.23
ql=.02 0.33 0.15 * * * 0.14

WCMC/WM Reducción Total Dagger Bounds Failure Sets Merge


Recursiva de la Hazard Sampling (1) (1) (1) Process
Varianza (2)
ql=.50 9.18 0.115 1.56 0.56 0.05 0.67
ql=.10 324 6.63 1.81 12.3 70.3 8.8
ql=.05 3890 50.10 1.91 136 3714 55.7
ql=.02 77200 386.0 * * * 495
(1) Fuente [Fis86]. El caso ql=0.2 no fue considerado en esa fuente. (2) Fuente [EGL91].

Tabla 1. Evolución de los cocientes VCMC/VM , TCMC/TM y WCMC/WM para


diversos métodos.

Consideremos primero los cocientes de las varianzas. Si VCMC/VM = v>1,


esto significa que el método M tiene varianza v veces más pequeña que Monte
Carlo estándar (por lo tanto, es más preciso). Mirando las primeras filas de la
tabla 1, es posible ver que el algoritmo de reducción recursiva de la varianza
obtiene siempre precisiones muy superiores a las de Monte Carlo estándar. Los
métodos total hazard, dagger sampling, bounds y merge process son tam-
bién superados por el método de reducción recursiva de la varianza para todos
los valores de ql. En cambio, el método failure sets obtiene precisiones superio-
res para grafos muy confiables (valores pequeños de ql). Sin embargo, tal como
se discute en Fishman, 1986, este método utiliza la lista de todos los conjuntos
de falla del grafo. Como el tamaño de esta lista crece de manera exponencial
con el tamaño de la red, el tiempo de cómputo y los requerimientos de almace-
namiento son restricciones prácticas de importancia. En cambio, el método
de reducción recursiva de la varianza no tiene estas limitaciones, dado que no

114 Actas de Fisiología


emplea información precalculada y sus requerimientos de almacenamiento son
lineales en el tamaño de la red.
Esto se refleja en los tiempos de ejecución de estos métodos, presentados
también en la misma tabla. Si TCMC/TM = t>1, esto significa que el método M
tiene tiempo de ejecución t veces más rápido que Monte Carlo estándar; si en
cambio t<1, el método M es más lento. Podemos observar que casi todos los
métodos presentados en la tabla tienen mayores requerimientos computaciona-
les que Monte Carlo estándar; la única excepción es el método dagger sam-
pling, que para redes muy confiables es casi dos veces más rápido que MCC.
El método failure sets tiene los mayores requerimientos de cálculo de los seis
métodos.
Finalmente, las últimas filas de la tabla 1 presentan la eficiencia relativa de
cada uno de los seis métodos respecto de Monte Carlo estándar. Mirando esta
medida (que combina las dos anteriores), constatamos que el algoritmo de re-
ducción recursiva de la varianza es el más eficiente de todos los métodos consi-
derados.

4. Modelos markovianos

Consideremos un sistema multi-componente con fallas y reparaciones, cuyo


espacio de estados se divide en dos conjuntos disjuntos O y F, siendo O el
conjunto de los estados en los cuales el sistema está operacional, y F el conjunto
de los estados en los cuales el sistema está en falla.
El sistema se representa a través de una cadena de Markov de tiempo con-
tinuo homogénea X = {Xt, t≥ 0}. Denotamos por S=O∪ F el espacio de esta-
do de X. Las principales medidas de seguridad de funcionamiento de los siste-
mas multi-componentes son:
- La disponibilidad instantánea At, probabilidad que el sistema se encuentre
en estado operativo en el instante t: At = Prob(Xt∈O).
- La disponibilidad esperada, fracción del intervalo [0,t] en la cual el sistema
se encuentra operativo: E(Dt) = 1/ t ∫ tAs ds.
- La confiabilidad Rt en el instante t, probabilidad que el sistema esté opera-
tivo durante todo el período [0,t]: Rt =Prob(Xs ∈O, s∈[0,t]).
- La disponibilidad asintotica D∞= lim t→∞ Dt/t es el límite, cuando t→∞, del
porcentaje de tiempo que el sistema se encuentra en buen funcionamiento.

Técnicas de reducción recursiva de la varianza 115


En el caso de las medidas en régimen estacionario, una familia de esquemas
de muestreo según importancia (que reciben en forma amplia el nombre de mé-
todos de failure biasing) han demostrado ser apropiados [Carrasco, 1991;
Goyal et al. 1992, Shahabuddin, 1994; Cancela et al. 1996]. Estos esquemas
no son tan eficientes para la evaluación de medidas en régimen transitorio; en
este caso, otras técnicas deben ser utilizadas.
Para una presentación más sencilla, en el resto del artculo consideraremos
solamente la confiabilidad Rt, aunque otras medidas transitorias pueden ser tra-
tadas en forma análoga.
Para estimar la confiabilidad Rt consideremos una simulación de tipo Monte
Carlo estándar de la cadena X. Una realización comienza siempre en el estado
inicial del sistema y finaliza cuando se alcanza algún estado perteneciente a F o
cuando el tiempo de estadía acumulado en los diversos estados supera el valor
de t. En el primer caso el valor de la realización es 0, en el segundo es 1. Llama-
remos Y(t) el procedimiento de sorteo del método Monte Carlo estándar, que
verifica E(Y(t))=Rt y Var(Y(t))= Rt(1-Rt).
En el caso de la simulación de los modelos altamente confiables, el problema
está ocasionado fundamentalmente por el hecho de que el tiempo de estadía en
el estado inicial del sistema suele ser mayor que el intervalo considerado [0,t].
Entonces, la cadena X permanecerá en el estado inicial durante todo el intervalo
[0,t] en la mayoría de los experimentos, y solo se obtendrán estimaciones acep-
tables con un número extremadamente alto de replicaciones. Esto significa que
para que la simulación proporcione estimaciones aceptables al cabo de un nú-
mero razonable de transiciones t debe ser más grande que el tiempo medio de
estadía en el estado inicial.

5. Reducción Recursiva de Varianza en modelos markovianos

Esta sección presenta la adaptación de las técnicas de reducción recursiva de


la varianza al caso de la evaluación de las medidas en estado transitorio de los
sistemas markovianos [Cancela, 1998].
Definimos un espacio de muestreo Ω(t)={x:[0,t]∈S} que contiene todas las
trayectorias sobre [0,t] posibles de la cadena X; la medida µX es la medida de
probabilidad de X en Ω(t).
Sea una familia H de sub-conjuntos de Ω(t) compatibles con la medida µX;
notaremos R(t|B)=Prob( s∈[0,t], Xs∈O| X∈B) la confiabilidad [0,t] del siste-

116 Actas de Fisiología


ma condicionado al evento B, para todo B∈H. Sea un procedimiento Y de simu-
lación estándar (“cruda”) de la cadena X condicionado a un evento B ∈B: en-
tonces Y(t,B) es un variable aleatoria de Bernoulli, con E(Y(t,B))=R(t|B), B∈H.
Como anteriormente, para aplicar la técnica de reducción recursiva de la
variancia, es necesario disponer de un método PART de particionamiento gené-
rico, que descompone un elemento de H en sub-conjuntos que pertenecen a H.
Más especficamente, para cualquier conjunto B∈H, el procedimiento PART
debe generar una partición P={AO,AF,Bw,w∈U} de B tal que:
- todos los elementos que pertenecen a AO corresponden a trayectorias de
buen funcionamiento del sistema en todo el intervalo [0,t]: x∈AO,
s∈[0,t],x(s)∈O,
- todos los elementos que pertenecen a AF corresponden a trayectorias de
rotura del sistema antes del final del intervalo [0,t]: x∈A F ,
∃s∈[0,t] tal que x(s)∈F,
- existe une variable aleatoria W que toma valores en U, definida por la
medida µW(A)=µ X|X∈(B-AO-AF)(∪w∈A Bw),
- la aplicación recursiva del procedimiento PART sobre cualquier conjunto B
lleva en un número finito de pasos a una partición tal que |P|= 1.
Utilizaremos las notaciones siguientes: µX|B(AO)=PO, µX|B(AF)=PF. De la defi-
nición de PART, se deduce que si PO>0 entonces R(t|AO)=1, y si PF>0 entonces
R(t|AF)=0.
En el caso de sistemas markovianos, el método de reducción recursiva de la
varianza está basado en el uso de la variable aleatoria Z() definida de la manera
siguiente:
Si P={B}: Z(t,B)= Y(t,B) ;
Si P={PO , PF}: Z(t,B)= PO ;
De otro modo: Z(t,B)=PO+(1-PO-PF)Z(t,BW) .
donde P={AO,AF,Bw,w∈U} es el resultado del método PART aplicado a B, y W
es la v.a. definida antes.
De manera análoga al caso combinatorio [Cancela & El Khadiri, 1995] es
posible probar que
E(Z(t,B)) = R(t|B)
Var(Z(t,B)) ≤ (R(t|B)-PO).(1-R(t|B)-PF) ≤ R(t|B)(1-R(t|B)) = Var(Y(t,B)).
Entonces E(Z(t,Ω(t))=Rt y Var(Z(t,Ω(t)) ≤ Rt(1-Rt), por lo que el estima-
dor Z de reducción recursiva de la varianza es más preciso que Monte Carlo
estándar.

Técnicas de reducción recursiva de la varianza 117


Es posible definir diversos métodos de particionamiento adaptados a los sis-
temas multi-componentes; entre los más intuitivos, encontramos aquellos basa-
dos en los pathsets del sistema (un pathset es un conjunto de componentes tales
que su funcionamiento correcto asegura el buen funcionamiento del sistema
[Colbourn, 1987]). Presentaremos a continuación las ideas principales de un
método sencillo de particionamiento basado en los pathsets del sistema, bajo
algunas hipótesis sobre la naturaleza de los sistemas modelados. En particular,
supondremos que es posible identificar cada componente; que las tasas de falla
de los mismos no dependen del estado del sistema; y que existe un método
eficiente para encontrar un pathset del sistema cuando el estado de un cierto
número de componentes ya ha sido fijado. Las dos primeras hipótesis pueden
ser relajadas, al costo de una formalización más engorrosa.
Sea tpi el tiempo de la primer falla del componente i; la familia H está com-
puesta por conjuntos de la forma ∩i∈I(tpi=si). Para cualquier B∈H, definimos el
conjunto I (B) como el conjunto de los componentes del sistema cuyo primer
1
tiempo de falla ya ha sido fijado en B, y es menor o igual a t; y el conjunto I2(B)
como el conjunto de los componentes del sistema cuyo primer tiempo de falla ya
ha sido fijado en B, y es mayor que t.
Si no existe ningún pathset C que no contenga ningún componente de I1(B)
(es decir, todo conjunto de buen funcionamiento del sistema tiene un elemento
que falla antes de t), entonces PART devuelve P={B} directamente.
Supongamos en cambio que existe un pathset C que no contiene ningún
componente de I 1(B). Entonces PART define el particionamiento
P={AO,AF,Bw,w∈U} siguiente. Tomamos el conjunto AO=(∩c∈C (tpc>t))∩B, que
corresponde a las trayectorias de la cadena en las que ninguno de los compo-
nentes de C falla antes del tiempo t (por lo tanto, el sistema funciona por lo
menos hasta t). Tomamos el conjunto AF vacío. Los conjuntos Bw corresponden
a trayectorias en las que al menos uno de los componentes de C falla antes de t,
y se definen implícitamente por un procedimiento de sorteo que va seleccionan-
do componentes de C y sorteando sus tiempos de falla, hasta que el conjunto es
vacío o alguno de ellos falla antes de t.
Sólo resta ahora verificar que la definición del estimador de Monte Carlo
estándar condicionado a un evento B, Y(t,B) no plantea problemas. En efecto,
dado que B es la intersección de eventos de tipo (tpi=si) alcanza con fijar los
tiempos de falla de los componentes condicionados en B, y simular de manera
estándar el comportamiento de los demás.

118 Actas de Fisiología


5.1 Resultados experimentales
Ilustramos con un ejemplo la aplicación del método definido en la subsección
anterior para la evaluación de la confiabilidad Rt. El sistema estudiado posee 30
componentes, 16 de tipo 1, y 14 de tipo 2. Los tiempos hasta la rotura de los
componentes son v.a. exponenciales independientes, de tasa λ=1 falla/hora. Hay
dos reparadores, uno para cada tipo de componente; los tiempos de reparación
son exponenciales, de tasa µ1=100 reparaciones/horas para los componentes
de tipo 1, y µ2=1000 reparaciones/hora para los tipo 2. La función de estructura
del sistema está dada por el grafo representado en la figura 1. Los componentes
del sistema están representados por las aristas del grafo: los de tipo 1 con línea
punteada, aquellos de tipo 2 con línea continua. El sistema funciona correcta-
mente si hay un camino operativo (un conjunto de aristas en funcionamiento)
entre los nodos 1 y 20.

Z(t) Var(Y)/Var(Z) TY/TZ WY/WZ


t=0.001 1.51x10-9 0.99x107 2.65x10-1 2.62x106
t=0.01 5.63x10-7 1.11x104 2.73x10-1 3.03x103
t=0.1 4.35x10-5 2.53x101 3.17x10-1 8.02x100
t=1 5.01x10-4 1.05x100 7.71x10-1 8.10x10-1

Tabla 2: Estimaciones de Rt para un método de reducción recursiva de la


varianza.

En la tabla 2 presentamos los resultados de simulación de la confiabilidad Rt,


calculada para cuatro valores diferentes de t: t=0.001, 0.01, 0.1 y 1 horas. El
tamaño de la muestra utilizada es de 106 experimentos para cada valor de t. En
la primer columna indicamos los valores del parámetro t. La columna Z(t) pre-
senta los valores estimados por el método de reducción recursiva de la varianza
para la confiabilidad Rt. La tercera columna contiene una estimación de los co-
cientes de las varianzas. Las columnas siguientes presentan el cociente de los
tiempos de ejecución, y la eficiencia relativa del método de reducción recursiva
de la varianza en relación al método estándar.
Podemos ver que la varianza obtenida por el método propuesto es siempre
menor que la obtenida por Monte Carlo estándar; pero la magnitud de esta
reducción depende en gran medida del valor de t. Para los valores más pe-
queos, se obtienen mejoras de precisión muy importantes, pero para valores de
t más grandes las mejoras son más pequeñas. El tiempo de ejecución del méto-
do propuesto es un poco mayor que el del método estándar, especialmente para

Técnicas de reducción recursiva de la varianza 119


los valores más pequeños de t, lo que se explica por la necesidad de buscar los
pathsets del sistema y un procedimiento de sorteo más complejo.
El efecto combinado reducción de la varianza-tiempo de ejecución se apre-
cia en la eficiencia relativa WY/WZ (columna 5, calculada como el producto de
las dos columnas anteriores). Podemos ver que en general el balance es satisfac-
torio, exceptuando el caso t=1, en el que la penalización en tiempo de ejecución
es más importante que la reducción de la varianza obtenida. Para los valores de
t más pequeños (correspondientes a confiabilidades más altas), la ganancia en
eficiencia es realmente muy importante, y permite evaluar en un tiempo razona-
ble sistemas que no eran abordables con el método estándar.

6. Conclusiones

En este trabajo hemos revisado la evaluación por simulación de medidas de


confiabilidad en diversos modelos de sistemas informáticos y de redes de comu-
nicaciones. En particular, presentamos los métodos de reducción recursiva de la
varianza, que permiten obtener resultados más precisos que el método Monte
Carlo estándar.
Los métodos de reducción recursiva de la varianza son aplicables a una gama
amplia de problemas de evaluación de la confiabilidad, tanto en modelos estáti-
cos (grafos) como en modelos markovianos; en cada caso, es necesario definir
un procedimiento de particionamiento adecuado. De los distintos procedimien-
tos de particionamiento publicados, hemos presentado dos, uno correspondien-
te a la evaluación de la K-confiabilidad de un grafo con nodos perfectos, y otro
correspondiente a la evaluación de la confiabilidad instantánea de un sistema
markoviano multi-componente. En ambos casos, los experimentos computacio-
nales realizados muestran que en sistemas altamente confiables, el aumento de
precisión es mucho mayor que el esfuerzo computacional adicional necesario
para aplicar estos métodos. En consecuencia, la aplicación de la reducción re-
cursiva de la varianza permite evaluar una gama más amplia de sistemas.
Entre los problemas abiertos en esta temática, podemos mencionar la bús-
queda de cotas más finas del aumento de precisión obtenido por los métodos de
reducción recursiva de la varianza, el estudio de la profundidad de recursión, y la
definición de procedimientos de particionamiento que permitan la mayor eficien-
cia posible.

120 Actas de Fisiología


Otros temas relacionados que no fueron abordados en este artículo, corres-
ponden a los formalismos y herramientas de construcción de los modelos a ser
evaluados (tanto en el caso estático como en el markoviano [Cancela & Rubino,
1994; Cancela et al. 1996; Cancela, 1997]) y al diseño de los sistemas reales de
manera de maximizar su confiabilidad [Cancela & Urquhart, 1995b].

Referencias

Ball M. O. (1986) Computational complexity of network reliability analysis: An overview. IEEE


Transactions on Reliability, R-35(3):230-239.
Bulteau S. y El Khadiri M. (1996) A Monte Carlo algorithm based on a state-space decomposition
methodology for flow network reliability evaluation. Technical Report PI-1012, IRISA.
Cancela H. (1997) Adaptación del formalismo de “bolas y urnas” para la generación de cadenas de
Markov en tiempo discreto. XXIII Conferencia LatinoAmericana de Informática (CLEI-
PANEL’97).
Cancela H. (1998) Simulación en estado transitorio de sistemas altamente confiables. Anales del IX
CLAIO (Congreso Latino-Íbero-Americano de Investigación Operativa e Ingeniería de
Sistemas), Buenos Aires, Argentina. SADIO.
Cancela H. (1999) Adapting RVR simulation techniques for general network reliability models.
Technical Report INCO 99-05, PEDECIBA Informática, IN.CO., Facultad de Ingeniera,
Universidad de la República, Uruguay.
Carrasco J.A. (1991) Failure distance based simulation of repairable fault tolerant systems. Procee-
dings of the 5th International Conference on Modelling Techniques y Tools for Computer
Performance Evaluation, pág. 351-365.
Cancela H. y El Khadiri M. (1995) A recursive variance-reduction algorithm for estimating commu-
nication-network reliability. IEEE Transactions on Reliability, 44(4):595-602.
Cancela H. y El Khadiri M. (1996a) An improvement to the total hazard method for system
reliability simulation. Probability in the Engineering and Informational Sciences, 10(2):187-
196.
Cancela H. y El Khadiri M. (1996b) A simulation algorithm for source-terminal communication
network reliability. Proceedings of the 29th Annual Simulation Symposium, pág. 155-
161, New Orleans, Louisiana. IEEE Computer Society Press.
Cancela H. y El Khadiri M. (1998) Series-parallel reductions in Monte Carlo network reliability
evaluation. IEEE Transactions on Reliability, 47(2):159-164.
Colbourn C.J. (1987) The Combinatorics of Network Reliability. Oxford U. P.
Cancela H., Petingi L., Rubino G., y Urquhart M.E. (1996) HEIDI: una herramienta de apoyo a la
evaluación y diseño de redes. VIII CLAIO (Congreso Latino-Ibero-Americano de Investiga-
ción Operativa), pág. 581-586, Rio de Janeiro, Brasil. ALIO - SOBRAPO.

Técnicas de reducción recursiva de la varianza 121


Cancela H. y Rubino G. (1994) Construcción de modelos para la evaluación de la seguridad de
funcionamiento. Trabajos seleccionados del VII CLAIO (Congreso Latino-Ibero-Ameri-
cano de Investigación Operativa), pág. 235-248, Santiago, Chile.
Cancela H., Rubino G., y Tuffin B. (1996) Fast Monte Carlo methods for evaluating highly
dependable Markovian systems. 2nd Int. Conference on Monte Carlo and Quasi-Monte
Carlo Methods in Scientific Computing, Salzburg, Austria.
Cancela H. y Urquhart M.E. (1995a) Métodos Monte Carlo y confiabilidad de redes de comunica-
ciones - estado del arte. Anales de las 24 JAIIO (Jornadas Argentinas de Informática e
Investigación Operativa), Buenos Aires, Argentina, Agosto 1995.
Cancela H. y Urquhart M. E. (1995b) Simulated annealing for communication network reliability
improvement. Anales de la XXI Conferencia LatinoAmericana de Informática (CLEI-
PANEL’95), pág. 1413-1424. Canela, Brasil, CLEI-SBC.
Cancela H. y Urquhart M.E. (2000) Adapting RVR simulation techniques for residual connected-
ness network reliability models. XXVI Conferencia Latinoamericana de Informática
(CLEI’2000). México, CLEI - ITESM.
Elperin T., Gertsbakh I., y Lomonosov M. (1991) Estimation of network reliability using graph
evolution models. IEEE Trans. Reliab., 40(5):572-581.
El Khadiri M. y Rubino G. (1992) Reliability evaluation of communication networks. SAFE-
COMP’92, International Conference on Safety, Security and Reliability of Computers,
pág. 279-283, Zurich, Suiza.
Fishman G.S. (1986) A comparison of four Monte-Carlo methods for estimating the probability of
s-t connectedness. IEEE Trans. Reliab., R-35(2):145-155.
Fishman G.S. (1997) Monte Carlo: Concepts, algorithms and applications. Springer.
Garey M.R. y Johnson D.S. (1979) Computers and Intractability, a guide to the theory of NP-
completeness. W. H. Freeman and Company.
Goyal A., Shahabuddin P., Heidelberger P., Nicola V.F., y Glynn P.W. (1992) A unified fra-
mework for simulating Markovian models of highly dependable systems. IEEE Transac-
tions on Computers, 41(1):36-51.
Jun C.H. y Ross S.M. (1992) System reliability by simulation: Random hazards versus importance
sampling. Probability in the Engineering and Informational Sciences, 6.
Lomonosov M. (1994) On Monte Carlo estimates in network reliability. Probability in the Enginee-
ring and Informational Sciences, 8:245-264.
Ross S.M. (1994) A new simulation estimator of system reliability. Journal of Applied Mathematics
and Stochastic Analysis, 7(3).
Ross S.M. (1996) Simulation. Academic Press.
Shahabuddin P. (1994) Importance Sampling for the Simulation of Highly Reliable Markovian
Systems. Management Science, 40(3):333-352.

122 Actas de Fisiología

También podría gustarte