Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fiabilidad
Fiabilidad
UPM
Fiabilidad y tolerancia
de fallos
Juan Antonio de la Puente
DIT/UPM
Transparencias basadas en el captulo 5 del libro de A. Burns y A. Wellings Real-Time Systems and Programming Languuages, 3 edicin (2001)
Objetivos
STRL -30/05/01
ndice
u
u
u
u
u
u
STRL -30/05/01
Fallos de funcionamiento
u
STRL -30/05/01
Conceptos bsicos
u
STRL -30/05/01
Fallos encadenados
u
avera
avera
STRL -30/05/01
fallo
fallo
error
error
avera
avera
fallo
fallo
Tipos de fallos
u
Fallos transitorios
desaparecen solos al cabo de un tiempo
ejemplo: interferencias en comunicaciones
Fallos permanentes
permanecen hasta que se reparan
ejemplo: roturas de hardware, errores de diseo de software
Fallos intermitentes
fallos transitorios que ocurren de vez en cuando
ejemplo: calentamiento de un componente de hardware
nunca
se avera
avera
valor
error de
intervalo
STRL -30/05/01
tiempo
error de
valor
pronto
nunca
(omisin)
avera
silenciosa
parada
segura
arbitrario
avera
por retraso
avera
incontrolada
avera
controlada
Tolerancia de fallos
Se trata de conseguir que el sistema contine funcionando aunque se
produzcan fallos
STRL -30/05/01
Prevencin de fallos
u
Eliminacin de fallos
Consiste en encontrar y eliminar los fallos que se producen en el
sistema una vez construido
STRL -30/05/01
Hardware
Utilizacin de componentes fiables
Tcnicas rigurosas de montaje de subsistemas
Apantallamiento de hardware
Software
STRL -30/05/01
10
Comprobaciones
Revisiones de diseo
Verificacin de programas
Inspeccin de cdigo
Pruebas (tests)
Son necesarias, pero tienen problemas:
STRL -30/05/01
11
STRL -30/05/01
12
STRL -30/05/01
13
funcionalidad
funcionalidad
de
de emergencia
emergencia
(slo
(slo separacin
separacin
entre
entre aviones
aviones))
funcionalidad
funcionalidad
mnima
mnima para
para control
control
de
de trfico
trfico bsico
bsico
sistema
sistema de
de reserva
reserva
para
para fallos
fallos
catastrficos
catastrficos
STRL -30/05/01
14
Redundancia
u
STRL -30/05/01
15
Redundancia en hardware
u
Redundancia esttica
Los componentes redundantes estn siempre activos
Se utilizan para enmascarar los fallos
Ejemplo:
Redundancia modular triple ( N), TMR/NMR
Redundancia dinmica
Los componentes redundantes se activan cuando se detecta un
fallo
Se basa en la deteccin y posterior recuperacin de los fallos
Ejemplos:
sumas de comprobacin
bits de paridad
STRL -30/05/01
16
Redundancia esttica
Programacin con N versiones
Redundancia dinmica
Dos etapas: deteccin y recuperacin de fallos
Bloques de recuperacin
Proporcionan recuperacin hacia atrs
Excepciones
Proporcionan recuperacin hacia adelante
STRL -30/05/01
17
Diversidad de diseo
N programas desarrollados independientemente con la misma
especificacin
sin interacciones entre los equipos de desarrollo
Ejecucin concurrente
proceso coordinador (driver)
intercambia datos con los procesos que ejecutan las versiones
STRL -30/05/01
18
cordinador
estado
votos
versin 1
STRL -30/05/01
versin 2
versin 3
19
Comparacin consistente
X1
X2
X3
u
u
no
> x0
> x0
> x0
s
u
no
> y0
> y0
> y0
La comparacin de valores
reales o texto no es exacta
Cada versin produce un
resultado correcto, pero
diferente de las otras
No se arregla comparando con
x0+, y0+
V1
STRL -30/05/01
V2
V3
20
Problemas
u
Desarrollo independiente
No debe haber interaccin entre los equipos
No est claro que distintos programadores cometan errores
independientes
Presupuesto suficiente
Los costes de desarrollo se multiplican
u sera mejor emplearlos en mejorar una versin nica?
El mantenimiento es tambin ms costoso
u
STRL -30/05/01
21
3. Recuperacin de errores
llevar el sistema a un estado correcto, desde el que pueda seguir
funcionando (tal vez con funcionalidad parcial)
4. Reparacin de fallos
Aunque el sistema funcione, el fallo puede persistir y hay que
repararlo
STRL -30/05/01
22
Deteccin de errores
u
Inversin de funciones
Cdigos detectores de error
Validacin de estado
Validacin estructural
STRL -30/05/01
23
Tcnicas
Descomposicin modular: confinamiento esttico
Acciones atmicas: confinamiento dinmico
STRL -30/05/01
24
Recuperacin de errores
u
u
u
Es la etapa ms importante
Se trata de situar el sistema en un estado correcto desde
el que pueda seguir funcionando
Hay dos formas de llevarla a cabo:
Recuperacin directa (hacia adelante) (FER)
Se avanza desde un estado errneo haciendo correcciones sobre
partes del estado
STRL -30/05/01
25
Recuperacin directa
u
u
u
u
STRL -30/05/01
26
Recuperacin inversa
u
STRL -30/05/01
27
Efecto domin
u
R12
R13
T1
T2
R21
STRL -30/05/01
R22
28
Reparacin de fallos
u
u
STRL -30/05/01
29
Bloques de recuperacin
u
u
STRL -30/05/01
30
Esquema de recuperacin
restaurar
punto de
recuperacin
entrada
al bloque
establecer
punto de
recuperacin
ms
ejecutar
alternativa
no
error
test
ok
abandonar
punto de
recuperacin
STRL -30/05/01
31
Sintaxis
ensure <condicin de aceptacin>
by
<mdulo primario>
else by
<mdulo alternativo>
else by
<mdulo alternativo>
...
else by
<mdulo alternativo>
else error;
STRL -30/05/01
32
u
u
u
u
STRL -30/05/01
33
Prueba de aceptacin
u
u
u
u
STRL -30/05/01
34
Comparacin
N versiones
u Redundancia esttica
u Diseo
Bloques de recuperacin
u Redundancia dinmica
u Diseo
algoritmos alternativos
proceso coordinador
u
Ejecucin
algoritmos alternativos
prueba de aceptacin
u
mltiples recursos
u
Deteccin de errores
votacin
Ejecucin
puntos de recuperacin
Deteccin de errores
prueba de aceptacin
STRL -30/05/01
35
u
u
u
STRL -30/05/01
36
u
u
u
STRL -30/05/01
37
respuesta
normal
excepcin
de interfaz
excepcin
de avera
reanudacin
manejadores
de excepciones
actividad normal
peticin
de servicio
STRL -30/05/01
respuesta
normal
excepcin
interna
excepcin
de interfaz
excepcin
de avera
38
Seguridad y fiabilidad
u
u
u
STRL -30/05/01
39
Confiabilidad
u
confiabilidad
disponibilidad
de utilizacin
servicio
disponible
continuamente
disponibilidad
fiabilidad
STRL -30/05/01
no hay
situaciones
catastrficas
no hay fugas
no hay
aptitud para
de informacin alteraciones reparaciones
no autorizadas de informacin y cambios
mantenibilidad
40
Terminologa
Confiabilidad
STRL -30/05/01
Atributos
Disponibilidad
Fiabilidad
Seguridad
Confidencialidad
Integridad
Mantenibilidad
Medios
Prevencin de fallos
Tolerancia de fallos
Reparacin de fallos
Prediccin de fallos
Daos
Fallos
Errores
Averas
41
Resumen
u
u
u
u
u
STRL -30/05/01
42