Está en la página 1de 11

INTRODUCCIÓN A LA

GARANTÍA DE
FUNCIONAMIENTO

Patricia González Gómez


Despacho: 1.13
E-mail: pglez@udc.es

Contenidos
 Definición de la garantía de funcionamiento
 Necesidad de los sistemas con alta garantía de
funcionamiento
 Causas de la disminución de la garantía de
funcionamiento
 Medios para obtener cierta garantía de funcionamiento
 Medios para la validación de la garantía de
funcionamiento

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

1
Definición de garantía de
funcionamiento
 Un sistema tolerante a fallos es aquel que posee la
capacidad interna para preservar la ejecución correcta
y continuada de las tareas a pesar de la ocurrencia de
fallos hardware o software

 Garantía de funcionamiento de un sistema


informático es la propiedad que permite a sus usuarios
depositar una confianza justificada en el servicio que
les proporciona.

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

Necesidad de los sistemas con alta


garantía de funcionamiento

 Históricamente los sistemas fiables se limitaban a


aplicaciones:
• Militares
• Industriales
• Espaciales y aeronáuticas
• Telemáticas
puesto que los fallos producían un grave impacto
económico y la pérdida de vidas humanas

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

2
Necesidad de los sistemas con alta
garantía de funcionamiento

 Actualmente se aplican estas técnicas a los


ordenadores de propósito general debido a que:
• Se instalan en ambientes industriales mucho más ruidosos:
temperatura, humedad, interferencias electromagnéticas
• Los utilizan operarios no especializados haciendo que el
sistema deba tolerar el mal uso
• Se incrementa el costo de reparación (baja el hw sube la
mano de obra)
• Los sistemas son más grandes, existiendo más
componentes que pueden fallar

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

Necesidad de los sistemas con alta


garantía de funcionamiento

 Hasta hace relativamente poco la computación de altas


prestaciones …
• Supercomputadores
• Códigos que se ejecutaban en un espacio de tiempo relativamente
corto

 Ahora la computación de altas prestaciones …


• Plataformas cada vez menos fiables:
• Sistemas cada vez más grandes
• Clusters formados por computadores de bajo coste
• Plataformas Grid
• Códigos que precisan mayor tiempo de ejecución
 MTTC>MTTF

 Conclusión: la tolerancia a fallos se vuelve un factor crítico

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

3
Necesidad de los sistemas con alta
garantía de funcionamiento
 Evolución del número de entradas en la lista TOP 500 que se clasifican
como Clusters o NOWs

 296 entradas del TOP 500 corresponden a la clasificación de Clusters,


siendo actualmente la arquitectura más habitual.
 Primera posición en el TOP 500: IBM BlueGene con 216 nodos, MTBF de
minutos

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

Necesidad de los sistemas con alta


garantía de funcionamiento
 Dependiendo de la aplicación, la garantía de funcionamiento
pondrá enfasis en sus atributos:

• Fiabilidad (reliability): el sistema funciona sin interrupciones


• Disponibilidad (availability): el sistema está disponible el máximo
tiempo posible
• Seguridad-inocuidad (safety): el sistema no provoca averías
catastróficas
• Seguridad-confidencialidad (security, confidentiality): el sistema
impide el acceso no autorizado
• Seguridad-integridad (security, integrity): el sistema impide la
alteración inadecuada de la información
• Mantenibilidad (maintainability): el sistema es fácilmente
reparable

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

4
Causas de la disminución de la
garantía de funcionamiento
 La vida de un sistema informático supone un cambio
continuo entre dos estados:
• Estado de funcionamiento correcto
• Estado en el que el sistema esta averiado

AVERÍA

SERVICIO SERVICIO NO
ESPECIFICADO ESPECIFICADO

RESTAURACIÓN

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

Causas de la disminución de la
garantía de funcionamiento
 Una avería ocurre cuando el servicio entregado por el
sistema no es el especificado. El usuario aprecia que el
sistema no funciona bien. Las averías se deben a errores
 Un error es un estado interno incorrecto del sistema. Es
consecuencia de un fallo y puede dar lugar a una avería
 Un fallo es un defecto o imperfección física en el hw o sw
del sistema
 La relación entre ellos se resume:

Nivel Nivel de Nivel


físico información externo

FALLO ERROR AVERÍA

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

5
Fallos
Fallos permantentes
PERSISTENCIA
Temporales
Fallos operacionales
Fallos de diseño y especificación
MOMENTO
Fallos de implementación e instalación
ORIGEN Procedimientos de mantenimiento
FALLOS Internos
FRONTERAS
externos
Fallos humanos
CAUSA
Fallos físicos
Fallos intencionados
NATURALEZA
Fallos accidentales o fortuitos
determinados
VALOR
Indeterminados

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

Errores
 Un error es un estado del sistema que puede provocar
una avería, dependiendo:
• De la composición interna del sistema
• Redundancia intencionada
• Redundancia no intencionada
• De la actividad del sistema
• Errores que se manifiestan al activarse alguna parte del
programa
• Errores dependientes de la carga
• Del concepto de avería que tenga el usuario

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

6
Averías
AVERÍAS DE VALOR
DOMINIO
AVERÍAS DE TIEMPO

AVERÍAS COHERENTES
PERCEPCIÓN POR
AVERÍAS LOS USUARIOS AVERÍAS INCOHERENTES

AVERÍAS BENIGNAS
CONSECUENCIAS EN …
EL ENTORNO
AVERÍAS CATASTRÓFICAS

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

Patología de los fallos


 Podemos considerar la relación temporal en el proceso de creación de los
fallos, errores y averías:
BARRERA DE
LOS STF

FALLO ERROR AVERÍA

TI TL
TIEMPO DE TIEMPO DE
INACTIVIDAD LATENCIA
tf te td ta TIEMPO

 T. de inactividad (fallo dormido): TI=te -tf


 T. de latencia (error latente): TL=td-te
 Cobertura es la probabilidad de detectar el fallo (cobertura en la detección, en la
localización, en el aislamiento, en la reconfiguración y en la recuperación)

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

7
Medios para obtener cierta garantía
de funcionamiento
 Barreras para los impedimentos de la garantía de funcionamiento:

FALLOS

ORIGEN FALLOS

Diseño y Fallos E A
especificación software R V
R E
Implementación O R
e instalación CONSECUENCIAS R Í
E A
Causas Fallos S S
físicas hardware
externas
Causas
físicas
internas

Interacción
y operación
BARRERA I BARRERA II BARRERA III

Prevención de fallos Tolerancia a fallos

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

Prevención de fallos

 El objetivo es reducir la posibilidad de fallo del


sistema (barrera I).

 Se consigue mediante:
• La elección de componentes de alta fiabilidad
• El diseño e implementación extremadamente
cuidadoso
• La protección contra los agentes externos
provocadores de fallos

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

8
Tolerancia a fallos
 El objetivo es que el sistema funcione a pesar de los
fallos
 Un sistema tolerante a fallos es aquel que posee la
capacidad interna para preservar la ejecución correcta
y continuada de sus programas y funciones de E/S en
presencia de cierto conjunto de fallos operacionales
 En la actualidad se deben tolerar también fallos de
diseño.

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

Tolerancia a fallos
 La tolerancia a fallos se logra mediante:
• El tratamiento de los fallos (prevenir la activación del error).
Barrera II:
• Utilizar la redundancia para suministrar la información
necesaria para evitar los efectos de los fallos
• Para los fallos de diseño: diversificación de diseños
• El procesamiento del error (eliminación del error antes de
que se produzca la avería). Barrera III:
• Detección
• Diagnóstico
• Aislamiento
• Reconfiguración
• Recuperación del error

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

9
Medios para la validación de la
garantía de funcionamiento
 Son los medios para obtener una confianza justificada
en que el sistema posee la capacidad de proporcionar
el servicio especificado

 Eliminación de fallos
• Consiste en reducir la presencia (número, seriedad) y el
alcance de los fallos
• Se lleva a cabo mediante:
• Verificación
• Diagnosis
• corrección

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

Medios para la validación de la


garantía de funcionamiento
 Predicción de fallos
• Cosiste en la obtención a priori de la garantía de funcionamiento
del sistema. Para ello se realiza una evaluación del
comportamiento ante los fallos
• Se lleva a cabo mediante
• Evaluación de modelos teóricos
• Modelos de Markov
• Modelos basados en redes de Petri estocásticas
• Inyección de fallos experimental:
• En un modelo de simulación: simulación de fallos
• En un prototipo: inyección de fallos
• Utilización conjunta de ambos métodos

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

10
Árbol de la garantía de
funcionamiento
FALLOS
IMPEDIMENTOS ERRORES
AVERÍAS

OBTENCIÓN PREVENCIÓN DE FALLOS


TOLERANCIA A FALLOS
GARANTÍA DE MEDIOS
VALIDACIÓN ELIMINACIÓN DE FALLOS
FUNCIONAMIENTO
PREDICCIÓN DE FALLOS

DISPONIBILIDAD

FIABILIDAD
ATRIBUTOS
SEGURIDAD-INOCUIDAD
SEGURIDAD-CONFIDENCIALIDAD

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

Bibliografía
 B. W. Johnson. Design and Analysis of Fault Tolerant Digital
Systems. Addison-Wesley, 1989. Capítulos 1, 2
 D. K. Pradhan. Fault-Tolerant Computer System Design.
Prentice-Hall, 1996. Capítulo 1
 D. P. Siewiorek. y R. Swarz. Reliable Computer Systems:
Design and Evaluation. Digital Press, 1992. Capítulos 1, 2.

Patricia González Gómez. Dpt. Electrónica y Sistemas. Universidad de A Coruña. E-mail: pglez@udc.es.

11

También podría gustarte