T3 Previo v3 PDF

CIMSI – Configuración,
Implementación y Mantenimiento
de Sistemas Informáticos
TEMA 3: Gestión de la
Disponibilidad
Daniel Cascado Caballero

Rosa Yáñez Gómez
Mª José
E.T.S. Morón Fernández
de Ingeniería Informática
Contenidos
Introducción
Confiabilidad
Eliminación de Fallos
Predicción de Fallos
Tolerancia a Fallos
Prevención de Fallos
Ejemplos de Disponibilidad
E.T.S. I. Departamento ATC

Gestión de la Disponibilidad
Estrategia: 3 Procesos
Financiero Demanda Portfolio
Diseño: 6 Procesos
Niveles de
Catálogo Capacidad Disponibilidad Continuidad Seguridad
Servicio
Transición: 7 Procesos
Planificación Activos y Validación y
Cambio Versiones Evaluación Conocimiento
y Apoyo Configuración Prueba
Operación: 5 Procesos
Eventos Incidencias Problemas Peticiones Accesos
Mejora Continua: 1 Proceso de 7 pasos

¿Qué se puede
¿Qué medir? Medir Procesar Analizar Informar
medir?

Servicio: Elementos
PERSONAS
(RRHH)
PROCESOS PRODUCTOS
(Procedimientos) (Infraestructura)
PROVEEDORES
(Acuerdos y contratos)

Sistema: Definición
Hardware
Interfaz
SISTEMA
Software
Comunicaciones
Documentación

Introducción
Un servicio realiza una función mediante un

determinado sistema, que se puede ver como la
sucesión de sus estados de funcionamiento.
♦ ITIL contempla además los acuerdos con el cliente.
♦ El sistema tiene un estado interno y otro externo,
que ve el cliente.
♦ La frontera entre el cliente y el sistema es el
interfaz de proveedor de servicio
Cliente Sistema
• Estado externo • Estado interno

Definiciones (I)
♦ Fallo: Evento que interrumpe el correcto

funcionamiento de un servicio.
Es una incidencia, según ITIL.
Incumple especificaciones funcionales.
Puede ocurrir porque las especificaciones
funcionales no estén bien definidas (los umbrales
de servicio no están bien definidos, p.ej.)
♦ Parada (outage) o interrupción del
servicio: Periodo de tiempo en el que el
servicio no se ofrece correctamente.
♦ Restauración del servicio: Transición de
servicio incorrecto a correcto.
Definiciones (II)
♦ Modos de fallo: Forma en la que el servicio se
aleja de su correcto funcionamiento.
Se clasifica en función de la severidad del fallo.
♦ Error: Funcionamiento incorrecto de todo o parte
del servicio.
Se debe a una falta (fault). Una falta no siempre
desencadena un error.
• Internas al sistema o externas al sistema
• A su vez, pueden ser latentes, si no dan lugar a error, o
activas en caso contrario.
♦ Cuando el fallo no afecta a todo el sistema se
considera que funciona en modo degradado,
pudiendo ofrecer aún algunas de las funcionalidades
del mismo que no han sido afectadas por el fallo
Ejemplos (I)
♦ La presencia de una vulnerabilidad de

seguridad en un sistema es una falta interna
♦ Si dicha falta no desencadena un error, no
afecta al estado interno del servicio.
No desencadena un fallo
La falta se considera latente
♦ Si causa un error, afectará al estado externo
del servicio.
Se la considera como una falta activa.

Ejemplos (II)
♦ Un cortocircuito en un chip es un fallo

(respecto a la función del circuito)
♦ La consecuencia, es una falta, que
permanecerá inactiva mientras no se
active el circuito
♦ Cuando se active, la falta se vuelve
activa y produce un error, que es
probable que produzca otros errores
♦ Si el error afecta a la entrega correcta
del servicio se produce un fallo

Ejemplos (III)
♦ El resultado del error de un programador lleva

a un fallo en la escritura de la instrucción o
dato correcto en el soft
♦ En cambio, todo esto es una falta inactiva hasta
que se llame a la parte incorrecta del programa
o al dato incorrecto y producirá un error
♦ Si el error afecta a la prestación correcta del
servicio, producirá un fallo en el servicio
♦ A veces el fallo en el código es intencionado
(bomba lógica) programada por un hacker
Sólo producirá un fallo si al activarse se produce
una denegación, o degradación de la prestación
del mismo
Contenidos
Introducción
Confiabilidad
• Definición
• Atributos
• Amenazas
• Recursos
Tolerancia a Fallos

Confiabilidad (Dependability):
Definición
♦ Es la capacidad de un
sistema para dar un servicio
correctamente y con una Router de
salida
fiabilidad justificada.
La confiabilidad de un sistema
A en otro B es el grado en el Distribuidor
que la confiabilidad de A se ve Servidor C
LVS
afectada por la confiabilidad de
B, es decir, el grado de
dependencia aceptada de B.
Servidor A
♦ Tres componentes:
Atributos
Este servidor tiene
Amenazas alta confiabilidad en Servidor B
el LVS
Recursos

Componentes (I)
♦ Disponibilidad: Percepción del servicio
correcto
♦ Fiabilidad: Continuidad del servicio correcto
♦ Seguridad: Ausencia de consecuencias
dañinas para el usuario, el cliente o el entorno
♦ Integridad: Ausencia de alteraciones
impropias del sistema
♦ Mantenibilidad: Capacidad de tolerar las
reparaciones o modificaciones
♦ Confidencialidad: Bloqueo de accesos
indebidos
Componentes (II)
♦ Falta: Causa subyacente de un error

♦ Error: Parte del estado del sistema que es
responsable de provocar un fallo
♦ Fallos: Servicio entregado ≠ Servicio
especificado
Falta Error Fallo Parada Restauración

Componentes (III)
♦ Medios para romper la cadena falta-error:
Eliminación de fallos (fault removal): Trata de
reducir el número y severidad de los fallos
Predicción de fallos (fault forecasting): Se
orienta a estimar el número presente de fallos, su
futura incidencia y las consecuencias más
probables.
Tolerancia a fallos (fault tolerance): Trata de
evitar los fallos que alteran el servicio en presencia
de faltas
Prevención del fallos (fault prevention): Trata
de prevenir la ocurrencia o introducción de fallos

Contenidos
Introducción
Confiabilidad
Tolerancia a Fallos
Ejemplos de disponibilidad

♦ Objetivo: Reducir el número y severidad de los
fallos
Falta Error Fallo Parada Restauración
♦ Mecanismos:
1. Eliminación de faltas activas o latentes
2. Gestión de faltas: amortiguar o eliminar el impacto
de las faltas ⇒ No provoquen errores
3. Eliminación de errores
4. Gestión de errores: amortiguar o eliminar el
impacto de las errores ⇒ No provoquen fallos
Eliminación de Faltas (I)
♦ Es el proceso que se lleva a cabo para eliminar las faltas
(activas o inactivas) que pueden llevar a errores y/o fallos
♦ Durante el desarrollo:
Verificación Diagnóstico, para Corrección: se corrije la/s Validación:
averiguar cuál es la falta falta/s
•Si no cumple con las •Si se encuentran •Y después se realiza •El sistema cumple con
condiciones de faltas… una verificación las especificaciones.
verificación entonces…. regresiva, para Sino, se repite el
garantizar la ausencia proceso
de consecuencias
adversas de la
eliminación
♦ La verificación puede hacerse sobre el sistema o sobre un

modelo del mismo
Estática: se realiza sin poner en marcha el sistema
• Recorridos, análisis de flujo de datos, de complejidad, compilando,
buscando vulnerabilidades, chequeo de máquinas de estado…
Dinámica: se realiza poniéndolo en marcha = testing
• Por patrones de entrada
• Por valores de entrada aleatorios
Eliminación de Faltas (II)
♦ Durante el uso del sistema: se realiza…

Mantenimiento correctivo: Para faltas que han
producido un error y han sido registradas
• Aislamiento de la falta
• Eliminación
Mantenimiento predictivo: Orientado a
eliminar faltas latentes, antes de que produzcan
un error
• Faltas físicas que han ocurrido desde el último
mantenimiento
• Faltas de desarrollo que han producido errores en
otros componentes similares

Gestión de Faltas
♦ Evita que las faltas se activen de nuevo y

puedan provocar errores
♦ Técnicas:
Diagnóstico: Identifica y registra las causas del
error en términos de localización y tipo
Aislamiento: Excluye componentes fallidos del
funcionamiento del servicio
Reconfiguración: Reasigna tareas a componentes
que no fallan o componentes redundantes
Reinicialización: Comprueba, actualiza y registra
la nueva configuración y actualiza las tablas del
sistema y sus registros

Eliminación de Errores
♦ Es imposible eliminar todos los errores, así

como prevenirlos al 100%
♦ La detección se convierte en una tarea
continua dentro del funcionamiento del
servicio.
♦ Dos formas de llevarla a cabo:
Concurrentemente: tiene lugar durante el
funcionamiento normal del servicio
Preventiva: tiene lugar cuando no se presta
normalmente el servicio, comprueba el sistema
en busca de errores latentes y faltas inactivas.

Gestión de Errores
♦ Elimina los errores del estado del

sistema.
♦ Técnicas:
Rollback: Echar hacia atrás al sistema
para que se vuelva a un estado estable
Rollforward: Avanzar el estado del
sistema para que salga del estado de
error a un estado estable
Compensation: Ocultar el error
mediante la redundancia del sistema

Gestión de Errores: Estrategias
♦ Poner imagen del artículo

Gestión de Errores: Ejemplos
♦ Los motores de bases de datos suelen

implementar rollback para que la base de
datos vuelva al estado anterior a una
transacción en caso de que no se haya
realizado en su totalidad
♦ Un servicio web puede hacer compensación
en caso de un error en uno de sus
servidores, si la función de ese servidor está
replicada en otro
♦ Nagios implementa scripts de rollfordward
en su base de datos para sacarla de estados
inestables
Contenidos
Introducción
Confiabilidad
Tolerancia a Fallos

♦ Se realiza mediante la evaluación del

comportamiento del sistema ante la
ocurrencia de faltas o su activación. Dos
aspectos:
Cualitativo: Identificar y clasificar los
modos de fallo y las condiciones para que se
produzca un error
• Reliability block diagrams, fault trees
Cuantitativo o probabilístico: Evaluar la
probabilidad de que se satisfagan ciertos
atributos del sistema (medidas)
• Modelado matemático, test de sistemas
Predicción de Fallos: RBDs
FR= tasa de fallos por millón de horas
RR= tasa de reparación por millón de horas

Predicción de Fallos: fault trees

Contenidos
Introducción
Confiabilidad
Tolerancia a Fallos
• Objetivo. Factores Claves.
• Técnicas
• Recuperación de sistemas

Tolerancia a Fallos (FTo)
♦ Objetivo: Que la ocurrencia de faltas ⇏ Fallos
del servicio ⇒ ↑confianza en el servicio
♦ Factores claves:
Detección temprana ⇒ Monitorización proactiva
Tratamiento ⇒ Enmascaramiento del fallo para que
no se refleje en el estado externo del sistema
♦ Técnicas:
Escalado
Replicación
Distribución
Evitar los puntos únicos de fallo (SPOF)
Contenidos
Introducción
Confiabilidad
Tolerancia a Fallos
• Objetivo. Factores Claves.
• Técnicas
• Recuperación de sistemas

Tolerancia a Fallos: Escalado
♦ Mantener un control de la capacidad del sistema

permite conocer el punto en el que comienzan los
fallos por saturación
♦ Se pueden establecer controles de admisión a
partir de ciertos niveles de carga.
2.000,00
1.800,00
1.600,00
1.400,00
Throughput
1.200,00
1.000,00
Capacity Modeled
800,00
Measured
600,00
400,00
200,00
0,00
1 18 36 72 108 144 216
Virtual Users

Tolerancia a Fallos: Replicación (I)
♦ La replicación actúa compensando los errores al
aumentar la redundancia.

Tolerancia a Fallos: Replicación (II)
Client-side
interceptors (= smart Load Balancers
proxies, stubs) externos
Tolerancia a Fallos: Distribución (I)
Es necesario
establecer
mecanismos de
distribución que no
sólo se encarguen de
repartir la carga sino
también de sortear
nodos en modos de
fallo determinado.

Tolerancia a Fallos: Distribución (II)

Tolerancia a Fallos: Distribución (III)

Tolerancia a Fallos: SPOF
♦ OBJETIVO: Evitar los puntos únicos de fallo
(SPOF) a todos los niveles:
Replicación del hard de los servidores (Ej:
tarjetas de red dobles)
Replicación de los propios servidores a nivel
hard
Replicación de la lógica soft y coherencia
Replicación de los repositorios de datos
Replicación de las comunicaciones
Replicación del personal (!)
Redundancia de los procedimientos (!)
Contenidos
Introducción
Confiabilidad
•Eliminación de Faltas
•Gestión de Faltas
•Eliminación de Errores
•Gestión de Errores
Tolerancia a Fallos
•Objetivo. Factores Claves.
•Técnicas
•Recuperación de sistemas

Recuperación de sistemas
♦ Objetivo: Llevar al sistema a un estado libre

de errores, se haya producido o no un error
Puede utilizarse para prevenir errores antes de
que se produzcan
SERVICIO
CORRECTO
RECUPERACIÓN ERROR
(opcional)

Contenidos
Introducción
Confiabilidad
Tolerancia a Fallos
• Diseño del Sistema
• Hardware FTo

FTo: Diseño del sistema (I)
♦ Modularidad: Descomposición jerárquica del

sistema en módulos. Cada módulo es:
Unidad de servicio
Contenedor de los fallos
Unidad mantenible y reparable por sí misma
♦ Fallo rápido (fail-fast): Un módulo debería
o funcionar correctamente o fallar por
completo. Los estados intermedios son
difíciles de detectar y tratar
♦ Fallos independientes: Si un módulo falla,
dicho fallo no debe afectar al resto de
módulos
FTo: diseño del sistema (II)
♦ Fallos independientes: Si un módulo falla,

dicho fallo no debe afectar al resto de módulos
♦ Redundancia: Disponibilidad de módulos de
repuesto (spare) instalados y configurados
previamente, para sustituir a otro en caso de
fallo. Entretanto, se puede reparar el módulo
que falló
♦ Replicación: aumenta la disponibilidad. Pero
cuidado…
Puede llevar al sistema a un estado degradado
O a una interrupción, si las réplicas no pueden
absorber la capacidad total requerida

Contenidos
Introducción
Confiabilidad
Tolerancia a Fallos
• Diseño del Sistema
• Hardware FTo

FTo: Hardware FTo
♦ Además de las directrices de diseño de un sistema

Fto, suelen aplicarse:
Auto-chequeo: Capacidad del componente para
saber su estado de funcionamiento
Watchdogs: Un flag que debe de ser borrado cada
cierto tiempo. Si no se hace el sistema se resetea, o
da un error
Comparación: La función del componente está
replicada, de manera que un árbitro puede avisar del
error del componente en caso de respuestas
discordantes.
• El árbitro también puede ser redundante
• La disponibilidad se incrementa notablemente si además de
redundancia es posible hacer reparaciones en el componente.
Triple Modular Redundancy
♦ Tres módulos redundantes. Un árbitro decide cuál

da la salida (por mayoría).
♦ Si un módulo falla, se puede desconectar
Puede asumir como mucho un fallo en un módulo
♦ El árbitro también puede fallar (no tiene
redundancia)

N-Modular Redundancy
♦ N módulos activos (N impar)
Tiene un primer procesamiento de las entradas, y
otro posterior a las salidas
Se garantiza tanto la entrada al módulo como la
salida (dos etapas de árbitros)
Asumirá hasta floor(N/2) fallos

Duplicación con comparación
♦ Es una forma activa de redundancia.

♦ Sólo permite detectar el fallo, no enmascararlo
♦ Tampoco se puede garantizar que la entrada
sea correcta
♦ El comparador sigue siendo una fuente de fallo

Standby Sparing
♦ Sólo hay un módulo operando a la vez
Si no hay error, el switch los usa según prioridad
♦ Cuando un módulo da fallo, puede ser desconectado y
sustituido por otro
Disrupción momentánea del servicio mientras se reconfigura
Hot : todos los módulos están activos y preparados
Cold : los módulos de repuesto están desconectados, hasta
que se necesitan

Pair and a Spare
♦ Combinación de duplicación y NMR

Siempre operan dos módulos en paralelo
Si uno da error se sustituye por un repuesto
El comparador vigila si hay error, y los
detectores averiguan cuál es

Contenidos
Introducción
Confiabilidad
•Eliminación de Faltas
•Gestión de Faltas
•Eliminación de Errores
•Gestión de Errores
Predicción de Faltas
Tolerancia a Faltas
•Objetivo. Factores Claves.
•Técnicas
•Recuperación de sistemas
•Diseño del sistema
•Hardware FTo

Ejemplos: fly-by-wire
♦ Utilizado para controlar las superficies de vuelo de aeronaves
civiles y militares
♦ Redundancia cuádruple de todos los sistemas actuadores de las
superficies de control (Pair-&-Spare, n=4)
Líneas neumáticas de presión
Líneas de datos
Actuadores
♦ Cada elemento tiene su propio autochequeo y detección de fallo
♦ Suelen tener dos o más procesadores para generar las señales a
los actuadores
♦ En los modelos antiguos, posibilidad de reversión a manual si el
sistema falla por completo (F-15, en caso de proximidad a pulso
magnético)
♦ En Cápsula Apollo, implementaba NMR, n=5

Ejemplos: RAID
♦ Nivel 0: sin redundancia

♦ Nivel 1: discos en espejo. Duplicidad de la
información
♦ Nivel 2: Información intercalada a nivel de bytes
entre los discos. Corrección de errores por ECC
♦ Nivel 3: Información intercalada a nivel de bytes
entre los discos. Detección de errores por disco
de paridad
♦ Nivel 4: Ficheros intercalados a nivel de bloques.
Disco de Paridad
♦ Nivel 5: Ficheros intercalados a nivel de bloques.
Paridad distribuida entre varios discos.

T3 Previo v3 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

T3 Previo v3 PDF

Cargado por

Copyright:

Formatos disponibles

CIMSI – Configuración,

Daniel Cascado Caballero

E.T.S. I. Departamento ATC

Financiero Demanda Portfolio

Eventos Incidencias Problemas Peticiones Accesos

Mejora Continua: 1 Proceso de 7 pasos

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

Un servicio realiza una función mediante un

E.T.S. I. Departamento ATC

♦ Fallo: Evento que interrumpe el correcto

♦ La presencia de una vulnerabilidad de

E.T.S. I. Departamento ATC

♦ Un cortocircuito en un chip es un fallo

E.T.S. I. Departamento ATC

♦ El resultado del error de un programador lleva

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

♦ Falta: Causa subyacente de un error

Falta Error Fallo Parada Restauración

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

Falta Error Fallo Parada Restauración

♦ La verificación puede hacerse sobre el sistema o sobre un

♦ Durante el uso del sistema: se realiza…

E.T.S. I. Departamento ATC

♦ Evita que las faltas se activen de nuevo y

E.T.S. I. Departamento ATC

♦ Es imposible eliminar todos los errores, así

E.T.S. I. Departamento ATC

♦ Elimina los errores del estado del

E.T.S. I. Departamento ATC

♦ Poner imagen del artículo

E.T.S. I. Departamento ATC

♦ Los motores de bases de datos suelen

E.T.S. I. Departamento ATC

♦ Se realiza mediante la evaluación del

FR= tasa de fallos por millón de horas

RR= tasa de reparación por millón de horas

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

♦ Mantener un control de la capacidad del sistema

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

♦ Objetivo: Llevar al sistema a un estado libre

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

♦ Modularidad: Descomposición jerárquica del

♦ Fallos independientes: Si un módulo falla,

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC

♦ Además de las directrices de diseño de un sistema

♦ Tres módulos redundantes. Un árbitro decide cuál

E.T.S. I. Departamento ATC

E.T.S. I. Departamento ATC