4.1 CLASIFICACIÓN DISTRIBUIDOS.

Clasificación de fallas

Y

PROPIEDADES

DE

FALLAS

EN

SISTEMAS

Las fallas de un sistema de cómputo pueden clasificarse como sigue: Falla de procesos: en una falla de proceso, la ejecución arroja un resultado incorrecto, los procesos provocan que el sistema se desvíe de las especificaciones y el proceso puede suspender su progreso. Ejemplos de errores que causan la falla de los procesos son los interbloqueos, tiempo expirado, violación de protección, error en la entrada provista por el usuario, violaciones de consistencia (puede ocurrir si se emplea la técnica de control de concurrencia optimista). Dependiendo del tipo de error que cause que un proceso falle, este proceso puede ser abortado o reiniciado desde un estado anterior. Por ejemplo, un proceso inter bloqueado puede ser restablecido desde un estado anterior, donde este puede tratar de adquirir nuevamente recursos. Por otro lado, entradas erróneas requieren que el proceso se aborte. Falla del sistema: una falla de un sistema ocurre cuando el procesador falla en la ejecución. Esto es causado por errores de software y problemas de hardware (como errores de CPU, falla en la memoria principal, falla en el bus, falla de energía, etc.). En el caso de una falla de sistema, el sistema es detenido y reiniciado en un estado correcto. El estado correcto puede estar en algún estado predefinido o en un estado anterior (punto de revisión) del sistema guardado en un almacenamiento no volátil. Una falla del sistema puede ser clasificado como sigue: Falla de amnesia: ocurre cuando se reinicia el sistema en un estado predefinido, y no depende del estado del sistema antes de la falla. No se conoce el estado que tenía el sistema antes de la falla.

o la partición de una red donde un segmento de sitios pueden ser incomunicados con los sitios en otro segmento. la recepción de un mensaje con algunos errores. Esto es ocasionado por la falla del nodo de conmutación y/o por los enlaces de comunicación del sistema. ocurre cuando un sitio no puede comunicarse con otro sitio operacional de la red. Falla de aborto (halting): ocurre cuando un sistema nunca se reinicializa. También se predefine un estado inicial para fallas. Note que una falla en un medio de comunicación (esto depende de la topología y la conectividad) puede no causar la pérdida total de las facilidades de comunicación. Falla de pausa: ocurre cuando el sistema se reinicia al mismo estado en que se encontraba antes de la falla. La falla de un nodo de conmutación incluye la falla del sistema y la falla de almacenamiento secundario.Falla de amnesia parcial: ocurre cuando se reinicia el sistema y se conoce parte del estado que presentaba antes de ocurrirla falla. Por ejemplo. Falla en los medios de comunicación: una falla de un medio de comunicación. una falla en el medio de comunicación puede simplemente causar una pérdida del mensaje. aunque los sitios dentro de un segmento pueden comunicarse entre sí. daño de las cabezas lectoras. . partículas de polvo depositadas en el medio. la falla de enlace incluye una ruptura física y ruido en los canales de comunicación. Falla en medio de almacenamiento secundario: se dice que ocurre una falla en medio de almacenamiento cuando los datos almacenados no pueden ser accedidos (cualquiera de sus partes o en su totalidad). La causa de esta falla normalmente es provocada por error de paridad. por otro lado.

si un componente falla no afecta la operación de otro componente). Un sistema puede ocultar la falla o puede en caso de ocurrir una falla corregirla y seguir funcionando. Efectos de las fallas más comunes. muchas copias de datos. de otra manera pueden estar perdidos permanentemente. Cuando el sistema se diseña para ocultar la falla. es importante que los recursos asignados al proceso sean recuperados. Con este enfoque. muchos componentes de hardware. es utilizado para sistemas que oculten las fallas. Por otro lado un sistema diseñado para corregir una falla puede o no ejecutar funciones específicas. Protocolo de compromiso.4. cuando ocurre una falla continúa con sus funciones específicas. Cada uno con independencia en el modo de la falla. el protocolo de elección. . Técnica para sistemas tolerantes a fallas. La primera técnica se utiliza parasistemas que pueden hasta cierto punto corregir las fallas y el segundo. como detectar la falla. todos los procesos ejecutándose en esa máquina se mueren. Un proceso muere. La máquina falla. Protocolo de elección. etc. (es decir. Un sistema puede ser diseñado para que sea tolerante a falla desde dos puntos de vista. Cuando una máquina falla. Estrategia tolerante a fallas Redundancia. sin embargo.2 ELEMENTOS DE LAS ESTRATEGIAS TOLERANTES A FALLAS. Cuando un proceso muere. puede seguir acciones para recuperación. La diferencia con el caso anterior es. el sistema puede emplear varios procesos.

haciendo imposible la comunicación entre nodos localizados en sub-redes diferentes. Sin embargo es deseable disponer de un conjunto de instrucciones que completan una cierta tarea y hacemos que este grupo sea una operación atómica.La red falla. El concepto de acción atómica se extiende al concepto de atomicidad desde un nivel de instrucción de máquina hasta una secuencia de instrucciones o un grupo de procesos los cuales deben ellos mismos ser ejecutados atómicamente. en algunos casos se pueden detectar falla de máquina. en un sistema de base de datos distribuidos. Un proceso no puede notar la diferencia entre una falla de máquina y una falla de enlace de comunicación. una transacción debe procesarse en cada sitio o en ninguno para mantener la integridad de la base de datos. el diseño tolerante a falla debe asumir que la máquina puede estar en operación y que los procesos en ella están activos. Una falla de enlace de comunicación puede particionar la red en subredes. varios procesos pueden coordinarse para ejecutar una tarea. . una instrucción a nivel de máquina. Una transacción agrupa una secuencia de acciones (sobre una base de datos) y al grupo se le trata como una acción atómica que mantiene la consistencia de la base de datos. es indivisible. Las acciones atómicas forman un bloque básico en la construcción de operaciones tolerantes a fallas. y no puede ser interrumpida (a menos que ocurra una falla). instantánea. dependiendo de la red. En los sistemas distribuidos. En las redes que no detectan falla de máquina (Ethernet). corresponde a una operación atómica. Acciones atómicas y compromiso La actividad de un sistema es gobernada por una secuencia de primitivas u operaciones atómicas que ejecuta permanentemente. Como ejemplo. Sus acciones deben ser atómicas con respectos a los otros procesos. Generalmente.

entonces es posible remover esos errores del estado del proceso (o sistema) y habilitar el movimiento hacia adelante del proceso a un estado libre de error. 4. Esta técnica es conocida como recuperación de error hacia atrás. Al inicio de la transacción. Si la naturaleza del error y los daños causados por la falla pueden ser completamente calculados. entonces el estado del proceso puede ser restaurado a un estado previo libre de error.3 RECUPERACIÓN DE ERRORES. la recuperación de una falla es un proceso que involucra la recuperación de estados erróneos a un estado libre de error. Además un sistema puede recuperarse de una falla arbitraria por la restauración a un estado previo.Protocolo de compromiso de dos fases Este protocolo asume que uno de los procesos cooperativos actúa como coordinador. ya que es independiente de la falla y de los errores causados por la falla. . Esto generalmente habilita que la recuperación hacia atrás sea provista como un mecanismo de recuperación general para cualquier tipo de proceso. Hay dos enfoques para la recuperación de un estado de error a un estado libre de error. Si no es posible prever la naturaleza de las fallas y remover todos los errores en el estado del proceso (o sistema). Note que la recuperación del error hacia atrás es más simple que la recuperación del error hacia adelante. el coordinador envía el mensaje ³inicio de transacción´ a cada subordinado. otros procesos se les refiere como subordinados (se asume que los subordinados se ejecutan en diferentes sitios). Esta técnica es conocida como recuperación hacia adelante. Recordemos que un error es esa parte del estado del sistema que es distinto de los valores esperados y que pueden conducir a la falla de un sistema. Éste protocolo asume que se dispone de un medio de almacenamiento estable en cada sitio y que se encuentra activo el protocolo de escritura de registro anticipado.

por lo tanto. Por ejemplo.Los principales problemas asociados con la recuperación hacia atrás son: Penalidad en rendimiento: la sobrecarga de trabajo para restaurar el estado del proceso a un estado anterior libre de errores puede resultar muy alto. No está garantizado que las fallas no ocurrirán nuevamente cuando se inicialice el procesamiento desde un estado anterior. provoca una menor sobrecarga. porque sólo esas partes del estado que se desviaron de un valor esperado necesitan ser corregidas. Algunos componentes del estado del sistema pueden ser irrecuperables. . este no es un concepto tan general como la recuperación de error hacia atrás y no puede ser provista como un mecanismo general para recuperar errores. esta técnica puede ser usada solo cuando los daños debido a fallas pueden ser calculados correctamente. Sin embargo. el dinero dispuesto en un cajero automático no puede recuperarse. por otro lado. La técnica de recuperación hacia delante.

Sign up to vote on this title
UsefulNot useful