0 calificaciones0% encontró este documento útil (0 votos)
22 vistas18 páginas
Este documento resume las técnicas de recuperación de errores en sistemas distribuidos, incluyendo la marcación de puntos de control, el registro de mensajes y la computación orientada a la recuperación. Explica que la marcación de puntos de control permite restaurar un estado previo consistente y que el registro de mensajes permite recuperar el estado retransmitiendo mensajes sin necesidad de restauración desde almacenamiento estable. También describe cómo la computación orientada a la recuperación busca optimizar los sistemas para que no fallen a través de la
Este documento resume las técnicas de recuperación de errores en sistemas distribuidos, incluyendo la marcación de puntos de control, el registro de mensajes y la computación orientada a la recuperación. Explica que la marcación de puntos de control permite restaurar un estado previo consistente y que el registro de mensajes permite recuperar el estado retransmitiendo mensajes sin necesidad de restauración desde almacenamiento estable. También describe cómo la computación orientada a la recuperación busca optimizar los sistemas para que no fallen a través de la
Este documento resume las técnicas de recuperación de errores en sistemas distribuidos, incluyendo la marcación de puntos de control, el registro de mensajes y la computación orientada a la recuperación. Explica que la marcación de puntos de control permite restaurar un estado previo consistente y que el registro de mensajes permite recuperar el estado retransmitiendo mensajes sin necesidad de restauración desde almacenamiento estable. También describe cómo la computación orientada a la recuperación busca optimizar los sistemas para que no fallen a través de la
para la tolerancia a fallas. En la recuperación hacia atrás, lo principal es hacer que el sistema regrese de su estado actual erróneo a su estado previamente correcto. Otra forma de recuperación de errores es la recuperación hacia adelante. Las técnicas de recuperación de errores hacia atrás son las más aplicadas como mecanismo general para recuperarse de las fallas. El beneficio principal de la recuperación de errores hacia atrás es que se trata de un método generalmente aplicable e independiente de cualquier sistema o proceso específico.
La marcación de puntos de control permite regresar a un estado
previo. Sin embargo, a menudo es una operación costosa que puede penalizar severamente el desempeño. En consecuencia, muchos sistemas distribuidos tolerantes a fallas combinan la marcación de puntos de control con el registro de mensajes. Almacenamiento estable
es necesario que la información requerida para
habilitar la recuperación sea guardada con seguridad. Seguridad en este contexto significa que la recuperación sobreviva a congelaciones de proceso y fallas de sitio, pero quizá también a varias fallas de medios de almacenamiento. El almacenamiento estable desempeña un rol muy importante cuando se trata de recuperación en sistemas distribuidos. Aquí lo analizamos brevemente. Almacenamiento Estable Está diseñado para sobrevivir a cualquier cosa excepto a calamidades extremas tales como inundaciones o terremotos. El almacenamiento estable puede ser implementado con un par de discos ordinarios, como se muestra en la figura 8- 23(a). Cada bloque grabado en el disco 2 es una copia exacta del bloque correspondiente incluido en el disco 1. Cuando un bloque se actualiza, primero se actualiza y verifica el bloque en el disco 1, luego se hace lo mismo en el correspondiente bloque del disco 2. 8.6.2 Marcación de puntos de control En un sistema distribuido tolerante a fallas, la recuperación de errores hacia atrás requiere que el sistema guarde con regularidad su estado en almacenamiento estable. se tiene que registrar un estado global consistente, llamado también instantánea distribuida. Marcación de puntos de control independiente La naturaleza distribuida de la marcación de puntos de control (en la que cada proceso simplemente registra su estado local de vez en cuando de una manera no coordinada) puede hacer difícil encontrar una línea de recuperación. Para descubrir una línea de recuperación se requiere que cada proceso retroceda a su estado más recientemente guardado. Marcación de puntos de control coordinada
Todos los procesos se sincronizan para escribir
conjuntamente su estado en un almacenamiento local estable. La ventaja principal de la marcación de puntos de control coordinada es que el estado guardado es automática y globalmente consistente, de modo que se evite que los retrocesos conduzcan al efecto dominó. Un proceso depende del coordinador si recibió un mensaje que está directa o indirectamente relacionado en forma causal con un mensaje que el coordinador había enviado desde el último punto de control. Esto conduce a la noción de instantánea incremental. 8.6.3 Registro de mensajes
Es una operación costosa, en especial por lo que
se refiere a operaciones implicadas al escribir su estado en un almacenamiento estable, se han buscado técnicas para reducir el número de puntos de control, pero que sigan habilitando la recuperación. En sistemas distribuidos, una técnica importante es el registro de mensajes. La idea básica que fundamenta el registro de mensajes es que si se puede repetir la transmisión de mensajes, aún es posible alcanzar un estado globalmente consistente pero sin tener que restaurarlo desde un almacenamiento estable. En cambio, se toma un estado con marcación de puntos de control como punto de partida, y todos los mensajes enviados desde entonces simplemente se retransmiten y manejan como corresponde. Un intervalo puede ser repetido con un resultado conocido, es decir, en una forma completamente determinística, siempre que se repita iniciando con el mismo evento no determinístico como antes. En consecuencia, si se registran todos los eventos no determinísticos presentes en ese modelo, llega a ser posible repetir por completo toda la ejecución de un proceso en una forma determinística.
En consideración a que los registros de mensajes son
necesarios para recuperarse de una congelación de proceso de modo que se restaure un estado globalmente consistente, llega a ser importante saber con precisión cuándo tienen que ser registrados los mensajes. Proceso huérfano Es un proceso que sobrevive a la congelación de otro proceso, pero cuyo estado es inconsistente con el proceso congelado después de su recuperación. Caracterización de los esquemas de registro de mensajes Se considera que cada mensaje m tiene un encabezado que contiene toda la información necesaria para retransmitir m y manejarlo apropiadamente. Protocolo de registro optimista
El trabajo propiamente dicho se realiza después de que
ocurre una congelación. En particular, supongamos que para algún mensaje m cada proceso incluido en COPY(m) se ha congelado. En un método optimista, cualquier proceso huérfano en DEP(m) es retrocedido a un estado en el cual ya no pertenece a DEP(m). Desde luego, los protocolos de registro optimistas no deben perder de vista las dependencias, lo cual complica su implementación. 8.6.4 Computación orientada a la recuperación El principio fundamental hacia esta forma de ocultar las fallas es que puede resultar mucho más barato optimizar para recuperación, esto es, buscar sistemas que no fallen durante mucho tiempo. Este método también se conoce como computación orientada a la recuperación (Candea y cols., 2004a). Para poder reiniciar sólo una parte del sistema, es crucial localizar apropiadamente la falla. En ese punto, reiniciar significa simplemente borrar todas las instancias de los componentes identificados, junto con los hilos que operan en ellos y (a menudo) simplemente reiniciar las solicitudes asociadas. Observemos que la propia localización de fallas puede ser un ejercicio no trivial (Steinder y Sethi, 2004). La idea fundamental es solucionar fallas de software (en tanto que muchas de las técnicas examinadas hasta ahora están encaminadas a resolver, o están basadas en fallas de hardware). Como la ejecución de un software es altamente determinística, cambiar el ambiente de ejecución puede salvar el día, pero, naturalmente, sin reparar nada. Bibliografía
Tanenbaum, A. S., & Fogoaga, J. C. V. (1988). Sistemas operativos. Prentice
Hall.
Andrew S.Tanenbaum && Maarten Van Steen. (2008). Recuperacion. En
Sistemas Distribuidos. Principios y Paradigmas(pp. 363-372). Mexico: PEARSON EDUCACIÓN.