Está en la página 1de 24

Tolerancia a fallas

La tolerancia a fallas es
considerada la principal
caracterstica que debe de tener
un sistema distribuido para
alcanzar el principio de
transparencia. Para lograr la
tolerancia a fallos se necesita de
una buena comunicacin entre
procesos distribuidos y
sobretodo de una correcta

Disponibilidad

Sistemas fiables es un
termino que comprende
varios requerimientos
tiles para los sistemas
distribuidos y incluyen
los siguientes

confiabilidad

seguridad

mantenimiento

Es la propiedad de que un
sistema listo para ser utilizado
de inmediato se refiere a la
probabilidad de que el sistema
este operado correctamente en
cualquier momento dado y se
encuentre disponible para
realizar sus funciones

Es la propiedad de un
sistema sea capaz de
funcionar de manera
continua sin falla

Cuando un sistema deja de


funcionar correctamente
durante un tiempo

Se refiere a cuan fcil puede


ser reparado un sistema que
fallo

Tipos de fallos

Fallos transitorios
desaparecen solos al cabo de un tiempo
ejemplo: interferencias en comunicaciones
Fallos permanentes
permanecen hasta que se reparan
ejemplo: roturas de hardware, errores de
diseo de software
Fallos intermitentes
fallos transitorios que ocurren de vez en cuando
ejemplo: calentamiento de un componente de
hardware

Comunicacin

confiable entre cliente

y servidor

La tolerancia a fallas en sistemas distribuidos se


concentra en procesos defectuosos. Sin embargo
tambin se tienen que considerar las fallas de
comunicacin. Los modelos de fallas analizados
previamente aqu tambin son validos en su mayora
para canales de comunicacin.

Diana

8.3.1 comunicacin punto


a punto
Se establece por medio de un
protocolo de transporte
confiable tal como el TCP. Este
oculta las fallas por omisin. Las
cuales se presentan en la forma
de mensaje perdidos, por medio
de reconocimientos y
transmisiones .

8.3.2 semntica RPC en presencia


de fallas
El objetivo de las PRC es ocultar la comunicacin de tal forma que las llamadas
a procedimientos remotos parezcan locales.
Las cinco fallas diferentes que pueden ocurrir en sistemas RPC.

comunicacin de grupo confiable


La atenuacin de un proceso por replicacin, no es de sorprender que los servicios de
multitransmision confiables tambin sean importantes.

esquemas de multitransmision bsica confiables


La mayora de las capas de transporte ofrecen confiables canales de comunicacin
punto a punto, rara vez ofrecen una comunicacin confiable a un conjunto de
procesos. Su mejor oferta es permitir que cada proceso establezca una conexin
punto a punto con cualquier otro proceso con el que desee comunicarse.

8.4.2 Escalabilidad en
multitransmision confiable
El problema con el esquema de
multitransmision confiable que se acaba
de describir es que no puede soportar un
gran numero de destinatarios. Si existen
N destinatarios, el remitente debe estar
preparado para aceptar por lo menos N
acuses de recibo. Con muchos
destinatarios, el remitente puede verse
abrumado por los mensajes de
retroalimentacin, ello tambin se conoce
como implosin de retroalimentacin.

8.4.3 multitransmision
atmica
Lo que se requiere en un sistema
distribuido es la garanta de que
un mensaje sea entregado o a
todos los protocolos o a ninguno
en absoluto. Adems, en general,
tambin se necesita que todos los
mensajes sean entregados en el
mismo orden a todos los procesos.

Realizacin Distribuida

Este problema implica lograr que una


operacin sea realizada por cada
miembro de un grupo o por ninguno en
absoluto.
El protocolo de realizacin monofsico
tiene la desventaja evidente de que si
uno de los participantes en efecto no
puede realizar opera ion, no hay forma
de comunicrselo al coordinador.
Castre

El protocolo de realizacin bifsico


se divide en dos fases siguientes:
- El coordinador enva un mensaje
a todos los participantes
- Cuando un participante recibe
un mensaje, regresa el mensaje
al coordinador para decirle que
se prepare para realizar su parte
de la transaccin.

La realizacin trifsica impide a los


procesos bloquearse ante la
presencia de congelaciones por
detencin.
Tambin est formulado en funcin
de un coordinador y varios
participantes.

Recuperacin

Existen dos formas de recuperacin de errores.


En la recuperacin hacia atrs, lo principal es
hacer que el sistema regrese de su estado actual
errneo a su estado previamente correcto. Se le
podra llamar punto de control
Otra forma de recuperacin de errores es la
recuperacin hacia adelante. En este caso
,cuando el sistema ha entrado a un estado
errneo, en lugar de regresarlo a un estado de
punto de control previo, se intenta llevarlo a un
nuevo estado correcto a partir del cual se pueda
continuar ejecutando.

Registro de mensajes
La idea bsica que fundamenta el
registro de mensajes es que si se
puede repetir la transmisin de
mensajes, aun es posible alcanzar
un estado globalmente
consistentes pero sin tener que
restaurarlo desde un
almacenamiento estable.
Jair

Este modelo funciona bien conforme a


la suposicin de lo que se llama el
modelo determinstico fragmentado,
en este modelo se supone que la
ejecucin de cada proceso se realiza
como una serie de intervalos en los
que ocurren los eventos.
En efecto, un intervalo puede ser
repetido con un resultado conocido, es
decir, en una forma completamente
determinstica, siempre que se repita
iniciando con el mismo evento no

Para caracterizar los diferentes


esquemas de registro de mensajes, se
considera que cada mensaje m tiene
un encabezado que contiene toda la
informacin necesaria para
retransmitir m y manejarlo
apropiadamente.

Computacin orientada a la
recuperacin
Una forma relacionada de manera la
recuperacin es, en esencia, empezar
de nuevo, El principio fundamental
hacia esa forma de ocultar las fallas es
que puede resultado mucho mas
barato optimizar para recuperacin,
esto es, buscar sistemas que no fallen
durante mucho tiempo, a este mtodo
se le conoce como computacin
orientada a la recuperacin.

Existen diferentes sabores de la


computacin orientada a la
recuperacin, uno es simplemente
reiniciar(una parte de un sistema), y
ha sido explorado para reiniciar
servidores de internet, para poder
reiniciar solo una parte del sistema, es
crucial localizar apropiadamente la
falla, en este punto, reiniciar significa
simplemente borrar todas las
instancias de los componentes
identificados, juntos con los hilos que

Otro sabor de la computacin orientada a


la recuperacin es aplicar la marcacin de
puntos de control y tcnicas de
recuperacin, pero continuar en ejecucin
en un ambiente cambiado.
La idea bsica es en este caso es que
muchas fallas simplemente pueden
enviarse si a los programas se les permite
mas espacia de bfer, poner en cero la
memoria antes de asignarla, cambiado el
orden de la entrega de los mensajes.

Preguntas

menciona los tipos de fallos?


Fallos transitorios
Fallos permanentes
Fallos intermitentes

Funcin de la recuperacin
hacia atrs?
R= En la recuperacin hacia
atrs, lo principal es hacer
que el sistema regrese de su
estado actual errneo a su
estado previamente
correcto.