COORDINACION en Los Sistemas Distribuidos

1
Sistemas Distribuidos
Coordinación y acuerdo
2
Introducción
•Dado un conjunto de procesos en un SD, vamos a necesitar
Coordinar sus acciones
Llegar a un acuerdo en uno o más valores
•Formas de coordinación y acuerdo

Acceso a recursos: exclusión mutua distribuida
Selección de líderes: algoritmos de elección
Comunicación distribuida: algoritmos de multidifusión
Toma de decisiones: algoritmos de consenso
•Hay que tener en cuenta

Sincronismo (timeouts conocidos) o asincronismo
Fallos: en un sistema asíncrono, es imposible garantizar el acuerdo si
hay cualquier tipo de fallo
3
Introducción
Asunciones respecto a fallos (canales)
Asumimos canales de comunicación fiables

Siempre terminan enviando los mensajes
En un sistema síncrono, además con un límite de tiempo
El fallo de un proceso no evita que el resto puedan comunicarse
Algunas otras características que no consideraremos

Asimetría: la comunicación es posible de p a q, pero no al revés
Intransitividad: comunicación posible de p a q y de q a r, pero
no de p a r
Partición de red: ha fallado un router y la comunicación es
posible a ambos lados, pero no entre ambos lados
Estas características y otras son propias de redes punto a punto
como Internet
4
Introducción
Asunciones respecto a fallos (canales)
Los proceso fallan por caídas o arbitrariamente
Proceso correcto
Aquél que no muestra fallos en ningún punto de la ejecución
Detector de fallo
Objeto local a cada proceso que ejecuta un algoritmo de detección
de fallos en colaboración con sus equivalentes en otros procesos
Detector no fiable: sospechoso/no sospechoso de haber fallado
Detector fiable: fallido/no sospechoso
Detección inexacta: sospechar de un proceso que no ha fallado

Detección incompleta: no sospechar de un proceso que ha fallado
5
Introducción
Implementación de un detector de fallos
El proceso p envía “estoy aquí” cada T unidades de tiempo!

(D=estimación del tiempo máximo de transmisión de un mensaje)!
Si q no recibe de p un mensaje “estoy aquí” tras T+D!
p pasa a ser sospechoso para q!
Elección de D
Demasiado pequeño sobrecarga en la red
Demasiado grande lentitud en detectar procesos sospechosos
Posible opción: elección de timeouts adaptativos que reflejen las
condiciones de tráfico/retraso observadas en la red
En sistemas síncronos (D conocido), esta implementación da

lugar a un detector fiable
6
• Exclusión mutua distribuida
7
Exclusión mutua distribuida

Sección crítica (SC): porción de código que permite el
acceso a un recurso compartido por varios procesos
Exclusión mutua: el acceso a la sección crítica se regula por

medio de variables compartidas, por ejemplo semáforos
Exclusión mutua distribuida: el acceso a la sección crítica

se basa en paso de mensajes
Asunciones
Sistema asíncrono
Los procesos no fallan
La entrega de mensajes es fiable
Los procesos acceden a los recursos a través de una SC
8

Requisitos
EM1: Seguridad
A lo sumo un proceso puede estar ejecutándose a la vez en la SC
EM2: Pervivencia
Las peticiones de entrada/salida de la SC al final son concedidas
Sin interbloqueos ni inanición
EM3: Ordenación
Si una petición para entrar en la SC ocurrió “antes que” otra,
entonces la entrada en la SC se garantiza en ese orden
9

Criterios de evaluación
Ancho de banda consumido

Proporcional al número de mensajes enviados en cada operación
de entrada y salida de la SC
Retraso del cliente

Cuánto tarda en entrar y salir de la SC
Retraso en la sincronización
Tiempo que pasa entre que un cliente sale de la SC y el siguiente que esté
esperando entra
Proporcional al número de mensajes necesarios entre la salida de un proceso
de la SC y la entrada del siguiente proceso c
10

Algoritmo con servidor central
Un servidor concede los permisos para entrar en la SC

Mediante el uso de un testigo (token) que se envía por mensajes
11

Algoritmo con servidor central
Requisitos
EM1 (Seguridad): Sí
EM2 (Pervivencia): Sí
EM3 (Ordenación): No
No considera los tiempos locales en que se enviaron los
mensajes
Rendimiento
Tráfico:
Entrada: 2 mensajes (petición y concesión)
Salida: 1 mensaje (liberación)
Servidor actúa de cuello de botella
Realiza los mensajes de liberación y concesión
12

Algoritmo basado en anillo (token-ring)
Paso de testigos sin servidor central
Requisitos
EM1, EM2: Sí
EM3: No
Rendimiento
Ancho de banda: consumo continuo
salvo cuando un proceso está en SC
Retraso entre petición y entrada en SC:
de 0 a N mensajes
Retraso en la sincronización entre salida
y entrada: de 1 a N mensajes
13

Algoritmo de Ricart y Agrawala: ejemplo
14

Algoritmo de Ricart y Agrawala: ejemplo
15

Algoritmo de Ricart y Agrawala: análisis
Cumple EM1, EM2 y EM3 (uso de relojes lógicos)
Rendimiento
Ancho de banda
(N-1) mensajes de petición de entrada
(N-1) mensajes de concesión de entrada
Retraso de sincronización
1 mensaje (el del proceso actualmente en la SC)
Mejora: si un proceso entra en la SC y quiere volver a entrar, no
debería reiniciar el protocolo si no ha recibido peticiones
16
• Elección distribuida
17
Elección distribuida
Objetivo
Elegir un proceso único para que tome un determinado rol

Por ejemplo, en un proceso de concesión de SC centralizado, la elección del
proceso servidor que concederá la SC
Consideraciones
➢ Un proceso convoca elecciones cuando lleva a cabo una acción que inicia el
algoritmo de elección
➢ Puede haber N elecciones concurrentes
➢ Un proceso siempre tiene uno de estos dos roles:
• Participante: comprometido en una ejecución del algoritmo
• No participante: no comprometido en ninguna ejecución
➢ El proceso elegido debe ser único, incluso en elecciones
concurrentes
18
Consideraciones
➢ Identificadores
• Todos los procesos tienen un identificador
• Único para el conjunto
• Totalmente ordenados
• El proceso elegido es aquél de mayor identificador
➢ Variable elegido
• Cada proceso p mantiene una variable e que contiene el identificador del
proceso elegido
• Cuando el proceso se convierta en participante, fija la variable al valor
especial ┬, indicando que no hay consenso todavía
19
Requisitos y rendimiento
Requisitos
E1: Seguridad
E2: Pervivencia
Rendimiento
• Ancho de banda: proporcional al número de mensajes enviados
• Tiempo de ronda (turnaround): tiempo pasado desde que se convocan
elecciones hasta que se elige un proceso
20
Algoritmo en anillo
➢ Chang y Roberts [1979]
➢ Los procesos se consideran dispuestos en un anillo lógico
➢ Consideraciones adicionales
• No ocurren fallos
• El sistema es asíncrono
➢ Un proceso convoca elecciones y pasa
su identificador al siguiente en el
anillo
• Si el identificador del proceso es mayor
que el recibido, cambia el identificador
• Cuando llega el mensaje al proceso
convocante, finaliza la elección,
transmitiendo en el mismo orden el
identificador elegido
21
Algoritmo en anillo
Cada proceso se etiqueta como no participante
Cualquier proceso convoca elecciones
Se marca a sí mismo como participante, y pone e=-
Pone su identificador en un mensaje elección y lo envía al vecino
Un proceso recibe un mensaje elección con identificador
Mayor al suyo: se etiqueta como participante y pasa el mensaje al vecino
Menor al suyo: si es no participante, pone su identificador en el mensaje y lo
reenvía, etiquetándose como participante
Igual al suyo: se convierte en coordinador, se marca como no participante y
envía el mensaje elegido al vecino
Un proceso recibe un mensaje elegido
Se marca como no participante y fija e i al valor del identificador del mensaje
Envía un mensaje elegido al siguiente vecino, a no ser que sea el coordinador
22
Algoritmo en anillo: ejemplo
23
Algoritmo en anillo: análisis
Requisitos: cumple E1 (seguridad) y E2 (pervivencia)
Rendimiento
Peor caso: el nuevo elegido es el vecino antihorario del convocante
3N-1 mensajes
N-1 mensajes elección hasta alcanzar el vecino antihorario
Otros N mensajes elección con id del vecino antihorario
N mensajes elegido
24
Algoritmo abusón (bully)
Consideraciones
Permite la caída de procesos durante la elección
Utiliza timeouts para detectar fallos de procesos
Supone comunicación fiable
Cada proceso conoce qué procesos tienen identificadores mayores
y puede comunicarse con ellos
Funcionamiento resumido
1. El convocante envía mensajes elección a los procesos de id mayor
2. Si ninguno le respone, multidifunde que es el nuevo coordinador
3. Si alguno le responde, el convocante inicial queda en espera, y los
procesos que responden inician un nuevo proceso de elección
como convocantes (vuelta al paso 1) o
25
Algoritmo abusón: mensajes y timeouts
Tipos de mensaje
Elección: anuncia un proceso de elección
Respuesta: respuesta a un mensaje de elección
Coordinador: anuncia la identidad del proceso elegido
Inicio del algoritmo
La elección comienza cuando un proceso se da cuenta (debido a
los timeouts) de que el coordinador ha fallado
Varios procesos pueden descubrirlo de forma concurrente
Timeout = T = 2TTtransmisión de un mensaje + T procesado de un mensaje
26
Algoritmo abusón
1. Si un proceso sabe que tiene el id (no fallido) más alto
Se elige a sí mismo coordinador enviando el mensaje coordinador a
todos los de identificador más bajo (proceso abusón)
2. Si no tiene el id (no fallido) más alto
Manda un mensaje elección a todos los de id más alto y espera un
mensaje respuesta
Si tras un tiempo T no recibe ningún mensaje respuesta, ir al paso 1
Si recibe un mensaje respuesta, espera un mensaje coordinador
Si recibe un mensaje coordinador, fija su variable e
al id que está
contenido en dicho mensaje
Si no recibe ningún mensaje, comienza otra nueva elección
Si un proceso se recupera o se lanza un proceso sustituto con el
mismo id, éste comienza una nueva elección, aunque el
coordinador actual esté funcionando
27
Algoritmo abusón
28
Algoritmo abusón
1. p1 convoca elecciones al
detectar la caída de p4
2. p2 y p3 responden y
continúan con el proceso
3. p1 y p2 han recibido
respuesta de p2, pero p3 cae
antes de enviar coordinador
p1 detecta la caída por el
paso de timeout
4. Continúa el proceso hasta

que p2 se hace coordinador
29
Algoritmo abusón: análisis
Requisitos
Cumple E2 (todos fijan ei al final de la elección)
Algunos problemas con E1 (ei indica el id mayor no caído)
Problema 1: cae p (coordinador), pero se recupera al mismo
tiempo que otro proceso q decide ser el coordinador →algún
proceso puede recibir dos mensajes coordinador con distintos
identificadores
Problema 2: los valores de timeout son imprecisos (el sistema
no es síncrono)
Rendimiento
Mejor caso: el proceso con el segundo identificador más alto
detecta el fallo del coordinador → N-2 mensajes coordinador
Peor caso: el proceso con identificador más bajo detecta el fallo
del coordinador → O(N a la 2)
30
Multidifusión
Objetivo: entrega de mensajes a un grupo de procesos
distribuidos, garantizando
Fiabilidad: todos los procesos del grupo reciben el mensaje
Orden: el orden de entrega del mensaje es acordado y se respeta
Fundamento
Un proceso realiza sólo una operación multicast para enviar un
mensaje a todos los miembros del grupo
Un proceso obtiene mensajes mediante una orden entrega, que
no implica una recepción instantánea del mensaje
31
Multidifusión
Modelo del sistema
Consideraciones
Los procesos se comunican a través de canales fiables uno-a-uno
Los procesos sólo pueden fallar por caída
Los procesos son miembros de grupos, que son los destinos de
las operaciones multicast
Un proceso puede pertenecer a varios grupos
Operaciones
multicast(g, m) → recibir(m)
Donde g es el grupo y m es un mensaje que porta
emisor(m): identificador único del proceso remitente
grupo(m): identificador único del grupo destinatario
32
Multidifusión
Multidifusión básica
Operaciones
B-multicast
B-entrega
Los procesos pueden pertenecer a varios grupos
Cada mensaje se destina a un grupo en particular
Implementación usando la operación envía fiable uno-a-uno
B-multicast(g,m) → p∈g, envía(p,m)
Al recibir(m) en p → B-entrega(m) en p
Y acuse de recibo al remitente
Implementación real: hilos para envío concurrente
Problema: ack-implosion (colapso por exceso de acuses de recibo)
Solución: multidifusión IP
33
Multidifusión
Multidifusión básica
34
Multidifusión
Multidifusión fiable
Debe cumplir con las condiciones de:

Integridad: un proceso entrega un mensaje a lo sumo una vez
En comunicación fiable uno-a-uno, era al menos una vez
Validez: todo mensaje multidifundido es entregado al remitente
Garantiza que el remitente sigue vivo tras la multidifusión
Acuerdo: si un proceso recibe un mensaje, todo el grupo lo recibe
Concepto de “atomicidad”: o todos, o ninguno
Esta condición no se cumple en B-multicast, que solo garantiza la
comunicación fiable uno a uno.
Operaciones (Hadzilacos y Toueg, 1994) (Chandra y Toueg, 1996)

• F-multicast
• F-entrega
35
Multidifusión
Multidifusión fiable sobre B-multicast
En la inicialización
recibidos = { };
F-multicast (g, m) //del proceso p
B-multicast(g, m) // p ∈ g se incluye como destino
B-entrega(m) //en el proceso q
si (m ∉ recibidos)
entonces
recibidos = recibidos ∪ {m};
si (q ≠ p)
entonces
B-multicast(g, m);
fin si
F-entrega(m)
fin si
36
Multidifusión
Multidifusión fiable sobre B-multicast: análisis
Condiciones :
• Integridad: se cumple por la condición si (m ∉ recibidos)!

• Validez: se cumple pues el remitente envía m a sí mismo y eventualmente
hará una B-entrega a sí mismo
• Acuerdo: si un proceso no hace la F-entrega es porque no se ha invocado
la B-entrega.
Esto sólo puede ocurrir si ningún otro ha invocado la B-entrega (pues la

B-entrega implica un B-multicast, que invocaría a las otras B-entregas,
suponiendo una comunicación sin fallos)
37
Multidifusión
Multidifusión fiable sobre IP-multicast
IP-multicast
Multidifusión mediante una dirección IP para el grupo
• Direcciones 224.0.0.0 a 239.255.255.255 de clase D
El emisor envía un datagrama con su IP y el router se encarga de mandar
copias a las IPs adheridas a la IP multicast
• Muy fiable
Funcionamiento
Como IP-multicast es muy fiable, los acuses de recibo (ack) no se envían por
separado, si no adjuntos (piggy backed) en otros mensajes que envíen al
grupo
• “Te envío xxx y de paso te digo que recibí zzz”
Sólo se envían acuses de recibo por separado cuando se ha detectado que se
ha perdido algún mensaje
• Acuses de recibo negativos (nack)
38
Multidifusión
39
Multidifusión
40
Multidifusión
41
Multidifusión
42
Multidifusión
Multidifusión ordenada
• B-multicast y derivadas no garantizan que los mensajes lleguen

siempre en el mismo orden a los miembros del grupo
• Debido a retrasos arbitrarios en los envíos individuales subyacentes
• La ordenación puede ser un requisito para algunas aplicaciones
• Ordenación FIFO: si un proceso realiza multicast(g,m) y luego multicast(g,m’),

m debe entregarse siempre antes de m’
• Ordenación causal: si multicast(g,m) → multicast(g,m’) entonces m debe

entregarse siempre antes que m’
• Ordenación total: si un proceso entrega m antes que m’, entonces todo proceso
entrega m antes que m’
43
Multidifusión
Multidifusión ordenada: ejemplos
44
Multidifusión
Multidifusión ordenada: ejemplos
Observaciones
En una ordenación total, no importa el tiempo físico en el que se
enviaron los mensajes (en el ejemplo anterior, T2 ocurre un poco
después que T1)
Una ordenación total no respeta orden FIFO o causal
Por ejemplo, si F2 se entregara antes que F1 en P2, ese sería el orden
de entrega para todos, independientemente de que localmente, en P1
se difundiera F1 antes que F2
45
Multidifusión
Multidifusión ordenada FIFO
46
Multidifusión
Multidifusión ordenada total por acuerdo (ISIS)
47
Multidifusión
Multidifusión ordenada total por acuerdo (ISIS)
48
Multidifusión
ISIS: ejemplo
49
50
51
Algoritmos de consenso
• ¿En que consiste el problema de los generales
bizantinos?
• ¿Cuál es el algoritmo de solución?
52
El problema del consenso consiste en conseguir que, aun en presencia
de procesadores erróneos, los procesadores correctos sean capaces de
ponerse de acuerdo con respecto a un valor, sin importar que este
valor no sea el óptimo.
53
Problema de los generales bizantinos
Este problema plantea que un grupo de generales sitia una ciudad y

deben de ponerse de acuerdo a través de un plan de ataque precisamente
para atacar o retirarse, independientemente de que existan generales
traidores
Esta traición puede verse de dos formas:
• Los mensajes pueden no llegar o, dicho de otra manera, las
comunicaciones no son confiables.
• Un general traidor puede mentir, es decir, un nodo puede fallar
de manera impredecible.
54
Caso 1: Tres generales
Caso de tres generales donde uno es traidor.

a) El general comandante es el traidor
b) b) El teniente general es el traidor.
No se llega a un consenso
55
Caso 1: Cuatro generales
Caso de cuatro generales donde uno es traidor.

a) El general comandante es el traidor
b) b) Un teniente general es el traidor.
En ambos casos, el consenso es “atacar”

COORDINACION en Los Sistemas Distribuidos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

COORDINACION en Los Sistemas Distribuidos

Cargado por

Copyright:

Formatos disponibles

1

•Formas de coordinación y acuerdo

•Hay que tener en cuenta

Asunciones respecto a fallos (canales)

Asumimos canales de comunicación fiables

Algunas otras características que no consideraremos

Asunciones respecto a fallos (canales)

Los proceso fallan por caídas o arbitrariamente

Detección inexacta: sospechar de un proceso que no ha fallado

El proceso p envía “estoy aquí” cada T unidades de tiempo!

En sistemas síncronos (D conocido), esta implementación da

Exclusión mutua distribuida

Exclusión mutua: el acceso a la sección crítica se regula por

Exclusión mutua distribuida: el acceso a la sección crítica

Exclusión mutua distribuida

Exclusión mutua distribuida

Ancho de banda consumido

Retraso del cliente

Exclusión mutua distribuida

Un servidor concede los permisos para entrar en la SC

Exclusión mutua distribuida

Exclusión mutua distribuida

Paso de testigos sin servidor central

Exclusión mutua distribuida

Exclusión mutua distribuida

Exclusión mutua distribuida

Cumple EM1, EM2 y EM3 (uso de relojes lógicos)

Elegir un proceso único para que tome un determinado rol

4. Continúa el proceso hasta

Debe cumplir con las condiciones de:

Operaciones (Hadzilacos y Toueg, 1994) (Chandra y Toueg, 1996)

• Integridad: se cumple por la condición si (m ∉ recibidos)!

Esto sólo puede ocurrir si ningún otro ha invocado la B-entrega (pues la

• B-multicast y derivadas no garantizan que los mensajes lleguen

• Ordenación FIFO: si un proceso realiza multicast(g,m) y luego multicast(g,m’),

• Ordenación causal: si multicast(g,m) → multicast(g,m’) entonces m debe

Este problema plantea que un grupo de generales sitia una ciudad y

Caso de tres generales donde uno es traidor.

Caso de cuatro generales donde uno es traidor.

También podría gustarte