Está en la página 1de 270

12346_ManagmentContinuite 18/06/08 11:38 Page 1

Management de la
Continuit dactivit E M M A N U E L B E S L U A U

EMMANUEL
BESLUAU
P r f a c e d e F r a n o i s T t e

A
lheure o le systme dinformation (SI) est au cur des pro-
cessus, une panne informatique de seulement trois jours suffit
paralyser durablement toute entreprise non prpare. Si la
prvention des risques et la scurit font lobjet de proccupations
croissantes, les responsables ngligent trop souvent de se prmunir
Lauteur

Management de la
contre les consquences dventuels dsastres. Or le management de
Ingnieur informatique diplm de Centrale et de
la continuit dactivit (MCA) offre des solutions efficaces pour PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTI-

lUniversit de Berkeley, Emmanuel Besluau a renforcer la rsistance de lentreprise et du SI face aux crises de toute NUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE
nature (inondation, incendie, pannes, malveillance).

Continuit
occup de nombreux postes responsabilits dans PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE
de grands groupes de diffrents secteurs, notam-
ment bancaire et de services (IBM, Sligos-Carte Proposant une dmarche la fois organisationnelle et technique, REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA

Bancaire, Atos-Infogrance). Aujourdhui consul- ce guide complet et document dcrit pas pas la mise en uvre CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE
tant associ au Duquesne Group, il crit priodi- concrte dun plan de continuit dactivit (PCA) solide et opra- SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE
quement dans la presse informatique et intervient
tionnel. Il sappuie sur des tudes de cas rels issues de la longue CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DAC-
en tant quexpert reconnu auprs de DSI sur des
sujets comme la continuit de service, les exprience de lauteur pour fournir une mthodologie efficace et TIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA
architectures techniques des centres informa- une revue des solutions possibles (plan de reprise, sites de secours, PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE

d activit
tiques, les bonnes pratiques de production de

Continuit d activit
continuit de service, outils de sauvegarde, architectures du SI, tests et PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE
service (ITIL, scurit, etc.). Il est membre actif du audits, etc.) enrichies de recommandations pratiques et de documents
Club de la Continuit dActivit. DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN
types, sans oublier daborder les principes de gouvernance et la
DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE
Franois Tte est Prsident du Club normalisation en cours.
DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA
de la Continuit dActivit (CCA).
PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE
www.clubpca.eu
Au sommaire PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE
Matrise du risque. Apprciation des menaces. Analyse dim- DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN
pact (BIA). Activits critiques. Paramtres de reprise (RPO, RTO,
MTD et WRT). Stratgie de continuit. Plan de continuit DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE
dactivit (PCA). Disaster Recovery Plan (DRP). Plan de reprise
(PRA). Missions et groupes dintervention. Centre de gestion de
crise. Planning. Plan de communication. Campagnes de tests.
Implmentation ISO 27001
Fiches de tests. Ingnierie de la continuit. Disponibilit.
Fiabilit et rparabilit. Redondance. Modles de cluster n+1.
Snapshot et copie miroir. Serveurs tolrance de panne.
qui sadresse ce livre ? Virtualisation. Stockage NAS et SAN. Contrleurs, cache et
routage dE/S. Protection continue des donnes (CDP).
Aux responsables risque ou continui- Sauvegarde et restauration. Robots et bandothques. Rseau GESTION DU RISQUE - ANALYSE DES IMPACTS
t (RSSI, RPCA) et leurs quipes backbone et LAN. Centre informatique (site, infrastructure,
risques et parades). Tlcommunications. Poste de travail (PC). STRATEGIE DE CONTINUITE - PLAN DE CONTINUITE D'ACTIVITE (PCA)
Aux chefs de projet chargs de Travail domicile. Gouvernance de la continuit. Politique de
MISE EN UVRE ORGANISATIONNELLE ET INFORMATIQUE
mettre en place un PCA continuit. Comit de pilotage. Projet du PCA. Maintenance.
Gestion des changements. valuation, tests et audits. Systme ,
Aux DG et chefs dentreprise
souhaitant aborder le MCA
de contrle. Formation et sensibilisation. Normes et bonnes
pratiques. Tiers du Uptime Institute. TIA 942. BS 25999.
Assurer la prennit de l entreprise:
TESTS ET MAINTENANCE - INGENIERIE DE LA CONTINUITE
GOUVERNANCE - SENSIBILISATION - NORMALISATION
ISO 27002, ISO 27031 et ISO/PAS 22399. AFNOR BP Z74-700.
tous les responsables mtier
proccups par la continuit de
Business Continuity Institute (BCI). DRII. Club de la Continuit
dActivit (CCA). Joint Forum. ITIL. Mehari. NFPA 1600.
planification, choix techniques
leur activit
Aux DSI et responsables techniques
ayant faire des choix de systmes
et mise en uvre
ISBN : 978-2-212-12346-3
Code diteur : G12346

9 7 8221 2 1 23 463

Aux auditeurs dans le domaine


des technologies de linformation
Aux professionnels de la scurit Gratuit !
ou dITIL dsirant approfondir le 60 modles de livrables
volet continuit
prts lemploi
un outil de cration
39 de business plan
Management de la
Continuit
d activit

,
Assurer la prennit de l entreprise:
planification, choix techniques
et mise en uvre
CHEZ LE MME DITEUR

Dans la collection Solutions dentreprise


A. Fernandez-Toro, prface de H. Schauer. Management de la scurit de linformation.
Implmentation ISO27001. Mise en place dun SMSI et audit de certification.
N12218, 2007, 256 pages.
C. Dumont. ITIL pour un service informatique optimal. Mis jour avec ITIL V3 et la norme ISO20000.
N12102, 2e dition, 2007, 378 pages.
S. Bordage, D. Thvenon, L. Dupaquier, F. Brousse. Conduite de projet Web.
60modles de livrables prts lemploi. Un outil de cration de business plan. 3tudes de cas.
N12325, 4e dition, 2008, 408 pages.
. ONeill. Conduite de projets informatiques offshore.
N11560, 2005, 336 pages.

Ouvrages sur la gestion de projet


F. Pinckaers, G. Gardiner. Tiny ERP/Open ERP. Pour une gestion dentreprise efficace et intgre.
N12261, 2008, 278 pages (collection Accs libre).
V. Messager Rota. Gestion de projet. Vers les mthodes agiles.
N12165, 2007, 258 pages (collection Architecte logiciel).
P. Mangold. Gestion de projet informatique.
N11752, 2006, 120 pages (collection Compact).
F. Valle. UML pour les dcideurs.
N11621, 2005, 282 pages (collection Architecte logiciel).

Autres ouvrage
L. Bloch, C. Wolfhugel. Scurit informatique. Principes et mthode.
N12021, 2007, 262 pages (Collection Blanche).
C. Llorens, L. Levier, D. Valois. Tableaux de bord de la scurit rseaux.
N11973, 2e dition, 2006, 560 pages (collection Blanche).
B. Boutherin, B. Delaunay. Scuriser un rseau Linux.
N11960, 3e dition, 2007, 250 pages (collection Cahiers de lAdmin).
P. Legand. Scuriser enfin son PC. Windows XP et Windows Vista.
N12005, 2007, 500 pages (collection Sans taboo).
D. Sguy, P. Gamache. Scurit PHP 5 et MySQL.
N12114, 2007, 240 pages (Collection Blanche).
F. Manzano. Mmento VMware Server. Virtualisation de serveurs.
N12320, 2008, 14 pages.
R. Bergoin, C. Bourg. Mmento Cisco. IOS Configuration gnrale.
N12347, paratre 2008, 14 pages.
C. Dumont. Mmento ITIL. N12257, 2007, 14 pages.
E M M A N U E L B E S L U A U
Prface de Franois Tte

Management de la
Continuit
d activit

,
Assurer la prennit de l entreprise:
planification, choix techniques
et mise en uvre
DITIONS EYROLLES
61, bd Saint-Germain
75240 Paris Cedex 05
www.editions-eyrolles.com

Le code de la proprit intellectuelle du 1er juillet 1992 interdit en effet expressment la


photocopie usage collectif sans autorisation des ayants droit. Or, cette pratique sest
gnralise notamment dans les tablissements denseignement, provoquant une baisse
brutale des achats de livres, au point que la possibilit mme pour les auteurs de crer des
uvres nouvelles et de les faire diter correctement est aujourdhui menace.
En application de la loi du 11 mars 1957, il est interdit de reproduire intgralement ou
partiellement le prsent ouvrage, sur quelque support que ce soit, sans autorisation de lditeur ou du Centre
Franais dExploitation du Droit de Copie, 20, rue des Grands-Augustins, 75006 Paris.
Groupe Eyrolles, 2008, ISBN : 978-2-212-12346-3
Prface
Il est toujours trop tard, quand le sinistre arrive, pour mettre en uvre un plan
de continuit dactivit... Un proverbe chinois illustre ce propos : les tuiles qui
protgent de la pluie ont toutes t poses par beau temps .
Enfin un ouvrage complet, pratique et document sur la continuit dactivit, en
franais de surcrot !
Ayant moi-mme vcu en entreprise des situations de sinistre, je peux tmoi-
gner de la ncessit dtre prpar de telles situations, malheureusement plus
frquentes quon ne le croit. Un jour, la salle informatique de la banque dans
laquelle je travaillais a brl. Nous navions aucun plan, ni rien de prvu dans
une telle situation, lexception dune sauvegarde externalise.... La banque
aurait d disparatre. Or ctait en 1977, et linformatique navait pas limpor-
tance vitale quelle possde prsent. La banque a pu redmarrer, au prix fort,
dans les cinq jours suivants, grce des locaux et des moyens fournis par un
constructeur. Nous ne sommes revenus une situation normale que six mois
plus tard.
Aprs ce sinistre, qui avait enfin dcid la direction gnrale mettre en place
des solutions de secours et un plan associ, jai pris conscience de la valeur quil
faut attribuer une bonne prparation et aux dmarches du type de celles pr-
sentes dans ce livre pratique.
En outre, dans ma vie professionnelle, jai ctoy et conseill de nombreux res-
ponsables dentreprise. Tous mont fait part de leur souhait dy voir enfin plus
clair dans la dmarche visant mettre en place de manire pragmatique le
management de la continuit dactivit dans leur entreprise. En effet, la mise en
place dun plan de continuit est un projet atypique. Cest un projet transverse
qui prend en compte globalement toutes les activits et processus de lentre-
prise.
Le Club de la Continuit dActivit runit tous les acteurs uvrant dans ce
domaine. Il a pour missions de partager les points de vue et retours dexp-
rience, de parfaire la matrise des solutions et de prenniser la place du manage-
ment de la continuit dans lentreprise. Par l, il joue un rle moteur auprs des
organismes de normalisation et du lgislateur.
Le Club de la Continuit dActivit accueille avec intrt tout ce qui peut contri-
buer dvelopper les bonnes pratiques, comme le fait cet ouvrage. Riche dune
exprience trs diversifie de la production informatique, Emmanuel Besluau

V
Management de la continuit dactivit

connat bien tout ce que lon peut attendre des technologies. Son approche, qui
prsente la fois les principes dorganisation et les architectures techniques, se
rvle trs intressante et assez unique.
Nul doute que ce livre contribuera faire avancer la prise de conscience sur ce
sujet important quest la continuit dactivit.
Franois TTE
Prsident du Club de la Continuit dActivit
www.clubpca.eu

VI
Table des matires
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

Partie I Lentreprise dans un monde de risques


Chapitre 1 La matrise du risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Apprciation des risques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Identification des menaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Consquences sur les actifs de la socit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Chiffrage des probabilits annuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Calcul du risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Analyse contraste par entits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Autres mthodes danalyse pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
valuation des options face aux risques . . . . . . . . . . . . . . . . . . . . . . . . . 23
Les quatre options de traitement du risque . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Le chiffrage cot/efficacit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Laversion au risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Le dossier dtude des risques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Prise de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Rvaluation des options par le comit dcisionnaire . . . . . . . . . . . . . . . . . . . . 31
Documentation de lensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Mise en uvre des options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Suivi et contrle des plans dactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

Chapitre 2 Lanalyse dimpact sur les activits . . . . . . . . . . . . . . . . . . . . . . . . 35


Chronologie dun sinistre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Droulement dun sinistre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Du point de vue de lutilisateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Cadrage de lanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

VII
Management de la continuit dactivit

Dterminer les activits critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39


Un exercice difficile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39
Identifier les activits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .40
Estimer les impacts financiers et oprationnels . . . . . . . . . . . . . . . . . . . . . . . .41
Identifier les processus critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42
Dterminer les configurations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .44
MTD et priorits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .44
Systmes et applications informatiques critiques . . . . . . . . . . . . . . . . . . . . . . .46
Autres ressources critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .47
Dterminer les paramtres de reprise . . . . . . . . . . . . . . . . . . . . . . . . . . . .48
RTO et WRT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49
Ajustements sur les MTD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49
RPO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51
Procdures de secours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .53
Documentation de lanalyse dimpact sur les activits . . . . . . . . . . . . . .53

Chapitre 3 Le dveloppement dune stratgie de continuit . . . . . . . . . . . . .55


Phase 1 Expression des besoins en termes de reprise . . . . . . . . . . . . .56
Exigences des processus critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .56
tude des besoins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .56
Phase 2 tude des options possibles pour la reprise . . . . . . . . . . . . . .58
Catgories doptions ouvertes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59
Options envisages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60
Phase 3 Confrontation des options aux exigences mtier . . . . . . . . . .64
Dfinition des dlais dactivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .65
Comparaison aux exigences et slection des options . . . . . . . . . . . . . . . . . . . . .70
Phase 4 tude de cot et faisabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . .71
Critres dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .72
Chiffrage des options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .72
Slection doptions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .73
Phase 5 Mise au point de la stratgie de continuit . . . . . . . . . . . . . . .74

Partie II Lentreprise labore son plan de continuit


Chapitre 4 PCA : dfinir les missions et les responsables . . . . . . . . . . . . . . . .77
Cadrage du plan de continuit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .77
Dfinition du sinistre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .77

VIII
Table des matires

Objectifs du plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Primtre et exclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Contexte gnral du plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Structure du plan de continuit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Planning des activits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Le centre de gestion de crise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Un rle cl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Emplacement stratgique du centre de gestion de crise . . . . . . . . . . . . . . . . . . 86
Centre de gestion de crise de secours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Fonctions du centre de gestion de crise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
quipement du centre de gestion de crise . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Missions, quipes et responsabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Le groupe de gestion de crise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Le groupe de redmarrage des activits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Le groupe de rcupration technique et oprationnelle . . . . . . . . . . . . . . . . . . . 94
Les listes de contacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Constituer les groupes dintervention . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Affectation des missions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Former et sensibiliser les diffrents acteurs . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Mettre jour la constitution des groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Documents types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Plan de communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Plan de secours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

Chapitre 5 PCA : planifier les activits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105


Planning gnral en sept tapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
tape 1 Premire intervention et notification du sinistre . . . . . . . . . . . . . . . 106
tape 2 valuation et escalade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
tape 3 Dclaration de sinistre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
tape 4 Planifier la logistique dintervention . . . . . . . . . . . . . . . . . . . . . . . 111
tape 5 Rcupration et reprise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
tape 6 Retour la normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
tape 7 Bilan daprs sinistre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Comment affecter les tches ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Spcificit du PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Charges et dlais cibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Du ralisme avant tout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

IX
Management de la continuit dactivit

Chapitre 6 Tester le plan de continuit . . . . . . . . . . . . . . . . . . . . . . . . . . . . .133


Cadrage des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .133
Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .133
Mthodes de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .136
Faut-il annoncer le test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .139
Document de prparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .140
Contraintes des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .140
laborer un plan de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141
Phase 1 Revue des tests antrieurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141
Phase 2 Description des objectifs, primtre et contraintes . . . . . . . . . . . . . .142
Phase 3 Dfinition de la tactique de test . . . . . . . . . . . . . . . . . . . . . . . . . . .144
Phase 4 Mise en place de la logistique de test . . . . . . . . . . . . . . . . . . . . . . .148
Phase 5 Planning et calendrier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .150
Phase 6 Revue des risques du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .150
Phase 7 Documentation du plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .151
Excuter les tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .152
Rle et action des testeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .152
Consignation des constatations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .152
Bilan des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .154
Suivi des actions damlioration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .154

Partie III Lingnierie de la continuit


Chapitre 7 Construire la disponibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .159
Notions statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .159
Disponibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .159
Fiabilit et rparabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .160
Les modles redondants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .163
Le modle n+1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .164
Prise en compte de la panne de mode commun . . . . . . . . . . . . . . . . . . . . . . .164
Arrts de fonctionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166
Arrt planifi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166
Impact de larrt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .167
Site secondaire et site distant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .168
Le duo primaire-secondaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .168
Le site distant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .169
En ralit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .169

X
Table des matires

Types darchitectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170


Architecture monolithique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
Architecture granulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
Une ralit multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

Chapitre 8 Linformatique au centre de donnes . . . . . . . . . . . . . . . . . . . . . 173


Les serveurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Serveurs tolrance de panne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Mise en grappe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Virtualisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Le stockage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Fonctions des contrleurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
Fonctions du middleware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
Stockage en rseau NAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
Sauvegarde et restauration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Les rseaux du centre informatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Rseau de stockage SAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Rseau traditionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Performance et fiabilit des rseaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

Chapitre 9 Infrastructure et poste de travail de lemploy . . . . . . . . . . . . . . 191


Les rseaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
Rseau tlphonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
Rseau informatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
Le poste de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Une importance variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Protection des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Protection des applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Comment continuer travailler ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
PC portables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
Travail domicile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
Les ressources humaines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
La malveillance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
Laide aux victimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

Chapitre 10 Le centre informatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203


Choix du site . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Vulnrabilit du site . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

XI
Management de la continuit dactivit

Attractivit du site . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .204


Climat des affaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .205
Rgles de prcaution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .205
Infrastructure du centre informatique . . . . . . . . . . . . . . . . . . . . . . . . . . .206
lments critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .206
Rfrentiels et normalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .206
Les principaux risques et leur parade . . . . . . . . . . . . . . . . . . . . . . . . . . .208
Incendie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .208
Dgt des eaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .210
Dysfonctionnements lectriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .212
Autres risques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .213

Partie IV La gouvernance de la continuit


Chapitre 11 La politique de continuit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .217
Exprimer une volont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .217
1. Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .218
2. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .218
3. Conditions dapplication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .218
4. Objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .218
5. Primtre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .218
6. Dcisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .219
7. Bnfices attendus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .219
8. Responsabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .219
9. Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .219
Nommer un comit de pilotage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .219

Chapitre 12 Construire et maintenir le plan de continuit . . . . . . . . . . . . . .221


Lancement du projet de PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .221
Formation et sensibilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .222
Formation des chefs de projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .222
Sensibilisation gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .223
Coordination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .223
Le projet de mise en uvre du PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . .224
Maintenance du PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .224
Un processus difficile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .225
Veille des changements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .225

XII
Table des matires

Politique de test ncessaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226


Prise en compte des conclusions daudits . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Gestion des changements du plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

Chapitre 13 Le systme de contrle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233


Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Dfinir une structure de rfrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Dterminer les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Dcliner les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
valuer le plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
Tirer les conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
Recommencer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238

Annexe 1 Normes et bonnes pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239


Les normes internationales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
Normes de type bonnes pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
Travaux de lISO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
La situation en France . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
Travaux de lAFNOR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
Le Club de la Continuit dActivit (CCA) . . . . . . . . . . . . . . . . . . . . . . . . . . 243
Le forum tripartite ou Joint Forum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
Les approches connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
ITIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
Mehari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
NFPA 1600 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244

Annexe 2 Sources dinformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245


Organismes francophones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
Organismes anglophones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

XIII
Avant-propos
Un grand nombre dentreprises ne survivraient pas une interruption de leur
systme dinformation pendant seulement trois jours. lheure o le principe de
prcaution prvaut, alors que les mesures de scurit ont pour objectif de prve-
nir contre des menaces ventuelles, des approches nouvelles, organisationnel-
les et techniques, se sont dveloppes pour faire face aux consquences des
sinistres sur lactivit de lentreprise.
Le management de la continuit dactivit permet ainsi de rendre lentreprise
plus rsiliente dans un monde de risques. Autrefois limite la gestion de
crise ou considre comme une sous-partie de la gestion des risques ou de la
scurit, cette approche commence simposer comme une discipline part
entire.
Or, les observateurs de lentreprise saccordent considrer que la continuit
dactivit na pas actuellement en France lattention quelle mrite de la part des
directions gnrales. En effet, lanalyse des risques reste trs limite, limpact
des sinistres potentiels nest pas suffisamment tudi et les processus les plus
critiques de lentreprise ne sont que rarement identifis. En labsence de ces
considrations, toute atteinte lintgrit des moyens vitaux de lentreprise est
souvent chrement paye, voire insurmontable pour la plupart des entreprises,
qui ny sont pas prpares.
Certes, quelques plans de reprise de lactivit existent ici ou l et lon peut louer
les pionniers qui sy consacrent. Malheureusement, il sagit le plus souvent de
scnarios trop simples, centrs sur les moyens et auxquels fait dfaut une vision
densemble de la continuit. En outre, les directions de la production informati-
que ont tendance mettre en place des solutions ambitieuses qui, en labsence
dune perspective sur les services utilisateurs, laissent des lacunes importantes.
Les investissements consentis en informatique peuvent ainsi apparatre comme
disproportionns si lon considre la faiblesse de certains maillons organisa-
tionnels.
Confiance exagre dans la technologie, dfiance dsabuse pour les dispositifs
dorganisation, le vcu de la continuit dactivit en France reste largement insa-
tisfaisant. Une prise de conscience des apports rels du management de la con-
tinuit dactivit simpose : cest lobjectif de cet ouvrage, qui aborde les aspects
mthodologiques aussi bien que la mise en uvre concrte en sappuyant sur
des exemples et situations vcues difiantes.

1
Management de la continuit dactivit

qui sadresse cet ouvrage ?


Cet ouvrage intresse tout professionnel concern par la continuit dactivit :
les directions gnrales y dcouvriront comment structurer leur approche, les
responsables du plan de continuit y trouveront un cadre de travail avec des
recommandations, tandis que les directeurs mtier y gagneront une ide plus
claire de leurs responsabilits et de leur rle en matire de continuit. Quant
aux spcialistes techniques, ce livre leur fournit nombre dindications et de
recommandations leur permettant de mettre en uvre la continuit au niveau
technique.
Structure de louvrage
Afin de ne ngliger aucun aspect stratgique, organisationnel ou technique, cet
ouvrage se prsente en quatre volets, qui guideront pas pas les diffrents
acteurs et responsables vers une gestion efficace de la continuit dactivit en
entreprise.
La premire partie est consacre un sujet essentiel souvent nglig dans les
tudes de continuit : le risque. Comment en prendre conscience et dtermi-
ner les faiblesses de lentreprise ? Et surtout, comment limiter, dune part
lexposition au risque et dautre part les consquences encourues ?
Partant dune approche plus traditionnelle quoique rnove, la deuxime par-
tie dcrit comment construire les quipes et attribuer les missions pour obte-
nir un plan de reprise efficace et comment organiser les tests et exercices
pour quil le reste. Des canevas prcis de plannings et de campagnes de tests
rutilisables y sont fournis.
En troisime partie est propos un tour dhorizon technologique et informati-
que qui dcrit les diffrents mcanismes en jeu, en relativisant leur apport et
en insistant sur les moyens montrant le meilleur retour sur investissement.
Enfin, aprs lanalyse, llaboration du plan et ltude des moyens techniques
disponibles, la quatrime partie traite des aspects essentiels de gouvernance
supervisant la mise en uvre de la continuit, travers la prise de conscience
ncessaire, les dcisions de politique et le contrle indispensable mettre en
place.

Remerciements

Je remercie mes collgues du Duquesne Group et tout particulirement Ren


Dugu et Donald Callahan, qui mont pouss consacrer le temps ncessaire
cet ouvrage. Je tiens aussi dcerner une mention spciale Denis Goulet,
Qubcois dans un monde anglophone et prcurseur du management de la con-
tinuit dactivit en franais, ainsi qu Michel Grosbost, animateur dinitiatives
du plus grand intrt au sein du Club de la Continuit dActivit.

2
PARTIE I
Lentreprise
dans un monde
de risques
Lentreprise est expose des menaces qui ne deviennent un risque que lorsque
ses processus sont viss. Pour autant, avoir une vision claire de linterfrence
entre les menaces et les processus critiques de lentreprise ne va pas de soi.
Pour avancer, toute organisation doit donc mener des actions visant prendre
conscience de son environnement et comprendre son propre fonctionnement.
Ce nest qu cette condition quelle aura en main les paramtres lui permettant
de matriser sa continuit.
Cette dmarche complexe, permettant dagir en pleine connaissance de cause,
est ncessaire pour aborder concrtement la continuit dactivit. Elle est pr-
sente tout au long des trois premiers chapitres :
Le chapitre 1 regroupe, sous la notion de matrise du risque , la fois la
dmarche dapprciation des menaces qui psent sur lentreprise et les tacti-
ques permettant de les viter ou de sen protger.
Le chapitre 2 est consacr ce que lon appelle lanalyse dimpact sur les
activits qui, en dtaillant les diffrentes activits de lentreprise, cherche
dterminer celles dont la perte est le plus dommageable lentreprise.
Le chapitre 3, partant des constats des chapitres prcdents, permet de dve-
lopper une stratgie de continuit en slectionnant, parmi les diffrentes
options, les actions mener pour amliorer la rsilience de lentreprise.
Ces trois chapitres sont structurs de telle manire que le lecteur pourra sans
peine suivre dans lordre la procdure propose pour mener sa propre tude de
continuit dans lentreprise. Ils peuvent ainsi quasi servir de squelette llabo-
ration de la premire partie dun plan de continuit.
Chapitre 1

La matrise du risque

Pour assurer sa continuit, lentreprise doit savoir quelles menaces dinterrup-


tion de ses activits elle est expose. Lanalyse des risques lui permettra de chif-
frer les valuations des pertes et les probabilits doccurrence des sinistres.
Ainsi, connaissant mieux le champ des risques encourus, lentreprise pourra
tudier les options permettant den rduire les effets. Ce nest qualors quelle
sera en situation de dcider quelles actions raliser pour matriser le risque.

Apprciation des risques

Il est tentant de se prmunir globalement contre les coups durs , sans analy-
ser ce qui pourrait se passer rellement. Cette approche est dailleurs la plus
naturellement suivie. Elle prsente cependant plusieurs inconvnients :
Lentreprise est prpare faire face un vnement qui a en fait peu de
chance de se produire, alors quelle a nglig des menaces qui, elles, sont
bien plus probables.
Labsence de connaissance prcise des menaces peut rendre les plans de
reprise irralistes car ne tenant pas compte de lensemble de la situation
cre par le sinistre, qui a t trop caricatur dans les tudes.
Les tests raliss pour les plans de reprise, par exemple, sont facilits par le
fait que certains aspects du risque ne sont pas pris en compte. Lentreprise
acquiert alors une confiance exagre dans ses capacits de reprise. Or, si la
dmarche de simplification suivie au cours des tests peut tre intressante,
elle ne doit pas seffectuer sans avoir t volontairement dcide.
Il devient donc ncessaire de passer en revue un certain nombre de menaces et
dtudier leurs consquences possibles sur lactivit de lentreprise. Cest la
combinaison de ces menaces et de leurs consquences nfastes probables que
lon appelle un risque.

5
Management de la continuit dactivit

Identication des menaces


Sont considres comme des menaces toutes les situations qui peuvent surve-
nir ayant pour consquence une dtrioration des moyens utiliss pour mener
bien lactivit de lentreprise.
Vocabulaire : emploi du terme moyens
Dans cet ouvrage, le terme moyens est employ dans un sens trs gnrique. Il recou-
vre aussi bien les moyens techniques (machines, pices, etc.) que les services (eau, gaz,
lectricit) ou les locaux (btiments de bureaux ou industriels). Le terme peut aussi
inclure les ressources humaines, mme si ces dernires possdent une valeur incompara-
ble aux autres.

Lanalyse des menaces est un sujet complexe qui ne se prte pas une modli-
sation aise. Toute modlisation suppose en effet une simplification qui peut se
rvler prjudiciable lexhaustivit de la dmarche. Il faut donc garder
lesprit, en cas de simplification, quune approche complmentaire plus appro-
fondie est souhaitable. Par consquent, il est recommand de mener au moins
deux approches diffrentes.
En outre, une approche trop formelle et inutilement thorique peut elle aussi se
rvler inefficace. Mieux vaut ne pas perdre lobjectif de vue : il sagit de savoir
quoi lon sexpose et comment on y fera face. Il est donc primordial de rester
pragmatique.
Il peut arriver quune entreprise ne souhaite pas aborder certains risques dans le
champ dune tude. Quelles quen soient les raisons (politiques, souci de confi-
dentialit, etc.), il est souhaitable de le mentionner lors du cadrage de ltude
du risque (voir le document page 30).

Caractristiques des menaces


Toute menace comporte trois caractristiques principales qui mritent latten-
tion :
1. Elle a des consquences considres comme nuisibles lactivit. Ces
consquences peuvent tre de gravit variable. Un incendie, par exemple,
peut endommager lensemble dun site informatique ou, au contraire, tre
circonscrit aux poubelles de la cantine. On voit bien ici que le mme vne-
ment menaant incendie peut avoir diffrentes consquences.
2. Elle possde une probabilit doccurrence. Cette probabilit est consid-
re comme suffisamment forte pour que lon ait sen soucier. Quantifier les
probabilits doccurrence est un art difficile dans bien des cas, mais il est au
moins possible de dterminer ce qui est plus probable par rapport ce qui
lest moins, en raisonnant uniquement par valeur relative.
3. Elle a une origine, soit humaine, soit technique, soit naturelle. Cette carac-
tristique est importante, car elle influencera les moyens mis en uvre en
prvention. Il est galement possible de limiter lanalyse du risque une

6
Chapitre 1 La matrise du risque

seule de ces origines (par exemple : technique et informatique). Il sagit alors


dune dcision de cadrage porter au dossier (voir le document page 30).
En premire analyse, il est donc possible dtablir une liste des menaces et de
leurs consquences. Le tableau suivant en donne un exemple.

Tableau 1-1 : Exemples de menaces en premire analyse

Menaces Consquences
Crue du euve Site inond
Panne lectrique Serveurs non aliments
Tempte de neige Personnel absent

Rappel : risque
La combinaison dune menace et dune consquence est appele un risque.

Diversit des risques


Pour un vnement dont les consquences peuvent tre trs diverses, on pourra
tre amen procder un dcoupage. En effet, les consquences pouvant tre
plus ou moins graves en ralit, cela permet une meilleure analyse. En outre,
cela peut permettre de mieux cerner les probabilits doccurrence des risques
ainsi mis en vidence.
Exemple 1 : inondation
Considrons la menace crue du fleuve , sur un site informatique proche dun
fleuve.
Il se trouve, dans ce cas particulier, que trois types dinondations sont suscepti-
bles de se produire, avec des consquences trs variables sur le site lui-mme.
1. Une inondation ayant lieu tous les dix ans en moyenne, qui empche la cir-
culation sur laccs principal au site : il faut alors arriver par un accs secon-
daire, qui ne permet pas les livraisons par poids lourds.
2. Une inondation survenant tous les trente ans qui, en plus des consquences
cites dans le paragraphe prcdent, rend impraticable le rez-de-chausse
du btiment, o leau monte vingt centimtres : la limite de vingt centim-
tres est choisie volontairement, car au-del, le site ne peut plus tre mis sous
protection.
3. Des inondations plus graves (mais aussi plus rares), o leau monte au-del
des vingt centimtres : parmi celles-ci, une inondation dite centenaire est
grave dans les mmoires (et sur les murs), bien quon ne lait plus observe
depuis 1906 ; elle envahirait tout le rez-de-chausse, jusqu deux mtres de
haut.

7
Management de la continuit dactivit

Cet exemple montre bien que les situations dcrites ont diffrentes probabilits
doccurrence et des consquences de gravit variable. Ces consquences tant
diffrentes, les ractions face elles le sont aussi.
1. Dans le premier cas, les livraisons par poids lourds sont interrompues : cela
peut reprsenter une gne pour certains lments et lon pourra tre amen
revoir certains stocks en consquence.
2. Lorsquil y a moins de vingt centimtres deau, on doit alors procder diver-
ses interventions disolement. La perturbation sur le site est plus impor-
tante.
3. Au-del de vingt centimtres deau, le site est globalement sinistr. Mme si
lon peut faire des distinctions entre des crues dimportance variables, pour
ce site, seule la limite des vingt centimtres compte en termes pratiques. Il
ne sert rien dtudier des crues cinquante centimtres, un mtre, etc.
La menace inondation peut alors tre dcoupe en trois pour tre consid-
re comme trois risques diffrents, chacun tant la combinaison de probabilits
et de consquences diffrentes. On ne traitera donc pas linondation comme un
seul vnement, dot de consquences moyennes et dune probabilit doccur-
rence moyenne unique.
Notons aussi quon a, dans cet exemple, pris en compte la ralit des choses, et
quun autre site situ lgrement plus haut, ou ne disposant que dun seul
accs, face la mme menace ne prsenterait pas les mmes risques. Lvalua-
tion du risque doit donc tenir compte du contexte.
Pour synthtiser, la menace inondation devient alors :

Tableau 1-2 : Menace inondation analyse

Menaces Consquences
Inondation de type 1 Site pargn, mais accs poids lourds impossible
Inondation de type 2 20 cm deau au rez-de-chausse
Inondation de type 3 > 20 cm deau, dgts inacceptables

Un vnement qui peut se produire de manire gradue (hauteur de la crue du


fleuve, par exemple), avec des frquences relativement connues, se prte plutt
bien ce genre de dcoupage. Celui-ci permet, par ailleurs, une riposte adapte
chaque type de risque, do son intrt.
Exemple 2 : panne dlectricit
Un exemple similaire est fourni par la panne de courant qui, l encore, peut
avoir des consquences variables, en particulier en fonction de sa dure.
1. Panne de moins de cinq minutes : les serveurs critiques du systme informa-
tique sont pris en charge par les onduleurs sans interruption.

8
Chapitre 1 La matrise du risque

2. Panne de plus de cinq minutes et de moins dune heure : les onduleurs ont
t relays par un gnrateur Diesel qui a t dmarr cette occasion.
3. Panne de plus dune heure : le gnrateur arrive en fin dautonomie (plus de
fioul) et les serveurs critiques doivent tre arrts de faon correcte.
Sur ce site et avec les matriels employs, on a alors le schma suivant :

Tableau 1-3 : Menace panne dlectricit analyse

Menaces Consquences
Panne lectrique 5 min Passage sur onduleur des serveurs critiques
Panne lectrique < 1 h Onduleur, puis passage sur gnrateur Diesel
Panne lectrique > 1 h Idem, puis arrt propre des serveurs au bout de 2 h

La limite une heure est choisie en fonction des matriels et des diverses rser-
ves en place (capacit des batteries, quantit de fioul, etc.). Dans un autre con-
texte, cette limite aurait pu tre tout autre.
La notion de catastrophe
linverse de ce qui prcde, un vnement violent et rare, aux consquences
quasi imprvisibles, ne se prtera pas une analyse fine. On peut alors prfrer
envisager un risque global de perte totale comme hypothse de travail. Un
exemple type en est la chute davion sur un site proximit dun aroport. On
utilise dailleurs dans ces cas l le mot catastrophe , qui indique bien que la
situation nest pas du mme ordre de grandeur.
Ici apparat bien la difficult du raisonnement par les risques et la ncessit
danalyser les menaces en les dcoupant. En effet, un vnement trs violent et
trs rare peut prsenter le mme risque quun vnement consquences
moyennes se prsentant assez souvent : sa probabilit est cent fois plus faible,
mais ses consquences cent fois plus fortes. Le produit des deux est donc qui-
valent. Cela entrera en jeu dans le raisonnement lors du chiffrage du risque.

Pourquoi dcomposer ?
Une menace globale fait donc lobjet dune dcomposition en sous-
menaces , plus faciles cerner ou liminer, et faisant lobjet de risques dis-
tinctement perus.
Les critres suivants peuvent tre retenus pour mener la dmarche de dcou-
page.
Si la menace a des consquences multiples et alatoires, il faut la dcompo-
ser en autant de risques que de consquences possibles.
Si la menace est trop vague, il convient de la dcomposer en couples mena-
ces/consquences, plus faciles cerner.

9
Management de la continuit dactivit

Si la menace possde des sources ou causes de natures diffrentes (humaine


et naturelle, par exemple), il convient de faire la sparation selon ces causes,
car la raction peut tre diffrente.
Si la dcomposition napporte aucune prcision ou concerne des vnements
ayant des probabilits de valeur proches, il ne sert rien de dcomposer
davantage.
Si la dcomposition permet de distinguer des vnements dont on possde
des probabilits doccurrences, il faut alors dcomposer sans hsiter.
Si la dcomposition permet disoler un risque que lon limine volontaire-
ment (par exemple, les risques dorigine humaine), il peut tre intressant de
dcomposer.
Si la dcomposition permet de faire la distinction entre des situations accep-
tables ou grables et dautres qui ne le sont pas, il faut le faire pour isoler ces
situations.
Ds lors, toute modification des paramtres qui ont abouti la dcomposition
est suivre avec attention. Le risque ou le paysage du risque sen trouve
modifi. Pour une mme menace, les consquences elles-mmes peuvent chan-
ger. Reprenons les deux exemples mentionns plus haut pour illustrer ce pro-
pos.
1. Inondation : des travaux raliss par le dpartement et la commune font que
le site nest plus atteint par les crues qui, autrefois, auraient ncessit une
intervention (crues de vingt centimtres).
2. Panne dlectricit : les serveurs informatiques sont toujours plus nom-
breux et consomment plus quautrefois, alors que la capacit des onduleurs
na pas volu. Il faut dsormais compter sur seulement trente minutes
dautonomie (et non plus une heure).
Ces exemples montrent quune analyse de risque doit tre revue rgulirement,
entre autres pour sassurer que les hypothses existantes sont toujours justes,
et pour prendre en compte de nouvelles hypothses.

Sources des menaces


Dans une approche globale du risque, il est intressant dtudier les sources des
menaces, en les classant selon les trois domaines : technique, humain et natu-
rel.
La source ou lorigine technique concerne toute menace qui provient dun
mauvais fonctionnement dun matriel ou dune partie dun matriel. On
classe dans cette catgorie les pannes de machines, lusure de pices ou
matriaux provoquant des ruptures, des croulements, etc., mais aussi les
bogues logiciels qui peuvent bloquer des quipements. Cette source de
menace est en gnral facilement tudie.
La source dite humaine est invoque lorsque lorigine de la menace est une
volont ou une erreur humaine. On trouve dans cette catgorie lerreur pure

10
Chapitre 1 La matrise du risque

et simple, mais aussi la grve, le dsir de nuire, le sabotage, le terrorisme. Il


est courant que certaines situations soient exclues de ltude ou traites
sparment, pour des raisons de confidentialit. En revanche, on insistera sur
les aspects concernant lerreur humaine, en concevant des systmes qui limi-
tent les situations pouvant conduire une erreur.
Enfin, la source dite naturelle concerne les dsordres climatiques (intemp-
ries, foudre, tornade, scheresse, tempte de glace, etc.), les accidents golo-
giques (tremblements de terre, volcans, tsunamis, affaissements), hydrauliques
(inondations, torrents de boue, avalanches) ou autres (mtorite). Les pi-
dmies et autres pandmies, bien que lies lhomme, sont souvent classes
dans cette catgorie car elles ne dcoulent pas dune volont humaine.
Ces origines peuvent se combiner ou se succder. Par exemple, la canicule peut
provoquer lerreur humaine, qui pourra conduire une dfaillance matrielle.
Le tableau suivant donne un exemple de liste de menaces.

Tableau 1-4 : Menaces classes selon leur source

Technique Humaine Naturelle


Panne lectrique Grve Tremblement de terre
Panne de disque dur Hacker Tempte
Panne de contrleur rseau Maladie Inondation
Panne de climatisation Erreur de manipulation Foudre
Chute davion Accident du travail pidmie
Fuite deau Malveillance ruption volcanique

Cette classification se rvle intressante pour la suite de lanalyse. En effet, les


options de parade tudies plus loin seront trs diffrentes en fonction des
sources potentielles de menace.
Le 11 septembre 2001, les attentats sur les tours jumelles de New-York ont inau-
gur la cause humaine pour une chute davion. Cet exemple tragique laisse
apparatre que lon ne traite pas de la mme manire la source technique (un
avion est techniquement suffisamment fiable) et la source humaine (empcher
la prise en main des commandes par des terroristes).
De plus, les catastrophes naturelles tant pour la plupart communes une
rgion gographique, les stratgies de secours doivent en tenir compte (voir les
chapitres 3 et 10) pour que lexposition au risque ne soit pas la mme sur le site
principal et le site de secours, par exemple.
Enfin, en termes de documentation de ltude et de traabilit des choix, il est
intressant de noter toutes les options ou hypothses, mme si lon dcide par

11
Management de la continuit dactivit

la suite de mettre de ct certaines sources ou menaces pour quelque raison


que ce soit.

Menaces retenues pour analyse


Dans chacune des trois catgories, des vnements menaants peuvent tre dis-
tingus, en tenant compte de la ralit technique, humaine et du terrain. Parmi
ces vnements, un certain nombre est retenu pour analyse, les autres laisss
de ct comme non pertinents.
Le tableau suivant donne un exemple.

Tableau 1-5 : vnements menaants retenus pour un site

Source vnement menaant


Fuite deau Monte des eaux en salle machine
Grve Entre impossible dans les bureaux
Erreur humaine Pelleteuse sectionnant les cbles du rseau
Tremblement de terre Btiments fragiliss et partiellement en ruine
Malveillance Accs des donnes condentielles
Hackers Paralysie dun site web

Une telle analyse sappuie sur les caractristiques de lexistant et sur les vne-
ments ventuellement constats dans lentreprise, la rgion, le pays ou le sec-
teur dactivit.

Consquences sur les actifs de la socit


On entre l dans le vif du sujet : analyser les consquences des vnements
menaants sur les actifs de la socit.
Le mot actif est pris au sens le plus large : il dsigne ici tout ce qui concourt
la bonne marche de lentreprise. Une classification des actifs pouvant se rv-
ler utile, distinguons par exemple :
les ressources humaines personnel, comptences particulires, savoir-
faire humains, titulaires de droits daccs spciaux aux logiciels, etc. ;
les ressources intangibles fichiers, bases de donnes (informatiques ou
non), informations confidentielles ou secrtes, procdures, mais aussi
limage de la socit sur son march, sa bonne rputation, etc. ;
les biens tangibles locaux, machines, logistique, serveurs et postes de tra-
vail, tlphonie, rseau, etc.
Cette classification est importante, car elle permet de ne rien ngliger. Une
atteinte limage de la socit peut en effet savrer financirement plus grave
que la perte de trois serveurs informatiques suite un incendie

12
Chapitre 1 La matrise du risque

Une attention particulire sera porte par ailleurs aux matriaux risques
(explosifs, produits hautement inflammables, gaz toxiques, etc.) qui, de par leur
nature, reprsentent un risque intrinsque. En gnral, ces aspects sont traits
dans des approches de type scurit , ayant produit des documents auxquels
il sera utile de se rfrer.
Plusieurs sources existent dans lentreprise pour recenser les biens tangibles :
les fichiers des tats damortissement, lorsquil y a lieu ;
les fichiers tenus ou dtenus par les gestionnaires desdits biens (dans le ser-
vice informatique, par exemple) ;
les donnes des bases de gestion des configurations CMDB (Configuration
Management Database) dans les services informatiques qui en grent ;
les donnes gres par les responsables dactifs (asset managers, en anglais) ou
propritaires dactifs (asset owners), pour les socits qui ont mis en place ces
concepts.
Il est cependant clair que ces listes et inventaires des actifs ne donneront hlas
pas tous le mme rsultat. Quoiquil en soit, il faut raisonner partir de groupes
logiques dlments concourant ensemble la bonne ralisation des processus
de lentreprise. L encore, il faut centrer lanalyse sur la ralit des faits et les
caractristiques locales. Le tableau suivant donne un exemple.

Tableau 1-6 : Menaces sur les actifs et consquences

vnement
Source Actif critique Consquences
menaant
Monte des eaux en Matriel Arrt des matriels
Fuite deau
salle machine informatique informatiques
Routes Ressources Comptences
Tempte de neige
impraticables humaines absentes
Pelleteuse Rseau IT Rseau coup
Erreur humaine sectionnant des
cbles Centre IT lectricit coupe

Donnes
Donnes
condentielles
Accs frauduleux au condentielles
Hackers copies
web
Image ternie sur le
Image de la socit
march

Arriv ce stade, on possde donc une liste des effets nocifs des principales
menaces portant sur les principaux actifs de la socit. Il sagit maintenant de
chiffrer ces effets nocifs. Une telle valorisation se rvle indispensable pour ta-
blir des comparaisons et attribuer des priorits.

13
Management de la continuit dactivit

Chaque fois que cela est possible, on cherchera faire des estimations quantita-
tives de pertes, en euros. Dans les autres cas, on pourra recourir des estima-
tions qualitatives.

Valorisation quantitative des pertes


Il sagit de rpondre la question suivante : si tel vnement se produit sur les
actifs considrs, combien perd la socit ? Lestimation est tablie pour une
occurrence de sinistre, la perte se chiffrant en euros. Il faut faire preuve de bon
sens et accepter dentrer dans des raisonnements la louche , qui seront affi-
ns plus tard.
Lune des approches possibles consiste mettre en rapport la valeur totale avec
le taux dexposition, comme dans lexemple suivant.
Exemple pour un site informatique
Un site informatique est valoris 48 millions deuros, le matriel informatique qui sy
trouve tant valu 8 millions deuros.
Une chute davion qui, par hypothse, dtruit tout provoquera une perte de
48 + 8 = 56 millions deuros.
Une inondation du rez-de-chausse, o se trouve le matriel informatique, pourra tre
estime 1/100 de 48 millions pour les locaux (limmeuble ayant dix tages, et en esti-
mant le cot des dgts 1/10 de la valeur de ltage rez-de-chausse , donc 1/100
dexposition in fine) et 8 millions pour linformatique (car lensemble de linformatique se
trouve cet tage), soit 8,48 millions deuros.
La mme inondation, sur un site o linformatique est situe dans les tages, pourra
tre value 1/100 du total, soit 0,56 millions deuros (mme raisonnement que prc-
demment sur limmeuble, et en considrant que linformatique subit tout de mme, elle
aussi, un sinistre de 1/100).
Une fois encore, lexemple montre quil faut distinguer les sinistres en fonction
de leurs consquences sur les actifs.
On voit aussi quil faut btir un scnario de pertes cohrent. Il nest pas question
bien sr de la perte relle qui, elle, est inaccessible lanalyse, mais dune perte
potentielle raisonnablement value. Les hypothses tablies (par exemple, la
valeur du btiment) doivent tre les mmes pour les diffrents scnarios tu-
dis. Si les hypothses de dpart changent (par exemple, si le btiment vaut
plus cher), toutes les valuations qui en dcoulent sont revoir.
Remarquons que nous procdons ici une valuation des pertes dans le cas o
la menace se ralise, en dehors de toute considration sur la probabilit de
cette menace.
On obtient ainsi une valeur moyenne pour perte unique ou SLE (Single Loss
Expectancy).

Valorisation qualitative des impacts


Pour tous les cas o il est dlicat de chiffrer les pertes en euros (par exemple,
dans le cas des pertes de vies humaines), on pourra procder des raisonne-

14
Chapitre 1 La matrise du risque

ments qualitatifs, consistant valuer le degr dimpact dune des faons


suivantes :
qualifier limpact de faible , moyen ou fort , ce qui a lintrt de don-
ner assez rapidement une image de limpact en revanche, ces valuations
sont plus difficiles manipuler lorsquil faut faire des calculs. La multiplica-
tion par des probabilits peut poser problme ou amener une gymnastique
mentale peu courante !
valuer le degr dimpact par des chiffres (1, 2, 3, par exemple) ou sur une
chelle allant de 1 10, voire de 1 100 : le calcul est plus ais, mais dans cer-
taines situations, la tendance est alors de tout niveler dans une moyenne peu
discriminante ;
procder une notation en quivalents non linaires telle que : faible = 1,
moyen = 10 et fort = 100, cest--dire, dans ce cas, en puissances de 10 ; elle
prsente lintrt de bien distinguer les situations, le risque tant, linverse,
dtre trop caricatural.
Exemple : perte de donnes informatiques
Pour chiffrer une perte de donnes informatiques, on pourra par exemple raliser lva-
luation suivante :
perte de donnes rcuprables : impact = 1 ;
perte de donnes clients non rcuprables par les systmes informatiques :
impact = 10 ;
perte non rcuprable et divulgation dinformations condentielles : impact = 100.
Ces deux types de valorisation peuvent tout fait tre mens en parallle, afin
de comparer les impacts et les pertes. On obtient ainsi une valeur moyenne
pour impact unique ou SIE (Single Impact Expectancy).
Chiffrage des probabilits annuelles
Il sagit de calculer ou de dterminer la probabilit que lvnement considr
se produise dans une anne (ART, pour Annualized Rate of Threat occurrence). Cest
un exercice la plupart du temps difficile, car procdant par approximations suc-
cessives, en commenant par des ordres de grandeurs avant daffiner lanalyse.
Une pratique consiste prendre les inverses des dures moyennes constates
entre deux sinistres : si un vnement se produit en moyenne tous les n annes,
on lui donnera une probabilit annuelle doccurrence (ou ART) de 1/n. Il existe
un fondement mathmatique derrire ce calcul, mais cela sort du champ de cet
ouvrage. Pour des sinistres nayant jamais eu lieu, cest plus difficile : on peut
considrer la dure sans sinistre dans ce cas et prendre son inverse.
Pour du matriel, la probabilit doccurrence dune panne correspond, en arron-
dissant, linverse de la moyenne des temps de bon fonctionnement ou
MTBF, exprime en annes (voir le chapitre 7). Par exemple, pour un disque dur
ayant une MTBF de 400 000 heures (soit 45,66 ans), on aura une ART de 2,2 %.
Corollaire de ce calcul, si lon dispose de cent disques de ce type au centre infor-

15
Management de la continuit dactivit

matique, on constatera en moyenne deux pannes par an (100 2,2 %). Ce cons-
tat ouvre dailleurs une voie pour le chiffrage des ART.
Pour dautres vnements, on raisonne plutt par des estimations couramment
partages, telles que :
La chute davion proximit dun aroport aura une ART de 1/30 (proximit
voulant dire moins dun mile). On pourra aussi considrer quun site situ
deux fois la distance possde une ART quatre fois moindre (22). On pourra
aussi prendre en compte le fait que lon se situe ou non sous une voie de pas-
sage arien.
Linondation centenaire aura une ART de 1/100.
La panne de courant due au prestataire fournissant llectricit pourra tre
chiffre avec des ART de lordre de 1/4 pour des pannes de cinq minutes ou
1/7 pour une panne dune heure, par exemple, en fonction des lieux et de ce
que lon a dj constat.
Lannexe 2 fournit quelques rfrences de sources de chiffres. La figure 1-1
donne un exemple de suivi des crues de la Loire.

www.vigicrues.ecologie.gouv.fr

Crues de rfrence - Station Blois


crue de dcembre 2003 - 3.78 m
crue de janvier 1982 - 4.1 m
crue d'octobre 1907 - 5.63 m

Figure 1-1 : Les crues de la Loire constates Blois

16
Chapitre 1 La matrise du risque

En outre, il est possible de raisonner par intervalles de temps, savoir si lv-


nement se produit une fois tous les dix ans ou une fois tous les cinquante ans.
On en dduira les ART (cest--dire les inverses : 1/10, 1/50, etc.).
Des calculs plus fins et plus approfondis peuvent aussi tre raliss partir de
mthodes danalyse des dfaillances telles que les arbres de dfaillance ou les
chanes de Markov. On se reportera pour cela aux ouvrages spcialiss.
Calcul du risque
Une fois que lon a collect les chiffres prcdents, on peut alors calculer ce qui suit :
la moyenne des pertes annuelles attendues, de manire quantitative ;
la moyenne des impacts annuels, estims de manire qualitative.
Ces chiffres sont aussi appels risques ou niveaux de risque dans le lan-
gage courant.

Moyenne des pertes annuelles (ALE)


La moyenne des pertes annualises (ALE pour Annualized Loss Expectancy) corres-
pond au risque moyen annuel. Elle est calcule partir de la valorisation quan-
titative des pertes (SLE ou Single Loss Expectancy), multiplie par la probabilit
doccurrence annuelle dune menace (ART) :
ALE = ART SLE

Tableau 1-7 : Calcul de lALE pour les exemples prcdents

vnement
Source Consquences SLE ART ALE
menaant
En m
Locaux (site 1) et
8,48 0,033 0,28
Eau au rez-de- informatique inonds
Inondation
chausse Locaux seuls inonds
0,56 0,033 0,02
(site 2)
Aroport Chute davion Locaux dtruits 56 0,025 1,40
En k
Passage sur onduleur :
Coupure : 5 min 0 0,25 0,00
aucune consquence
Alimentation
Arrt de 50 serveurs :
lectrique Coupure : 1 h 2,86 0,14 0,41
2 heures
Coupure : 1 jour Arrt gnral : 1,5 jours 7 500 0,05 375,00

On remarque que les vnements tudis aboutissent des risques trs dissem-
blables et se situant dans des ordres de grandeurs diffrents (de 410 euros
1,4 millions deuros). Cela permet souvent de relativiser les approximations faites.

17
Management de la continuit dactivit

Sans aller plus loin, on peut dores et dj dterminer les risques contre les-
quels on souhaite agir. Les risques qui ressortent du calcul comme tant faibles
ont dailleurs trs souvent dj t lobjet dun effort particulier pour quil en
soit ainsi.

Moyenne des impacts annuels (AIE)


Pour les cas o les valuations ne se font pas en euros, la moyenne des impacts
annualiss (Annualized Impact Expectancy ou AIE) est calcule partir de la valori-
sation qualitative de ces impacts (SIE ou Single Impact Expectancy), multiplie par
la probabilit doccurrence annuelle dune menace (ART), elle-mme value sur
une chelle :
AIE = ART SIE

Tableau 1-8 : Exemples de calcul de lAIE

vnement
Source Consquences SIE ART AIE
menaant
chec d une
Personne ne peut
monte de 4 2 8
travailler
Informatique version mal faite
Panne de Les personnes cls ne
3 1 3
serveurs vitaux peuvent plus travailler
Routeur 1/3 du personnel ne
Rseau 2 4 8
dfectueux peut plus travailler
Notes de 0 (faible) 5 (fort)

Dans ces exemples, les impacts et les probabilits ont t hirarchiss avec une
chelle et des estimations ralises par des responsables. Dans le cas prsent,
on leur a demand dvaluer les consquences et les probabilits sur une plage
de 0 (faible) 5 (maximum). Ce type dapproche est aussi intressant, dans le
sens o les avis des valuateurs pouvant diverger, cette diffrence en soi peut
fournir des informations instructives.
Lorsque lon mne des valuations avec des chelles, il est galement possible
de recourir une grille de cotation, comme dans le tableau qui suit :
Laxe horizontal indique la dure moyenne (en annes) entre deux occurren-
ces de sinistres ( partir de tous les cinquante ans, jusqu tous les ans :
numrotation de 50 1).
Laxe vertical indique la gravit de limpact du sinistre (gradue de I V, par
exemple).

18
Chapitre 1 La matrise du risque

Tableau 1-9 : Grille dacceptation des impacts en fonction de leur frquence

50 15 10 4 1
V
IV
III
II
I

La signification des niveaux de gris est la suivante :


blanc : acceptable ;
gris clair : acceptable sous conditions (par exemple, sil existe une alternative
en mode dgrad) ;
gris fonc : inacceptable.
Tel vnement dimpact de niveau III sera ainsi acceptable sil se produit tous les
quinze ans ou moins souvent.
La zone moyenne (gris clair) signifie quil faut mener diverses actions dans le but
de se retrouver dans la zone acceptable (blanc). Celles-ci viseront soit dimi-
nuer les consquences, soit limiter la frquence dapparition des menaces.
Analyse contraste par entits
Dans certains cas, il est intressant de mener lanalyse dcrite dans les paragra-
phes prcdents en la dtaillant, lorsque cela est pertinent, par entits de
lentreprise.
Considrons une entreprise ayant trois dpartements sensibles :
1. un laboratoire de recherche ;
2. un service des ventes ;
3. un service de gestion des stocks.
Le service informatique est fournisseur interne de ces trois entits. Ce service
informatique a dtermin six vnements menaants, en tenant compte de son
exprience, et souhaite les analyser sur les annes venir. Il demande donc
chaque dpartement dvaluer la probabilit den tre victime et les consquen-
ces que cela aurait pour lui.
Les valuations sont effectues sur une chelle allant de 1 (faible) 5 (fort), au
moyen dinterviews croises, de manire comparer les dpartements les uns
par rapport aux autres. On obtient alors le tableau suivant.

19
Management de la continuit dactivit

Tableau 1-10 : valuation des risques par les entits

Laboratoire Gestion
1 : faible 5 : fort Ventes
de recherche des stocks
Risque
total

Risque

Risque

Risque
vnement

ART

ART

ART
SIE

SIE

SIE
Consquences
menaant
Passage en Application
production Start 3 2 6 1 1 1 4 3 12 19
bloqu inutilisable
Problme sur Fichiers j-1
1 3 3 4 2 8 5 1 5 16
traitements IT
Connexion au Base de
sige perdue donnes 4 3 12 3 3 9 2 2 4 25
inaccessible
Batch de nuit Fichiers mis en
non termins ligne 1 3 3 4 3 12 5 3 15 30
tardivement
Transferts de Fichiers non
chiers envoys/reus 1 2 2 3 2 6 5 2 10 18
dfectueux
Virus non PC inutilisables
dtect 1 1 1 4 2 8 4 2 8 17
temps
Total 27 44 54 125

Remarques sur le tableau


Passage en production bloqu signie quune nouvelle application na pas pu tre
dmarre correctement ; elle ne fonctionne donc pas.
Start est le nom dune application de gestion de stocks dans cette entreprise.
Fichiers j-1 signie que les chiers sont de la veille et non pas du jour : cela peut cons-
tituer un handicap.
Connexion au sige perdue signie que le rseau permettant de connecter le sige
social linformatique ne fonctionne pas : les gens qui travaillent au sige ne peuvent
donc accder aux bases de donnes.
Les batch de nuit sont des traitements par lots de mise jour de chiers.

Lorsquon regarde les valuations faites dans ce tableau, on constate que :


Du point de vue des dpartements, cest le service de gestion des stocks qui
court le plus de risques (deux fois plus que le laboratoire), avec deux valua-
tions de risques de 12 ou plus (passage en production bloqu et batch de nuit
non termins).

20
Chapitre 1 La matrise du risque

Du point de vue de linformatique, deux vnements sont plus menaants


que les autres, tous dpartements confondus : les batch de nuit non termins
et la connexion au sige perdue.
On ne peut discerner un seul vnement qui soit le plus menaant pour tous
les dpartements.
Trois vnements sont toujours classs dans les deux plus menaants : le
passage en production bloqu, la connexion au sige perdue et les batch de
nuit non finis. Le service informatique voudra par consquent faire baisser les
trois plus gros risques correspondant ces trois vnements et les traitera
donc en priorit.
Le service de gestion des stocks voudra que lon tudie le problme de trans-
fert de fichiers dfectueux, qui pour lui est son handicap numro trois. Si le
service informatique ne peut rien faire pour en rduire la frquence, il peut
rflchir un moyen pour rduire les consquences de ce problme (chiffres
5).
Pour le laboratoire, en revanche, le problme des batch de nuit non termins
est un souci mineur (risque 3 sur 27) alors que cest le souci numro un des
deux autres services.
Il ressort donc de cet exemple que lon peut coupler analyse du risque et estima-
tion des impacts sur les diffrentes activits dans lentreprise. Cette analyse est
importante, car pour un mme vnement, la probabilit quil touche tel ou tel
dpartement de lentreprise est variable. En outre, pour chaque entit touche,
limpact ou la perte peuvent l encore tre diffrents. Cet exemple montre aussi
que les points de vue peuvent diverger selon que lon travaille linformatique
ou dans lun des trois services interrogs.

Autres mthodes danalyse pratiques


Il existe dautres mthodes pour analyser les risques. Certaines font appel un
attirail mathmatique consquent, dautres sont linverse le rsultat dun bon
sens pragmatique. Pour lintrt quelles prsentent, on citera ici la mthode
dite des arbres de dfaillance et la mthode des cercles concentriques.

Les arbres de dfaillance


Cest une approche de haut en bas, employe en conception de systmes tech-
niques, qui permet une modlisation fine sur laquelle des calculs mathmati-
ques sont ralisables. On procde de la manire suivante :
1. On dfinit un vnement indsirable donn (la panne dun systme informa-
tique complet, par exemple).
2. On dcompose cet vnement en sous-vnements relis par des relations
logiques comme et, ou (par exemple : panne du serveur ou panne du stockage).
3. On poursuit cette dcomposition jusqu ce quelle ne soit plus possible ou
utile.

21
Management de la continuit dactivit

4. On obtient ainsi un arbre dont le sommet est lvnement indsirable et


dont les branches sont les constituants lmentaires susceptibles de tomber
en panne.

Panne du systme vnement


indsirable
analyser
et
Portes logiques
Panne serveur 1 Panne serveur 2 vnements
intermdiaires
ou

vnements
disque CPU
de base

Figure 1-2 : Exemple simpli dun arbre de dfaillance

Cette approche est trs intressante, car elle permet de :


comprendre le systme analys ;
mettre en vidence les principaux contributeurs aux pannes ;
calculer des probabilits de pannes ;
dtecter les lments qui, sils tombent en panne, mettent tout le systme en
panne : les points uniques de dfaillance .
Il est alors possible de modifier le systme pour supprimer les points uniques de
dfaillance, par exemple, et faire en sorte quune panne unique ne suffise pas
tout arrter. Dans les systmes les plus sensibles, on limine de mme les pan-
nes doubles ou triples.

Les cercles concentriques


Cette mthode reprsente le sommet du pragmatisme raliste. Trs pratique
outre-Atlantique, elle consiste sasseoir son poste de travail et regarder
autour de soi en considrant plusieurs cercles concentriques du plus loign au
plus proche. Dans chaque cercle, on identifie les risques. Voici une description
en cinq cercles.
Cercle 1 : ce sont les risques externes les plus loigns, qui vont toucher tout
le monde autour de lentreprise (risques naturels, accidents davions, pannes
dlectricit rgionales, etc.).
Cercle 2 : cest la zone o se situent lentreprise, ses locaux, ses bureaux, ses
accs et ses connexions et alimentations en ressources diverses ; les risques
sont lis ces lments.

22
Chapitre 1 La matrise du risque

Cercle 3 : cela se rapproche encore un peu et touche lenvironnement infor-


matique et bureautique de travail. Les risques portent sur les donnes, les
applications, les messageries, etc., et concernent plusieurs dpartements
partageant les mmes ressources.
Cercle 4 : on arrive ici au niveau du dpartement, tout risque pouvant
lempcher de remplir ses diffrentes missions.
Cercle 5 : cest le bureau de lindividu, avec tout ce quil lui faut pour tra-
vailler correctement dans son dpartement chaque jour (moyens, systme
informatique) que se passe-t-il ce niveau en cas de dfaillance ?
Cette mthode prsente le mrite dtre facile dmarrer, de partager ltude
entre les diffrents services de lentreprise (un cercle par service) et ainsi limiter
loubli de certains risques (chaque risque dun cercle devant se traduire dans ses
voisins).
Dans la pratique, on pourra recourir une combinaison de plusieurs de ces
mthodes.

valuation des options face aux risques

Une fois les risques un peu mieux dlimits dans leurs cot, impact et probabi-
lit doccurrence, il est temps dtudier les diffrentes options qui se prsentent
pour y faire face.
Les quatre options de traitement du risque
Quatre options sont alors tudies pour traiter le risque :
1. Accepter le risque : cela consiste ne rien faire face au risque.
2. viter ou supprimer le risque, en sortant des conditions de sa ralisation :
on effectue alors un changement important qui fait que le risque ne sappli-
que plus.
3. Rduire le risque, en jouant sur ses deux paramtres de cot/impact et de
probabilit doccurrence.
4. Transfrer le risque une autre entit par la sous-traitance ou lassurance.

23
Management de la continuit dactivit

Tableau 1-11 : Exemples doptions de traitement du risque

Source Option Catgorie


Dmnager la salle Rduction du risque
ltage
Inondation
Dmnager les locaux en Suppression du risque
altitude
Coupure dlectricit Acqurir des gnrateurs Rduction du risque
Souscrire une police Transfert du risque
dassurance
Crash davion
Rpartir les bureaux sur Rduction du risque
plusieurs sites

Ltude des options doit bien videmment tenir compte, une fois encore, de
lexistant et de ce quil est possible de faire sans trop de difficults.
Dans la ralit, les quatre catgories doptions sont mises contribution simul-
tanment. La souscription dune police dassurance, par exemple, saccompagne
le plus souvent de mesures de rduction du risque un niveau conomique-
ment supportable.

Option 1 : accepter le risque


Cette option consiste accepter le risque tel quil est et ne rien entreprendre
de particulier face lui.
Deux circonstances sont susceptibles damener cette dcision : soit le risque
est considr comme ngligeable, soit toutes les autres options sont estimes
comme trop onreuses.
Vu de lextrieur, accepter le risque peut paratre curieux et passer pour une
dmission face aux difficults. Formalise comme une dcision de management,
cette option prend toute sa force : il ne sagit pas dinsouciance, il sagit dun
choix rflchi, qui doit tre expliqu et document. Il faudra rgulirement vri-
fier que les motifs qui le fondent sont encore valables.
Option 2 : viter le risque
Avec cette option, les circonstances dapparition du risque sont totalement
modifies de manire que le risque nait plus lieu dtre. Par exemple, un site est
dmnag en hauteur par rapport au fleuve, ou loin de tout aroport.
Il convient alors de vrifier que de nouveaux risques napparaissent pas ou que
ceux-ci soient dsormais acceptables.

Option 3 : rduire le risque


Cest loption la plus souvent ralisable, puisquil est en effet possible de jouer
sur deux paramtres :

24
Chapitre 1 La matrise du risque

rduire la probabilit doccurrence : en faisant des travaux de terrasse-


ment, par exemple, on peut retarder la monte des eaux sur le site. Le pro-
blme des inondations et des crues du fleuve reste le mme, mais la
matrialisation du risque sur le site est nettement rduite ;
minimiser les consquences, une fois le risque matrialis : en cas de cou-
pure de courant, on met en marche un gnrateur lectrique et la cons-
quence de la coupure est vite pour les serveurs.
Rduire le risque, cest donc modifier ce qui peut ltre raisonnablement et
investir sur ce qui est efficace. En jouant sur les deux paramtres et en ralisant
des actions successives, il est possible darriver une rduction trs efficace du
risque.

Option 4 : transfrer le risque


Cette option consiste transfrer le risque un tiers qui est rmunr pour cela.
Elle se pratique sous deux formes : lexternalisation ou la souscription dune
police dassurance.
Externalisation
Cela revient confier un tiers la responsabilit des moyens techniques ou
humains. Cest alors ce tiers prestataire qui devient responsable de lanalyse
des risques sur ces moyens et du choix des options face aux menaces.
Il est trs important, dans ce cas, de vrifier les clauses du contrat de service qui
lie dsormais lentreprise son prestataire. Ces clauses doivent en effet men-
tionner des engagements de continuit de service. Diffrentes formes existent
selon que le contrat prvoit des obligations de moyens ou des obligations de
rsultats.
La rdaction de ces clauses est affaire dlicate. Pour lentreprise, ces clauses
constituent dailleurs une nouvelle forme de risque tudier de prs. Le presta-
taire aura tendance exclure les risques majeurs quil ne souhaite pas couvrir,
tandis que la socit cliente devra prvoir des pnalits financires en cas de
violation dengagements de la part du prestataire.
Souscription dune assurance
Il sagit de souscrire un contrat auprs dune compagnie dassurances qui, dans
le cadre des garanties contractuelles, couvrira un certain nombre de pertes.
La plupart du temps, toutes les entreprises ont au moins un contrat incendie ou
perte dexploitation. Ces contrats peuvent couvrir le cot de remplacement de
serveurs incendis ou de rfection dun site sinistr, par exemple, ou prendre en
charge des pertes de chiffre daffaires. Il faut sappuyer dessus en premier lieu.
Cependant, il existe aussi des contrats plus spcifiques aux risques infor-
matiques qui sont apparus dans les annes 1990. Ceux-ci couvrent dans une
certaine limite les frais gnrs par un sinistre dorigine informatique : rfection
de traitements, reconstitution de donnes, cot dintrimaires supplmentaires
et de temps machine, voire frais de rhabilitation de limage de lentreprise, etc.

25
Management de la continuit dactivit

De son ct, la compagnie dassurances vrifie par une enqute que lentreprise
a men des actions de prvention des risques et quelle possde un plan de
reprise convenable. Cest dailleurs la limite du systme : lentreprise ne peut
pas faire limpasse sur son plan de continuit et se couvrir uniquement par
lassurance. En ralit, ces contrats risques informatiques rencontrent un
succs trs mitig et semblent se cantonner plutt aux PME.

Le chiffrage cot/efcacit
Chaque option choisie possde deux caractristiques :
elle reprsente un certain cot de mise en uvre, compos gnralement
dune fraction ponctuelle et dune fraction rcurrente ;
elle permet une diminution du risque, soit en limitant limpact dune menace,
soit en rduisant sa probabilit doccurrence.
Ces cots et ces diminutions de risque peuvent tre valus et chiffrs, afin de
procder des comparaisons.

Cots de mise en uvre des options


Le tableau suivant donne un exemple doptions et de chiffrage des cots associs.

Tableau 1-12 : Exemples de cots de diffrentes options

Option de
Source Catgorie Cot de loption
matrise
Dmnager la salle Rduction du risque 300 000
ltage
Inondation
Dmnager les Suppression du risque 1 500 000
locaux en altitude
Coupure Acqurir des Rduction du risque 100 000
dlectricit gnrateurs + maintenance
Souscrire une Transfert du risque 1 million deuros/an, soit
police dassurance 20 millions sur 20 ans
Crash davion Rpartir les Rduction du risque 600 000 , car ces sites
bureaux plus loin, existent dj
sur trois sites

ce stade, certaines options peuvent tre ventuellement exclues, tant consi-


dres comme trop onreuses. Le document de cadrage dans le dossier dtude
des risques (voir page 30) doit statuer sur ce point.
Le chiffrage du cot de mise en uvre dune option sera ralis avec le plus
grand soin, car il aura un effet sur les scnarios proposs. Les lments suivants
doivent tre pris en compte :

26
Chapitre 1 La matrise du risque

cot des quipements acqurir et amortissement ;


frais financiers associs aux acquisitions ;
cot de la maintenance des quipements acquis ;
ventuels logiciels associs ;
dmnagements ;
services divers envisager ;
taxes et impts ;
gestion et administration des biens acquis ;
assurances ;
frais de formation du personnel concern ;
frais de location, etc.
En gnral, chacun de ces lments gnre des cots ponctuels et rcurrents. Il
est donc intressant danalyser les cots en fonction du moment o ils apparais-
sent (immdiatement ou plus tard : chaque mois, chaque anne, etc.) et de ra-
liser ensuite un calcul dactualisation la date prvue de la mise en uvre de
loption.
Chiffrer la rduction du risque
Le chiffrage de la diminution du risque procure par une option est dlicat et
doit se faire avec la mme logique que le chiffrage du risque, en utilisant le
mme type darguments. On peut aussi chiffrer le risque rsiduel une fois
loption mise en place et ainsi en dduire la baisse.

Tableau 1-13 : Exemples de chiffrage de rduction du risque

Menace
Option de Risque Rduction
(et perte moyenne Cot de loption
matrise rsiduel du risque
annuelle attendue)
Dmnager la 300 000 30 000 250 000
Inondation salle ltage
(ALE : 280 k) Dmnager les 1 500 000 0 280 000
locaux en altitude
Souscrire une 1 million deuros 0 1,4 m
police dassurance par an, soit
20 millions sur
Crash davion 20 ans
(ALE : 1,4 m)
Rpartir les 600 000 , car 0,47 m 0,93 m
bureaux plus loin, ces sites existent (1/3 de
sur trois sites dj 1,4 m)

27
Management de la continuit dactivit

Il devient alors possible de comparer le cot de loption et la diminution du ris-


que quelle apporte en calculant le ratio suivant, appel cot par unit de
rduction du risque (CURR, pour Cost per Unit of Risk Reduction) :
cot de loption
CURR = -----------------------------------------------------------------------------
diminution du risque due loption
Un CURR de 1,20 euro peut se comprendre ainsi : pour rduire le risque moyen
annuel de 1 euro, il faut dpenser 1,20 euro.

Tableau 1-14 : Calcul du CURR partir des exemples prcdents

Menace
Option de Rduction
(et perte moyenne Cot de loption CURR
matrise du risque
annuelle attendue)
Dmnager la 300 000 250 000 1,20
Inondation salle ltage
(ALE : 280 k) Dmnager les 1 500 000 280 000 5,36
locaux en altitude
Souscrire une 1 million deuros 1,4 m 0,7
police dassurance par an, soit rcurrent
20 millions sur
Crash davion 20 ans
(ALE : 1,4 m )
Rpartir les 600 000 , car 0,93 m 0,65
bureaux plus loin, les sites existent
sur trois sites dj

Dans lexemple du dmnagement, ce cot ne se prsente quune seule fois,


alors que le risque survient tous les ans. On voit l quil faut bien analyser la
manire dont les cots se prsentent et sont calculs, en prenant en compte le
fait que ces cots soient uniques ou rcurrents. On gardera aussi en mmoire
que le risque est calcul sur un an, cest--dire quil sagit dune esprance (au
sens mathmatique du terme), qui se prsente tous les ans. Un classement des
options en fonction des meilleurs ratios est alors possible.
Si lon ne dispose pas de chiffres quantitatifs, mais uniquement dune valua-
tion qualitative gradue (par exemple : faible, moyen, fort) et dune grille de
cotation du niveau de risque (voir page 19), on listera alors toutes les options
qui permettent de sortir de la zone noire. On sera alors enclin privilgier la
moins coteuse.

Laversion au risque
Beaucoup douvrages se sont penchs sur cette notion applique aux investis-
seurs en Bourse. En ce qui concerne la continuit dactivit, il est intressant de
noter les carts de comportement entre les diffrents responsables de lentre-

28
Chapitre 1 La matrise du risque

prise. En effet, le niveau de sensibilit au risque est variable, que ce soit au sujet
des pertes ou des probabilits doccurrence. risque gal, on pourra constater
les situations suivantes :
Certains responsables ne voient que le montant des pertes et oublient ou
mettent au second plan la faible probabilit doccurrence : ils auront ten-
dance vouloir faire face aux risques rares mais induisant de forts cots.
Dautres, linverse, sont sensibles surtout la probabilit leve et voudront
supprimer des risques probables, mme si leur consquence est faible. Les
probabilits faibles ne les intressent pas.
Enfin, la plupart sont sensibles surtout au cot des options de traitement du
risque, quel que soit le cot du risque. Une option trop chre sera refuse.
Dgts dus au sinistre


ib ilit
ns
e se
n ed
Zo
? ?
ble b le
pta pta
ce ce
Ac Ac

0 Probabilit de survenance du sinistre 1

Figure 1-3 : Zone daversion variable au risque

Tout ceci peut expliquer que, face des risques similaires, plusieurs responsa-
bles peuvent faire des choix doptions diffrents.
Le dossier dtude des risques
Lensemble des tudes qui prcdent doit tre document dans un dossier.
Celui-ci a trois objectifs :

29
Management de la continuit dactivit

dcrire la rflexion et les tudes qui ont t menes ;


expliquer pourquoi tel aspect a t examin ou, au contraire, pourquoi tel
autre point a t mis de ct ;
prparer la dcision du comit de continuit.
La premire partie de ce dossier correspond au document de cadrage men-
tionn plus haut.
Voici un plan type pour constituer un tel dossier.

Dossier dtude des risques et options


1. Cadrage de la dmarche
1.1. Primtre concern
1.2. Hypothses pour les valuations
1.3. Mthode dvaluation
1.4. Sources de risque
1.5. Limites de cots et de risques acceptables
2. Menaces et risques identis
2.1. Critres de slection
2.2. Dcoupages raliss
2.3. Entits de lentreprise les plus concernes
2.4. Exclusions ventuelles
2.5. Techniques danalyse
3. Actifs exposs aux menaces
3.1. Catgories dactifs retenus
3.2. Groupes effectus, logique dapproche
3.3. Implication des responsables dactifs
4. Analyse des options de traitement du risque
4.1. Hypothses de chiffrage
4.2. Chiffrage des cots de ralisation
4.3. Chiffrage de la rduction de risque
4.4. CURR
4.5. Description des effets et perturbations
5. Synthse et prconisations
5.1. Slection doptions proposes ou limines
5.2. Dcisions entriner
5.3. Dcisions ouvertes
5.4. Calendrier dexcution
5.5. Suites donner

30
Chapitre 1 La matrise du risque

La ralisation de ce dossier peut tre partiellement itrative, afin dimpliquer


correctement tous les responsables concerns par le sujet de la continuit
dactivit.
Ce document peut galement tre dcoup pour des raisons diverses (gogra-
phie, responsabilits diffrentes, sensibilit aux risques variable, etc.). Concr-
tement, cela pourra se traduire de la manire suivante :
les sites industriels de lentreprise tant traits sparment, il existe donc un
document de ce type par site ;
les risques dorigine humaine ne sont pas inclus dans le document, mais sont
traits succinctement dans un autre dossier class confidentiel ;
seule la France (par exemple) est prise en compte dans lanalyse ;
les options de matrise du risque dpassant un certain cot sont juste men-
tionnes mais ne sont pas traites plus avant.
Enfin, il existe aussi des mises jour ou des documents dits delta qui ne
couvrent que ce qui a chang par rapport une tude ralise prcdemment.

Prise de dcision

Le dossier et ses prconisations sont ensuite soumis aux responsables de


lentreprise pour dcision. Il est frquent que la direction gnrale mette en
place un comit de continuit pour centraliser la dcision sur ces points. On se
reportera aux chapitres 11 13 pour plus de dtails sur la gouvernance de la
continuit.
Rvaluation des options par le comit dcisionnaire
Ayant ainsi en main tous les lments, le comit de continuit prend les dci-
sions qui simposent et lance les actions retenues. Il nest alors pas rare quil
procde des reclassements doptions ou des requalifications.
Face certaines menaces, il est dcid de ne rien faire : il sagit souvent de
menaces communes plusieurs entreprises, pour lesquelles la mme atti-
tude est adopte.
Le niveau de sensibilit au risque peut tre rvalu, et cette modification
entraner le fait que loption dacceptation du risque est plus (ou moins) sou-
vent choisie.
Certains impacts sont requalifis, en particulier tout ce qui concerne la rpu-
tation de lentreprise, et qui peut tre port plus haut en termes dimpact et
de consquences sur limage de lentreprise auprs du grand public ou sur
son march.
Des priorits dans le temps sont souvent affectes ou raffectes : les options
retenues devront se raliser selon un calendrier prcis, diffrent de celui pr-
conis au dpart.

31
Management de la continuit dactivit

Certaines options, sduisantes sur le papier, peuvent tre cartes en raison


de leur difficult de mise en uvre en parallle des affaires courantes. Cest le
cas notamment lorsque la ralisation de loption ncessite un arrt dactivit
jug prjudiciable lentreprise. Certaines options peuvent ainsi tre rtu-
dies sous cet angle.
Certaines options prvues dans ltude pour toute lentreprise pourront voir
leur application limite un seul site, par exemple, ou un seul dpartement
de lentreprise.
Plutt que de gnraliser une option lentreprise entire, il peut tre dcid
de ne commencer que sur un site ou un dpartement, sous forme de projet
pilote.
Toutes ces dcisions sont entrines par crit.

Documentation de lensemble
Suivant lobjectif de traabilit de la dmarche, un document est constitu
partir des lments suivants :
le dossier dtude des risques, comprenant sa partie de cadrage ;
un relev des dcisions prises en comit de continuit ;
ventuellement, un suivi spcial dtudes complmentaires mener.
Il peut tre intressant de conserver cet ensemble dans un environnement iden-
tifi. Certaines approches rglementaires demandent en effet que des auditeurs,
par exemple, puissent accder ces documents et y vrifier la prsence de cer-
tains lments (voir le chapitre 13).

Mise en uvre des options


La mise en uvre des options de matrise des risques se traduit concrtement
par le lancement de divers projets. On utilisera alors les mthodes et outils de
gestion de projets en vigueur dans lentreprise. Il est important toutefois de con-
sidrer quelques aspects propres au sujet abord qui seront approfondis dans le
chapitre 12.
Il peut savrer ncessaire dapprofondir la faisabilit de certaines options, ce
qui entranera de possibles rvisions de budget, reporter au comit de con-
tinuit.
Un budget spcifique a probablement t allou la continuit : un suivi sp-
cial est alors ncessaire pour bien dcompter les engagements, les consom-
mations de ressources et constater la baisse effective du reste faire .
Lensemble des actions mener doit faire lobjet dune coordination gnrale
consacre la continuit, afin de mettre profit les synergies et de limiter
en les regroupant les perturbations sur les affaires courantes.
Un comit de suivi de la continuit est ncessaire pour prendre en charge ces
proccupations. Il est en effet intressant de faire suivre tous ces projets par un

32
Chapitre 1 La matrise du risque

comit ad hoc, impliquant aussi bien des professionnels de la continuit que les
oprationnels de terrain et les dirigeants de lentreprise.
Enfin, comme dans tout projet, il ne faut pas oublier la finalit des actions
menes pour ne pas changer implicitement de direction en cours de route.
Suivi et contrle des plans dactions
Le choix des options ayant abouti la mise en uvre des plans dactions corres-
pondants, il est indispensable dassurer un suivi de ces actions. Il faut en effet
rgulirement contrler :
que les hypothses mises lors de lapprciation des risques sont toujours
valables ;
que de nouveaux lments ne sont pas apparus, ncessitant de recommencer
lanalyse et sil y en a, que lanalyse dcrite prcdemment est bien reprise ;
que la socit na pas connu de modification majeure ncessitant une rvi-
sion de ltude : par exemple, en cas de fusion/acquisition ou, au contraire, de
cession de lentreprise, le primtre, les actifs et les activits peuvent avoir
chang, et ltude devra donc tre ritre.
Des audits rguliers pourront tre organiss pour sassurer que les trois points
prcdents sont bien vrifis.
Dans la ralit, les plans dactions tablis auront suivi des voies diverses : cer-
tains seront achevs, dautres en cours, tandis que dautres nauront pas encore
t lancs. Quelle que soit la situation de ces plans dactions, le suivi doit avoir
lieu et produire un document.
Ce suivi fait partie des actions de contrle de la continuit dactivit et du main-
tien en condition du plan (voir les chapitres 12 et 13).

33
Chapitre 2

Lanalyse dimpact
sur les activits

Lanalyse dimpact sur les activits (Business Impact Analysis ou BIA), appele par-
fois aussi bilan de limpact sur lactivit afin de mieux correspondre au sigle
anglais BIA, consiste tudier comment les sinistres, lorsquils se produisent,
affectent le droulement des activits de lentreprise. Lattention se porte sur les
activits dites critiques, cest--dire les plus vitales pour lentreprise et dont la
perte est la plus grave pour elle.
On examine les divers impacts du sinistre (financiers, organisationnels ou en
termes dimage). On envisage aussi de quelle manire lactivit critique peut
continuer et la situation revenir un mode acceptable de fonctionnement, pro-
visoire puis dfinitif.

Chronologie dun sinistre

Le fil conducteur de cette tude est le temps. On considre la priode qui va des
derniers prparatifs avant le sinistre jusquau retour la normale et la rcup-
ration totale. La figure suivante aide visualiser la chronologie dtaille ci-
aprs.

Droulement dun sinistre


Typiquement, le droulement dun sinistre et le dveloppement de ses cons-
quences sur lactivit dune entreprise peuvent se dcomposer en cinq tapes,
comme le montre le schma ci-aprs.

1 Situation normale
Avant que le sinistre ne se produise, tout est normal et les activits sont menes
convenablement. Les actions de prvention ou de protection sont aussi effec-
tues rgulirement et comme prvu, en particulier les sauvegardes et mises en
scurit des actifs importants (donnes, matires, etc.). Cela concerne notam-
ment linformatique et les moyens techniques divers utiliss.

35
Management de la continuit dactivit

RPO : Recovery Point Objective MTD : Maximum Tolerable Downtime


RTO : Recovery Time Objective WRT : Work Recovery Time

B D
A
MTD
C

RPO RTO WRT

Rcuprer Rcuprer
le travail les donnes Rcuprer
Donnes Travail les donnes
manuel perdues
perdues manuel collectes
la main
Collecte manuelle des donnes
1 3 4 5
procdures procdures procdures
normales de secours manuelles
manuelles procdures
procdures normales
dernire normales
sauvegarde 2 remise en route
utilisable retour
des systmes
la normale

Figure 2-1 : Droulement dun sinistre et impacts sur les activits

Sur le schma, la flche A indique la dernire sauvegarde ou le dernier point de


rcupration utilisable.

2 Occurrence du sinistre
Le sinistre a lieu (flche B), causant la perte de moyens utiles lentreprise, qui
ne peut alors plus travailler normalement. On prend en compte ici le moment
effectif du sinistre, cest--dire le moment o les ressources en subissent
limpact. Il se peut que le sinistre lui-mme ne soit dcouvert que plus tard.
Assez souvent dailleurs, le sinistre est dcouvert rapidement mais son ampleur
nest prcise quaprs coup. Il arrive aussi que le sinistre ne soit pas ponctuel,
comme dans le cas dun incendie dcouvert mais non matris, dont on nva-
luera les dgts quune fois celui-ci teint.
Lorsque la situation est claircie, on est alors en mesure de savoir partir de
quel point de sauvegarde les donnes pourront tre rcupres. Ce point est
appel RPO (Recovery Point Objective), cest--dire point cible de rcupration .
Par facilit, on appelle aussi RPO le dlai observ entre ce point de sauvegarde
et le sinistre.
Lors dun sinistre de grande ampleur, on peut observer plusieurs RPO pour plu-
sieurs systmes diffrents. En outre, dans des situations complexes, lorsquil est
impossible de rcuprer les donnes partir de la dernire sauvegarde, il est
parfois ncessaire de revenir plus loin en arrire, ce qui allonge ce dlai de RPO.

36
Chapitre 2 Lanalyse dimpact sur les activits

3 Travail en mode dgrad


Le sinistre stant produit, lentreprise ne peut plus travailler normalement : elle
travaille en mode dgrad.
Les situations peuvent varier, mais il est bon davoir prvu ce mode dgrad
ainsi que des faons de contourner les impacts du sinistre. Durant cette priode,
on aura gnralement recours au travail manuel, tandis que dautres quipes
chercheront rcuprer des moyens (informatique, locaux, etc.) permettant de
travailler selon des procdures normales.
Le dlai entre le sinistre et la rcupration de ces moyens est appel RTO (Reco-
very Time Objective) ou temps de rcupration cible . Ces moyens permettant
de travailler ne correspondent pas forcment aux moyens habituels. Par exem-
ple, durant cette priode, des donnes seront cres manuellement, par crit,
laide de formulaires papier.

4 Rcupration des moyens


partir de la remise en route de certains moyens informatiques nouveau dis-
ponibles (flche C), deux types dactivits sont mens en parallle : les activits
normales, ventuellement dgrades, et des activits consistant complter la
restauration du systme informatique en y entrant ce qui a t perdu ou gnr
manuellement. Cela consiste rcuprer les donnes partir des sauvegardes,
effectuer des traitements de rcupration, entrer dans le systme les transac-
tions ralises la main, en bref, collecter et saisir toute donne ncessaire au
bon fonctionnement de lentreprise.
Durant cette priode, on observe une superposition de procdures normales et
doprations manuelles. Sa dure est dsigne comme WRT (Work Recovery Time)
ou temps de rcupration du travail .
Cette priode se termine lorsque toutes les donnes et transactions ont t
saisies dans le systme et que les moyens sont nouveau disponibles pour
travailler normalement. Il arrive assez souvent que ces moyens ne corres-
pondent pas tout fait aux moyens existant avant le sinistre, et que certains
dentre eux soient externaliss chez un prestataire ou dlocaliss sur un site de
secours.

5 Retour la normale
partir de ce moment (flche D), limpact du sinistre nest thoriquement plus
visible et lactivit de lentreprise a repris dans des conditions normales. Il se
peut que certains travaux restent encore effectuer (au niveau de linformatique
ou des locaux), mais limpact sur les activits, obligatoirement limit, est alors
considr comme nul.

Du point de vue de lutilisateur


Au-del de cette vision gnrale technique, lutilisateur professionnel derrire
son bureau aura un tout autre point de vue sur ses outils et sa capacit tra-

37
Management de la continuit dactivit

vailler dans la situation daprs sinistre. Il constate en effet plus simplement


quil y a une priode durant laquelle il ne peut pas ou presque travailler puis
que, au bout dun certain temps, tout est redevenu normal. Cest ainsi que lon
dfinit la dure dindisponibilit maximale tolrable pour lactivit ou MTD
(Maximum Tolerable Downtime). Le MTD est donc en quelque sorte un seuil de
douleur fix par les responsables de chaque activit.
Les dlais de rcupration RTO et RPO dfinis prcdemment sont imposs par
la technique et les divers choix qui ont t faits pour les sauvegardes, par exem-
ple. Le temps de rcupration du travail (WRT) est dpendant de lefficacit des
travaux faits la main, des donnes saisies sur formulaires, des vnements
commerciaux ayant eu lieu durant le sinistre, etc. Le MTD, quant lui, est un
paramtre dexigence manant de chaque mtier.
Comme on le voit sur le schma, on a ainsi lquation :
MTD = RTO + WRT

Il faut donc sassurer que cette quivalence est ralisable. En effet, le membre de
gauche (MTD) est dcid, tandis que celui de droite (RTO + WRT) est subi.
En gnral, on remarque que plus le point cible de rcupration des donnes
(RPO) est loign dans le temps, plus le temps de rcupration cible (RTO) le
sera galement. En effet, logiquement, plus la quantit de donnes perdues est
importante, plus les traitements raliser pour les rcuprer demanderont de
temps. Dautre part, il est fort probable que les moyens informatiques disponi-
bles soient sous-dimensionns pour un tel surcrot de travail. Il sera alors sou-
vent ncessaire de travailler de nuit, les moyens de restauration ntant pas
disponibles durant la journe. Cela demande par ailleurs de prvoir des moyens
supplmentaires.
Rduire la dure maximale dindisponibilit tolrable (MTD) demandera donc
dabaisser le RTO (et par consquent le RPO), ainsi que de diminuer le temps de
rcupration du travail (WRT).
Bien videmment, tous ces chiffres RPO, RTO, WRT et MTD varient en fonction
du type dactivits de lentreprise et des moyens techniques employs lors de la
survenue dun sinistre.

Cadrage de lanalyse

Une fois le dcor plant, il sagit de mener une analyse dimpact des sinistres sur
les activits. La premire chose faire est de dfinir le cadre dans lequel celle-ci
est ralise. Il faut en particulier dterminer son primtre, ses objectifs et cer-
taines hypothses prendre en compte.

38
Chapitre 2 Lanalyse dimpact sur les activits

Le primtre : considre-t-on lensemble de la socit ou bien un site, une


activit ou un service en particulier ? Comment ltude sera-t-elle dcoupe
en fonction de cela ? Comment dlimite-t-on les activits ?
Les ventuelles tudes dj menes sur ce sujet ou dautres tudes
connexes que lon pourra prendre comme point de dpart (analyses de pro-
cessus, par exemple).
Les lments techniques : considre-t-on le systme informatique seul ou
aussi les locaux ? Inclut-on dans ltude le domicile des employs, leur ordi-
nateur personnel (en secours), ou des sites de prestataires externes ?
Les objectifs de ltude : que cherche-t-on exactement ? Vise-t-on dtermi-
ner les activits les plus exposes ou plutt chiffrer des pertes potentielles,
ou encore dterminer des priorits ? Veut-on simplement mesurer les carts
entre ce que lon imagine et la ralit ?
Les mthodes employes : procdera-t-on par groupes de travail, par inter-
views de responsables ou par analyse technique des moyens existants ?
Les aspects financiers : veut-on estimer les cots du plan de continuit
venir ou fixer un cot ne pas dpasser ? Prfre-t-on imaginer plusieurs sc-
narios avec diffrents niveaux de cots ?
Les ventuelles exclusions de ltude.
Toute hypothse juge intressante tudier, telle que la non-existence
dun site de secours ou le fait que les pics dactivit doivent tre rendus pos-
sibles mme par les moyens de secours, ou encore que les donnes ne peu-
vent sortir du site, etc.
Cette tape aboutira une meilleure comprhension, partage avec la direction
gnrale, de ce que lanalyse dimpact sur les activits peut et doit produire. Elle
est formalise dans un document intitul note de cadrage (voir en fin de
chapitre).

Dterminer les activits critiques

Les activits critiques sont celles dont la disparition endommage le plus lentre-
prise, car elles en constituent le fondement. Ces activits critiques feront lobjet
dune attention renforce en cas de sinistre. Elles bnficieront de moyens plus
rsilients et seront privilgies dans les actions de reprise et de redmarrage.

Un exercice difcile
Cette tude des activits de lentreprise est un exercice difficile. Toute la diffi-
cult consiste obtenir une vision partage de ce que sont ces activits juges
critiques. En effet, chaque responsable aura probablement tendance citer son
activit comme tant critique, alors quil existe certainement des activits plus
critiques que les autres : comment choisir ?

39
Management de la continuit dactivit

Une autre difficult provient du fait que lentreprise na pas forcment ralis au
pralable une description de ses activits. Avant de savoir laquelle est critique,
il faut obtenir une liste des activits suffisamment descriptive.
Globalement, on rencontre trois situations.
1. Lentreprise est capable de citer ses activits les plus critiques et dindiquer
quoi celles-ci correspondent dans son organisation, ses implantations go-
graphiques et les moyens ddis leur ralisation : cest un cas relativement
idal. La description, en revanche, nest peut-tre pas modlise laide
doutils appropris ni avec rigueur, mais cest un point de dpart utile pour
lanalyse dimpact.
2. Lentreprise prsente ses activits de manire simple et succincte. Elle a ra-
lis un premier niveau dorganigramme indiquant qui est responsable de
quelle activit. En revanche, il nexiste aucune liste de ce qui pourrait tre criti-
que dans ses activits, ni aucune indication de moyens ou de site. Pour com-
mencer lanalyse dimpact, on sadressera donc aux responsables dsigns.
3. Lentreprise a ralis une tude approfondie dite analyse de processus
avec des outils et une formalisation forte. Malheureusement, ces processus
sont souvent transversaux son organisation et il nest pas toujours ais de
savoir quels sont les moyens impliqus et les responsables. La vision
activit et la vision processus pouvant tre totalement indpendantes
lune de lautre, il faudra obtenir, pour une bonne analyse dimpact, une
vision commune entre les responsables de processus et les responsables de
dpartements ou services.
Concernant tous ces aspects, le document de politique de continuit (voir le
chapitre 11) se rvle dun grand secours. Cest lui qui doit indiquer par quel
ct le problme doit tre abord.
la fin de lanalyse dimpact (BIA), on obtient ainsi en rsultat une liste des acti-
vits les plus critiques de lentreprise.
Activits, fonctions, processus : le pige du vocabulaire
Une remarque importante ici : le vocabulaire peut tre source de confusion. On parlera
indiffremment dans les entreprises dactivits , de fonctions , de processus , voire
de process (en anglais) avec des signications et des hirarchies variables.
Dans le cadre de la continuit dactivit, il faut rechercher un niveau de dcoupage rai-
sonnable de lentreprise, qui doit tre regarde comme un tout autonome face au sinistre.
On prfrera ainsi raisonner par responsable, par dpartement ou par groupe de moyens.

Identier les activits


Il est possible de dcouper les activits de lentreprise en plusieurs niveaux. Lexem-
ple qui suit montre un dcoupage en deux niveaux : fonctions et processus. Le
tableau indique en plus si le processus mrite dtre tudi ou non, cest--dire quil
est port un premier jugement sur les candidats au titre de processus critique.

40
Chapitre 2 Lanalyse dimpact sur les activits

Tableau 1-1 : Exemples de fonctions et processus dune entreprise

Fonction Processus tudier ?


Prise de commandes Oui
Vente Reporting Oui
Gestion dchantillons Non
Promotions Non
Gestion du catalogue Oui
Marketing
Gestion des salons Non
Gestion des partenaires Oui
Rception des livraisons Oui
Logistique Organisation des expditions Oui
Gestion du stock Oui

Pour chacune de ces fonctions et processus, on indique sil faut tudier ou non
limpact dun sinistre ventuel. Pour remplir ce tableau, il est conseill de faire
appel aux directeurs dactivits (business owners) ou aux responsables de proces-
sus (process owners). Il est galement prfrable de limiter le nombre de niveaux
de dcoupage une proportion raisonnable.
Ce nest quune fois ces choix effectus quon pourra estimer les impacts dun
sinistre.

Estimer les impacts nanciers et oprationnels


Les impacts financiers se chiffrent en euros ou par une mesure qualitative che-
lonne telle que faible/moyen/fort ou note de 0 3, etc., de manire compa-
rable ce qui a t prsent dans le premier chapitre.
Les pertes financires sont en gnral donnes par jour. Il est important de con-
server le mme type de mesure pour tous les processus tudis, de manire
pouvoir tablir des comparaisons.

Tableau 2-2 : Estimation des pertes pour lexemple prcdent

Fonction Processus Perte par jour


Prise de commandes 600 000
Vente
Reporting 60 000
Gestion du catalogue 500 000
Marketing
Gestion des partenaires 300 000
Rception des livraisons 100 000
Logistique Organisation des expditions 200 000
Gestion du stock 50 000

41
Management de la continuit dactivit

Concernant limpact oprationnel, il vaut mieux dabord laborer une grille


danalyse avant dinterroger les responsables dactivits. Cette grille, qui pourra
voluer par la suite en fonction des discussions, abordera par exemple les
aspects suivants :
les problmes de flux de trsorerie, de mouvements de fonds, les questions
logistiques ;
la perte de confiance des partenaires (clients, investisseurs) ;
la dgradation de limage de lentreprise ;
la dmoralisation du personnel ;
les sinistres chez des revendeurs ;
les violations rglementaires invitables (dclarations obligatoires devenues
impossibles, etc.).

Tableau 2-3 : valuation des impacts oprationnels sur trois aspects

Impact de la perte :
0 (nul) 5 (trs fort)
Perte par
Fonction Processus Logistique Image Revendeurs
jour
Prise de commandes 600 000 3 5 0
Vente
Reporting 60 000 0 0 0
Gestion du catalogue 500 000 2 3 3
Marketing
Gestion des partenaires 300 000 3 2 5
Rception des livraisons 100 000 5 2 2
Organisation
Logistique 200 000 5 3 3
des expditions
Gestion du stock 50 000 3 2 4

Une certaine pratique consiste faire valuer les critres en aveugle par diff-
rentes personnes. Il est aussi possible de confier cette valuation un expert
externe. Plusieurs approches peuvent donc tre adoptes, en retenant in fine les
moyennes entre les diffrentes approches, par exemple, et en se faisant expli-
quer les gros carts dvaluation si on en constate.

Identier les processus critiques


Pour tablir un classement final et en dduire les processus critiques, plusieurs
possibilits existent. Sur lexemple prcdent, il est possible doprer comme
suit :
1. transformer lvaluation de la perte par jour en un chiffrage chelonn de 0 5 ;

42
Chapitre 2 Lanalyse dimpact sur les activits

2. affecter chaque colonne une pondration, telle que :


un poids double pour les pertes financires et la dgradation de limage ;
un poids simple pour les problmes de logistique et ceux concernant les
revendeurs.
On obtient ainsi une note finale, qui permet de classer les processus en fonction
de leur degr critique.

Tableau 2-4 : valuation des processus en fonction de leur degr critique

Impact de la perte : 0 (nul) 5 (trs fort)


Note
Perte nale
Fonction Processus Logistique Image Revendeurs
par jour
Vente Prise de commandes 5 3 5 0 23
Reporting 1 0 0 0 2
Marketing Gestion du catalogue 4 2 3 3 19
Gestion des partenaires 3 3 2 5 18
Logistique Rception des livraisons 1 5 2 2 13
Organisation des
2 5 3 3 18
expditions
Gestion du stock 0 3 2 4 11
Coefcient retenu 2 1 2 1

Dans ce tableau, on peut ainsi slectionner, daprs leur note finale, les proces-
sus suivants comme tant les plus critiques :
Vente : prise de commandes (23) ;
Marketing : gestion du catalogue (19) ;
Marketing : gestion des partenaires (18) ;
Logistique : organisation des expditions (18).
Ce type dapproche ncessite bien entendu plusieurs itrations entre les diff-
rents responsables concerns pour arriver une vision partage. En gnral, le
tableau dvaluation de limpact est rempli avec laide des personnes suivantes :
les colonnes relatives limpact de la perte sont values par les
oprationnels ;
les poids (ou coefficients) sont fixs par la direction gnrale.
Par ailleurs, il est aussi possible de procder en tablissant des rgles de slec-
tion des processus critiques du type de celles prsentes ci-aprs. Sera ainsi
retenu comme critique :

43
Management de la continuit dactivit

tout processus ayant un 5 dans une colonne dimpact ;


tout processus comportant deux 4, etc.
La mthode de dtermination des processus critiques peut faire lobjet dun
point de la note de cadrage (voir en fin de chapitre).
Surtout, il est important que la rgle ait bien t discute entre tous les respon-
sables concerns, car chacun a tendance considrer spontanment que cest
son processus qui est le plus critique.
la fin de lanalyse, on dispose dune liste des activits, fonctions et processus
critiques, cest--dire dont la perte ventuelle affecterait le plus lentreprise.

Dterminer les configurations

Une fois les processus critiques dtermins dans lentreprise, il convient dta-
blir, pour chacun dentre eux, les points suivants :
la dure maximale tolrable dinterruption de lactivit (MTD) et les priorits
pour les actions de reprise ;
les lments critiques dans le domaine de linformatique ;
les autres lments critiques.
Ces lments connus, il sera alors possible den dduire les contraintes qui por-
tent sur eux. Cela servira pour les choix techniques (voir Partie III) et pour lla-
boration du plan de reprise (voir Partie II).
MTD et priorits
Il sagit de dterminer, pour les processus critiques slectionns prcdemment,
le temps maximal durant lesquels ils peuvent tre interrompus : le MTD (Maxi-
mum Tolerable Downtime).
Cette dure pourra tre value en fonction de la perte financire, par exemple :
plus la perte est forte, plus la dure devra tre faible. Il est galement possible
de procder une valuation partir des impacts estims (chelonns par
exemple de 0 5). Des exemples sont fournis dans les tableaux page suivante.
Remarque
Sur le tableau 2-6 on notera que le temps maximal dinterruption admissible est donn
en jours et que le processus le plus critique ne doit pas sinterrompre plus dune demi-
journe.
Ltablissement de priorits est utile pour raliser un arbitrage durant le plan de
reprise : il sagit de dcider quel processus sera relanc avant quel autre.

44
Chapitre 2 Lanalyse dimpact sur les activits

Tableau 2-5 : valuation des processus critiques slectionns

Impact de la perte : 0 (nul) 5 (trs fort)


Note
Perte nale
Fonction Processus Logistique Image Revendeurs
par jour
Vente Prise de commandes 5 3 5 0 23
Gestion du catalogue 4 2 3 3 19
Marketing
Gestion des partenaires 3 3 2 5 18
Organisation des
Logistique 2 5 3 3 18
expditions

Support Hotline 1 2 5 3 17
client Expertise Niveau 1 1 2 4 5 17
Couplage carte
4 1 4 1 18
bancaire
Paiement Couplage VAD
(vrication avant 3 1 3 3 16
dpart)
Coefcient 2 1 2 1

Tableau 2-6 : valuation en termes de MTD et de priorits de reprise

Gravit : 0 (nulle) 30 (trs forte)


MTD Ordre de
Fonction Processus Gravit
(en jours) priorit
Vente Prise de commandes 23 0,5 1
Gestion du catalogue 19 1 2
Marketing
Gestion des partenaires 18 1 2
Logistique Organisation des expditions 18 1 1

Support Hotline 17 2 2
client Expertise Niveau 1 17 2 3
Couplage carte bancaire 18 1 2
Paiement
Couplage VAD (vrication avant dpart) 16 3 4

45
Management de la continuit dactivit

Il apparat par ailleurs que la priorit ne suit pas tout fait la hirarchie des
MTD :
Lorganisation des expditions a une priorit de 1, alors que son MTD la place
en seconde position. Cela sexplique par le fait que, dun point de vue opra-
tionnel, la reprise des autres processus dpend du bon redmarrage de celui-ci.
Il en va de mme de lexpertise niveau 1, dont la priorit est fixe juste aprs
celle de la hotline.
De mme, dans le cas de cette socit, la perte de la hotline peut sembler peu
importante ou sous-estime (impact valu 17 sur 30). Cela tient au fait que
les clients ont aussi lalternative de se tourner vers un revendeur. Cet exemple
montre donc bien quil ne faut surtout pas perdre de vue la ralit opration-
nelle.

Systmes et applications informatiques critiques


On cherche maintenant dterminer la correspondance entre les processus cri-
tiques et les applications et moyens informatiques. De manire vidente, les
applications informatiques qui soutiennent les processus critiques deviennent
elles-mmes critiques partir du moment o leur indisponibilit oblige le pro-
cessus sarrter ou recourir des procdures manuelles.
Le tableau suivant, qui mentionne les lments critiques principaux, illustre
cela par lexemple : cela concerne aussi bien une application informatique parti-
culire quune connexion rseau ou un plateau de tlphonie.

Tableau 2-7 : Exemples de systmes et applications critiques

Fonction Processus Applications et systmes critiques


Tlphonie
Vente Prise de commandes
Application Vador sur Unix, site de Lyon
Serveurs web de gestion du catalogue,
Gestion du catalogue
site de Lyon et hbergeur
Marketing
Application Agpar sur mainframe, site de
Gestion des partenaires
Paris
Logiciel SAP S&D
Logistique Organisation des expditions
Couplage avec logistique Infodis
Support Hotline Centre dappels, site de Paris
client Expertise niveau 1 Plateau tlphonique, site de Lyon
Couplage carte bancaire Accs au systme dautorisation
Paiement
Couplage VAD (vente distance) Accs la VAD et programme VAD

Il est ici important de faire preuve de pragmatisme. En effet, il ne sert rien


dentrer dans les dtails de quinze applications diffrentes si toutes ces applica-

46
Chapitre 2 Lanalyse dimpact sur les activits

tions subissent le mme sort en termes de disponibilit (si elles sont, par exem-
ple, installes sur la mme machine). Il faut alors raisonner par groupe
dapplications.
Les services informatiques ont par ailleurs probablement mis au point des con-
figurations par service (au sens de service lutilisateur), avec un niveau de
finesse variable. Les contraintes de service seront alors appliques tout cet
ensemble.
Dautre part, la rflexion doit tenir compte des deux grandes tendances
suivantes :
Avec les volutions des rseaux ou des grilles de calcul ces dernires annes,
il est fortement conseill de noter la situation gographique des moyens
techniques lorsque celle-ci nest pas la mme pour tous. Il nest pas certain,
en effet, que le serveur HTTP (accueil), le serveur web et le serveur de bases
de donnes se trouvent dans la mme salle ou sur le mme site.
La virtualisation des serveurs a conduit procder des regroupements sur
les mmes machines physiques, au sein de partitions dans de gros serveurs.
Cest la tendance inverse de la prcdente. Ce regroupement a donc des effets
sur la criticit : si une application dans le lot est critique, le serveur (au mini-
mum) le sera aussi.
Enfin, certains systmes sont bien videmment utiliss par tous, comme :
les PC et imprimantes (partages ou non) ;
la messagerie dentreprise (Notes, Exchange, etc.) ;
les rseaux locaux dchanges et de partage ;
les serveurs de stockage de type NAS (network-attached storage), de partage de
fichiers ou les extensions de disques ;
les tlcopieurs ou le couplage la tlcopie, etc.
Ces systmes gnraux ncessitent une prise en compte spciale, car non affecte
une activit ou un processus particulier (voir le chapitre 4). Leur degr de criticit
sera diffrent en fonction de la possibilit de substitution (utilisation dun PC de
secours gard en rserve) ou non (le serveur de courriels est perdu ou inaccessible).
Autres ressources critiques
Pour terminer, il convient de lister galement les autres ressources ncessaires
au bon fonctionnement des processus critiques. On pourra ainsi passer en revue
des lments tels que :
les locaux informatiques et industriels ;
les bureaux ;
les quipements de production (machines-outils) ;
les matires premires ;
le mobilier de bureau ;
les tlcopieurs, imprimantes et photocopieurs ;

47
Management de la continuit dactivit

les quipements de scurit ;


les quipements de tlcommunication (autocoms, etc.) ;
les outils et pices de maintenance ;
les documents critiques ;
les archives papiers ;
les fournitures de bureaux.
La tche de dfinir la liste des moyens indispensables pour travailler incombe
aux responsables dactivits ou de processus. Cette liste devra contenir un des-
criptif de chaque lment et un recensement des quantits.

Tableau 2-8 : Inventaire des ressources critiques

Fonction Processus Matriel Ressources critiques


6 tlphones avec messagerie vocale, mise en
Tlphonie
attente et routage
1 fax entrant
Tlcopie 1 fax sortant
feuilles A4
Imprimante 1 imprimante laser noir et blanc (15 p/min)
Copieur 1 copieur haute vitesse
12 blocs-notes A5
Prise Papeterie 50 stylos bille
Vente papier blanc et jaune (1 500 p/jour)
de commandes
liste alphabtique des clients avec code client
liste des produits avec codes produits
Documents
liste des contrats de maintenance avec date de
cruciaux
n
150 formulaires de commandes
7 bureaux standard
10 chaises
Mobilier
1 table douze places avec 12 chaises
1 armoire cls trois parties

Dterminer les paramtres de reprise

Pour chaque groupe dapplications et de systmes qui correspondent des acti-


vits critiques, on dtermine ensuite les paramtres de reprise. Ceux-ci sont au
nombre de trois : RTO, RPO et WRT, tels que dfinis prcdemment.
Dans les sigles prcdents, la lettre O signifie objectif : il faut donc se souve-
nir que ces dures sont des valeurs cibles atteindre et quavant de les fixer il
faut tre raliste, car elles seront contraignantes. Cela ncessitera plusieurs

48
Chapitre 2 Lanalyse dimpact sur les activits

allers et retours entre les responsables dactivits et le service informatique


pour aboutir des chiffres viables.
De mme, le WRT correspond la priode de travail intermdiaire avec des pro-
cdures partiellement dgrades et des tches de reprise de donnes dans les
systmes informatiques. Il faut prvoir des procdures simples, des formulaires
et des aides diverses (PC portables avec logiciels) pour amliorer le vcu de
cette priode.

RTO et WRT
Rappellons que le RTO (Recovery Time Objective) est le dlai qui scoule entre la
perte des moyens cause du sinistre et leur rcupration dans un tat accepta-
ble. Autrement dit, cest le temps pendant lequel lemploy doit se dbrouiller
sans le systme informatique.
Le WRT correspond la priode qui suit le retour de linformatique : lemploy
ou les informaticiens mettent les donnes niveau, aids en cela idalement
par des formulaires manuels et par lassistance technique du service informati-
que.
Avec les utilisateurs qui peuvent donner des indications et des contraintes, on
peut commencer envisager des valeurs possibles pour RTO et WRT.

Tableau 2-9 : Dtermination des RTO et WRT

Fonction Processus Applications et sytmes critiques RTO WRT


Systme de prise de commandes 1 jour 2 jours
Prendre les
Vente Systme de gestion des clients 2,5 jours 0,5 jour
commandes
EDI (changes de donnes informatiss) 2 jours 1 jour
Systme de prise de commandes 1 jour 1 jour
Service Traiter les
Facturation client 1,5 jours 0,5 jour
client commandes
Gestion dinventaire 1 jour 1 jour

On notera que plus le RTO est long, plus y a de chances (ou malchances) que le
WRT le soit aussi. Plus labsence de linformatique a t longue, plus la quantit
de donnes ressaisir est importante. Si lon veut rduire le WRT, il faut donc
faciliter les saisies dans le nouveau systme et limiter le RTO au maximum.

Ajustements sur les MTD


Le MTD est le temps maximum dinterruption admissible tout compris. Il va
ainsi correspondre la somme du RTO et du WRT. Ce paramtre est assez sou-
vent valu indpendamment des autres par des responsables dentits ou de
dpartements. Il nest pas rare quil soit prsent comme un chiffre non ngocia-
ble.

49
Management de la continuit dactivit

Or, rien ne dit a priori que lgalit MTD = RTO + WRT puisse tre respecte. En
effet, le terme de droite (RTO + WRT) est souvent trop lev pour convenir la
valeur indique comme seuil de douleur par le MTD. Il faut donc, l encore,
discuter et faire maints ajustements pour parvenir des valeurs ralistes.

Tableau 2-10 : Ajustement des valeurs de RTO et WRT sur les MTD

MTD RTO WRT


Fonction Processus
(en jours) (en jours) (en jours)
Vente Prise de commandes 0,5 0,25 0,25
Gestion du catalogue 1 0,5 0,5
Marketing
Gestion des partenaires 1 0,5 0,5
Logistique Organisation des expditions 1 0,5 0,5
Hotline 2 1,5 0,5
Support client
Expertise Niveau 1 2 1,5 0,5
Couplage carte bancaire 1 1 0
Paiement
Couplage VAD (vente distance) 3 1 2

Notons que ces chiffres peuvent, pour une premire estimation, ne pas tre
totalement ralistes. Il arrive en effet que se prsentent les situations suivantes.
Le MTD fix par le directeur mtier nest pas ralisable, car le RTO (subi) est
trop lev : la rcupration des moyens techniques prend trop de temps, par
exemple. On cherchera alors soit raccourcir cette dure en amliorant les
possibilits de bascules sur des systmes de secours, soit limiter les prten-
tions en termes de MTD.
La dure du WRT est telle quelle ne peut permettre datteindre le MTD fix :
on travaillera alors abrger les travaux manuels de reprise (par le recours
la saisie en intrim ou en mettant au point divers scripts de traitements, par
exemple) ou bien, l encore, on abaissera les exigences en termes de MTD.
Il apparat donc possible de jouer sur ces trois paramtres : MTD, WRT et RTO.
En gnral, une concertation avec les directeurs mtier et les responsables du
service informatique permet darriver un compromis cohrent en termes de
reprise technique et de travail de mise jour manuelle, donnant qui plus est
satisfaction pour le dlai dinterruption maximum.
Bien entendu, il faudra tenir compte des cots associs tout cela, concernant
aussi bien la perte dexploitation que la mise en uvre de solutions onreuses
et disponibilit leve ou encore que la reconstruction rapide.

50
Chapitre 2 Lanalyse dimpact sur les activits

RPO
Le RPO (Recovery Point Objective) indique la dure rtroactive permettant dobtenir
une donne fiable et correctement utilisable. Celle-ci correspond en gnral au
temps qui spare le sinistre de la dernire sauvegarde utilisable.
Prcisons que la dernire sauvegarde utilisable ne correspond pas forcment
la dernire sauvegarde effectue. Cest le cas, par exemple, lorsque plusieurs
traitements sont lis entre eux et que lun deux possde une sauvegarde plus
ancienne que celle des autres. Il pourra alors tre ncessaire de remonter au
moment des dernires sauvegardes communes tous.
Qui dit sauvegarde ne dit pas forcment bande magntique, mme si ce support
tait le plus courant ces trente dernires annes. Il existe depuis quelque temps
des sauvegardes sur disque, des copies instantanes (snapshot ou clichs) ou
encore des miroirs distants sur site loign. Les bandes magntiques prsentent
toutefois lintrt dtre amovibles et de pouvoir tre conserves en lieu sr. On
se reportera sur ces points au chapitre 8.
Concernant la restauration, la technologie actuelle offre tout un ensemble de
moyens permettant de reconstituer un tat propre des donnes situ plus ou
moins loin dans le pass. partir de ces donnes rcupres, il est galement
possible dans certains cas de r-appliquer informatiquement les mises jour
perdues : il suffit pour cela davoir mis en place un sous-systme maintenant un
journal (log) des actions effectues, et davoir retrouv ledit journal. Le proces-
sus de reconstruction prend en gnral du temps et de la puissance machine.
Reconstruire les donnes jusquau terme du journal (cest--dire jusqu un
moment trs proche de celui du sinistre) peut ncessiter un dlai allant de quel-
ques minutes quelques jours. En gnral, le journal ne sera pas stock avec les
donnes, de manire ne pas tout perdre en mme temps. Malheureusement,
ces techniques trs utiles portent rarement sur lensemble des donnes traiter,
et il faut donc utiliser simultanment plusieurs techniques plus ou moins rcen-
tes et plus ou moins automatiques. Tous ces aspects techniques sont couverts
plus en dtail dans la partie III.
Pendant la dure du RPO, les donnes non sauvegardes peuvent connatre plu-
sieurs situations :
soit elles sont conserves dans des systmes provisoires (PDA, ordinateurs
portables, PC, Internet, etc., avant un transfert qui na pas eu lieu) ;
soit elles nont pas t sauvegardes mais peuvent tre reconstitues via les
journaux (ou logs) qui seront appliqus durant la rcupration du travail (WRT) ;
soit elles sont perdues mais peuvent tre reconstitues en appliquant des
traitements de rattrapage (souvent des traitements par lots ou batch) ;
soit elles ont t notes par crit et peuvent donc tre ressaisies ultrieure-
ment (plus ou moins facilement) ;
soit elles sont perdues dfinitivement.

51
Management de la continuit dactivit

Ces diverses situations doivent tre prises en compte pour rcuprer les don-
nes durant la priode de WRT. En effet, plus le RPO est long, plus le WRT le sera
aussi. Enfin, il est possible que des donnes aient t dfinitivement perdues.
En ralit, le RPO est impos par les choix techniques qui ont t faits pour se
prmunir dun sinistre. Il dpend le plus souvent de la frquence des sauvegar-
des. Il arrive que celle-ci ait t dcide pour rpondre aux besoins des respon-
sables dactivit, mais cest rarement le cas.
Lors dune analyse dimpact, on peut se limiter constater les RPO suite aux
choix techniques raliss dans le pass. On peut aussi noter les insuffisances
existantes et prconiser des valeurs plus appropries aux contraintes de MTD.
Pour obtenir ces valeurs dans la ralit, des actions techniques devront alors
tre prvues (voir sur ces points le chapitre 3).

Tableau 2-11 : Exemples de RPO

Applications et systmes
Fonction Processus RPO
critiques
Tlphonie
Vente Prise de commandes Application Vador sur Unix, site 1 jour
de Lyon
Serveurs web de gestion
Gestion du catalogue du catalogue, site de Lyon 0 5 jours
Marketing et hbergeur
Application Agpar sur
Gestion des partenaires 1 jour
mainframe, site de Paris
Logiciel SAP S&D
Logistique Organisation des expditions Couplage avec logistique 1 jour
Infodis
Hotline Centre dappels, site de Paris nsp
Support client Plateau tlphonique, site de
Expertise Niveau 1 nsp
Lyon
Accs au systme
Couplage carte bancaire 0,5 jour
dautorisation
Paiement
Couplage VAD Accs la VAD et programme
1 jour
(vente distance) VAD

Dans cet exemple, la colonne RPO indique :


un chiffre de 0 5 jours : en effet, la sauvegarde tant effectue le vendredi
soir, le RPO dpend alors de la date du sinistre ;
nsp : pour les cas o il ny a pas proprement parler de donnes rcuprer ;
1 jour : dlai maximum lorsque la sauvegarde est journalire ;

52
Chapitre 2 Lanalyse dimpact sur les activits

0,5 jour : le dlai est court, dans cet exemple, car il suffit de rcuprer des
fichiers systmes et trs peu de donnes.
Rappelons que ces chiffres indiquent la plage durant laquelle les donnes sont
soit perdues, soit reconstruire. Ils ne donnent pas dindication sur la dure de
cette reconstruction (qui est incluse dans le WRT ou temps de rcupration du
travail).

Procdures de secours
Les procdures de secours visent permettre le travail malgr la perte des
moyens informatiques et non informatiques cause par un sinistre. Les proces-
sus concerns sont ceux qui ont t au pralable slectionns comme critiques.
Ces procdures, moins efficaces que les procdures habituelles, peuvent recou-
rir des tches manuelles (par exemple : saisie sur papier ou, mieux, sur formu-
laires, appels tlphoniques, etc.) qui ncessiteront peu de moyens.
Il sagit alors :
de collecter les procdures existantes et de sassurer quelles sont viables ;
de dterminer celles qui manquent et quil conviendrait de raliser.
Ces procdures de secours peuvent avoir cohabiter avec les procdures nor-
males durant des phases transitoires. Ceci reprsente dailleurs une difficult
supplmentaire grer. Dans certains cas, en effet, la procdure dite
normale devra tre suspendue et une procdure de secours active.
Cela peut concerner en particulier des aspects extrmement sensibles comme
lattribution de droits daccs au systme en cas de panne. Si la procdure nor-
male prvoit des circuits durant deux jours alors que le temps presse, on
recourra une procdure durgence dment note et suivie la lettre. Car, bien
quon sorte du cadre de la procdure normale, il nest pas question non plus de
se retrouver dans un vide procdural. Ce type de difficult se dcouvre et se
traite durant les tests du plan de continuit (voir le chapitre 6).
Ces procdures de secours doivent galement prendre en compte le fait que les
informations quelles produisent doivent pouvoir tre ultrieurement entres le
plus aisment possible dans le systme informatique, une fois celui-ci de nou-
veau oprationnel.

Documentation de lanalyse dimpact sur les activits

Lanalyse ou le bilan dimpact sur les activits (BIA) produit un document rcapi-
tulatif. Ce document (ou ensemble de documents) est ralis au fur et mesure
de la progression de ltude dcrite prcdemment et doit tre conserv dans un
systme documentaire adapt. Il fera lobjet daudits ultrieurs (voir le chapi-
tre 13).

53
Management de la continuit dactivit

Ce document comporte au moins les lments suivants :

Analyse dimpact sur les activits (BIA)


1. Note de cadrage du BIA
1.1. Objectifs de ltude
1.2. Dcoupage du sujet tudier
1.3. Hypothses de dpart
2. Analyse des processus daffaire
2.1. Identication des fonctions et processus
2.2. Estimation des impacts nanciers et oprationnels
2.3. Liste des processus critiques pour lentreprise
3. Congurations concernes
3.1. valuation du MTD et des priorits relatives
3.2. Dtermination des systmes et applications informatiques critiques
3.3. Dtermination des autres lments critiques
4. Paramtres de reprise (pour les processus critiques)
4.1. RTO et WRT
4.2. RPO
4.3. Procdures de secours existantes ou crer
5. Conclusion du document BIA
5.1. Traabilit des dcisions prises
5.2. Proposition de dcisions prendre
5.3. Proposition de suite donner

54
Chapitre 3

Le dveloppement
dune stratgie
de continuit
Au cours des analyses prsentes dans les deux chapitres prcdents, lentre-
prise a fait le point sur les risques quelle encourt et a dtermin ses activits
critiques, dont la perte lui causerait les dommages les plus forts. Les dlais de
reprise et les temps dimmobilisation maximum acceptables de ces activits ont
t tudis et sont dsormais connus.
Il reste maintenant effectuer les actions prventives ncessaires pour que les
exigences des activits critiques puissent tre remplies. Cest lobjet de ce chapi-
tre, qui explique comment dterminer ces actions et comment dfinir la manire
dont la continuit dactivit est assure dans lentreprise. Tout ce dispositif
constitue la stratgie de continuit de lentreprise.
Les aspects techniques de ce chapitre ne sont quesquisss, afin de ne pas nuire
son droulement ; ils seront abords plus en profondeur dans la troisime par-
tie de cet ouvrage.
Produire une stratgie de continuit est un travail ncessitant cinq phases prin-
cipales dtude et de dcision.
1. Dans une premire phase, partir de lanalyse dimpact sur les activits (BIA
voir le chapitre 2) qui a prcd, les besoins en termes de reprise sont affi-
ns et dtermins prcisment.
2. Au cours de la deuxime phase, on passe en revue les solutions possibles et
ralistes.
3. La troisime phase permet de dterminer les dlais inhrents aux solutions
proposes en rapport avec les exigences formalises durant lanalyse
dimpact pour chaque activit.
4. La phase quatre consiste raliser une tude de cot et faisabilit sur les
solutions possibles.
5. Enfin, la phase cinq mne une conclusion et une prise de dcision : la
stratgie est prte et documente.
Cette stratgie servira de fondement au dveloppement du plan de continuit
proprement dit.

55
Management de la continuit dactivit

Phase 1 Expression des besoins en termes de reprise

Cette premire tape est ralise partir des conclusions de lanalyse dimpact
sur les activits (BIA). Elle se focalise exclusivement sur les processus jugs
critiques.
Vocabulaire
Dans la suite de ce chapitre, les mots processus et activits sont employs indiffremment.

Exigences des processus critiques


Dans la liste des ressources associes aux processus critiques (tablie normale-
ment lors du BIA), on reprend les diffrents paramtres de reprise que sont les
MTD (temps maximum dinterruption admissible), WRT (temps ncessaire la
rcupration du travail), RTO (dlai cible de rcupration des moyens de travail)
et RPO (dlai cible de rcupration des donnes).
On y ajoute, le cas chant, les besoins supplmentaires en cas de crise. Il sagit
principalement de besoins en personnel dfinition de lquipe de gestion de
crise ncessaire pour le ou les processus considrs ainsi quen moyens mat-
riels tels que :
un site de secours (ou des bureaux) do la crise sera gre ;
des moyens de communication ;
des possibilits daccs (doubles de cls, cartes magntiques, etc.).
Ces points sont prciss et dtaills dans le chapitre 4.
tude des besoins
Pour chaque processus critique, les besoins sont lists et classs en catgories.
Ce classement se rvle en effet utile pour pouvoir confier ltude des divers
besoins des quipes diffrentes. On pourra, par exemple, reprendre les catgo-
ries de besoins suivantes :
1. bureaux et locaux de travail ;
2. systmes, infrastructures et locaux informatiques ;
3. donnes et enregistrements critiques ;
4. production industrielle et fabrication.
La gestion de ces listes rclame un soin particulier, de manire suivre au plus
prs les volutions du terrain.

1. Bureaux et locaux de travail


On classe dans cette catgorie les besoins concernant :
les locaux gnraux situation et nature (par exemple : est-il possible dutili-
ser une salle dans un htel ? quelle distance du site sinistr ? aura-t-on
besoin dutiliser des bureaux provisoires mobiles ?) ;
le mobilier de bureau et meubles divers ;

56
Chapitre 3 Le dveloppement dune stratgie de continuit

les moyens de communication ;


les fournitures (papiers, stylos, etc.) ;
des locaux particuliers (locaux rfrigrs ou coffre fort, par exemple) ;
des formulaires spciaux (pour faciliter la saisie par crit, par exemple) ;
le matriel informatique de bureau (PC avec licences adquates, impriman-
tes, etc.).
On indiquera, quand il y a lieu, la tolrance acceptable sur ces moyens.

2. Systmes, infrastructures et locaux informatiques


Cette catgorie comprend les besoins en termes de :
locaux informatiques taille, emplacement et caractristiques techniques ;
fournitures lectriques ncessaires ;
capacit de refroidissement et de filtrage de lair ;
serveurs de stockage ;
bandothques et robots drouleurs de bandes magntiques ;
connexions pour les tlcommunications, dbits, taux de transfert, etc. ;
imprimantes spcifiques et alimentation en papier associe ;
systmes dexploitation, sous-systmes, bases de donnes, middleware ;
outils de reprise et de restauration de donnes ;
licences dutilisation associes ;
postes de travail ;
PC avec licences adquates et imprimantes individuelles associes.
La prcision simpose sur la plupart des lments de cette liste, qui doivent tre
correctement spcifis (type, version, mises jour, niveau, etc.). Il faut en effet
assurer une cohrence et une compatibilit optimales de lensemble.

3. Donnes et enregistrements critiques


En complment de la catgorie prcdente, il convient de considrer les besoins
en documents, donnes et toute autre information ncessaire lactivit.
Donnes informatiques
Classiquement, on tudie les aspects suivants, gnralement grs dans diver-
ses entits de lentreprise :
les sauvegardes informatiques (correctement effectues sur les points de
reprise applicative, de manire pouvoir tre charges et exploites sur le
site de secours) ;
les lieux o ces sauvegardes doivent tre conserves (hors sites) ;
les formats de ces sauvegardes (mdia, types de cassettes ou de disques,
outils de sauvegarde, formats des enregistrements, contraintes diverses) ;
les regroupements logiques des lments sauvegards (lots de cassettes
cohrents, valises regroupant ces lots, etc.) ;

57
Management de la continuit dactivit

ventuellement, les moyens logistiques pour acheminer les sauvegardes sur


les sites (taxi, camionnette, etc.).
L encore, la plus grande prcision est indispensable, car ces aspects ne tol-
rent pas lapproximation. Une cassette manquante ou une sauvegarde effectue
la mauvaise date provoqueraient, par exemple, limpossibilit de restaurer les
donnes.
Donnes non informatises
Le bureau sans papiers tant loin dtre gnralis, il est par ailleurs indis-
pensable de rfrencer tous les dossiers papiers, microfiches, disques optiques,
etc.,utiliss dans lactivit de tous les jours ou vitaux en termes de conservation.
Il faut ici prendre en compte tout ce qui est conserv sur le site, dans les
bureaux, armoires ou en sous-sol, sans oublier les sites darchivage. ce pro-
pos, une rflexion sur ce sujet peut se rvler utile pour faire voluer la politique
de gestion et dentreposage de ces documents.

4. Production industrielle et fabrication


Bien que ces aspects se situent la marge de cet ouvrage, citons ici les besoins
concernant :
les quipements de production critiques (machines, stocks de pices inter-
mdiaires, etc.) ;
les produits cruciaux conserver en stock (produits finis, semi-finis ou mati-
res premires, etc.) ;
des locaux alternatifs permettant de fabriquer en tout ou en partie et de pour-
suivre la production, en prcisant leurs caractristiques.
Remarque gnrale
Ces listes doivent faire lobjet dune attention minutieuse.
Elles doivent tre remplies et dtailles par des spcialistes choisis en fonction de chaque
cas.
Elles voluent au cours du temps : les tests et la maintenance du plan (voir les chapitres
6 et 12) veilleront sur ce point conserver leur pertinence.
La gestion du changement dans le systme informatique doit veiller bien tenir jour
ces congurations.

Phase 2 tude des options possibles pour la reprise

Afin de rpondre aux besoins de reprise exprims, on tudie un certain nombre


doptions envisageables. Ces options doivent tre analyses sans ides prcon-
ues sur le fait quelles seront finalement retenues ou pas. Il est en effet toujours
plus intressant dexplorer toutes les solutions, sans a priori.
Les classements permettant de structurer la dmarche, dans le domaine de la
continuit dactivit comme pour toute autre analyse, ces options peuvent une

58
Chapitre 3 Le dveloppement dune stratgie de continuit

fois encore tre regroupes en diffrentes catgories. Lexclusion ventuelle


dune catgorie, pour quelque raison que ce soit, ninterviendra que plus loin
dans la dmarche.

Catgories doptions ouvertes


Deux classements sont proposs ici, selon que lon considre le fournisseur de
loption (interne, externe, etc.) ou son degr de prparation.

En fonction du fournisseur
Un premier classement peut tre effectu en fonction du fournisseur de loption.
Options internes : il sagit doptions qui engagent lentreprise avec ses pro-
pres ressources et moyens, par exemple : un site de bureaux de secours
appartenant lentreprise. Le fournisseur est donc interne lentreprise.
Options contractuelles auprs de fournisseurs : dans ce cas, on fait appel
un fournisseur externe avec lequel un contrat a t conclu. Sur ce point, on
peut noter le dveloppement daccords dun type particulier : les accords de
rciprocit entre confrres.
Options impliquant des employs : cest un cas particulier tudier, impli-
quant les employs de lentreprise (les employs peuvent travailler depuis
leur domicile par exemple). Il vaut mieux avoir prvu ce cas de figure dans les
accords dentreprise ou, ventuellement, dans le contrat de travail. Le
fournisseur est alors dun type un peu particulier, puisquil sagit de
lemploy. Si cet employ est un prestataire, on pourra se reporter au cas pr-
cdent (fournisseur externe).

En fonction du degr de prparation


On peut galement classer les diffrentes options en fonction de leur niveau de
prparation et, par consquent, de leur rapidit de mise disposition.
Options toutes prtes : tout est prt pour prendre le relais en cas de sinistre,
les divers moyens sont disponibles, rservs et jour. Cest en gnral une
option rapide mettre en uvre, mais coteuse.
Options prvues : un accord a t pass avec un fournisseur ou un autre site
de lentreprise pour que les moyens soient mis disposition dans un dlai
convenu. Cest souvent le cas dans les situations contractuelles avec une
entreprise de secours ou dans les accords de rciprocit avec des confrres,
par exemple. Pour cette option, les dlais de mise en uvre sont dordre
moyen.
Options au cas par cas : rien de particulier nest prvu a priori, mais on sait
que, si le besoin se fait sentir, on y rpondra par une action particulire en
interne ou une commande en externe. Rien nempche dailleurs de prparer
cette commande. Cest en gnral loption la moins coteuse, mais aussi la
moins sre.

59
Management de la continuit dactivit

De faon similaire, on classera aussi les moyens informatiques selon leur degr
de prparation oprationnelle. Traditionnellement, on parle alors de moyens de
secours froid (peu prpars), tides (prpars) ou chauds (prts lusage).

Ventilation des options selon les catgories


Le tableau suivant donne un exemple de ventilation des catgories doptions
retenues.

Tableau 3-1 : Ventilation des options retenues dans les diffrentes catgories

Interne Externe Employs


Froid Site prcbl 200 km Non retenu Travail domicile
Contrat avec une
socit dinfogrance PC prquip
Tide Site de dveloppement activable
pour les serveurs domicile
Unix
Contrat de haute
Chaud Non retenu disponibilit sur les Non retenu
applications X et Y

On constate dans cet exemple que les solutions froides retenues ne font pas
lobjet de contrats sur le march et que seule la solution chaude est ralise
avec un prestataire externe.
Llaboration de tableaux de ce type permet la discussion et la prise de dcision
durant les runions de suivi.
Options envisages
En fonction des besoins exprims et des catgories doptions dfinies prc-
demment, il devient possible de lister et danalyser les options les plus suscep-
tibles de donner satisfaction. Encore une fois, cela consiste se livrer un
exercice dimagination des solutions qui pourraient convenir. Il ne sagit pas
pour autant de rver et de sloigner de la ralit technologique et financire :
les avantages et inconvnients des options listes seront jugs plus loin
(phase 3).
On adoptera la mme segmentation que pour lexpression des besoins :
1. bureaux et locaux de travail ;
2. systmes, infrastructures et locaux informatiques ;
3. donnes et enregistrements critiques ;
4. production industrielle et fabrication.

60
Chapitre 3 Le dveloppement dune stratgie de continuit

1. Bureaux et locaux de travail


Le tableau ci-aprs donne un exemple doptions envisageables qui seront tu-
dies pour les locaux et bureaux, classes en fonction de leur fournisseur.

Tableau 3-2 : Options pour les locaux et bureaux

Locaux et bureaux
Catgorie Option Description
Site mobile de secours livr en un
lieu prvu, et en gnral prquip
Site mobile
en mobilier, tlphones et postes
de travail.
Solution contractuelle
avec fournisseur externe Salles de runion dhtel Htel prvu lavance.
Site de secours en un lieu donn,
Site xe propos en tant que service par un
prestataire, galement prquip.
Solution interne Site de secours dormant ou pas,
Autre site de lentreprise
lentreprise prquip ou non.
Lemploy travaille depuis son
domicile et peut ventuellement
Recours lemploy Travail la maison
accder au systme informatique,
tlphonique, etc.

2. Systmes, infrastructures et locaux informatiques


De mme, le tableau suivant traite des options concernant les sites informati-
ques de secours, plus ou moins quips des matriels et systmes ncessaires.
Ces options sont ici encore classes en fonction de leur fournisseur (interne,
accord externe, offre commerciale). La description des sites doit correspondre
au plus prs une ralit constate et/ou ralisable.

61
Management de la continuit dactivit

Tableau 3-3 : Options pour les sites informatiques

Sites informatiques de secours


Catgorie Option Description
Site de secours de la socit, en un
Site distant appartenant
lieu dtermin prvu et en partie
la socit
prpar.
En toute proprit Site mobile de secours livr en un
lieu prvu, en gnral prquip en
Site mobile
mobilier, tlphones, postes de
travail ou serveurs, rseaux, etc.
Accord de rciprocit Chacun rserve de la place lautre
Accord avec un tiers
avec un confrre en cas de sinistre.
Site de secours ddi, propos en
Site ddi
tant que service par un prestataire,
(offre du march)
plus ou moins prquip.
Offre commerciale
Site de secours partag, propos en
Site partag
tant que service par un prestataire,
(offre du march)
plus ou moins prquip.

On peut aussi constituer dautres tableaux abordant un sujet spcifique pour


lequel une dcision simpose, comme le niveau de prparation des sites (voir le
tableau ci-aprs).

Tableau 3-4 : Niveaux de prparation possibles pour les sites informatiques de secours

Sites informatiques de secours


Catgorie Option Description
Site de secours non quip en matriel
informatique mais disposant de moyens
pour en accueillir (alimentations
Non prpar Site froid
lectriques, air conditionn, chauffage, eau,
sprinklers, lignes tlcoms, faux-planchers et
passage de cbles, etc.).
Site de secours dj quip de certains
moyens informatiques ncessaires, mais pas
Prvu Site tide de tous, ncessitant donc dtre complt
dans un certain dlai ; demande une
prparation.
Site de secours dont lquipement est trs
Prt lemploi Site chaud
proche de celui du site secourir.

Pour chaque option envisage, on peut prsenter les niveaux que lon souhaite
tudier (froid, tide, chaud).

62
Chapitre 3 Le dveloppement dune stratgie de continuit

3. Donnes et enregistrements critiques


En ce qui concerne les donnes et enregistrements critiques, une attention par-
ticulire doit tre porte la capacit reconstruire les donnes oprationnel-
les. Pour plus de prcision sur les aspects techniques, on se reportera la
Partie III de cet ouvrage.

Tableau 3-5 : Options pour les donnes critiques

Donnes critiques
Catgorie Option Description (voir Partie III)
Sauvegarde en continu par
Continu
rplication distance
Clich (snapshot) toutes les 3
Quelques minutes minutes, par exemple (stockage en
Frquence des
rseau NAS)
sauvegardes
Jour Sauvegarde une fois par jour
Semaine Sauvegarde une fois par semaine
Mois Sauvegarde une fois par mois
Complte Complte, sur tous les chiers
Uniquement ce qui a t modi
Incrmentielle
Type de sauvegarde depuis la sauvegarde prcdente
Uniquement ce qui a chang depuis
Diffrentielle
la dernire sauvegarde complte
Miroir distant (remote Copie de disque disque, par
mirroring) contrleur, par exemple
Technologie de Le systme de gestion de base de
Propagation de log de
sauvegarde donnes propage son journal sur un
SGBD
site distant
Bandes Copie sur bandes stockes hors site

Afin de faciliter la prise de dcision, il est galement possible de mentionner les


avantages et les inconvnients de chaque option. On se reportera au chapitre 8
pour plus de prcision sur ces points.
Enfin, cette analyse ne doit pas omettre les dossiers non informatiques que lon
peut dupliquer, mettre dans des armoires ignifuges ou conserver en double sur
deux sites, par exemple.

4. Production industrielle et fabrication


Pour la production et la fabrication industrielles, l encore, de nombreuses solu-
tions sont susceptibles dtre proposes ltude.

63
Management de la continuit dactivit

Tableau 3-6 : Options pour les quipements de production

quipements et ressources critiques de production


Catgorie Option Description
Lquipement est acquis lorsque le
Acquisition de lquipement
acqurir quand le sinistre a lieu.
besoin apparat Acquisition des pices Acquisition des pices en fonction
dtaches des besoins aprs le sinistre
Contrat pour sauver et restaurer
Contrat de service pour le tous les quipements endommags,
sauvetage et la restauration souscrit, avant le sinistre, auprs
dun fournisseur externe.
Maintien dun stock de Le stock de pices critiques est
Prtabli
secours pour les pices maintenu sur un site de secours
critiques sur un site distant distance avant le sinistre.
Maintien dquipements de Les quipements critiques sont
secours pour les quipements maintenus sur un site de secours
critiques, sur un site distant distance avant le sinistre.
Maintien dans un entrept de
secours des stocks de Ces matriels et produits sont
Stock de secours de
matires premires ou stocks lavance sur un site
matires premires
produits intermdiaires distant.
ncessaires durant la reprise
Site quip de certains moyens :
Utilisation dun site distant alimentations lectriques,
de la socit, vide chauffage, sprinklers, air
Site de production conditionn, etc.
alternatif
Le site endommag est reconstruit
Rparation, reconstruction du
ou rpar, totalement ou
site sinistr
partiellement.

Comme dans les autres analyses, un compromis est tabli entre ce qui est sou-
haitable et ce qui est ralisable.

Phase 3 Confrontation des options aux exigences mtier

Une fois toutes les options possibles passes en revue, celles-ci devront tre
confrontes aux exigences de chaque activit, telles quelles ont t dfinies
dans lanalyse dimpact (BIA). En liminant les options non compatibles avec les
besoins exprims, notamment en termes de dlais, cette phase permet de pro-

64
Chapitre 3 Le dveloppement dune stratgie de continuit

cder une premire slection, avant deffectuer une valuation multicritre


(cot/faisabilit).
Cette confrontation se fait en deux tapes.
1. Les options listes prcdemment sont passes en revue pour dterminer
leur rapidit de mise en uvre ou dlai dactivation en cas de sinistre.
2. Ce dlai de mise en uvre est alors compar aux besoins mis par les
mtiers sur leurs activits critiques, permettant ainsi de retenir les options
donnant satisfaction.

Dnition des dlais dactivation


Cet aspect est fondamental car, en cas de sinistre et dactivation de loption con-
sidre, il convient de se conformer aux exigences de dlai imposes alors que
le chronomtre court.
Les options listes prcdemment sont tudies afin de mettre jour les diver-
ses proccupations ou problmes de ralisation potentiels, ce qui permet
daboutir, pour chacune dentre elles, lvaluation de leur EAT (Expected Availabi-
lity Time) ou dlai moyen dactivation .
En effet, si ce dlai moyen dactivation est suprieur aux exigences mtier, cela
ncessitera de revoir loption, en lliminant ou en lamliorant.
Par souci de cohrence, la mme segmentation que lors des autres phases est
retenue pour tudier les diffrents paramtres dactivation des options.

1. Bureaux et locaux de travail


Le tableau ci-aprs prsente, pour les options cites en exemple, les obstacles
principaux une mise disposition rapide.

Tableau 3-7 : Difcults prvisibles pour chaque option envisage

Locaux et bureaux
Catgorie Option Proccupations ou problmes potentiels
Distance parcourir, conditions de
Site mobile circulation (mto, trac), encombrements
pour un convoi exceptionnel.
Solution contractuelle
avec fournisseur Salles de runion Si le sinistre est rgional, tous les htels sont
externe dhtel pris ou sinistrs.
Distance, conditions de circulation et
Site xe
daccs.
Solution interne Autre site de Idem, en ajoutant les causes communes
lentreprise lentreprise (par exemple, les grves).
Difcults de mise en place de la solution
Recours lemploy Travail la maison
technique pour les employs et la scurit.

65
Management de la continuit dactivit

Il est aussi intressant dtudier dautres aspects, tels que ceux lis au degr de
prparation oprationnelle ou louverture des locaux et bureaux de secours,
ainsi que du centre de crise (voir le chapitre 4).

Tableau 3-8 : Difcults envisager pour la prparation des locaux, bureaux


et centre de crise

Locaux, bureaux et centre de crise


Catgorie Option Proccupations ou problmes potentiels
Prparer le site, le congurer, installer,
Site froid connecter, etc. Les tches peuvent savrer
trs longues.
Niveau de prparation Les complments, les paramtrages et les
oprationnelle Site tide connexions peuvent prendre du temps
(1 jour ?).
Normalement disponible rapidement si cest
Site chaud
bien gr (quelques heures).

Remarque : disponibilit des sites


Le centre de crise (voir le chapitre 4) est encore plus sensible que les autres types de
locaux. Il doit tre ouvert le premier.

Tableau 3-9 : Proccupations lors du dclenchement

Locaux, bureaux et centre de crise


Catgorie Option Proccupations ou problmes potentiels
Normalement cest une solution prpare
Prtabli donc rapide. Attention aux volutions non
reportes. Il faudra faire des tests.
Bien, si les engagements sont tenus. Prvoir
du temps et des ressources humaines
Prarrang
Mthode de recours aguerries pour les installations,
congurations, paramtrages, etc.
Selon les circonstances et types de besoins,
les ressources peuvent mettre du temps se
Cas par cas
mettre en place. rserver au matriel
standard ?

2. Systmes, infrastructures et locaux informatiques


Pour les options concernant les sites informatiques de secours, plus ou moins
quips des matriels et systmes ncessaires, on sattachera des proccupa-
tions telles que celles prsentes dans les tableaux ci-aprs. Les difficults men-
tionnes doivent permettre rapidement de retenir ou dliminer une option.

66
Chapitre 3 Le dveloppement dune stratgie de continuit

Tableau 3-10 : Difcults prvisibles pour chaque option envisage

Matriel sur les sites informatiques de secours


Catgorie Option Proccupations et dlais
La distance du site, ltat des routes,
Site distant appartenant
le temps pour y aller peuvent avoir
la socit
En toute proprit un effet sur les dlais.
Idem, en ajoutant les connexions
Site mobile
rseau effectuer.
Les dlais dpendent ici de la
prparation ou non du site, de la
Accord de rciprocit raction du partenaire (qui peut,
Accord avec un tiers
avec un confrre dans les cas extrmes, avoir lui-
mme subi un sinistre), de la
distance et de ltat des routes, etc.
La distance, le besoin de personnel
Site ddi (offre du march)
sur place inuencent les dlais.
Offre commerciale Site utilis en totalit ou en partie,
Site partag consquences de loccupation par
(offre du march) dautres clients, loignement et
facilit daccs.

Tableau 3-11 : Difcults considrer pour la prparation des sites de secours

Matriels sur le site de secours


Catgorie Option Proccupations et dlais
Il faut quiper le site : problmes
dacquisition dquipements, de
Site froid dmarrage, dinstallations diverses,
de paramtrages, qui peuvent aller
jusqu 7 jours.
Niveau de prparation Les quipements supplmentaires
oprationnelle et les installations puis les
Site tide
paramtrages peuvent prendre de
1 jour 5 jours.
Normalement disponible
Site chaud rapidement (de 15 minutes
quelques heures).

3. Donnes et enregistrements critiques


En ce qui concerne les donnes et enregistrements critiques, une attention par-
ticulire sera porte la rapidit de reconstruction des donnes oprationnel-
les. Rappelons que les moyens techniques utiliss sont expliqus plus en dtail
dans la partie III.

67
Management de la continuit dactivit

Tableau 3-12 : Caractristiques et dlais pour chaque option concernant les donnes critiques

Donnes critiques
Catgorie Option Problmatique et dlais
Continu Convient aux RPO courts (quelques heures).
Quelques minutes RPO de quelques minutes.
Frquence des
Jour RPO = 1 jour.
sauvegardes
Semaine RPO = une semaine.
Mois RPO = un mois.
Demande peu de bandes et peu de temps
Complte
pour restaurer.
Type de
Demande le plus de bandes et de temps
sauvegarde Incrmentielle
pour restaurer.
Diffrentielle Entre les deux prcdents.
Miroir distant Peut permettre des RTO et RPO voisins de
(remote mirroring) zro, si complet.
Routage de transactions Idem, avec retour en arrire possible.
Grappe (cluster) Typiquement : RTO < 30 minutes
distance campus et SAN et RPO < 8 heures.
Technologie de Dpend du traitement de la log sur site
sauvegarde Propagation de log
distant ; dans les meilleurs cas : RPO
de SGBD
et RTO < 30 minutes.
Bandes proches ou non du lieu de
restauration ; selon le temps
Bandes
dacheminement, RPO et RTO se comptent
en jours.
Considrer la distance et laccessibilit, le
rangement des bandes, la facilit les
Site commercial
Site de stockage regrouper et les retrouver rapidement,
distant dlais pour prvenir le fournisseur.
Idem, en ajoutant les comptences en local
Site interne
ou dplacer.

Sur tous ces points, le chiffrage devra tre prcis et valid par les hommes de
lart. Lenjeu consiste ici dtecter les points problmes, qui peuvent se rv-
ler bloquants ou, au contraire, susciter une amlioration.
Il faut aussi noter que la plupart du temps plusieurs solutions cohabiteront et
que, pour une activit donne de lentreprise, cest la plus pnalisante qui sera
ressentie au final par les usagers.
L encore, les donnes papier ou enregistres sur disque optique numrique
(DON) feront lobjet dune considration particulire.

68
Chapitre 3 Le dveloppement dune stratgie de continuit

4. Production industrielle et fabrication


Enfin, voici un exemple de proccupations concernant les solutions envisagea-
bles pour les moyens de production de lentreprise.
Tableau 3-13 : Difcults prvisibles pour chaque option envisage

quipements et ressources critiques de production


Catgorie Option Proccupations et dlais
Si l'quipement n'est pas disponible et pas
Acquisition de
standard, il faudra attendre (des mois) ou
lquipement
sinon l'acqurir lavance et l'entreposer.
acqurir quand
le besoin apparat Les pices de rechange ont-elles t
Acquisition des pices rserves par le fabricant pour la
dtaches maintenance ? Sont-elles accessibles ?
Sinon : refabrication, donc dlais levs.
Difcults de mise en uvre du contrat
Contrat de service pour le
dues des effets collatraux du sinistre
sauvetage et la
(incendie rendant les locaux inaccessibles,
restauration
manations toxiques).
Maintien dun stock de Le temps de rcupration dpend de la
secours pour les pices distance, de l'tat des transports, de
Pr-tabli
critiques sur un site lemballage des pices et de la logistique.
distant
Maintien dquipements Idem, en ajoutant les comptences
de secours pour les ncessaires pour maintenir ces quipements
quipements critiques, en tat et redmarrer.
sur un site distant
Maintien dans un Le temps de rcupration dpend de la
entrept de secours des distance, de l'tat des transports, de
Stock de secours stocks de matires lemballage des matires et de la logistique.
de matires premires ou produits Les produits nis stocks peuvent-ils tre
premires intermdiaires expdis au client depuis le site de secours
ncessaires durant la sans impact pour les clients ?
reprise
Utilisation dun site Attention au degr de prparation du site.
distant de la socit, vide
Site de Dlais dpendant du temps valuer les
production Rparation, dommages, monter le dossier assurance,
alternatif reconstruction du site valuer les rparations et les dclencher
sinistr sur place avec les contrats adquats, tout en
respectant les consignes de scurit.

Les dfauts ou faiblesses constats peuvent conduire rechercher lamlioration


des offres dont lentreprise dispose sur le march. Ils ncessitent souvent des
ajustements dans les options, qui se traduisent par une rvision des contrats.

69
Management de la continuit dactivit

Comparaison aux exigences et slection des options


Une fois le dlai moyen dactivation dtermin, celui-ci est compar aux besoins
chiffrs prcdemment par les diffrents paramtres de reprise : MTD, RTO, RPO
et WRT. Cette comparaison permet de slectionner les options les mieux
adaptes ; les options non convenables sont alors limines. Notons que, dans
certains cas, les options sont rtudies dans le but dacclrer ou de faciliter
leur activation. Les autres options, elles, sont retenues et passes au crible de
ltude de faisabilit et cot faisant lobjet de la phase 4.
Le tableau suivant donne, titre dexemple, la liste des options prcdentes qui
sont ici limines, en prcisant la raison de cette limination.

Tableau 3-14 : Options limines pour les locaux et bureaux (1)

Locaux et bureaux
Catgorie Option Raison de non-slection
La distance parcourir, les conditions de
Solution contractuelle circulation (mto, trac), les
Site mobile
avec fournisseur externe encombrements pour un convoi
exceptionnel sont rdhibitoires.
Selon les circonstances et le type de besoins,
Activation Cas par cas les ressources peuvent prendre trop de
temps tre mises en place.
Les tches de prparation du site, de
Niveau de prparation Site froid conguration, dinstallation, de connexion,
etc.,peuvent tre trs longues.

Tableau 3-15 : Options limines pour les sites informatiques de secours (2)

Sites informatiques de secours


Catgorie Option Raison de non-slection
Sur routes surcharges, cette solution est
impossible raliser, sans parler des
En toute proprit Site mobile
difcults de connexions rseaux
effectuer.
Le site peut tre utilis en totalit ou en
Site partag partie, loccupation par dautres clients,
Offre commerciale
(offre du march) lloignement et la difcult daccs
rendent cette option trop incertaine.
Il faut quiper le site : problmes
dacquisition dquipements, de dmarrage,
Niveau de prparation Site froid
dinstallations diverses, de paramtrages ;
cela peut aller jusqu 7 jours voire plus.

70
Chapitre 3 Le dveloppement dune stratgie de continuit

Tableau 1-16 : Options limines pour les donnes critiques (3)

Donnes critiques
Catgorie Option Raison de non-slection
RPO = un mois. Dlai trop long,
Frquence des
Mois mme pour les applications peu
sauvegardes
exigeantes.
Demande le plus de bandes et de
Type de sauvegarde Incrmentielle
temps pour restaurer.
Technologie non matrise en
Routage de transactions
Technologie de interne.
sauvegarde Grappe (cluster) Technologie non conforme
distance campus et SAN larchitecture choisie.

Tableau 3-17 : Options limines pour les quipements de production (4)

quipements et ressources critiques de production


Catgorie Option Raison de non-slection
Si l'quipement n'est pas
disponible et pas standard, il
acqurir quand le Acquisition de
faudra attendre (des mois) sinon
besoin apparat lquipement
l'acqurir lavance et
l'entreposer.
Difcults de mise en uvre du
Contrat de service pour contrat dues des effets
Prtabli le sauvetage et la collatraux du sinistre (incendie
restauration rendant les locaux inaccessibles,
manations toxiques).
Dlais trop longs en raison du
temps ncessaire valuer les
dommages, monter le dossier
Rparation,
Site de production assurance, valuer les
reconstruction du site
alternatif rparations et les dclencher
sinistr sur place
avec les contrats adquats, tout en
respectant les consignes de
scurit.

Phase 4 tude de cot et faisabilit

Certaines options ont t limines en phase prcdente. Les autres, aprs


quelques amnagements, ont t retenues et font maintenant lobjet dune
tude dvaluation. Elle se droule classiquement en trois tapes :

71
Management de la continuit dactivit

1. la dtermination des critres pour lvaluation ;


2. le chiffrage des options selon les critres ;
3. les pondrations et choix doptions.
Enfin, une proposition de choix est ralise pour la phase 5.
Critres dvaluation
Ces critres doivent tre appropris au problme abord. Concrtement, on aura
souvent besoin dvaluer les options sur les points suivants :
la facilit ou difficult de mise en place de loption, en fonction des efforts
de ralisation et des investissements demands ;
la facilit ou difficult dactivation de loption (une fois en place) en effet,
leffort dactivation (au moment du sinistre ou au moment des tests) peut tre
important et dissuasif ;
le cot de la mise en place (une fois, puis rcurrent), en tenant compte des
divers paramtres ;
le cot de lactivation (l encore, pour une activation relle ou lors des
tests) ;
le niveau de qualit permis par loption certaines options de type mode
dgrad peuvent en effet tre acceptables lors dun sinistre pour certaines
activits, mais pas pour dautres ;
la scurit inhrente loption loption ne doit pas reprsenter une brche
bante en scurit ; tout risque sur ce point doit tre document afin de fixer
les limites acceptables ;
la matrise ou le contrle oprationnels sur loption il est possible quune
dpendance de tiers trop forte sur certaines applications sensibles soit
inacceptable ;
la matrise technique sur loption l encore, labsence de comptences en
interne ou la dpendance trop forte de comptences externes peuvent tre
considres comme rdhibitoires.
Pour une bonne lisibilit et afin de faciliter la dcision, on se fixera un nombre
limit de critres (pas plus de cinq, par exemple).
Chiffrage des options
Une fois les critres dfinis, ils sont valus pour chaque option retenue. Cela
peut se faire par une note de 0 (mauvais) 3 (trs bon), comme lillustre le
tableau ci-aprs.

72
Chapitre 3 Le dveloppement dune stratgie de continuit

Tableau 3-18 : valuation des options sur des critres deffort, de qualit, de matrise, de cots
et de scurit

Matriels sur site de secours (0 = dfavorable 3 = trs favorable)


Catgorie Option Effort Qualit Matrise Cots Scurit
En toute
Site distant 1 3 3 2 3
proprit
Accord Accord de
avec un tiers rciprocit avec 2 2 1 3 1
confrre
Offre
Site ddi 3 3 2 1 3
commerciale
Niveau de Site tide 2 2 2 2 2
prparation
Site chaud 3 3 2 1 3

Ce travail de chiffrage est effectuer sur toutes les options qui ont t retenues
jusque-l. Il peut tre demand plusieurs personnes responsables dans des
services diffrents et fera lobjet de discussions et ditrations jusqu obtention
dune vision partage. En gnral, ce chiffrage sappuie sur des donnes factuel-
les et ne devrait pas provoquer trop de divergences de point de vue.
On peut ne pas discuter ce stade de limportance des diffrents critres. Cela
permet de scinder lapproche en deux parties : une qui se concentre sur le choix
des critres, et lautre qui se focalise sur leur valuation.
Slection doptions
Les diffrents critres sont alors pondrs et les options les mieux notes rete-
nues.
Considrons lexemple prcdent concernant le site de secours informatique :
Dans lhypothse o seuls comptent leffort et la scurit (et donc pas le cot,
ni la matrise, ni la qualit), alors le choix se portera sur les deux options
suivantes :
Offre Commerciale / Site ddi
Niveau de prparation / Site chaud
Si, en revanche, le cot et la matrise sont mis en avant, alors le choix se fera
sur le site distant en toute proprit.
Toute pondration de lensemble des critres est bien videmment possible et
on obtient, la fin de cette tape, une liste doptions retenues.

73
Management de la continuit dactivit

Phase 5 Mise au point de la stratgie de continuit

Une runion de validation peut tre organise pour avaliser les dcisions ou
pour les cibler davantage lorsque le nombre doptions ouvertes est lev.
Lensemble de la stratgie de continuit peut alors tre document dans un rap-
port dtude, qui peut se structurer comme suit :

Stratgie de continuit
1. Besoins de reprise
1.1. Introduction, rappel du contexte BIA, cadrage
1.2. Exigences des processus critiques
1.3. Besoins pour la reprise
a. Segmentation (bureaux, locaux IT, donnes, autre)
b. Besoins en fonction de cette segmentation
c. Besoins communs
2. Options possibles
2.1. Catgories doptions tudier (internes, contractuelles, etc.)
2.2. Options envisages, en fonction de la segmentation
2.3. Options limines et raisons de llimination
3. Confrontation aux exigences mtier
3.1. Dlais dactivation
3.2. Comparaison avec les besoins des mtiers
3.3. Options retenues avec argumentation
4. tude de cot et faisabilit
4.1. Critres retenus
4.2. Chiffrage des options en fonction des critres
4.3. Pondration et slection des options
5. Compte rendu de la runion de dcision

Lensemble de ces lments, labors tout au long de ltude dcrite dans ce


chapitre, est conserv dans un systme documentaire. On pourra ainsi sy repor-
ter pour comprendre les dcisions stratgiques qui ont t entrines, en con-
sultant le dtail des attendus ou hypothses qui ont conduit ces dcisions.
Cela permet par ailleurs de vrifier si ces hypothses sont encore valables ou
non. Enfin, les auditeurs pourront facilement le consulter (voir le chapitre 13).

74
PARTIE II
Lentreprise
labore son plan
de continuit
Le plan de continuit dactivit (PCA) fixe les directives suivre par lentreprise
en cas de sinistre dans le but den minimiser les impacts sur son activit.
La ralisation dun PCA sinscrit dans le contexte dcrit dans la premire partie.
Dans un premier temps, lentreprise ralise une analyse des risques encourus et
dtermine diffrentes options pour y faire face (chapitre 1), puis elle en value
les impacts rsiduels sur ses activits critiques (chapitre 2) pour dfinir enfin
une stratgie de rponse en cas de sinistre (chapitre 3). La ralisation du PCA
sinscrit logiquement dans cette dmarche.
Pour quun plan de continuit soit efficace, lentreprise doit tout dabord
organiser la rponse apporte au sinistre en dfinissant les responsabilits
de raction en son sein, cest lobjet du chapitre 4.
Elle doit ensuite prvoir le droulement des activits et travaux mener en
fonction de sa stratgie et raliser cet effet un planning guide, comme indi-
qu dans le chapitre 5.
Enfin, pour assurer la viabilit du PCA, elle doit assurer sa maintenance en le
testant rgulirement : les tests sont dvelopps dans le chapitre 6.
Chapitre 4

PCA : dfinir
les missions
et les responsables
Cruciale dans toute activit humaine organise, la dfinition des missions et de
leurs responsables revt une importance accrue dans un contexte de sinistre et
de risque. Certains spcialistes amricains de la continuit dactivit vont mme
jusqu considrer que, une fois les missions et les responsabilits dfinies,
lessentiel du PCA est en place, le reste ntant alors plus que de lintendance.
Aujourdhui, lapproche la plus pragmatique et efficace que lon puisse adopter
consiste aborder le problme sous deux angles : dune part, les missions et les
objectifs atteindre et, dautre part, les activits mener pas pas.
Les missions et leurs responsables sont prsents dans ce chapitre, tandis que
les activits sont dtailles dans le chapitre suivant.

Cadrage du plan de continuit

Pour toute action denvergure, il est essentiel de bien spcifier le contexte des
activits mener. Noublions pas la finalit premire du plan de continuit : il
est destin avant tout aux personnes charges de ragir en cas de sinistre. Il doit
donc tre lisible pour permettre trs rapidement de situer les choses, de com-
prendre le rle de chaque intervenant et de prendre les bonnes dcisions.

Dnition du sinistre
Une dfinition claire du sinistre permet ce stade de dcider sil faut ou non
dclencher le plan de continuit. En effet, des actions plus simples, telles que le
recours une procdure de gestion dincidents, ou lappel un service dassis-
tance (help desk) ou un support technique, sont galement envisageables avant
de recourir au PCA.
Pour cela, lentreprise doit mettre au point sa propre classification des sinistres.
En gnral, on a recours un classement en plusieurs niveaux. En voici un
exemple, dfinissant trois niveaux de sinistre.

77
Management de la continuit dactivit

Sinistre mineur
En termes de probabilits, le sinistre mineur est lvnement le plus frquent,
tout en ne concernant quun sous-ensemble rduit de processus critiques de
lentreprise. Ainsi, il ne bloque pas compltement les entits mtier ayant
besoin de ces processus et celles-ci peuvent continuer travailler pendant un
certain temps.
Ce type de sinistre est caus le plus souvent par une dfaillance simple dun
constituant : pannes de disques sur des serveurs de donnes, coupures de cou-
rant limites certains btiments, etc.
La tendance actuelle montre une diminution des situations dans lesquelles un
tel sinistre se prsente ; autrement dit, les actions mener en cas de sinistre
mineur sont quasi banalises, amoindrissant son impact rel. Le chapitre 7 pr-
cise ces aspects.

Sinistre intermdiaire ou moyen


Ce type de sinistre est plus rare, mais il a un impact plus consquent sur les acti-
vits critiques de la socit. En effet, cet vnement arrte lactivit normale de
quelques entits mtier juges critiques dans lentreprise, sans pour autant
mettre mal toutes les entits critiques.
La cause de ce sinistre est souvent une combinaison de plusieurs pannes ou une
panne gnrale (voir le chapitre 7) entranant larrt de plusieurs systmes ou
quipements. Il sagit par exemple dune fuite deau en salle des machines, dun
croulement partiel de btiment abritant des machines importantes, etc.
Les volutions actuelles ont tendance considrer que cest ce type de sinistre
qui doit tre test en premier lors de simulations en situation relle (voir le cha-
pitre 6).

Sinistre grave ou majeur


Ce type de sinistre est moins frquent, mais ses consquences sont dautant
plus nfastes. En effet, le sinistre grave ou majeur cause larrt de pratiquement
tous les processus mtier critiques.
Il a pour origine la disparition ou la panne de la majorit des quipements et
systmes, ou tout vnement susceptible de rendre les locaux inaccessibles
(incendies importants, tremblements de terre, temptes, attentats, fuites de gaz,
etc.). Le plus souvent, lorsque ce type de sinistre se produit, lentreprise nest
pas la seule victime.
Objectifs du plan
Lobjectif du plan de continuit est de rduire un niveau acceptable les cons-
quences dun sinistre en mettant en uvre des procdures prdfinies.
Ces procdures, manuelles ou automatises, concernent aussi bien la mise en
scurit des personnes et des biens, la rcupration (de moyens, de capacit, de
donnes, de personnel) que la continuit pure et simple (passage sur un site de

78
Chapitre 4 PCA : dfinir les missions et les responsables

secours). Les processus mtier critiques de lentreprise identifis lors de lana-


lyse dimpact (voir le chapitre 2) sont concerns en priorit.
Ainsi, lors dun sinistre, il doit tre facile tout du moins cest un objectif de
savoir quels sont les processus mtier touchs et o sont les procdures de
rcupration et de continuit ; les quipes dintervention vont en effet en avoir
besoin.
Dans ce sens, il se dveloppe actuellement sur le march des offres de services
permettant daccder via le rseau un site web stockant ces documents, par-
tir dun portable ou dun Smartphone. Cela peut se rvler utile dans les cas o
la documentation papier du plan de continuit se trouve sous les gravats, les
serveurs de lentreprise perdus, tandis que le rseau mobile est demeur intact.

Primtre et exclusions
Il est primordial de dlimiter le champ daction du plan et den prvoir un dcou-
page adapt son excution. En gnral, chaque site important possde son
propre plan.
Le lecteur de ce plan doit y trouver aisment les donnes concernant son site, et
uniquement cela, afin de ne pas parasiter la lecture. Au sujet des autres sites,
seules les informations ayant des similitudes ou des relations importantes avec
le site sinistr seront retenues.
Le primtre doit dterminer en priorit :
le centre de gestion de crise o transmettre linformation ;
les sites de la socit (couverts ou non) ;
les entits mtier concernes ;
les partenaires mtier (prestataires, clients et fournisseurs) ;
les sites de secours pour les bureaux, linformatique ou les machines ;
les sites darchivage ou de stockage distants ;
les fournisseurs impliquer en cas de sinistre (pour les mesures de secours
informatique) ;
les autorits locales (pompiers, scurit civile, hpital, Samu, etc.).
En outre, il doit fournir une liste de tout lment permettant de dlimiter le
champ daction lintrieur comme lextrieur de lentreprise, notamment les
paramtres de raction :
la dure maximale attendue pour les oprations de rcupration et de
redmarrage ;
les vnements types susceptibles de dclencher le plan de continuit ;
les personnes habilites invoquer le plan de continuit.
Il peut tre galement intressant de lister les exclusions, afin de ne pas cher-
cher trop longtemps ces informations :

79
Management de la continuit dactivit

les sites ne devant pas tre considrs ;


les lments techniques hors du champ daction (par exemple, la tlphonie
vocale) ;
les actions qui ne sont pas du ressort de lquipe intervenant sur le site (par
exemple, la communication peut tre confie un porte-parole) ;
les lments traits par dautres quipes ;
les lments totalement secondaires, qui seront pris en compte en dernier.
Contexte gnral du plan
ce stade, lobjectif nest pas de connatre ce qui sest produit et pourquoi, mais
de sortir de ltat de sinistre. On peut donc rappeler trs succinctement, et titre
purement indicatif, les travaux qui ont prcd ltablissement du plan, afin de
cibler au mieux les actions mettre en uvre.

Rappel concernant la gestion des risques


Un court rapport de type management summary est ncessaire pour rappeler les
risques encourus par lorganisation et les solutions entreprises pour y remdier
(voir le chapitre 1). Voici les points qui y sont mentionns :
la liste des risques et des menaces qui psent sur lorganisation ;
la liste des biens (ou actifs) exposs aux menaces ;
la description synthtique des actions de mise sous contrle employes et du
risque rsiduel qui en rsulte.
Des rfrences dautres rapports peuvent galement y figurer, en particulier les
analyses de risques.

Rappel concernant limpact sur les activits


Les rsultats de lanalyse dimpact sur les activits (BIA) sont consigns dans un
rapport dans lequel sont lists notamment les processus critiques (voir le chapi-
tre 2). Pour chacun de ces processus, les aspects suivants seront brivement
dcrits dans le plan de continuit :
la dsignation du responsable, interlocuteur privilgi dont le nom est actua-
lis dans la liste de contacts (voir plus loin) ;
la MTD ou dure dinterruption maximale admissible ;
les systmes informatiques et applications utiliss par ce processus ;
les ressources critiques non informatiques ;
les divers temps de reprise : RTO, RPO, WRT des applications et ressources
critiques (voir le chapitre 2 pour plus de dtail).

Rappel concernant la stratgie de continuit


Ce dernier rappel concerne le troisime aspect du processus de continuit
dactivit, savoir les choix stratgiques raliss en termes doptions de conti-
nuit (voir le chapitre 3) :

80
Chapitre 4 PCA : dfinir les missions et les responsables

1. les locaux et bureaux de secours quil est prvu dutiliser suite un sinistre,
en particulier le centre de gestion de crise destin lquipe de gestion de
crise ;
2. les systmes, infrastructures et locaux informatiques jugs critiques et ceux
prvus pour les remplacer en cas de sinistre ;
3. les dossiers et donnes critiques, ainsi que les lieux ou sites o sont stocks
les sauvegardes et duplicata des documents critiques ;
4. pour la production industrielle, une indication prcise des quipements et
produits critiques, ainsi que des sites o lon peut trouver ou rtablir ces l-
ments ou ceux prvus pour les remplacer.

Structure du plan de continuit


Le plan de continuit doit tre formalis par un document lisible, mis jour
rgulirement et accessible par ceux qui devront lappliquer. Ce plan doit tre
complet et facile mettre en uvre.
Voici quoi peut ressembler un plan de continuit type.

Plan de continuit dactivit


1. Objectif et primtre
1.1. Objectif du plan
1.2. Primtre concern
1.3. Exclusions
2. Dnition du sinistre
2.1. Sinistre mineur
2.2. Sinistre moyen
2.3. Sinistre majeur
3. Rappel de ltude sur la gestion des risques
4. Rappel de lanalyse des impacts sur les activits
5. Rappel de la stratgie de continuit de lactivit
6. quipes et missions
6.1. Groupe de gestion de crise
6.2. Groupe de redmarrage des activits
6.3. Groupe de rcupration technique et oprationnelle
7. Informations utiles sur les contacts
7.1. Listes par entits et/ou comptences
7.2. Membres des diffrents groupes et remplaants
7.3. Aspects condentiels et vie prive
8. Centre de gestion de crise
8.1. Localisation

81
Management de la continuit dactivit

8.2. Activation
8.3. Occupants
9. Planning en sept tapes
9.1. Premire intervention et notication
9.2. valuation et escalade
9.3. Dclaration de sinistre
9.4. Planication de la logistique dintervention
9.5. Rcupration et reprise
9.6. Retour la normale
9.7. Bilan
10. Affectation des ressources techniques chacune des tapes
10.1. Listes et responsables
10.2. Mthode de mise jour
11. Affectation des ressources humaines chacune des tapes
11.1. Lien entre groupe et tape
11.2. valuation des charges
12. Contrle des changements ventuels du plan
12.1. Responsable
12.2. Mthode
13. Liste des destinataires du plan
13.1. Liste nominative et par fonction
13.2. Mise jour
Annexes (documents complmentaires fournis)
A. Plan de secours
B. Plan de communication de crise
C. Contacts externes
D. Ressources critiques
1. Bureaux et quipements
2. Systmes informatiques et infrastructures
3. Machines et quipements de production
4. Stocks divers de production
E. Dossiers critiques et enregistrements sensibles
F. Informations sur les sites de secours
1. Sites de secours informatiques
2. Sites de secours de production
3. Bureaux ou locaux de secours
4. Centre de gestion de crise
G. Procdures de stockage et de rcupration des dossiers et enregistrements vitaux

82
Chapitre 4 PCA : dfinir les missions et les responsables

H. Informations sur les polices dassurance


I. Conventions de service
J. Guides et normes
K. Formulaires de travail manuel
L. Rapports sur les tudes ralises
1. valuations de risque
2. Impacts sur les affaires
3. Stratgie de continuit
M. Glossaire

Planning des activits


Le PCA : un projet part
Le planning des activits doit tre conu par lentreprise de faon tre adapt
au mieux au contexte de ses activits. Il nexiste donc pas de plan universelle-
ment valable et chaque entreprise possde son propre plan. Nanmoins, il y a
tout avantage ce que le plan soit bas sur un modle type de planning permet-
tant de rpondre toutes les questions importantes dans un ordre raisonn.
Comme tout projet, le PCA fait appel des ressources spcifiques et des grou-
pes dintervention particuliers, dont il est important de dfinir au pralable la
composition et les responsabilits dans des listes. Lors dun sinistre, ces listes
de contacts jouent un rle primordial, car il est bien videmment impossible de
prvoir lavance les comptences mobiliser et disponibles ce moment-l :
nul ne connat le jour ni lheure du dclenchement du plan, et encore moins
le nom des responsables qui seront en position de dcider. Il faudra alors ragir
avec les ressources disponibles. Sur ces points, le PCA se distingue dun projet
normal. (Pour plus de dtails sur le projet de PCA, se rfrer au chapitre 12.)

Planning en sept tapes


On retient le plus souvent un planning en sept tapes, qui sera vu plus en dtail
dans le chapitre 5.
tape 1 Premire intervention et notification. Il sagit de prendre en
compte le sinistre, den valuer trs vite les dgts et dalerter les groupes
dintervention.
tape 2 valuation et escalade. Une inspection plus complte des dgts
sur le site touch est ralise, produisant rapidement un rapport. partir de
ces valuations, les quipes ncessaires sont dpches sur le site.
tape 3 Dclaration de sinistre. Selon les constatations faites, ltat de
sinistre est dclar ou non. Les tapes suivantes ne sont ralises que dans le
cas o ltat de sinistre est dclar.

83
Management de la continuit dactivit

tape 4 Planification de la logistique dintervention. Les procdures de


prparation logistique sont excutes pour prparer lenvironnement de
reprise et les quipes dintervention aux deux tapes suivantes.
tape 5 Rcupration et reprise. Les ressources critiques, informatiques ou
non, sont rcupres selon les options prvues. Les sites de secours sont mis en
tat, investis et oprationnels ; les processus critiques peuvent ainsi reprendre.
tape 6 Retour la normale. Les activits oprent une transition vers
ltat prcdant le sinistre. Les ressources et sites sont alors ceux dorigine ou
dautres caractre dfinitif.
tape 7 Bilan. Toutes les tapes prcdentes sont analyses afin damlio-
rer et/ou modifier le plan de continuit en consquence.
Attention ! Plan de continuit vs plan dintervention durgence
Notons quil est fortement possible que ltape 1 soit ralise en parallle dun plan
dintervention durgence (mdical, pompiers) soccupant de la scurit du personnel, de
la sauvegarde des biens et de la prservation de lenvironnement. Le plan de continuit,
quant lui, sattache uniquement la continuit des activits de lentreprise.
Cette diffrence dobjectif est importante et doit rester lesprit des personnes qui excu-
tent le plan, car elle peut amener des divergences de comportement. Par exemple, en cas
dincendie, les pompiers vont arroser un btiment pour viter la reprise ou la propagation
du feu, alors que les quipes charges de la continuit souhaiteront protger les ordina-
teurs de toute humidit.

Le centre de gestion de crise

Point central de commandement, le centre de gestion de crise est le lieu partir


duquel sont dcides, planifies et pilotes les actions des diffrents groupes
dintervention. Cest aussi le numro de tlphone appeler pour proposer ses
services et demander une affectation une tche du plan de continuit. Enfin,
cest l que lon rend compte de toute excution dactions planifies ou de tout
vnement nouveau.
Une analogie militaire prsenterait le centre de gestion de crise comme une
salle dtat-major ou une war room de film de guerre amricain, avec sur les murs
des tableaux et listes dintervenants affects dans les groupes dintervention. On
y tient jour ltat davancement des actions lances et la liste de celles venir.
Cest galement un lieu o sont prsents les dcideurs. Ainsi, en cas de doute
ou de ncessit darbitrage, les oprationnels sur le terrain savent quen appe-
lant ce centre, ils obtiendront une dcision ou une consigne appliquer et
faire appliquer.

Un rle cl
Il est primordial que ce rle de centralisation soit assur de manire claire et
reconnue. De nombreux exemples de pannes relativement simples prouvent que

84
Chapitre 4 PCA : dfinir les missions et les responsables

labsence de centre de gestion de crise, et donc de prise de dcision centralise,


complique une situation de crise et ralentit les actions de reprise.
Exemple : Panne dlectricit dans une usine de circuits imprims sans centre de
gestion de crise
La socit CT fabrique des circuits imprims pour la tlphonie. Vers 16 h 30, en plein
hiver, une panne dlectricit survient. Les machines sarrtent et lusine est quasi plon-
ge dans le noir, hormis dans les endroits o un clairage de secours a pris le relais.
Le centre informatique qui se trouve dans le mme btiment na galement plus dlectri-
cit. Certains serveurs sarrtent, dautres basculent sur une alimentation de secours. En
tout cas, les personnes prsentes sur le site supposent quil en est ainsi.
Au bout de cinq minutes, tous les employs ont quitt leur poste et discutent en groupes
dans les zones encore claires. En ralit, personne ne sait trop quoi faire. Certains
senquirent auprs de leur chef de la conduite tenir. Certains responsables tlpho-
nent, sans trop savoir qui. Les ordinateurs ne fonctionnent plus, la messagerie est inac-
cessible. Le help desk informatique prsent sur le site reoit des appels, mais il ne peut
que conrmer quil est lui aussi dans le noir.
Des ingnieurs systmes se rendent dans la salle des ordinateurs et constatent que cer-
tains serveurs critiques fonctionnent toujours, mais ils ne savent pas durant combien de
temps encore les rserves des batteries tiendront. Certains dcident deux-mmes darr-
ter certains serveurs en suivant des procdures de scurit, dautres se contentent desp-
rer que le courant reviendra sous peu. Mais on ne peut rien faire, car les procdures de
scurit sont enfermes dans le bureau dun chef dquipe absent.
Monsieur X., chef de service, rentre de dplacement vers 17 h. tant sur place le plus haut
plac dans la hirarchie, tout le monde se tourne vers lui, son bureau devenant alors une
salle des pas perdus o se rassemblent des employs impuissants. Monsieur X. demande
alors certaines quipes de rentrer leur domicile pour librer un peu de place et ainsi
se concentrer sur le problme. Il part ensuite en salle informatique pour se renseigner sur
les batteries alimentant les serveurs critiques. En son absence, son tlphone continue de
sonner, mais personne ne dcroche.
La socit cite en exemple sen est sortie ; cet vnement lui a permis de tirer
certaines leons, en faisant apparatre les besoins suivants.
Mise en place dun centre de gestion de crise connu de tous Le help desk
a t choisi car son numro de tlphone est connu de tous les employs. Un
bureau, dot de plusieurs lignes de tlphone, lui est attribu.
Dsignation dun responsable Monsieur X. est dsign responsable de
crise sur ce site et, lorsquil sabsente, son adjoint le remplace.
Permanence au centre En cas de crise, Monsieur X. se rend au centre de
crise et nen bouge pas. Sil a besoin dune information, il demande un
employ daller se renseigner.
Liste de contacts Des numros de tlphone de personnels utiles en cas de
crise sont nots dans une liste dont une copie est garde au centre de crise.
Doubles des cls Des cls daccs pour la salle informatique et pour cer-
tains bureaux sont dupliques et conserves au centre de crise.

85
Management de la continuit dactivit

Liste des ressources critiques Une liste des serveurs les plus critiques est
tablie, dont une copie est conserve au centre ; le help desk est par ailleurs
trs content den disposer. Une pastille colore de priorit darrt est gale-
ment colle sur les serveurs critiques.
Matriel ncessaire Des lampes de poche, un tableau de confrence avec
des marqueurs sont stocks dans une armoire du bureau de gestion crise.
Ces quelques actions de bon sens permettent damliorer la ractivit des inter-
venants en cas de sinistre. Le fait de dsigner un centre de gestion de crise et de
rflchir ce quil serait bon dy trouver a permis de progresser dans la prise en
compte et la rsolution de sinistres.
Emplacement stratgique du centre de gestion de crise
Malheureusement, il est impossible de connatre lavance le lieu o se pro-
duira le sinistre. Il faut donc tudier diffrentes situations pour valuer les sites
candidats. Les critres qui suivent permettent ensuite de les comparer.
Reconversion de locaux existants quips Peu de socits peuvent
sallouer une salle entirement ddie la gestion de la crise. En gnral, cest
un local dun autre usage habituel qui est utilis en cas de sinistre. Il faut donc
chercher dans les locaux existants les salles qui peuvent facilement tre recon-
verties en centre de gestion de crise et qui disposent dj de tlphones, dun
cblage rseau, de tables et chaises et ventuellement dordinateurs connec-
ts. Trs souvent, les salles de cours savrent de bonnes candidates.
loignement des zones risque Le centre ne doit pas tre soumis au
mme sinistre que le site touch. Ainsi, on vitera de le placer en zone inon-
dable, si linondation est le risque principal. Il faut penser galement que les
ascenseurs peuvent tre en panne et ne pas le placer trop haut dans les tages.
Accessibilit Le centre doit tre facile daccs (gare, sortie dautoroute),
proche de commodits (htels, restaurants), avec des facilits de chargement
et de dchargement de matriels.
Centre de gestion de crise de secours
Pour des raisons de fiabilit, un centre de gestion de crise doit aussi disposer
dun site de secours, dans le cas o le centre principal serait inutilisable.
Pour un tel choix, il convient de rester pragmatique. Si lentreprise dispose de
plusieurs sites relativement proches, il est facile de trouver des bureaux adapts
que lon puisse amnager en cas de sinistre. Chaque site possde son centre de
gestion de crise et le centre dun site peut venir au secours dun autre. Il est ga-
lement possible dutiliser les locaux dun confrre peu loign. Dans ce cas, il
faudra grer la cohabitation, en particulier si le bureau utilis sert aussi de cen-
tre de gestion de secours pour le confrre. Ce type daccord peut bien videm-
ment tre rciproque. Enfin, il est galement envisageable dutiliser des bureaux
mobiles amnags dans un conteneur que lon fait venir sur le site ; un centre
prcaire vaut mieux que pas de centre du tout. En cas de sinistre, il savre donc

86
Chapitre 4 PCA : dfinir les missions et les responsables

utile de prvoir ces trois alternatives : le centre de gestion de crise principal, le


centre de secours et le centre mobile.
Concrtement, il est possible dutiliser en premier recours un centre de secours
loign parce que lon ne dispose daucune autre solution. Ensuite, il est tou-
jours temps de dmnager, pour des raisons pratiques, dans un lieu plus proche
du sinistre ; on utilise alors un site mobile ou le centre site sinistr lui-mme.
Une dernire solution consiste louer une salle dans un htel, demandant une
moindre prparation. Toutefois, si le sinistre est dampleur rgionale, cette solu-
tion nest pas forcment viable, dautres entreprises pouvant galement avoir
rquisitionn les salles de ce mme htel.

Fonctions du centre de gestion de crise


Le centre de gestion de crise est le lieu do sont excutes trois fonctions
essentielles : le commandement, le contrle et la communication points
essentiels dans lorganisation de ce centre et la planification de ses besoins.
Attention, cependant : le centre est souvent fortement associ dans les esprits
avec la coordination gnrale du PCA. ce sujet, les Amricains ont coutume de
dire quun gnral sans centre dopration nest pas un vrai gnral.

Commandement
Trs souvent, les dcisions doivent tre prises dans lurgence partir dinforma-
tions incompltes. Le sinistre a provoqu des dgts et il est fortement probable
quil en provoquera dautres. Il faut donc le circonscrire et sauver ce qui peut
encore ltre. Dans ce but, un dispositif de prise de dcisions doit tre mis en
place rapidement ceci afin que tous les intervenants prennent le rflexe de ren-
dre des comptes au centre de gestion de crise tout en suscitant une attitude
dcoute et de respect des instructions manant du centre.
Un cercle vertueux rendre compte puis excuter doit imprativement se
mettre en place rapidement. Si ce nest pas le cas, les quipes sur le site ris-
quent dagir inutilement, de faon dangereuse voire nuisible, sans pour autant
avoir effectu les actions de premire importance. Pour viter cela, il faut que
loprationnel puisse contacter le centre et y trouver des rponses immdiates.
Sinon, il considrera quil doit se dbrouiller tout seul et que les comptes
rendus sont une perte de temps .
Un commandement efficace collecte les informations, met en place des plans
dactions ralistes en fonction des moyens mis disposition et affecte les rares
ressources disponibles l o leur efficacit sera maximale. Il est donc ncessaire
que le responsable soit un bon dcisionnaire et quil ait disposition un mini-
mum dinfrastructures.

Contrle
Le contrle consiste suivre lexcution des oprations et rajuster les actions
en fonction des vnements et des rsultats obtenus.

87
Management de la continuit dactivit

Toutes les informations collectes sont regroupes et rapportes aux responsa-


bles. Cest pourquoi, il est utile de disposer de tableaux de confrence avec du
papier blanc et des marqueurs : cela permet de noter les informations par grou-
pes dintervention et de les avoir toujours sous les yeux. Dtail anodin en appa-
rence, lutilisation de papier plutt que de surfaces effaables a lavantage de
permettre un dbriefing ultrieur et la reconstitution de la chronologie des v-
nements.
Cest encore au centre de gestion de crise que les raffectations de ressources
sont dcides, transmises et consignes. On y reoit galement les nouvelles
informations sur le sinistre, qui sont classes et horodates.
Des actions centralises, telles que des commandes de matriels (pompes,
bches, serveurs, etc.) ou les dclarations diverses auprs des autorits ou assu-
reurs, sont menes depuis le centre, o elles sont documentes. Loutil principal
dans ces actions est alors le tlphone.

Communication
Le centre de gestion de crise est le point nvralgique de la communication : cest
lendroit o toutes les nouvelles informations doivent converger et do provien-
nent toutes les informations fiables. On distingue deux types de communica-
tion, en fonction de son objectif : la communication pour action et la
communication pour information. Linformation entrante provient des groupes
dintervention sur le terrain tandis que la communication sortante est destina-
tion des mdias, des partenaires et clients, des salaris et du grand public.
Un plan de communication type est donn en fin de chapitre.
Exemple : Quand les tlcommunications ne fonctionnent pas
Suite un incendie ayant provoqu une coupure de courant et de nombreux dgts, la
tlphonie interne de la socit SLO, socit de leasing, ne fonctionne plus.
Constatant le problme, les responsables de lentreprise se rendent les uns aprs les
autres dans le bureau du chef du service des tlcommunications, Monsieur Y. Aprs
vingt minutes, ce bureau sest quasi transform en centre de gestion de crise. Il en pr-
sente en effet bien des caractristiques : Monsieur Y. y a runi ses experts qui tracent un
plan de rsolution au tableau blanc tandis que deux dentre eux se rendent dans la salle
de lautocom pour en revenir au bout de cinq minutes avec des propositions dactions.
Monsieur Y. et dautres chefs dquipes ont plani sur un tableau de confrence diverses
interventions et ont revu ensemble les activits du soir pour tenir compte surtout de
labsence de tlphonie. Les plannings ainsi modis sont xs au mur avec du ruban
adhsif, les employs viennent sy informer.
Dans cet exemple, il est vident que le bureau du chef de service des tlcommunications
est le lieu le plus appropri pour implanter un centre de gestion de crise, tant que la tl-
phonie nest pas oprationnelle et le local initialement prvu sans aucun moyen de com-
muniquer. Dans le bureau de Monsieur Y., toute communication est de forme orale et le
reporting ralis grce au rexe des experts se dplaant pour rendre compte leur chef
et saviser des instructions. Des informations oprationnelles sont galement afches
au mur.

88
Chapitre 4 PCA : dfinir les missions et les responsables

En gnral, il est prconis de disposer au centre dau moins trois lignes


tlphoniques : une ligne pour les appels entrants ( limiter en dure), une
autre pour les appels sortants et une dernire disponible pour les appels de
secours.
En cas de dfaillance des moyens habituels de communication (tlphonie fixe
et mobile), il est ncessaire de disposer de moyens radio (talkie-walkie) pour
relier le centre de gestion de crise aux oprationnels envoys sur le terrain.

quipement du centre de gestion de crise


Le centre de gestion de crise prvu doit tre dot de moyens lui permettant de
remplir parfaitement sa mission sur toute la dure ncessaire. Il faut donc pr-
voir, dans le centre, mme ou proximit, des moyens facilement accessibles
tels que :
un gnrateur lectrique ou des batteries avec onduleurs ;
un clairage de secours ;
des lampes de poche avec provision de piles lectriques en tat de
fonctionner ;
des sanitaires, si le centre est isol ;
des trousses pharmacie ;
des fournitures blocs-notes, papiers, crayons, stylos bille, marqueurs,
tableaux de confrence, tableaux blancs, agrafeuses, papier adhsif, etc. ;
des ordinateurs et des imprimantes connects au rseau ;
des tables, chaises, armoires dossiers, corbeilles papier et poubelles ;
un ou plusieurs photocopieurs, tlcopieurs, avec les recharges de papier et
les cartouches dencre adaptes ;
des exemplaires du plan de continuit, des listes tlphoniques, des organi-
grammes et des listes de contacts ;
des plans des btiments, du site, de la ville et des environs ;
des formulaires spcifiques certains processus manuels de lentreprise ;
des talkies-walkies avec batteries et chargeurs.
Il est indispensable de vrifier rgulirement le bon fonctionnement des divers
matriels ; les batteries doivent tre charges, les piles utilisables et tout ce qui
possde une date de premption renouvel dans les dlais. Les tests dcrits au
chapitre 6 traitent plus prcisment de ces aspects.

Missions, quipes et responsabilits

Lors de lexcution dun plan de continuit, rien nest plus terrible quune situa-
tion o les employs ne savent pas quoi faire, agissent isolment et sans rendre
de comptes ou, simplement, les rassemblements de curieux qui entravent la

89
Management de la continuit dactivit

libert daction des intervenants voire, pire, augmentent le niveau dexposition


et de risque. Il est donc essentiel de cadrer clairement les quipes oprationnel-
les, en dfinissant prcisment le profil des intervenants ainsi que leurs
responsabilits.
Il faut distinguer plusieurs missions et responsabilits. Toutes sont indispensa-
bles. Lorganisation peut varier : on peut prvoir une seule quipe polyvalente
qui assume lensemble des missions ou, linverse, rpartir ces missions entre
plusieurs quipes spcialises. Le dcoupage doit tre guid par des proccupa-
tions de facilit de mise en uvre et de capacit coordonner.
Dautre part, il faut garder lesprit quun spcialiste prvu dans lune des qui-
pes dintervention peut se trouver indisponible le jour du sinistre. Un compro-
mis doit donc tre trouv : comptence gale, il est prfrable de choisir un
employ sdentaire plutt quune personne toujours en dplacement.
linverse, un employ qui ne travaille pas en temps normal sur le site considr
ne sera pas touch si le site est sinistr ; il sera alors plus disponible pour
intervenir.
Dans ce domaine encore plus quailleurs, il existe une diffrence entre la thorie
et la pratique. En cas de sinistre, il faut avant tout rechercher lefficacit : un
ingnieur systme sera probablement plus utile en donnant ses instructions par
tlphone (sil fonctionne) un oprateur de la salle informatique, plutt qu
essayer de se rendre sur le site sinistr au risque de perdre deux heures dans les
embouteillages.
Le groupe de gestion de crise
Le groupe de gestion de crise dirige lexcution du plan de continuit et coor-
donne la communication ainsi que les diverses interventions connexes.
Ce groupe est plac sous la responsabilit dun chef de groupe choisi parmi les
cadres dirigeants seniors de lentreprise. Cest lui qui, lors dun sinistre, a le
pouvoir de dcider dactiver ou non le plan de continuit. En effet, grce sa
connaissance de lentreprise et ses nombreux contacts sur le site et lextrieur
(sige, filiales, tranger, hors entreprise, etc.), il est en mesure de comprendre
rapidement les enjeux et de dcider en connaissance de cause.
Le groupe de gestion de crise se voit confier notamment les sept missions sui-
vantes, qui peuvent faire lobjet dquipes distinctes ou de responsables seniors
attitrs.

Coordination de la continuit dactivit


La coordination consiste mener bien les diverses tapes du plan de conti-
nuit, aussi bien en interne quentre les diffrentes quipes. Il peut galement
tre intressant dy associer la responsabilit de la maintenance et des tests du
plan de continuit.
Cette mission fondamentale doit tre confie une personne dote dune
grande rsistance au stress et dune force de dcision consquente trop

90
Chapitre 4 PCA : dfinir les missions et les responsables

dhsitations se rvlant inefficaces en cas de crise. Un responsable senior ou,


dans de plus petites structures, le chef du groupe continuit peuvent parfai-
tement assumer cette fonction.

valuation des dommages


Cette mission seffectue immdiatement aprs la prise de connaissance du
sinistre. Elle sappuie sur lintervention de spcialistes locaux, qui sont imm-
diatement envoys sur les lieux pour valuer au mieux ltendue des dgts et
estimer le temps ncessaire pour une remise en tat et un redmarrage des acti-
vits informations consignes dans un rapport. Ainsi, il est prfrable de pr-
voir sur place des intervenants pour cette mission.
Afin de dterminer au mieux tous ces lments cls pour la suite des oprations,
il est bon de sappuyer sur des listes ou des guides de recommandations prta-
blis (listes de contrles).

Dclaration dactivation du plan


Cette mission consiste avertir lensemble des employs et des dispositifs
impliqus dans le plan de continuit. Elle doit donc tre confie une quipe
connaissant bien lorganisation de lentreprise et des clients. En effet, il est sou-
vent ncessaire, en cas de sinistre, de trouver et de contacter les personnes dis-
ponibles, qui ne sont pas forcment celles prvues lorigine.
Pour cela, il existe des listes prtablies de responsables et de personnels, orga-
nises en fonction des comptences de chacun (voir ci-aprs).

Interventions durgence ou de premiers secours


En cas durgence ou de premiers secours, il est impratif de protger en priorit
les personnes, les biens et lenvironnement. Ainsi, diffrentes quipes peuvent
tre dpches sur les lieux du sinistre :
quipes de premiers secours envoyes par et dpendant du groupe de ges-
tion de crise ;
quipes rattaches une autre responsabilit (scurit civile, prfet) ; cest
le cas le plus frquent, et la mission consiste alors se coordonner avec ces
quipes.
Pour dfinir cette coordination, un plan de secours , consistant en une liste
de points qui devront tre pris en considration par les premiers secours, doit
tre mis en place. Un exemple en est donn la fin de ce chapitre.

Communication
Cest un aspect important, mais trop souvent nglig, de la gestion de crise. Il
sagit de fournir des informations cohrentes, actualises et prcises sur le sinis-
tre subi (nature, volution, actions mener et temps de rtablissement prvu)
toutes les personnes concernes (le personnel, la hirarchie, les partenaires
daffaire externes, les clients mais aussi le public).

91
Management de la continuit dactivit

Il faut distinguer la communication pour information de la communication pour


action. Ce rle dinformation sera confi prfrablement une personne tra-
vaillant en appels sortants, afin dviter les saturations dappels tlphoniques
inutiles vers les responsables oprationnels. Cela veut dire que la personne
prend les devants et appelle vers lextrieur plutt que dattendre des appels
entrants pouvant perturber les responsables oprationnels.
Un guide prtabli de la communication de crise peut tre ralis avec profit : un
exemple de plan de ce type est donn en fin de chapitre.

Activation de la logistique et de lapprovisionnement des moyens de secours


Il sagit ici de raliser concrtement les actions prvues par la stratgie de conti-
nuit (voir le chapitre 3), savoir :
activer les contrats de secours de sites, les livraisons des moyens informati-
ques et autres, louverture des droits de licence, des connexions rseaux de
secours, etc., prvus dans le plan ;
effectuer des dmnagements et les dplacements des employs vers les
sites secondaires.
En gnral, cette mission est confie une quipe travaillant en parallle des
autres, ayant une parfaite connaissance des fournisseurs, des contrats de
secours et de leurs conditions. Ses membres ne se trouvent pas ncessairement
sur place, mais doivent interrompre leur activit habituelle pour sy consacrer
plein temps.

valuation des risques


Proccupation majeure du groupe de gestion de crise, cette mission consiste
valuer en continu les risques pris lors de lactivation du plan de continuit, afin
de les contrler au mieux. Ces risques concernent notamment :
avant tout, bien sr, les personnes, les biens et lenvironnement ;
ensuite, la prservation des droits et des intrts de lentreprise (vis--vis des
assurances ou de recours divers), ainsi que le respect des obligations lgales,
de la scurit et de la confidentialit.
Cette mission est le plus souvent confie un technicien gnraliste reconnu
qui aura, ventuellement, sopposer certaines actions quil jugera trop ris-
ques. Ainsi, des arbitrages invitables seront faire avec et par le chef du
groupe de gestion de crise. Ces arbitrages devront ncessairement tre
documents.

Le groupe de redmarrage des activits


Ce groupe est trs important, car tourn vers les mtiers et les activits de
lentreprise. Il reprsente les intrts des responsables des diffrentes activits
de lentreprise (entits mtier ou business units) et porte leurs exigences en ter-
mes de continuit dactivit.

92
Chapitre 4 PCA : dfinir les missions et les responsables

Le groupe de redmarrage des activits se subdivise en trois quipes, reportant


chacune au chef du groupe de gestion de crise : lquipe mtier, les utilisateurs
courants et le groupe charg des relations internationales, quand il y a lieu. Tou-
tefois, sa constitution est volontairement diffrente de celle du groupe qui pr-
cde, car il se peut que les priorits divergent.

Lquipe mtier (business unit)


Son objectif est de rpondre aux proccupations et de dfendre les intrts des
diffrents dpartements de lentreprise qui ont besoin de retrouver des moyens
pour fonctionner.
Plusieurs organisations sont possibles pour constituer cette quipe :
chaque dpartement a son propre groupe constitu dutilisateurs cls ;
une seule quipe regroupe les reprsentants ou correspondants informati-
ques des principaux dpartements ;
les dpartements intervenant sur des activits critiques sont reprsents par
une seule quipe, les autres units par une seule personne ou ne sont pas
reprsentes ;
un rle est souvent attribu une matrise douvrage interne proche des busi-
ness units, focalise sur les processus dits critiques de lentreprise.

Le groupe des utilisateurs courants


Ce groupe dtermine les besoins immdiats et souvent dordre gnral (bureau-
tique, rseau local, poste de travail) des utilisateurs, suit le processus de red-
marrage des activits et sert de relais entre les utilisateurs et le groupe de
rcupration technique (voir plus loin).
la demande du responsable de la gestion de crise, ses membres peuvent tre
amens choisir entre deux solutions. Il est en effet possible dimaginer des
solutions de reprise en mode dgrad, demandant de choisir entre une solution
incomplte mais rapide et une solution complte mais beaucoup plus longue
mettre en uvre.
Dautre part, on peut imaginer des entits mtier qui, devant ltendue des
dgts, vont mener leurs propres actions laide de moyens hors du champ du
plan de continuit, comme utiliser des botes mails de grands fournisseurs
Internet en attendant que la messagerie interne soit rtablie. Ces actions ne
concernant quun nombre restreint dutilisateurs peuvent tre menes en
dehors du plan de continuit. Ce type de situation se rencontre lorsque la
mutualisation des moyens informatiques nest ni trs forte ni centralise. Le res-
ponsable de la gestion de crise doit malgr tout en tre averti. Dans ce cas, le
dpartement autonome rejoint le plan en tape 6 (retour la normale). Avec
lapparition des offres de services sur Internet ou lutilisation de logiciels en
mode SaaS (Software as a Service ou logiciel propos comme un service), ces situa-
tions, encore rares, deviennent de plus en plus courantes.

93
Management de la continuit dactivit

Ainsi, llaboration du plan de continuit ne doit pas ngliger ces solutions


externes, sous peine de se trouver dbord le jour du sinistre par des opration-
nels qui iront chercher des solutions partielles et non coordonnes en dehors de
celles prvues par le plan. Avant de ne recourir quaux solutions internes, il est
indispensable denvisager la viabilit des offres externes du march et de les
intgrer au plan si elles conviennent.

Le groupe des relations internationales


Pour les entreprises disposant de filiales ou de partenaires importants ltran-
ger, il convient dtre vigilant quant aux impacts que le sinistre peut avoir sur ces
relations. Ainsi, en raison des problmes de langues et de dcalages horaires, il
est souvent prfrable de confier une personne ou un petit groupe la mission
suivante, consistant :
prvenir les contacts ou responsables trangers de loccurrence du sinistre ;
les avertir de limpact du sinistre sur leurs activits ;
les informer des volutions et des actions mises en uvre ;
leur transmettre des messages diffuser localement ;
dclencher, ventuellement, en local les parties du plan de continuit qui les
concernent ;
assurer un suivi des actions menes localement et la coordination avec la
maison mre ;
recueillir les ventuelles suggestions damlioration du dispositif.

Le groupe de rcupration technique et oprationnelle


Les membres de ce groupe sont envoys sur le terrain pour rcuprer tout ce qui
peut ltre et remettre en ordre de fonctionnement ce qui doit ltre.
Selon le contexte du sinistre et son ampleur, sa constitution ainsi que sa locali-
sation gographique peuvent varier. En effet, certaines personnes peuvent tre
envoyes sur le site sinistr et dautres sur un site de secours plus ou moins
loign.
Ses comptences doivent permettre la ralisation des missions dcrites
ci-aprs.

Remise en route de linformatique


Effectue par des spcialistes, cette mission consiste remettre en tat ou
faire redmarrer neuf les moyens informatiques : plates-formes et syst-
mes dexploitation, rseaux et tlcommunications, systmes de bases de don-
nes et fichiers, applications prvues dans le plan, restaurations systme,
systmes de scurit conformes au niveau convenu, environnements divers
(tests, intgration), cblage, alimentations lectriques et refroidissement.

94
Chapitre 4 PCA : dfinir les missions et les responsables

Ces spcialistes connaissent parfaitement les procdures dinstallation et les


contraintes de configuration, tout en disposant des autorits et autorisations
ncessaires.

Rcupration et mise en route des moyens de production industrielle


Cette mission est confie diffrents corps de mtiers : mcaniciens, lectri-
ciens, spcialistes de commandes numriques, dpanneurs, chargs de mainte-
nance, lectroniciens, etc. Cette quipe prend en charge la rcupration, la
remise en tat et lactivation des quipements conservs en secours ou apports
sur le site du sinistre :
quipements endommags valuer et remettre en tat ;
quipements tester ;
alimentations lectriques ou autres nergies ;
stocks de matires et biens intermdiaires ;
tout quipement assurant la scurit dexploitation.

Manipulation des matires dangereuses


Il est ncessaire de manipuler correctement certaines matires qui, selon le con-
texte, peuvent savrer dangereuses pour lenvironnement comme pour
lhomme. Les intervenants sur cette mission doivent donc identifier les matires
ou conditions risques, dtecter les contaminations ou pollutions diverses, afin
de mettre en uvre les actions de protection ou dvacuation.
Il est donc primordial que ces intervenants soient des spcialistes du domaine,
voire des intervenants extrieurs (pompiers, fournisseurs dlectricit ou de gaz,
services municipaux). Parfois, ils peuvent tre amens prendre des dcisions
allant lencontre des intrts immdiats des acteurs, rendant l encore un arbi-
trage ncessaire.
Les volutions rcentes en matire de protection de lenvironnement et de dve-
loppement durable font de la manipulation des matires dangereuses un sujet
de rflexion dsormais incontournable.

Rcupration et restauration des dossiers vitaux


Certaines industries sont tenues de conserver des dossiers durant de trs lon-
gues priodes : lindustrie pharmaceutique, par exemple, doit garder ses tests
de mdicaments pendant au moins trente ans, sans parler des cabinets
dexperts comptables ou davocats qui archivent galement un nombre consid-
rable de pices justificatives sous forme papier.
Cette quatrime mission technique consiste donc rcuprer les dossiers
endommags (dossiers papiers ou microfiches) en leur apportant un soin et une
protection immdiate, en stoppant toute poursuite de dgradation et tout dom-
mage ultrieur et en appliquant des procdures permettant de les reconstituer
dans leur tat initial. Seulement dans certains cas, encore rares, ces dossiers

95
Management de la continuit dactivit

papiers ont t copis sur CD-Rom ou sur DON (disque optique numrique). Les
supports rechercher et restaurer sont donc dune grande diversit.

Rcupration des sauvegardes critiques


Cette rcupration concerne les sauvegardes informatiques traditionnelles, qui
ont normalement t dposes en lieu sr . Les intervenants sur cette mis-
sion doivent donc :
rcuprer les sauvegardes l o elles sont stockes (coffre-fort ignifug pro-
che du site sinistr ou sur un autre site de dpt) ;
rcuprer tous les lments ncessaires, sans en oublier, dans le bon tat et
la bonne date (applications, bases de donnes, fichiers, systmes, etc.) ;
assurer la scurit des sauvegardes classes confidentielles.
Cette mission dlicate doit tre mene avec le plus grand soin. En effet, tout
oubli (une valise de cassettes non rcupre, par exemple) peut torpiller
lensemble du processus de restauration des donnes.
Lquipe habilite doit donc parfaitement connatre le lieu o sont entreposes
les sauvegardes. Trs souvent, elle sera constitue des employs chargs du
transport (par navette, en gnral) des cassettes de sauvegarde en temps nor-
mal. En outre, les cassettes de sauvegarde doivent tre stockes par lots coh-
rents, reconnaissables sans ambigut. Enfin, les responsables des applications
critiques doivent sassurer que les donnes quils donnent sauvegarder sont
effectivement les donnes ncessaires la restauration de leurs applications.
Les technologies de stockage tant en pleine volution, une partie des donnes
rcuprer ne se trouve plus actuellement sur des bandes en cassettes ou car-
touches. En effet, des systmes de copie miroir distance rendent les donnes
disponibles directement sur les systmes de disques du site de secours. Ces
techniques, encore minoritaires, se dveloppent et sont dcrites dans les gran-
des lignes au chapitre 8.

Coordination des moyens gnraux


Assure gnralement par des assistantes de direction ou des administratifs
matrisant lenvironnement des sites concerns, cette mission consiste assurer
lintendance en liaison avec les fournisseurs, le site de secours, les bureaux
alternatifs, etc. savoir :
grer les dclarations et les demandes auprs des fournisseurs pour se procu-
rer, par exemple, des tables, des chaises ou des ordinateurs, dmnager cer-
tains biens, etc., conformment au plan ;
prvoir le gte et le couvert des quipes dplaces, ainsi que leur transport
(rservations dhtel, de taxi, de trains, davion, etc.) ;
procder lidentification et assurer le suivi des cots engags.

96
Chapitre 4 PCA : dfinir les missions et les responsables

Retour la normale
En gnral, une fois cette tape atteinte, le stress li au sinistre a baiss dun
cran et la rapidit daction cde le pas la qualit dexcution, afin de ne pas
perturber les processus critiques. Si cette mission se trouve sous une contrainte
de dlai forte, cela peut signifier que les moyens de secours choisis ntaient pas
les plus adapts.
Toutefois, cette mission est loin dtre ngligeable, car son impact sur les activi-
ts reprises doit tre le plus faible possible. Ainsi, il est primordial de planifier
avec attention le retour vers le site primaire ou un nouveau site en cas de des-
truction totale du site primaire ou dabandon.
Les tches incombant cette mission sont confies une quipe qui lui est
entirement consacre.
Les listes de contacts
En temps normal, il est dj souvent difficile de joindre quelquun ; que dire
alors en cas de sinistre ! La liste des contacts a donc pour fonction dtablir pr-
cisment le rle de chaque employ, en donnant ses coordonnes ainsi que la
personne devant le remplacer en cas dabsence ou de non-disponibilit.
Vritable outil entre les mains des responsables du plan de continuit, ces listes
demandent dtre tablies avec le plus grand soin, dans le respect des contrain-
tes dues leur usage.

Listes par entit


Chaque entit potentiellement implique dans des actions de raction face un
sinistre (dpartements en support oprationnel, dpartements mtier) doit tenir
jour une liste des employs qui seront sollicits pour mener bien ces actions.
Ces listes doivent tre faciles trouver, lisibles et mises jour rgulirement.
Elles comportent :
la dnomination de lquipe ;
les nom et prnom des membres ;
le rle de chacun (domaine, spcialit technique) ;
les numros de tlphone professionnel, personnel et portable de chacun ;
le nom dun ventuel remplaant ou de la personne appeler en priorit en
cas dabsence ou de non-disponibilit.
Le tableau 4-1 montre un exemple dune telle liste (les noms utiliss sont
fictifs).

97
Management de la continuit dactivit

Tableau 4-1 : Liste de contacts Service support production (SP)

Tlphone Tlphone
Nom Prnom Domaine Tlphone xe
portable priv
Andr Jean-Luc rseaux locaux 01-44-41- 06-61- 01-78-04-
Bardeau Jacques responsable SP 01-44-41- 06-66- 01-67-61-
Charles Pierre expert exploitation 01-44-41- 06-82- 01-44-41-
Drumont Albert support MVS & zOS 01-44-41- 06-03- 01-92-66-
Evenin Emma support Unix (1) 01-44-41- 06-61- 01-67-61-
Figeac Greg support Windows 01-44-41- 06-84- 01-53-25-
Gal Loc support CICS, DB2 01-44-41- 06-66- 01-54-65-
Judon Alfred support rseau 01-44-41- 06-61- 01-78-03-
Klein Helmut support Unix (2) 01-44-41- 01-44-41-
Lamarre Pierre support Unix (3) 01-44-41- 06-09- 01-77-92-
Marche Louis scurit 01-44-41- 06-86- 01-75-26-

Pour les listes de contacts, on privilgiera un classement alphabtique pour les


noms propres ainsi quun libell simple et universel pour les domaines.
Le tableau 4-1 indique, par exemple, que pour un problme concernant Unix et la
scurit, il faut tout dabord appeler Emma Evenin (Unix 1) pour le support Unix,
et Louis Marche pour la scurit. Si Emma Evenin nest pas joignable, il faut alors
appeler Helmut Klein (Unix 2). Si Louis Marche est absent, il faut contacter le res-
ponsable SP, Jacques Bardeau. En effet, cest la rgle, lorsque aucun remplaant
nest indiqu, il faut transfrer la demande au responsable hirarchique.
Certaines socits indiquent galement si la personne est membre ou non dun
groupe intervenant dans le plan de continuit. En outre, cette information est
aussi bien grable dans des listes spcifiques aux groupes. Enfin, il est parfois
mentionn le type dinformation que la personne peut recevoir (rapport de sinis-
tre prliminaire ou dtaill, par exemple), afin de dsigner un destinataire au
groupe de notification charg denvoyer les rapports.

Listes de constitution des groupes


Les diffrents groupes mentionns plus haut sont constitus de membres dsi-
gns lavance, recenss dans des listes du mme type. Ces listes devront plus
que toute autre porter une forte attention ce que leurs membres soient effecti-
vement joignables ainsi qu la notion de remplaant (ou dadjoint).
Selon la taille des effectifs et du site traiter, les groupes peuvent varier en
importance ; la gravit du sinistre joue galement un rle majeur dans la consti-
tution des groupes. Certaines personnes peuvent aussi appartenir plusieurs

98
Chapitre 4 PCA : dfinir les missions et les responsables

groupes. Tous ces aspects sont dcider en amont, afin dtre immdiatement
oprationnel lors du sinistre. Certaines socits tablissent cet effet des listes
indicatives de groupes et de membres. Dsignant un chef de crise pour prendre
en main les oprations, cest lui qui se chargera en temps voulu de la constitu-
tion des groupes partir de ces listes indicatives et de sa propre connaissance
de lentreprise.
Condentialit et informations prives
Par respect de la vie prive, le fait que les numros de tlphone personnel figu-
rent sur les listes rend ces dernires confidentielles. Cela pose dailleurs un pro-
blme classique en cas de crise, puisque les donnes devant tre accessibles en
urgence sont davantage protges que les donnes habituelles. Cette question
de confidentialit, rcurrente au cours des interventions durgence, doit tre
traite spcifiquement (voir le chapitre 5).
Dans ces listes, il peut tre galement spcifi si lemploy a accs ou non des
outils de suivi dincidents ou sil dispose dautorits spcifiques, cela pouvant
savrer utile dans les actions de reprise.
Toutefois, il faut veiller ce que les listes ne contiennent pas trop dinforma-
tions. En effet, plus il y en a, plus les listes sont difficiles grer et mettre
jour ce qui peut savrer problmatique en cas de sinistre. Noublions pas que
nombre dinformations utiles peuvent tre relayes par la suite par les responsa-
bles via le tlphone. Pour une gestion plus facile des listes, il existe sur le mar-
ch des outils permettant chaque employ membre des listes de contacts, via
de simples e-mails sur serveurs web, dactualiser rgulirement son profil.

Constituer les groupes dintervention

Pour laborer son plan de continuit ou PCA, lentreprise doit constituer les
groupes dintervention en fonction des comptences et du personnel disponi-
ble, sans oublier limportance primordiale davoir un pilote dans lavion .
La constitution des groupes mis en action en cas de sinistre sappuie sur la
structuration des missions dcrite prcdemment et sur la liste des missions
remplir. De la mme manire, un responsable est nomm pour prendre les cho-
ses en main, ainsi quun supplant en cas dabsence.
Affectation des missions
Dans lexemple daffectation suivant, les groupes envoys en mission sont cal-
qus sur lorganisation de lentreprise.

99
Management de la continuit dactivit

Tableau 4-2 : Affectation des missions aux groupes dintervention

Mission Groupe responsable Commentaire


Coordination du PCA Gestion de crise Responsable du groupe
valuation des dommages Gestion de crise Peut tre dlgue localement
Dclaration dactivation Gestion de crise Responsable du groupe
Intervention des premiers
Secours locaux Vrier lactivation
secours
Communication Service de communication Liste de contacts
Logistique et
Service logistique Liste de contacts
approvisionnement
valuation des risques Gestion de crise Mission permanente
Redmarrage mtiers MOA du site Liste de contacts
Redmarrage utilisateurs
Groupe service PC Liste de contacts
courants
Remise en route informatique Service IT Liste de contacts
Rcupration de moyens
Service industriel Liste de contacts
industriels
Rcupration de bureaux Service IT Traite aussi les ordinateurs
Manipulation de matires Peut ventuellement tre
Gestion de crise
dangereuses dlgue
Rcupration des dossiers
Service archivage Liste de contacts
vitaux
Rcupration des sauvegardes
Service logistique Liste de contacts
critiques
Coordination des moyens
Service logistique Liste de contacts
gnraux
Pourra tre dlgue
Retour la normale Gestion de crise
ultrieurement

Ce tableau mrite certains commentaires.


Parmi les groupes en charge des diffrentes missions, seul le groupe de ges-
tion de crise est constitu lors du sinistre, les autres groupes tant des sous-
ensembles de services prexistants au sein de lentreprise. Ces groupes doi-
vent avoir t forms cette nouvelle mission.
La mention liste de contacts signifie quil existe une liste, tenue jour,
avec un nom et des coordonnes.

100
Chapitre 4 PCA : dfinir les missions et les responsables

La mention peut tre dlgue signifie que le groupe en charge de la mis-


sion peut en confier la ralisation un autre, tout en suivant sa bonne
excution.
Un service de communication nest pas toujours prsent sur le site sinistr. Il
est donc primordial dy envoyer des reprsentants attitrs, dautant plus que
si lentreprise est connue, les chanes de tlvision seront sur place pour fil-
mer et interroger les employs.
La MOA du site dsigne la matrise douvrage informatique : dans le cas pr-
sent, cest lentit qui matrise le mieux les applications informatiques et les
processus critiques.
Le service IT (informatique) soccupe ici de remettre en ordre de bon fonction-
nement linformatique et les bureaux, mais ce nest pas toujours le cas. Dans
notre exemple, lentreprise a probablement un service informatique qui ma-
trise bien les aspects dinfrastructure et de btiment.
Le service archivage figure dans ce tableau, car il a la responsabilit des
archives et de leur conservation. Ainsi, il est le plus qualifi pour rcuprer ce
qui doit ltre.
En fonction de ce qui prcde, le responsable du groupe de gestion de crise peut
constituer les diffrents groupes et dcider du lieu o ils vont intervenir ainsi
que des comptes quils devront lui rendre (actions de reporting).
Ainsi, les groupes dcrits plus haut peuvent tre gomtrie variable dune
entreprise une autre, tant que les missions restent assumes.

Former et sensibiliser les diffrents acteurs


Tout plan, quel quil soit, na pas lieu dtre si les personnes censes le mettre
en uvre ne savent pas ce quelles doivent faire, dautant plus que les condi-
tions de travail en cas de sinistre ne sont pas celles auxquelles le personnel est
habitu. Une sensibilisation et une formation des acteurs simposent alors.
Cest pourquoi la notion de sensibilisation (awareness) est extrmement impor-
tante dans la littrature anglo-saxonne comme pour les groupes de travail sur
les normes britanniques (British Standard Institute), qui y accordent une impor-
tance accrue.
Ainsi, il est recommand de mettre en place un programme de sensibilisation et
de formation. Lengagement de la direction gnrale sur ce point est fondamen-
tal et des crdits doivent tre dbloqus pour ce programme. Par ailleurs, la
DRH doit assurer le suivi des listes de personnel form et former.

Formation
On procde gnralement en quatre temps.
1. tablir, dans les services, la liste des besoins en sensibilisation et en forma-
tion. Pour cela, il faut lister les employs impliqus dans les diffrents grou-
pes ou recourir une valuation par la hirarchie.

101
Management de la continuit dactivit

2. Faire une valuation dcart entre ce que les employs doivent connatre et
ce quils connaissent dj.
3. Slectionner, selon les budgets, les programmes de formation mettre en
place pour combler les carts il se dveloppe actuellement sur le march
franais une offre dans ce domaine.
4. Planifier les formations et contrler les personnes formes et restant
former.

Sensibilisation
Par ailleurs, lentreprise dispose de divers moyens de sensibilisation :
les rglements intrieurs ou les manuels dutilisation lis linformatique
abordent trop peu, hlas les aspects de continuit dactivit (continuit de
service, secours, restaurations, etc.) ; il est possible, et mme recommand,
de dvelopper les points principaux dans ces documents ;
les affiches ou cartons poser sur son bureau de type conduite tenir en
cas de sinistre avec indication des numros de tlphone appeler, par
exemple, peuvent se rvler trs utiles ;
des sminaires ou autres vnements dentreprise peuvent rgulirement
aborder le sujet ;
la littrature sur la continuit dactivit se dveloppe, y compris en langue
franaise ;
la participation des campagnes de tests peut avoir un effet pdagogique,
mme si cela nest pas lobjectif premier des tests (voir le chapitre 6) ;
les divers audits et leurs rapports subsquents peuvent tre loccasion dun
rappel intressant (voir le chapitre 13).
Comme dans les approches qualit ou scurit, limplication de la direction
gnrale, qui indique ses orientations et ses choix en matire de continuit
dactivit, savre primordiale. Celle-ci doit communiquer rgulirement, via la
parution de notes ou autres, au sujet de la politique de continuit de lentre-
prise. Le mot politique tant une traduction un peu biaise de langlais policy,
les mots volont dorientation de la direction conviendraient mieux. (Voir le
chapitre 11 et les suivants sur ces aspects de gouvernance.)

Mettre jour la constitution des groupes


Pour la prennit du plan de continuit, il est indispensable dactualiser rguli-
rement les groupes constitus pour raliser les missions. Cette remarque est
valable galement pour les listes de contacts et pour les tableaux de missions et
groupes dcrits plus haut.
En matire de maintenance des listes de personnels jour, la recette miracle
nexiste pas. On limitera les risques dobsolescence en procdant par deux
approches concurrentes mais complmentaires.

102
Chapitre 4 PCA : dfinir les missions et les responsables

Mise jour par la hirarchie Les responsables des quipes ou services


conservent la liste des employs rquisitionns en cas de sinistre, mainte-
nue jour au niveau de leur entit. En cas de modification, ils prviennent le
responsable de la continuit dactivit.
Mise jour par le responsable de la continuit Ce responsable (le chef du
groupe de gestion de crise en gnral) maintient son niveau une matrice de
correspondance entre les groupes et les noms des personnes qui les consti-
tuent. Il est normalement averti des changements par les responsables
mtier. Pour viter les erreurs, il rvise rgulirement les listes en les faisant
valider par les responsables.
De cette manire, les risques derreurs dans les listes sont limits, sans toute-
fois tre limins.

Documents types

Plan de communication
Voici quoi un plan de communication peut ressembler.

Plan de communication de crise


1. Objectifs de la communication de crise
2. Responsable et coordinateur
3. Conditions de dclenchement de ce plan
4. Message transmettre
4.1. Information gnrale
a. vnement
b. Impacts identis
c. Situation ( actualiser)
4.2. Demandes particulires
a. Aux employs
b. Aux partenaires daffaires
c. Aux clients
d. Au public
e. Aux parents, familles
4.3. Qui contacter et comment ?
a. Pour en savoir plus
b. Pour signaler une information
5. Moyens de communication
5.1. Presse, TV, radio
5.2. Tlphone
5.3. Internet, Web, e-mails

103
Management de la continuit dactivit

6. Informations gnrales de rfrence


6.1. Sur lentreprise
6.2. Sur le site
7. Frquence
7.1. Selon le mdia
7.2. Prochain communiqu
8. Validation et autorisation
8.1. Qui valide ?
8.2. Qui est habilit communiquer ?
9. Trace de ce qui est communiqu (notes, enregistrements)

Plan de secours
Voici un modle de plan de secours, mis en uvre par le groupe dintervention
de secours (qui dpend ou pas, selon les cas, du PCA).
Ce plan, comme le plan de communication de crise, peut tre joint aux docu-
ments annexes du plan de continuit.

Plan de secours
1. Cadrage
2. Responsabilits et primtre
3. Personnel sur site et visiteurs
4. quipe de secours : missions et responsabilits
5. Employs : responsabilits et comportements
6. Dclenchement de la procdure de secours
6.1. Activation de lquipe de secours
6.2. Avertissement des autorits
6.3. Alerte et vacuation du personnel
7. Procdures dvacuation
7.1. Signal dalarme
7.2. Systmes automatiques (exemple : fermeture de portes)
7.3. Voies dvacuation
7.4. Personnel responsable de zone et dvacuation
7.5. Lieux de rassemblement
7.6. Dcompte des personnes
8. Procdures de recherche et dvacuation
9. Procdures spciques un risque en particulier (tremblement de terre, nuclaire,
produits spciaux risque)
10. Procdures spciales de mise en protection pour certains matriels
Annexes : cartes, listes de personnels, numros de tlphone, etc.

104
Chapitre 5

PCA : planifier
les activits

Le chapitre prcdent a permis de dterminer les missions remplir et leurs


groupes responsables. La planification propose dans le prsent chapitre per-
met de structurer les activits menes par chaque groupe dans le but daccom-
plir au mieux leurs missions.
Le droulement du plan de continuit est en effet conditionn par les impratifs
du compte rebours : dclench au moment du sinistre, il grne les minutes
implacablement. La dure maximale dinterruption admissible (MTD) ne pas
dpasser ayant t dtermine pour chaque processus critique de lentreprise, le
PCA doit permettre dordonnancer au mieux les travaux dans le temps imparti.
Cest le but de la planification prsente dans ce chapitre.
Lensemble des activits dcrites ici porte aussi le nom de PRA (plan de reprise
dactivit).

Planning gnral en sept tapes

Le modle de planning gnralement retenu propose un droulement en sept


tapes. Si toutes ces tapes sont ncessaires, en ralit, leur importance relative
pourra varier dune situation lautre : certaines tapes prendront une heure et
dautres plusieurs jours ; selon limpact du sinistre, certaines seront plus ou
moins utiles. Dcrites ici dans leurs grandes lignes, chaque entreprise devra
ensuite les adapter sa propre situation.
Lentreprise aura aussi tout intrt formaliser ce planning avec ses propres
mthodes de gestion de projet. Par exemple, elle peut procder un dcoupage
du projet en deux ou trois niveaux de structuration : chacune des tapes (pre-
mier niveau) pourra tre structure en plusieurs activits (deuxime niveau), qui
elles-mmes pourront contenir plusieurs tches (troisime niveau). Ce sont
ensuite chacune de ces tches ou activits qui seront affectes une personne
ou un groupe dintervention dcrit au chapitre prcdent.

105
Management de la continuit dactivit

Le dcoupage prsent ci-aprs prsente une structure en deux niveaux : les


tapes et les activits.

tape 1 Premire intervention et notication du sinistre


Le dclenchement de cette premire tape ne va pas de soi. Lorsquun sinistre
sest produit, lentit responsable de cette premire mission doit en tre avertie.
Or lexprience prouve que les personnes les plus proches du lieu du sinistre
nont pas ncessairement le bon rflexe dappeler immdiatement la personne
ou le service adquats. Le plus souvent, les employs prviennent leur suprieur
hirarchique et cest lui qui enclenche la procdure davertissement des person-
nes en charge de ltape 1 du plan de continuit.

Premire intervention
Le coordonnateur du plan de continuit est alert et dclenche le plan de conti-
nuit. Les dgts et leurs consquences sont rapidement valus. Les activits
prvoir sont les suivantes :
1. recevoir lalerte initiale partir dun centre dappels, dun help desk, dun res-
ponsable sur site ou des autorits locales ;
2. avertir les secours locaux, ou vrifier quils ont bien t avertis (pompiers,
SAMU, police ou gendarmerie, etc.), afin dassurer la mission de sauvegarde
des personnes ;
3. accder aux documents et informations concernant le plan de continuit ;
4. dans la mesure du possible, se rendre sur les lieux ; sinon, joindre un inter-
venant local dsign dans les listes de contacts ;
5. collecter un minimum dinformations sur le site sinistr : est-il accessible ?
Est-il joignable par tlphone ? Le centre de gestion de crise est-il intact ?
6. activer le groupe dvaluation des dommages (voir le chapitre 4) ;
7. raliser une premire valuation rapide des consquences du sinistre ;
8. dtecter rapidement les causes des dgts (utile si on peut y pallier, sinon ne
pas y passer trop de temps) ;
9. conduire une valuation rapide des impacts sur les activits de lentreprise
et lister ce qui ne fonctionne plus ;
10. tablir un rapport prliminaire de sinistre.
Ces activits sont prsentes dans leur ordre logique dexcution, et doivent
tre affectes divers intervenants. Cependant, le contexte rel du sinistre
imposera souvent de faire avec les moyens du bord.

Rapport de notication
Cela consiste alors alerter la direction gnrale et le centre de gestion de crise
afin dactiver les quipes prvues dans le PCA (groupe de gestion de crise, etc.),
comme cela a t prsent dans le chapitre 4.

106
Chapitre 5 PCA : planifier les activits

Bien videmment, le groupe de gestion de crise peut se rduire quelques per-


sonnes, voire une seule au tout dbut. Cela dpend beaucoup de la taille du site
sinistr. On ne travaillera pas de la mme manire sur un site de 5 000 person-
nes avec 3 000 serveurs et sur un site de 20 personnes sans aucun matriel infor-
matique. Le nombre de personnes et les comptences prvoir doivent tre en
rapport avec le problme pos. Constituer le groupe peut prendre un certain
temps et il faut commencer agir avant que tout le monde soit l.
Le rapport produit lissue de cette premire tape est capital, car il sagit de la
premire information disponible sur le sinistre. De sa qualit dpendra lad-
quation des premires actions mises en uvre.
Afin de ne pas perdre de vue les impratifs de rapidit et defficacit, ce rapport
pourra tre mis en ligne sur lintranet et ainsi tre accessible aux groupes
dintervention prvus. cette tape, certaines socits insistent sur la confiden-
tialit des vnements et la ncessit de garder tout rapport secret. Il est alors
important de rappeler par la mme occasion qui est habilit parler la presse
ce moment.
Le rapport lui-mme est un constat sommairement dtaill. En gnral, on y
trouve une premire valuation des dgts et des impacts sur lentreprise, avec
si possible une classification provisoire du sinistre selon les trois catgories
retenues (sinistre mineur, moyen ou majeur). Il contient aussi tout ce qui con-
cerne les risques rsiduels sur les personnes, les biens et lenvironnement.
Enfin, il est utile dy mentionner les moyens et quipements/services qui subsis-
tent sur place pour intervenir.
tape 2 valuation et escalade
Lobjectif de cette tape est daffiner lvaluation des dgts afin de dcider si,
oui ou non, on lance les tapes ultrieures. Les activits suivantes peuvent tre
ralises :
1. reprendre le rapport prliminaire de sinistre pour prendre connaissance des
points en suspens ;
2. inspecter le site sinistr pour valuer plus prcisment limpact du sinistre ;
3. valuer les risques rsiduels sur la sant et la scurit des personnes et des
biens ;
4. lister les dgts touchant aux btiments, aux machines, aux ordinateurs ou
tout autre moyen de production ;
5. estimer les pertes matrielles, mme grossirement ;
6. dterminer les processus mtier touchs, en les considrant selon leur degr
de criticit ;
7. classer le sinistre en fonction de sa gravit (mineur, moyen, majeur, par
exemple : voir le chapitre 4) ;
8. si aucun processus critique nest touch, neffectuer lintervention que
jusquau point 9 et continuer surveiller la situation et son volution ;

107
Management de la continuit dactivit

9. tablir un rapport plus dtaill ;


10. activer les groupes de redmarrage des activits et de rcupration techni-
que et oprationnelle.
Le rapport dtaill donne les lments ncessaires la dcision sur la suite des
actions entreprendre. Il peut tre structur selon le plan type ci-dessous.

Rapport dtaill de sinistre


1. Description rapide
2. Niveau du sinistre (selon chelle)
3. Processus critiques touchs
4. Pertes estimes
5. Origine des dgts (feu, inondation, sisme, attentat, etc.)
6. Degr de dtrioration
a) des btiments et structures
b) des processus de lentreprise
c) des matriels informatiques
d) des moyens de production
7. tat dusage du site touch
8. lments risque sur le site touch
9. Dlai(s) estim(s) de remise en tat

Souvent, ce plan est dj utilis dans le rapport prliminaire tabli lissue de


ltape 1, qui est alors un rapport dtaill partiellement rempli. Certaines soci-
ts fusionnent dailleurs les tapes 1 et 2 en une seule opration produisant un
rapport intermdiaire.
Ce formalisme peut paratre un peu lourd dans une situation o il faut agir vite.
Lobjectif nest pas ici de remplir des centaines de pages, mais de dcrire vite et
bien la situation. Raliser et communiquer rapidement un bon descriptif vite
dtre sans arrt interrompu par des demandes de renseignements tlphoni-
ques qui encombrent les lignes et surchargent les oprationnels. Le temps
pass rdiger le rapport reprsente donc une conomie de temps.
Enfin, si lentreprise a des clients ou des partenaires touchs par les vne-
ments, ce rapport est une pice importante produire, car il sera tudi en cas
daudit ultrieur.
tape 3 Dclaration de sinistre
Si le rapport en constate la ncessit, la socit dcide dactiver ltat de sinis-
tre. Cette dcision concerne tout dabord les actions de reprise lancer, en rf-
rence la stratgie de continuit de lentreprise (voir le chapitre 3), puis
lactivation des ressources ncessaires leur ralisation.

108
Chapitre 5 PCA : planifier les activits

Communiqu
Le communiqu de dclaration de sinistre mis cette occasion peut tre struc-
tur partir des activits suivantes :
1. reprendre les lments du rapport dtaill ;
2. parmi les options dtermines dans la stratgie de continuit de lentreprise
(vues dans le chapitre 3), slectionner les plus adaptes la situation : que
fait-on sur le site principal ? Active-t-on le site de secours ; si oui quy fait-
on ? O place-t-on le centre de gestion de crise ? etc. ; cette opration peut
tre scinde en autant de parties quil existe de sites (principal, de secours,
mobile, etc.) ;
4. raliser un communiqu dtat de sinistre (voir le plan ci-aprs) ;
5. diffuser ce communiqu via le groupe prvu cet effet ;
6. avertir le groupe de communication de crise.
Le communiqu dtat de sinistre peut avoir la structure type suivante.

Communiqu dtat de sinistre


1. Description rapide du sinistre
2. Lieu et heure de lvnement
3. Niveau du sinistre (sur lchelle rappeler)
4. Options de reprise choisies
5. Informations sur les sites de reprise
6. Estimation du temps de reprise ncessaire pour chaque processus
7. Nom de lentit en charge du communiqu
8. Contacts, moyens de sinformer

Cette tape est cruciale et nest pas facile vivre. La communication a lieu au
sujet du sinistre et des moyens dy faire face. Il faut, de plus, prendre des dci-
sions partir dinformations en gnral incompltes et y impliquer la direction
gnrale de lentreprise.
Lvaluation des temps de remise en tat, par exemple, est souvent un pige.
Pour dcider vite et bien, on est en effet amen parfois caricaturer la situation
ou, linverse, la sous-estimer.
Sous-estimation des dgts : un risque supplmentaire
La socit ITF possde des bureaux dans un btiment situ prs dun euve. Ce btiment
hberge aussi un centre informatique (pour serveurs Unix et Intel). Un peu plus haut se
situe lancien centre informatique o des mainframes IBM sont encore en activit.
Une inondation touche le btiment de bureaux mais pargne lancien centre. ce stade,
la dclaration de sinistre prvoit de reloger les employs et dactiver un centre de secours
pour les serveurs Unix et Intel. Les informaticiens pensent que le site des mainframes ne
sera pas touch, aucune mesure importante nest donc prise le concernant : il suft sim-

109
Management de la continuit dactivit

plement de rtablir les connexions entre les deux salles qui schangeaient des chiers
rgulirement, opration ne demandant pas plus de vingt-quatre heures.
Malheureusement, leau continue de monter et lalimentation lectrique du centre IBM
doit tre coupe un peu plus tard pour des raisons de scurit. Les mainframes, bien
quau sec, ne fonctionnent plus En catastrophe, IFT doit employer des mainframes de
secours chez un autre prestataire, ce qui lui cote beaucoup plus cher que si elle avait
envisag ds le dbut la perte complte de son systme informatique sur les deux sites
sans compter la perte de temps en hsitations et travaux inutiles.
Moralit : il vaut mieux parfois simplier le problme pour travailler au plus tt une
solution externe plutt que chercher sauver ce qui sera nalement perdu.

Les situations de panne franche ou de catastrophe provoquant des dommages


matriels vidents sont, de ce point de vue, plus faciles grer : on ne se raccro-
che pas lespoir de redmarrer dans cinq minutes. Si lon tarde dcider de
passer sur un site de secours, cest gnralement que lon fait le pari dun red-
marrage du site principal dans un dlai raisonnable. Si ce pari choue, le temps
dattente est finalement du temps perdu.

Activation du plan
Le communiqu est accompagn par le dclenchement concret du plan de con-
tinuit. Le groupe de gestion de crise a normalement t activ en fin dtape 1,
mme si, en pratique, il se limite ce stade un responsable senior de lentre-
prise, qui, bien souvent, nest pas encore sur place, et quelques responsables
locaux du site concern.
Il faut maintenant activer les groupes dintervention prvus dans le plan (voir le
chapitre 4). Bien videmment, en fonction du problme pos et dans un objectif
defficacit, lquipe sera de taille diffrente : cinq sept personnes peuvent trs
bien assumer les diverses missions suite un sinistre mineur, tandis que si
celui-ci est plus complexe (plusieurs sites touchs, avec des implications con-
tractuelles graves en termes de continuit de service ou de scurit), la taille de
lquipe sera dautant plus consquente.
Dans les entreprises les mieux organises, il existe aussi des consignes de dl-
gation de pouvoirs entre responsables nationaux et locaux, selon la gravit du
sinistre. Cela peut tre crucial dans les cas o le site sinistr est isol du reste du
monde ou sil se trouve ltranger.
Lactivation du PCA se dcoupe donc en quatre activits principales :
1. dterminer les personnels qui vont constituer les groupes pour mener les
actions venir ;
2. rappeler le niveau de gravit du sinistre et ce quil signifie ;
3. rappeler ou tablir les circuits de dcision et de reporting ;
4. indiquer les moyens de reporting et de suivi des actions.
Cette tape implique souvent de faire un choix, en vue de la constitution des
quipes, entre les personnes idalement pressenties pour grer la crise mais pas

110
Chapitre 5 PCA : planifier les activits

disponibles dans limmdiat, et les personnes disponibles dont le profil diffre


quelque peu de ce qui est souhait. Pour remdier ce type dinconvnients, le
point 2 ci-dessus permet, dans certaines entreprises, de librer immdiatement
des responsables en cas de gravit maximale, par exemple.

tape 4 Planier la logistique dintervention


ce stade, un embryon dquipe est en place et les options de reprise ont t
slectionnes au cours des tapes prcdentes. Il sagit maintenant, partir de
la documentation produite, mme succincte, de mettre en uvre les moyens
techniques et humains pour les raliser.
Dsormais, les oprations vont se concentrer sur trois sites : le site sinistr, le
site de secours et le centre de gestion de crise. Il faut donc planifier la logistique
ainsi que les moyens humains et techniques ncessaires aux interventions sur
ces trois types de sites.

Logistique
Grer la logistique implique les activits suivantes :
1. activer les contrats concernant les sites de secours choisis chez des
prestataires ; si les sites sont internes, commencer leur prparation ;
2. sassurer que les sites ont les moyens de communication appropris ; en cas
de besoin, complter ce qui existe ;
3. dcider rapidement du meilleur emplacement pour le centre de gestion de
crise et, selon le contexte, en prvoir ventuellement deux (un mobile, puis
un fixe) ;
4. passer commande ou dmnager les divers matriels ncessaires pour qui-
per les sites (PC, imprimantes, fax, papier, etc.) ;
5. lancer les ventuels dmnagements prvus pour meubler les sites de
secours ;
6. sassurer que les sites de secours possdent les dernires versions des docu-
ments (plan de continuit, listes de contacts) ou formulaires concernant les
procdures manuelles ;
7. prvenir les sites de secours de larrive dlments sensibles tels que des
sauvegardes, dossiers importants ou lments confidentiels ; dterminer
cet effet un contact sur place.

Moyens humains
En ce qui concerne les employs, il faut constituer les diffrents groupes et pr-
voir leurs dplacements sur les divers sites. Cela consiste :
1. dterminer, en fonction des groupes activer, les employs disponibles, pro-
cder aux affectations puis avertir les intresss ;
2. prvoir les dplacements et lintendance (voiture, train, htel) ;

111
Management de la continuit dactivit

3. prvenir le responsable de la scurit informatique pour que les droits


daccs en situation de crise soient attribus correctement et sous son con-
trle.
Comme le montre lexemple ci-aprs, ce dernier point, quil importe daborder
sereinement, est souvent difficile grer. Il faut donc prvoir des procdures
spciales pour les situations de crise.
Importance des droits daccs en situation de sinistre
La socit CDE teste son plan de reprise : elle simule la perte dun site et lactivation
denvironnements mainframe loigns de 200 km.
Au bout de quatre heures, les machines sont en tat de marche sur le site de secours et
les connexions rseau sont ralises. Malgr tout, les ingnieurs systmes de CDE ne peu-
vent sy connecter pour faire leur travail : ils nont ni les droits, ni les mots de passe !
Insistant pour obtenir des droits daccs, ils sont contraints par la hirarchie remplir les
demandes ofcielles, traites en urgence. Deux jours plus tard, les droits sont ouverts et
les ingnieurs systme peuvent enn paramtrer les environnements techniques. Le test
a nalement dur trois jours au lieu dun seul prvu initialement.
Moralit : ces tests ont amen CDE modier les procdures dattribution des droits en
cas de sinistre. On remarquera que les procdures en place ont t correctement respec-
tes au cours de cet exercice, ce qui a permis de dcouvrir le problme. Rien naurait t
plus simple, en effet, de passer outre.
Lensemble de ces activits fait partie de la responsabilit du groupe de gestion
de crise.
tape 5 Rcupration et reprise
Ltape prcdente a prpar les activits qui vont tre ralises dans ltape 5.
Cette dernire se dploie sur tous les sites concerns, qui peuvent tre :
le site original sinistr ;
un site de secours informatique ;
un site de secours pour les bureaux ;
un site de secours pour la production ;
le centre de gestion de crise ;
le domicile de certains employs.
Prsentons maintenant, site par site, la liste des activits.

Activits sur le site sinistr


Sur ce site, il faut avant tout arrter la propagation des dommages, scuriser la
situation et enfin rcuprer ce qui peut ltre. Souvent, il arrive aussi quon
puisse y retrouver des lots de sauvegarde ou des documents importants sous
diverses formes.
On peut distinguer quatre catgories dactivits, selon quelles touchent la
prparation, lvaluation des dgts, la sauvegarde et la rcupration ou le
transport des divers quipements rcuprs.

112
Chapitre 5 PCA : planifier les activits

Prparer
Toutes ces activits sont un pralable aux actions sur site :
1. sassurer que le personnel prvu se trouve sur place et a les moyens dagir
(droits daccs, protections diverses, etc.) ;
2. sassurer que les configurations informatiques critiques sont localises et
connues : serveurs, systme de stockage, rseau, etc. ;
3. sil existe des schmas dinfrastructure et de rseau, les communiquer au
personnel sur place ;
4. prendre connaissance des rapports dj mis sur le sinistre, des consignes
de scurit, etc.
valuer, expertiser
Il sagit maintenant dvaluer plus prcisment lampleur des dgts dans le but
de savoir comment y faire face :
1. inspecter ltat des btiments, des alimentations en lectricit, gaz et eau ;
valuer les risques rsiduels ;
2. identifier les dossiers critiques, leur tat et les risques quils encourent (eau,
moisissure, feu, etc.) ;
3. localiser et identifier les matriels critiques (informatiques ou non), leur tat
et les risques quils encourent ;
4. rechercher et vacuer les sauvegardes critiques, si elles sont sur le site, afin
de les garder sous surveillance ;
5. valuer le risque de dgradations pouvant encore survenir (croulements,
monte des eaux, etc.) ;
6. dterminer les options de protection et de rcupration qui semblent les
plus appropries, en chiffrer les dlais et cots si possible ;
7. documenter rapidement tout ce qui prcde, que ce soit par une prise de
notes, une liste avec points de contrle, un formulaire, un enregistrement
audio, etc.
Sauvegarder et rcuprer
On entreprend ici les premires actions de rcupration du site, afin dviter que
celui-ci ne se dgrade davantage :
1. se procurer et mettre en fonctionnement les divers quipements ncessaires
(pompes eau, gnrateurs lectriques, systmes de chauffage, dshumidifi-
cateurs dair, bennes ordures, pelleteuses, camionnettes, etc.) ;
2. liminer les diverses substances risques ou trop dgrades (carburants,
papier imbib deau, etc.) ;
3. vacuer et mettre en lieu sr les quipements en bon tat qui sont menacs
sils restent sur le site ;
4. mettre dans un tat scuris les quipements encore en fonctionnement
mais inutiles ;

113
Management de la continuit dactivit

5. vrifier la situation des quipements en bon tat et utiles puis les restaurer
dans ltat souhait ;
6. documenter ce qui est fait.
Transporter
Ces activits ont pour objectif de dmnager sur le ou les sites de secours ce qui
a t rcupr et doit encore servir :
1. pour chaque lment (matriels, documents, sauvegardes, meubles, etc.),
dterminer le site de destination parmi les sites prvus ;
2. accompagner chaque transport de matriel de consignes spcifiques sur la
prise en charge, la manutention, les prcautions demploi, lusage destina-
tion et le nom du rceptionnaire ;
3. effectuer ou faire effectuer le transport ;
4. pour les sauvegardes ou documents ayant un niveau de scurit lev, res-
pecter scrupuleusement les consignes ou, dfaut, les faire accompagner
par un membre de lentreprise.
Toutes ces activits doivent tenir compte du fait que certains processus sont cri-
tiques et ncessitent une remise en route plus rapide que dautres. La priorit
devant tre donne aux processus les plus urgents, il faudra donc, dans certai-
nes situations, prendre une dcision privilgiant les moyens techniques nces-
saires aux processus critiques de lentreprise. Cest pourquoi il est important
que lquipe sur place connaisse prcisment les processus critiques et identifie
rapidement les moyens qui leur sont lis.
Tout problme rencontr doit tre dcrit succinctement par crit, car cela servira
amliorer le plan par la suite.

Activits sur le site de secours informatique


Le site de secours informatique doit tre prt accueillir ou activer des mat-
riels nouveaux. Il faut donc prparer le cadre, installer les matriels et logiciels,
puis dmarrer et restaurer les applications critiques dotes de donnes conve-
nables.
Les besoins en termes de dlais (MTD, RTO, RPO et WRT, expliqus dans le cha-
pitre 2) ont t spcifis ; il en va de mme des configurations matrielles et
logicielles ncessaires.
Prparer
Les activits suivantes visent sassurer que tout est prt pour redmarrer le
systme dinformation :
1. sassurer que le groupe dintervention est arriv sur place et est bien
oprationnel ;
2. vrifier que les diffrents dlais (MTD, RTO, RPO et WRT) et priorits sont
connus du groupe ;

114
Chapitre 5 PCA : planifier les activits

3. vrifier que les listes dinventaires et les configurations matrielles et logi-


cielles ncessaires sur le site de secours ont bien t communiques au
groupe ;
4. sassurer que les mthodes de redmarrage, les instructions de paramtrage
et les ventuels outils (scripts, etc.) sont en la possession du groupe, ou con-
nus de lui ;
5. vrifier que linfrastructure (racks, cbles, fourniture lectrique, plateaux,
refroidissement) est convenablement prpare ;
6. recevoir les matriels et logiciels divers qui ont t envoys sur le site en
sassurant de leur conformit ;
7. prendre connaissance des consignes associes aux matriels ;
8. recevoir et scuriser les mdias de secours : les cartouches de sauvegardes,
les valises de bandes, etc ; les inspecter et les mettre en lieu sr ;
9. faire un bilan gnral en comparant ressources prvues et ressources
prsentes ;
10. planifier la suite des oprations en fonction de ce bilan et des priorits des
processus ;
11. sassurer que les droits daccs ncessaires aux travaux ont bien t attri-
bus.
Arriv ce stade, il est malheureusement courant de constater des carts entre
ce qui est prvu et ce qui est rellement disponible. Il faut alors documenter ces
carts pour effectuer des rclamations auprs des prestataires et amliorer les
listes dinventaire et le plan de continuit.
Les points 2 11 peuvent tre excuts en parallle par des quipes ddies
chacune une catgorie de matriels (rseau dun ct, serveurs de lautre, par
exemple) ou bien une catgorie de processus ou dapplications.
Rappelons que les droits daccs sont un point sensible. Des procdures assez
simples, avec des identifiants et mots de passe utilisables en cas dactivation de
plan de secours et conservs sous enveloppe cachete, peuvent faire laffaire.
Tout ceci doit avoir t fait sous le contrle du responsable de la scurit du sys-
tme dinformation (RSSI).
Mettre en route linformatique et le rseau
Il ne sert rien de dmarrer un serveur de secours sil reste inaccessible via le
rseau. Il est donc indispensable de remettre en fonctionnement ensemble
informatique et rseau, en suivant la procdure indique ci-dessous :
1. tudier le plan dimplantation en salle des serveurs des machines de stoc-
kage et de leurs connexions ;
2. tudier les plans et cheminements des rseaux ;
3. effectuer les connexions physiques et brassages ncessaires ;

115
Management de la continuit dactivit

4. initialiser les serveurs qui ont besoin de ltre, dmarrer les systmes
dexploitation, excuter les diverses procdures dinstallation, de param-
trage ou de cration dimages disques (imaging) ;
5. effectuer le paramtrage rseau des divers routeurs ou commutateurs ;
6. raliser les connexions du rseau de stockage SAN (Storage Area Network) ou
ncessaires au stockage en rseau NAS (Network-Attached Storage) pour les ser-
veurs qui en sont pourvus ;
7. configurer les sous-systmes (systmes de gestion de bases de donnes, sys-
tmes de fichiers, serveurs dapplications, moniteurs transactionnels, etc.),
en utilisant au besoin les scripts ou procdures prpares cet usage ;
8. mettre en place les protections de scurit (pare-feu, anti-virus, etc.) ;
9. activer les liens avec les bureaux de secours ou les divers sites couvrir ;
10. tester lensemble des oprations prcdentes.
Ces tches sont pour la plupart bien connues des ingnieurs systme, la diff-
rence quici, les travaux sont mens avec un niveau de stress inhabituel. Par
ailleurs, il se peut que les matriels ne soient pas ceux auxquels les ingnieurs
systme sont accoutums. Tout cela accrot les risques derreur et le travail en
binme, sil est possible, est donc vivement recommand.
En cas de tches hautement rptitives (lignes de commande passer lidenti-
que sur des dizaines de serveurs, par exemple), on aura recours des scripts de
commandes. Encore faut-il les avoir prvus suffisamment longtemps lavance
et pouvoir y accder. Les scripts permettent aussi de rduire les erreurs de
frappe.
Restaurer les applications critiques
Linfrastructure tant en place, il faut maintenant restaurer les applications en
commenant par les plus critiques :
1. revoir la liste des priorits de restauration des applications ;
2. tudier la ou les procdures dinstallation, de lancement de lapplication et
de rcupration des donnes ;
3. vrifier les droits daccs administrateur et systme ;
4. vrifier la manire dont les utilisateurs et leurs droits sont grs ;
5. restaurer ou installer les applications critiques et paramtrer lenvironne-
ment en consquence ;
6. restaurer les donnes partir du point de reprise prvu puis procder aux
vrifications de cohrence et dintgrit prvues dans le plan ;
7. appliquer, si cela est prvu et ralisable, les traitements complmentaires
pour remettre les donnes dans un tat proche de celui o elles se trouvaient
au moment de la panne ;
8. partir dun identifiant dutilisateur de test, vrifier que le fonctionnement
des applications est correct ;

116
Chapitre 5 PCA : planifier les activits

9. partir du site o se trouvent les utilisateurs, vrifier le fonctionnement


distance ;
10. prvenir les utilisateurs que lapplication est accessible et leur indiquer les
restrictions ventuelles.
Dans le cas dun systme de miroir distant, de routage dentre/sortie ou de tout
autre mcanisme assurant une bonne disponibilit (voir le chapitre 8), les activi-
ts prcdentes sont simplifies de faon significative.
L encore, les difficults rencontres seront documentes par crit. Parmi les
anomalies, il est courant de constater que seule une partie de linfrastructure
peut tre rtablie : cela ncessite alors une analyse supplmentaire pour dter-
miner ce qui, malgr tout, peut tre remis en marche.

Activits sur le site de secours de bureaux


Le site de secours de bureaux doit tre prt accueillir des employs privs de
leur site habituel. Les activits consistent organiser les lieux, installer des
matriels qui sont livrs et mettre le tout en tat de marche.
Les besoins en termes de dlais (MTD, RTO, RPO et WRT, voir le chapitre 2),
ainsi que les besoins matriels (PC, bureau, formulaires, etc.), ont t spcifis
auparavant.
Prparer
Il sagit dassurer la prparation des intervenants qui inspecteront et organise-
ront les locaux :
1. sassurer que le groupe dintervention est arriv sur place et est bien
oprationnel ;
2. vrifier que les diffrents dlais (MTD, RTO, RPO et WRT) sont connus du
groupe ;
3. vrifier que les inventaires matriels des besoins sur le site de secours ont
t communiqus au groupe.
Une fois tous les lments entre les mains du groupe dintervention, celui-ci
peut sacquitter des tches suivantes :
4. inspecter ce qui existe sur place et dtecter les manques ;
5. recevoir les envois (en provenance du site sinistr) et prendre connaissance
des consignes associes ;
6. recevoir les nouveaux matriels prvus (PC, commutateurs rseau, serveurs
bureautiques, etc.) ;
7. en fonction des manques, commander le ncessaire ou chercher une alterna-
tive dans lentreprise.
Le groupe, dsormais en connaissance de ce dont il dispose, ce quil va recevoir
et quand, peut alors commencer agir.

117
Management de la continuit dactivit

Installer les matriels de bureau et les moyens informatiques


Il faut commencer tout dabord par les activits dinstallation suivantes :
1. consulter les plans damnagement des bureaux pour les meubles, les PC et
le rseau local, puis tudier les plans de cblage ;
2. installer les meubles dans les bureaux, avec les fournitures, puis y affecter
les employs ;
3. installer et paramtrer le rseau local et les PC ;
4. tablir les connexions au rseau gnral de lentreprise ;
5. dmarrer les PC, ventuellement en mode client lger (voir le chapitre 9) et
non en mode habituel ;
6. paramtrer la tlphonie pour accueillir les nouveaux venus ;
7. si possible, router les appels entrants de lancien site vers le nouveau site de
secours ;
8. mettre disposition les dossiers critiques ou les CD/DVD-Rom importants
provenant des sites o ils taient conservs ;
9. indiquer aux nouveaux venus un numro appeler ou un lieu o se rendre,
en cas de demande ou problme.
Au cours de ces activits, on veillera respecter les priorits des processus criti-
ques, en commenant par traiter les quelques utilisateurs prioritaires, par exemple.
Dun point de vue technique, si le degr de prparation du site est insuffisant
pour un quipement parfait, il est possible de recourir des solutions provisoi-
res, telles que celles utilises pour les cblages notamment (colls ladhsif
sur les plinthes au lieu dtre logs en goulotte par exemple). Il est essentiel que
les schmas de cblage disponibles soient jour et de bonne qualit.
Importance de la validit des plans de cblage
La socit EBU active son plan de secours et amnage rapidement un immeuble de
bureaux en partie dsaffect pour y installer les employs dun site sinistr.
Le technicien en charge du cblage intervient, plan en main, dans les sous-rpartiteurs,
pour modier les connexions an dy ajouter les nouveaux venus. Trs vite, certains
employs travaillant sur le site depuis longtemps se plaignent de limpossibilit de se con-
necter au rseau. La pagaille se gnralise.
Le technicien constate vite que son plan de connexion est faux. Il arrive tout de mme
revenir en arrire pour rtablir les connexions initiales. Les nouveaux venus, eux, devront
se contenter quelques jours de cbles volants courant sur la moquette et de connexions
lentes.
Moralit : lutilisation dun plan non valide savre nfaste et empche de cbler en fonc-
tion de lexistant. Il est donc primordial de maintenir jour les plans de cblage.

Mettre en marche le systme


Les oprations suivantes consistent restituer lutilisateur son environnement
de travail, mme incomplet pendant un certain temps :

118
Chapitre 5 PCA : planifier les activits

1. restaurer les postes de travail (PC, en gnral) avec les applications, don-
nes, identifiants et mots de passe prvus ;
2. mettre disposition les dossiers critiques sous la forme prvue (papier, CD-
Rom, DON, etc.) ;
3. mettre disposition les procdures, formulaires ou documents ncessaires
un travail en mode dconnect, tant que le rseau ou les serveurs ne sont
pas prts ;
4. traiter les demandes ou les transactions la main, comme cela est prvu en
cas dindisponibilit du systme informatique ;
5. conserver ce qui sera ncessaire une saisie informatique lorsque le sys-
tme gnral sera de nouveau disponible ;
6. lorsque le systme informatique est de nouveau fonctionnel, en tester les
points essentiels selon la procdure mtier, puis vrifier ce qui a t ou non
pris en compte ;
7. une fois que cest possible, saisir les donnes manquantes dans le systme
informatique, en fonction de ce qui a t ralis aux points 4 et 5 ;
8. Passer en mode de travail normal une fois la situation compltement rcup-
re.
En rsultat de cette squence dactions, il arrive souvent que le systme fonc-
tionne un peu diffremment de lhabitude : plus lent, moins ergonomique et
encore incomplet, puisque bien que non perdues, certaines donnes ne sont
pas encore disponibles. Il existe deux raisons ce phnomne :
le poste de travail fonctionne souvent en mode dgrad avec un PC plus
ancien, avec des applicatifs en mode dit client lger , ce qui dgrade le
temps de rponse et le confort graphique ;
il nest pas toujours vident de pouvoir entrer dans le systme les donnes
traites la main plus prcisment, cela ne peut souvent pas tre effectu
par un utilisateur standard, car cela ncessite des autorisations dun niveau
plus lev qui ne pourront tre attribues que plus tard.
Tout vnement marquant, ou fait ayant pos problme, devra une fois encore
tre consign par crit.

Activits sur le site de secours de production industrielle


Une certaine analogie existe entre le site de secours de production industrielle
et le centre informatique : dans les deux cas, il faut prparer les intervenants et
les lieux, ractiver ou dmnager du matriel et enfin le mettre en marche, le
tester et le transmettre aux utilisateurs.
Prparer
Ralises pour la plupart par le groupe dintervention, les activits suivantes
consistent mettre le site en tat de production :

119
Management de la continuit dactivit

1. sassurer que le groupe dintervention est arriv sur place et est bien
oprationnel ;
2. vrifier que les diffrentes contraintes de dlais (MTD, RTO, RPO et WRT,
expliqus dans le chapitre 2) sont connues du groupe ;
3. contrler que le site de secours rpond aux normes et aux diverses exigences
en vigueur dans lentreprise pour une production de la qualit voulue ;
4. sassurer que les zones de stockage sont convenables, en particulier pour les
matires risque ;
5. sassurer que les dispositifs de scurit sont appropris ;
6. vrifier linfrastructure, lapprovisionnement en lectricit et la prsence des
sources dnergie prvues ;
7. vrifier que les listes faisant linventaire des besoins matriels sur le site de
production de secours ont bien t communiques au groupe ;
8. inspecter le matriel sur place et vrifier quil convient : quantit, caractris-
tiques penser aux moyens de manutention, trs sollicits au dbut ;
9. dtecter les ventuels carts et manques, et en tablir une liste en vue dune
action ultrieure ;
10. rceptionner les quipements, vrifier les contenus, lire les procdures et
conduites tenir ;
11. rceptionner les pices, outils et tout autre matriel ncessaire ;
12. dtecter et noter tout cart entre ce qui tait prvu et ce qui a t reu.
Labsence de certains quipements ou matriels peut avoir des consquences
paralysantes graves ; par exemple, linsuffisance de moyens de manutention
peut ralentir voire arrter les oprations. ce stade, ce problme peut tre par-
tiellement rsolu en faisant appel des fournisseurs locaux. Il est prfrable,
cependant, davoir prvu ds ltablissement du plan de continuit une quantit
suffisante dquipements critiques.
Mettre en marche
Les activits ralises au cours de la phase de mise en marche permettent de
rendre le site de production oprationnel :
1. tudier le plan doccupation au sol et attribuer les emplacements ;
2. installer et mettre en tat de fonctionnement les machines et outillages ;
3. rpartir les stocks de matire premire, les pices et autres ressources
indispensables ;
4. rcuprer les procdures, consignes et descriptions des gammes de produits
partir des copies conserves en secours ;
5. installer et rendre oprationnels les tlphones, fax, tlcopieurs, etc., puis
router les communications ;
6. mettre en place les ventuels ordinateurs, imprimantes et connexions de
rseaux locaux ou longue distance.

120
Chapitre 5 PCA : planifier les activits

Tester et dmarrer
Ces activits permettent de tester linstallation du site pour lui permettre de
dmarrer dans les meilleures conditions :
1. tester les diffrents quipements ;
2. tester les produits obtenus via ces quipements ;
3. agencer la logistique du site, retirer ce qui ne sert plus ;
4. tester les moyens de tlcommunication, le systme informatique et la
bureautique ;
5. dmarrer la production sur le site de secours.
Afin dalimenter un bilan ultrieur, il est une fois encore bon de tenir une main
courante des vnements.

Activits au centre de gestion de crise


Le centre de gestion de crise doit tre amnag de faon tenir son rle de
quartier gnral. Il est conseill dy avoir prvu lessentiel lavance. Les premi-
res activits consistent tout mettre en place, tandis que les activits suivantes
se rpartissent sur divers ples de proccupation comme :
le pilotage des interventions sur les divers sites ;
la communication ;
le pilotage des moyens humains ;
le suivi financier, le suivi des assurances, ainsi que les aspects juridiques et
lgaux ;
lamlioration du plan de continuit en soi.
Ces activits sont mener dans les tout premiers temps aprs loccurrence du
sinistre.
Mise en tat du centre de gestion de crise
Ltape 4 a permis de dcider de lemplacement du centre de gestion de crise,
quil sagisse dun local dj prvu cet effet, dun conteneur de bureaux mobile
ou bien dun htel. Il sagit dsormais de le prparer, via les actions suivantes,
pour le rendre oprationnel :
1. activer la mise disposition du centre, cest--dire ressortir les lments
importants normalement conservs sur place de leur lieu de conservation
pour les rendre fonctionnels ;
2. avertir les employs attendus sur place ;
3. une fois sur place, vrifier que les quipements sont corrects ;
4. si besoin, faire tablir llectricit par le rseau ou par des gnrateurs ;
5. au besoin, mettre en place les meubles, quipements et fournitures
diverses : bureaux, PC, tableaux, tlphones sur trois lignes (entrante, sor-
tante et de secours), etc. ;

121
Management de la continuit dactivit

6. prparer les documents et matriels spcifiques la gestion de sinistre : pro-


cdures, plan de continuit (papiers, classeurs), projecteur, listes de contacts
et ventuellement des moyens radio ;
7. rcuprer, depuis les sites de conservation, les dossiers critiques et les pro-
cdures spciales en vigueur ;
8. prvoir le dplacement du centre, si ce site nest que provisoire.
Pilotage des interventions
Piloter les diverses interventions est un rle important sinon vital que le cen-
tre doit permettre dassurer (voir le chapitre 4). Cela implique daccomplir les
actions suivantes :
1. garder comme objectifs les dures dinterruption maximale admissibles
(MTD) : pour chaque processus critique, ces MTD doivent tre connus et le
temps coul doit tre mesur ;
2. constituer les groupes (voir le chapitre 4) et lancer les actions quils doivent
raliser en donnant objectifs et priorits ;
3. suivre les actions ralises par les diffrents groupes sur les diffrents sites,
en sollicitant des comptes rendus des groupes intervalles rguliers ;
4. valuer et rvaluer les risques ; en garder une trace crite pour chaque
groupe ;
5. tenir un tableau davancement des actions sur chaque site, y compris le site
sinistr ;
6. rpondre aux demandes des groupes : dcider en cas de demandes dorien-
tation, de choix de priorit ; conseiller en cas dincertitude et de demande de
vrification ;
7. rorienter les actions, redistribuer les ressources en fonction de la ralit du
terrain et des volutions constates ;
8. tenir jour lvaluation des dgts par rapport aux chiffrages initiaux : au fur
et mesure que les groupes travaillent, ltendue exacte du sinistre se
rvle ; certaines estimations se confirment, dautres sont revoir ;
9. obtenir certains documents (plans, inventaires, etc.) manquant aux groupes
en action sur les sites, puis leur transmettre.
Communication
Situ aux premires loges, le centre de gestion de crise est le lieu o converge
linformation correcte et o elle est actualise. Il est donc naturel quil soit la
source des actions de communication sur le sinistre et son traitement et doit :
1. lancer le plan de communication de crise ; sassurer de son excution (voir le
plan type en fin de chapitre 4) ;
2. maintenir jour le tableau de suivi avec les moyens disposition (tableau
physique dans le couloir, site web, communiqus par e-mails) ; cela permet
dviter un certain nombre dappels au centre, coteux en temps ;

122
Chapitre 5 PCA : planifier les activits

3. tenir le comit excutif ou la direction gnrale rgulirement au courant des


vnements ;
4. tenir informs les responsables cls des diffrents sites ou services concer-
ns, en particulier ceux ayant connu des victimes ou ayant fourni des mem-
bres aux groupes dintervention.
Suivi des moyens humains
Les groupes dintervention sont actifs sur le terrain et accomplissent les activi-
ts et tches dj dcrites par ailleurs. Au centre de gestion de crise, il reste
raliser les activits complmentaires suivantes portant sur lensemble du
personnel :
1. maintenir jour la liste des employs indisponibles (blesss, dcds, en
vacances, renvoys chez eux, etc.) ;
2. fournir un soutien aux victimes et leur famille (psychologique, mdical,
juridique, financier, etc.) ;
3. maintenir jour la liste des effectifs oprationnels ;
4. recourir des tiers (socits de services ou dintrim) pour combler les man-
ques en personnel ;
5. comptabiliser le temps pass par les prestataires et les employs en heures
normales et supplmentaires ;
6. sassurer des changements dquipes et du respect du droit du travail ;
7. impliquer ventuellement des fournisseurs et des clients qui peuvent, en cas
de coup dur, prter main forte ; il peut ventuellement sagir dentreprises
voisines ou de partenaires commerciaux.
Du bon usage dun fournisseur
La socit Mtal-X subit une panne importante de son systme informatique. Par cons-
quent, sa gestion de stock et sa facturation sont inoprantes pour une dure estime
une semaine. Or, Mtal-X connat des problmes de trsorerie et aimerait bien pouvoir
envoyer au moins les factures du mois.
Client de la socit ITM qui fabrique des ordinateurs et des imprimantes, Mtal-X a par
ailleurs prvu de renouveler bientt un parc dimprimantes. Son vice-prsident appelle
donc le directeur commercial dITM, lui explique le sinistre subi et demande conseil.
Le directeur commercial dITM propose alors de prter une machine Mtal-X et de rali-
ser chez lui limpression des factures, de mme quil est parfois amen le faire pour cer-
tains gros prospects titre de dmonstration de ses nouveaux matriels. Quant Mtal-
X, cela lui retire une belle pine du pied.
Moralit : face ladversit, les fournisseurs aiment bien conserver des clients en forme.
On a donc l une dmonstration dintrt rciproque bien compris.
Suivi financier, juridique et des assurances
Il sagit dune part de garder un il sur les dpenses spciales gnres par le
sinistre et les actions de reprise, tout en dfendant et prservant les intrts de
la socit. Dans une situation difficile de sinistre, il faut conserver des preuves

123
Management de la continuit dactivit

pour les assurances et les divers recours possibles. Cette phase doprations
implique notamment de :
1. suivre les engagements de dpenses effectus par les canaux non habituels ;
2. garder la trace des dpenses effectues, ventuellement ventiles selon
divers critres ;
3. estimer les cots de rparation, de remplacement, de remise en tat ;
4. effectuer une estimation financire pour la direction gnrale ;
5. prendre connaissance, avec les services concerns, des contrats dassurance
et de ce quils prvoient en cas de sinistre ;
6. faire les dclarations en temps et en heure auprs des compagnies
dassurance ;
7. commencer monter les dossiers pour les assurances (prendre des photos,
chiffrer les pertes dexploitation, ventuellement faire dresser des constats
dhuissier, etc.) ;
8. dtecter, si ncessaire, les carts ou risques dcarts entre les valuations de
lentreprise et celles des assurances ;
9. impliquer le service juridique en leur faisant inspecter les diffrents contrats
avec les clients et fournisseurs pour activer les dmarches contractuellement
ou juridiquement ncessaires.
Cas particulier : les socits de service informatique
Dans le cas de socits de prestation de service informatique, le sinistre a normalement
dj dclench, auprs des gestionnaires de clientle, des actions visant avertir les
clients et les utilisateurs dans les dlais convenus. Ces socits se sont en effet contrac-
tuellement engages des temps de disponibilit et ont mis en place des procdures
descalade auprs des clients et des responsables internes pour remonter les incidents
graves. Le sinistre prsente toutefois la caractristique dtre un incident trs grave et trs
long rparer. Cest cet aspect exceptionnel qui doit tre communiqu au client pour
quil prenne ses dispositions.
Pour les socits plus traditionnelles, les perturbations concerneront davantage
des aspects comme les dlais de livraisons ou les dates dexpdition. Avertir les
clients et fournisseurs dans ce cas nest pas forcment un rflexe immdiat et il
vaut donc mieux spcifier ce point dans le plan de continuit.
Amlioration du plan de continuit
Le centre de gestion de crise hberge les responsables qui excutent le plan de
continuit. Ils sont donc mme dy dtecter les dfauts, carences, erreurs et
limites. Lobjectif est ici damliorer le plan.
Tout au long des sept tapes, il est bon de noter en marge les amliorations
pouvant tre apportes au plan ; celles-ci peuvent concerner :
1. des carts dans la documentation ;
2. des diffrences entre ce qui tait attendu et ce que lon a trouv sur site (en
termes de matriels, logiciels, etc.) ;

124
Chapitre 5 PCA : planifier les activits

3. des aspects non couverts quil aurait t bon dinscrire dans le plan ;
4. des points insuffisamment dtaills ou, linverse, des dtails inutiles ou
incorrects ;
5. des aspects matriels bloquants imprvus (par exemple, des matriels de
secours sous cl alors que les cls sont introuvables) ;
6. toute autre suggestion damlioration.

Activits concernant les employs domicile


Il est de plus en plus frquent que les plans de continuit dactivit prvoient
quune partie du personnel travaille depuis son domicile. Il sagit en gnral de
cadres qui, laide dun PC ou dun terminal, sont autoriss se connecter des
rseaux de lentreprise ou des services de partenaires divers.
Plusieurs situations se prsentent selon que lemploy dispose dun portable de
lentreprise quil emmne chez lui ou bien quil recourt un PC fixe lui apparte-
nant en propre ou prt par lentreprise. Dans tous les cas, les activits prvoir
sont :
1. dterminer les moyens techniques de lentreprise mis disposition de
lemploy son domicile ;
2. assurer que la configuration est gre long terme et permet un accs suffi-
samment scuris ;
3. rendre le contrat de travail de lemploy compatible avec cet usage ;
4. dterminer les moyens daccs au rseau de lemploy (ADSL son nom, au
nom de lentreprise, etc.) ;
5. protger correctement le rseau de lentreprise pour les usages prvus ;
6. doter la configuration de moyens de protection et de scurit convenables ;
7. dterminer les applications utilisables de cette manire ;
8. attribuer et grer les divers mots de passe ;
9. prvoir des accs de secours au rseau hors de lentreprise ;
10. grer la liste des sites web (URL) accessibles en cas dactivation du plan de
continuit et la communiquer tous les employs concerns ;
11. conserver et tenir jour la liste des employs concerns.
Bien videmment, il faudra prvoir ces cas de figure dans les consignes dutilisa-
tion de linformatique, en notant bien que les PC portables prsentent un risque
supplmentaire en raison de leur vulnrabilit au vol.
Si ce type des dispositifs permet des employs de travailler depuis leur domi-
cile, rien ne dit cependant que le rseau de lentreprise pourra les accueillir sil a
t sinistr. En revanche, en cas de perte de locaux de bureaux, cette solution
prsente bien des avantages dautant quavec certains produits actuels, il est
de plus en plus possible de travailler sur un PC en mode dconnect et de se
reconnecter, une fois le rseau nouveau oprationnel, pour envoyer le travail

125
Management de la continuit dactivit

ralis lentreprise. Ce mode de fonctionnement doit donc tre considr avec


grand intrt.

tape 6 Retour la normale


ce stade, le personnel a retrouv des locaux et des moyens informatiques et
industriels pour travailler, tandis que les processus les plus critiques de lentre-
prise ont redmarr. Cependant, les moyens mis en uvre ntant pas les
mmes quavant le sinistre, les donnes en ligne ne sont peut-tre pas totale-
ment jour. En effet, certaines informations qui ont t notes la main dans
des formulaires ne sont pas encore insres dans le systme dinformation, de
mme que certaines donnes qui nont pas encore t collectes dans leur tota-
lit.
Lentreprise fonctionnant en partie sur des moyens provisoires, le but est main-
tenant de revenir la situation davant le sinistre. De plus, les processus non cri-
tiques nayant pas t traits en priorit, ceux-ci ne fonctionnent peut-tre pas
encore et ncessitent donc dtre redmarrs. Cest tout lobjet de cette tape de
retour la normale, qui va couvrir des activits pouvant tre regroupes en trois
objectifs :
dterminer la cible dfinitive (site, matriel) ;
rparer et prparer ;
oprer la transition finale.
On notera que certaines activits ont pu dmarrer en parallle lors des tapes
prcdentes.

Dterminer les moyens dnitifs


Pour toutes les conditions provisoires dexploitation (moyens et sites de
secours), il sagit de dterminer les conditions cibles dfinitives : quelles condi-
tions permanentes veut-on obtenir pour un retour de lentreprise dans une
situation quivalente celle davant le sinistre ?
Cela concerne tous les lments qui ont t sinistrs : le site informatique, le
site de production industrielle et les bureaux. Dans une moindre mesure, cela
vise aussi les donnes informatiques et les dossiers vitaux qui se trouvent peut-
tre encore dans un tat de dgradation pouvant tre amlior. Voici une liste
des activits entreprendre dans ce but de cibler les besoins :
1. tudier les rapports dinspection raliss par le groupe de rcupration tech-
nique et oprationnelle durant la phase prcdente, contenant notamment
une valuation des dgts ;
2. dterminer les hypothses ralisables : retour sur le site dorigine ? dplace-
ment sur un autre site ? rester sur le site secondaire et crer un nouveau site
de secours ?

126
Chapitre 5 PCA : planifier les activits

3. pour le systme informatique : dterminer les configurations cibles mettre


en place en termes de serveurs, stockage et rseaux au vu des volutions
du march, les configurations diffrent souvent de celles dorigine ;
4. pour les donnes : laborer les plans de traitements ou de transactions
ncessaires pour remettre entirement les donnes niveau si ces traite-
ments sont consommateurs de temps de calcul, tudier de quelle faon
obtenir le surcrot de puissance ncessaire. Valider les droits daccs sp-
ciaux aux applications, aux donnes et systmes ;
5. pour la production industrielle : dterminer les rparations effectuer et les
ventuels quipements supplmentaires acqurir ;
6. envisager la meilleure faon de rcuprer rapidement des moyens de
secours : en effet, en situation de sinistre, le droit lerreur ou laccident
est trs faible. Prvoir ventuellement des contrats de secours provisoires de
courte dure ;
7. prendre en compte les aspects financiers : apport des contrats dassurance
en valeur de remplacement, en pertes dexploitation, etc. ;
8. partir de tous ces lments, laborer un planning des travaux et actions
mener.
Si ces activits se limitent bien videmment dabord ce qui a t sinistr, il est
rare que tous les aspects soient couvrir en mme temps.
En gnral, il suffit de remettre en tat le site primaire et dvacuer le site
secondaire. Cependant, certaines entreprises en profitent pour repenser leur
implantation en cherchant diminuer les risques lavenir. Lentreprise doit
aussi se proccuper de la rcupration de sa capacit rsister et donc de ses
moyens de secours.
Rorganisation dun centre informatique aprs un incendie
La socit SL2 possde un centre informatique bien isol la campagne. Sur ce site coha-
bitent les ordinateurs centraux, des serveurs divers et une cinquantaine de personnes
(ingnieurs systme) travaillant dans des bureaux trs proches des machines, dans la
zone faux plancher pour certains.
Un incendie se dclare. Il se propage rapidement et oblige vacuer les lieux ; des cbles
sont endommags et certains serveurs touchs. La remise en tat se rvle assez difcile
car il faut dcbler puis recbler la salle. Aprs enqute, il savre que lorigine du feu est
un mgot jet dans une poubelle
Le retour la normale est accompagn alors dune dcision : le personnel travaillera
dsormais dans un autre btiment, situ au centre-ville. En effet, les techniques de pilo-
tage distance nimposent plus de se trouver proximit des machines ; les oprateurs
de salle sont ainsi rduits au minimum et les risques sur place diminus.

Rparer et prparer
Les actions planifies et dcides en phase prcdente sont excutes. Cela
concerne :

127
Management de la continuit dactivit

1. la rparation des dommages dans les locaux et la prparation des salles et


des bureaux en vue du rinvestissement des lieux ;
2. la remise en tat des donnes et des dossiers sensibles ;
3. le suivi de toute activit sous-traite, tel que cela a t dcid ;
4. la commande et lacquisition des matriels et logiciels ncessaires ;
5. la rception, le contrle, linstallation et le dmarrage de tout ce qui est
livr ;
6. le rapprovisionnement en consommables divers (papiers, cartouches, sup-
ports, etc.) ;
7. les cblages en salles et dans les rpartiteurs, avec mise jour des schmas ;
8. la mise jour gnrale de toutes les configurations et des bases de donnes
de configuration ;
9. le paramtrage et ladministration des droits daccs, avec mise jour ;
10. la remise niveau des diverses protections de scurit qui ont pu tre modi-
fies durant la phase de fonctionnement en mode de secours.

Russir la transition
Afin de ne pas trop perturber lactivit ayant dsormais repris son cours, le
retour sur des sites et des matriels stables et dfinitifs seffectuera de prf-
rence lorsque les employs sont absents souvent, le week-end. Concernant
linformatique, les conditions de transition sont contraintes encore davantage,
lobjectif tant de ne pas interrompre les processus critiques.
Souvent, face cette opration dlicate, les entreprises trouvent judicieux de
suivre, en particulier pour tout ce qui concerne linformatique, une procdure de
gestion des changements de type ITIL.
Plusieurs cas de figure se prsentent, ventuellement combins : les systmes
qui opraient sur le site de secours sont dmnags sur le site principal et/ou le
site principal est dot de nouveaux matriels vers lesquels il faut basculer.
La transition pourra donc tre ralise via les activits suivantes :
1. planifier la transition, en prvoyant ventuellement un retour arrire en cas
de difficult ;
2. prparer la fois le site cdant et le site recevant ;
3. installer, sil y a lieu, les systmes nouveaux sur le site principal et les
initialiser ;
4. figer les donnes un point de sauvegarde propre, raliser les copies de sau-
vegarde et arrter les systmes qui vont dmnager du site de secours ;
5. dmnager les systmes anciens sur le site principal sil y a lieu, puis trans-
frer les sauvegardes ;
6. installer les systmes sur le site principal, les initialiser, puis mettre le rseau
en fonctionnement ;

128
Chapitre 5 PCA : planifier les activits

7. restaurer les sous-systmes et les donnes sur les systmes cibles ;


8. vrifier le bon fonctionnement des applications avec des reprsentants des
utilisateurs ou des responsables applicatifs ;
9. attribuer les identifiants et les mots de passe correctement ;
10. rtablir les connexions tlphoniques ;
11. complter les dossiers critiques en vue de les finaliser, puis les entreposer
lendroit prvu ;
12. reprendre les oprations courantes ;
13. redmarrer les diverses protections anti-sinistres (sauvegardes, copies
miroirs locales et distantes, etc.) ;
14. dbarrasser le site de secours et le rendre sa mission originale, en suivant
les indications contractuelles ou les procdures ;
15. dtruire ventuellement les informations confidentielles et rtablir la confi-
dentialit son niveau nominal exig en fonctionnement normal.
la fin de cette tape, lentreprise se retrouve dans une situation semblable ou
quivalente celle quelle connaissait avant le sinistre. Cela ne signifie pas
quelle utilise les mmes moyens lidentique, mais quelle emploie des
moyens adapts sa nouvelle situation et quelle dispose nouveau de moyens
de secours oprationnels.

tape 7 Bilan daprs sinistre


Cette tape finale ne doit pas tre nglige, car elle est riche denseignements
concernant le plan qui vient dtre excut face un sinistre. Il sagit l dun test
grandeur nature.
Normalement, comme cela a t prconis tout au long des tapes prcdentes,
les anomalies constates ont t notes par les membres des groupes dinter-
vention et les divers responsables. Si ce nest pas le cas, il faut demander alors
un bilan crit aux diffrents chefs de groupes.
Les anomalies reportes sont couramment classes en trois niveaux de gravit.
Les anomalies bloquantes : elles ont empch que le plan soit excut
comme prvu, sans possibilit de contournement. Cest le cas, par exemple,
lorsquun site de secours prvu nexiste plus car le contrat de secours a t
rsili, ou encore lorsque ce site a chang de destination suite une fusion,
sans que le plan de continuit ait t mis jour.
Les anomalies gnantes : elles ont empch lexcution du plan conform-
ment ce qui tait prvu, mais il a t possible de trouver une solution de
contournement. Cela se produit souvent lorsque les documents comportent
des inexactitudes : les serveurs prvus ne sont pas exactement ceux quil fau-
drait, ou les quantits de postes de travail de secours, par exemple, ne rpon-
dent pas au besoin.

129
Management de la continuit dactivit

Les anomalies simples : elles ont provoqu des pertes de temps ou des
efforts supplmentaires. Cest lhistoire classique des cls absentes du
tableau quil faut aller chercher chez le collaborateur.
Ces anomalies rsultent souvent de dfauts ou de laxisme dans lactualisation
des bases de donnes de configuration ou dans le respect des consignes.
En outre, il arrive aussi que des suggestions remontent pour amliorer le plan
de continuit. Tous ces points damlioration peuvent faire lobjet de nouvelles
actions planifier et raliser, avec chiffrage du cot. Leffort fournir devra
alors venir des oprationnels eux-mmes plutt que des personnes en charge de
la continuit.
Les actions de sensibilisation et de formation du personnel lintrt de la con-
tinuit dactivit peuvent permettre dviter bon nombre de ces difficults.

Comment affecter les tches ?

La description dactivits qui prcde, rpartie selon un planning en sept ta-


pes, permet lentreprise de slectionner les actions quelle doit entreprendre,
avec un droulement adapt son contexte. Il se pose alors le problme de
laffectation de ces activits ventuellement subdivises en tches des
employs en charge de leur excution.
Cette affectation doit se faire en respectant les responsabilits des diffrents
groupes dfinis dans le chapitre 4.

Spcicit du PCA
Dans une approche de planification de projet classique, une tche est confie
une personne donne, assortie dune charge et dune dure. Dans certains cas,
la tche peut tre accomplie deux fois plus vite si deux personnes y travaillent
en parallle. Dans dautres cas, la dure est incompressible. Ce sont l des con-
sidrations habituelles en gestion de projet.
Dans le cas particulier de la continuit dactivit, la situation est plus problma-
tique, car :
on dcouvre lampleur du travail effectuer au fur et mesure quon
leffectue ;
les personnes disponibles ne sont pas elles non plus connues lavance,
ce qui rend illusoires les affectations prcises planifies.
La dure de lactivit apparat donc comme la seule variable dajustement. Or
cest justement l que rside la difficult, car cette dure est contrainte par les
MTD (dures maximales dindisponibilit admissibles). Tous les paramtres
devront donc tre ajusts en fonction des dlais de MTD. Cela signifie que les
quipes seront gomtrie variable aussi bien dans leurs effectifs que dans les
comptences reprsentes.

130
Chapitre 5 PCA : planifier les activits

Tableau 5-1 : Approche de projet classique, peu adapte au PCA

tape Activit Tche Personne Charge Dure


Chef du
1.1.5 collecter des b) vrier 2 heures/
PCA N 1 centre 2 heures
infos sur le site laccessibilit homme
informatique
c) installer les
2 ingnieurs 5 heures/
10 serveurs Unix/ 2,5 heures
systme Unix homme
5.2.5 installer les Oracle
PCA N 5
serveurs 4 ingnieurs
d) installer les 8 heures/
systme 2 heures
24 serveurs WinTel homme
Windows

Le tableau prcdent dcrit un idal qui ne se prsente pas forcment dans la


ralit de laprs sinistre. Si au lieu des six ingnieurs prvus, il ny en a que qua-
tre et quils ne sont pas spcialistes des technologies adquates, les dlais vont
sallonger. Il faudra donc choisir entre les serveurs installer en premier ou bien
trouver des ingnieurs supplmentaires. La seule indication intressante et
exploitable est ici la charge prvisionnelle. Elle permet au responsable de
dimensionner ses quipes et les travaux en fonction du dlai tenir.

Charges et dlais cibles


Lexemple qui prcde explique pourquoi lapproche gnralement retenue con-
siste raisonner en charge prvisionnelle par unit de travail (par serveur, par
exemple).
Dans tous les groupes, le responsable a donc deux paramtres en tte :
la charge totale estime pour le travail faire ;
le temps coul depuis linterruption des activits.
Il en dduit donc les effectifs dont il a besoin en thorie pour raliser, dans le
dlai maximal admissible dinterruption (MTD), les tches ncessaires. Dans la
ralit, les spcialistes savent peu prs en combien de temps telle ou telle
action doit tre accomplie et combien de personnes sont ncessaires idale-
ment pour la mener bien dans les dlais impartis. Cest le rle du chef de
groupe de trouver les profils les plus comptents parmi le personnel disponible,
soit lextrieur du site, soit dans lentreprise.

Du ralisme avant tout


Un planning prvisionnel prcis et fig est irraliste en situation de reprise aprs
sinistre. Laffectation des personnes aux tches par le chef de groupe se fait donc
au coup par coup selon la ralit du sinistre. Ce qui importe ici, cest daffecter
un ensemble dactivits un groupe et son responsable. Le plan doit donc

131
Management de la continuit dactivit

indiquer ces affectations et le responsable de groupe connatre ses missions


(voir le chapitre 4).
Le plan peut, en plus, donner des indications de charge par type de travaux, ce
qui permet dvaluer la quantit totale de travail produire. Souvent, les spcia-
listes (sils sont l) sont capables deffectuer des valuations ralistes.
En fonction du chronomtre, qui court depuis larrt des activits critiques de
lentreprise, le chef de groupe cherche composer ses quipes avec des person-
nes efficaces et aptes atteindre lobjectif du groupe. Il demande de laide au
chef de groupe de gestion de crise, en cas de besoin et lui fait un rapport davan-
cement rgulier. Ce responsable central a donc un rle darbitrage entre les
diverses demandes quil reoit des diffrents groupes.
Ces arbitrages sont multiples et complexes. On peut prfrer privilgier les acti-
vits prioritaires afin den remettre quelques-unes en route. charge gale et
personnel identique, on aura souvent soit toutes les tches avances 50 %,
soit la moiti des tches termines. Mieux vaut alors choisir la deuxime situa-
tion, mme si elle est plutt complexe raliser : autant avoir quelques activits
qui fonctionnent que rien du tout.

132
Chapitre 6

Tester le plan
de continuit

ce stade de son laboration, le plan de continuit ne correspond qu une


suite de travaux, de rflexions et de dcisions synthtiss dans plusieurs docu-
ments. Aprs cette organisation thorique, il est maintenant indispensable de
tester le plan de continuit afin de sassurer de ses applications concrtes.
Cela permet de valider la stratgie, les hypothses, lattribution des missions,
les plannings et les recommandations qui ont t mis au point lors des tapes
prcdentes. Il vaut mieux, en effet, que les difficults potentielles soient ren-
contres durant un exercice de test plutt quau moment de lexcution du plan,
en situation relle de sinistre.

Cadrage des tests

Il est indispensable de dfinir une politique de tests pluriannuelle. Lobjectif


gnral est divis en objectifs tactiques respectant un calendrier prcis et valid
par les diffrentes parties prenantes. Ces aspects de gouvernance sont abords
dans le chapitre 11.
On devra galement dterminer la mthode suivre pour appliquer les diff-
rents types de tests afin datteindre les objectifs fixs. Lentreprise doit en effet
mettre en uvre une dmarche qui lui permette de vrifier, dassimiler et de se
familiariser avec son plan de continuit, ayant recours aux tests pour lamliorer.
Objectifs
Un exercice test peut avoir un ou plusieurs objectifs. Il est important de dfinir
lavance cet objectif, car le droulement et le suivi des tests en dpendent gran-
dement.

133
Management de la continuit dactivit

Valider lefcacit du plan


Les exercices de test du plan de continuit permettent de vrifier son bon fonc-
tionnement. Les points suivants doivent tre valids ou, le cas chant, faire
lobjet dun plan daction qui les rendra plus adapts ou efficaces :
les responsabilits dfinies dans le plan sont prises en charge par les bonnes
personnes ;
les activits sont convenablement dfinies et produisent les rsultats
attendus ;
la synchronisation, les dures et les charges prvues dans le planning sont
bonnes ;
les tapes dfinies dans le planning se droulent comme prvu ;
les processus critiques sont redmarrs en temps voulu.

Identier les points faibles


Aucun plan ntant parfait, lexercice de test est loccasion de dtecter certains
points faibles, parmi lesquels on distingue :
les difficults daccs la documentation, aux listes de rfrences, de noms,
de configurations ;
les dlais pour constituer les groupes, en raison de lindisponibilit imm-
diate des responsables ;
le caractre irraliste ou incomplet de la stratgie de continuit se rvlant
dans son application ;
les erreurs dans les documents ou listes de contacts, de ressources, etc. ;
les omissions de personnes ou de tches ncessaires ;
la diffrence entre la ralit et ce qui est prvu dans le plan : conditions du
matriel informatique (tel serveur cens tre sauvegard rgulirement mais
qui ne lest pas, par exemple), ressources prsentes sur le site de secours,
etc. ;
les soucis imprvus de dernire minute (tel logiciel ne peut tre utilis car la
cl logique nest pas attribue, telle porte est ferme cl et celle-ci est
introuvable).
Il ny a pas de cl, hlas !
La socit BCD doit interrompre son alimentation lectrique sur toute sa salle informati-
que pour cause de travaux. Elle dcide cette occasion de simuler une panne de courant,
tout en prvenant le personnel, an dobserver comment se passe larrt des serveurs en
salle.
Le jour j arrive : le courant est coup, et on passe alors sur les onduleurs, qui assurent, pr-
voit-on, environ 50 minutes dautonomie. Les oprateurs lancent les procdures darrt
des machines correctement. Pour certaines dentre elles, il faut se rendre dans la salle
informatique : tout se passe bien, les oprateurs prvus ont effectivement les droits.

134
Chapitre 6 Tester le plan de continuit

La plupart des machines en salle sont accessibles sans difcult et peuvent donc tre
arrtes. Mais certaines dentre elles se trouvent dans une armoire ferme cls, sans
que cela ait t prvu. Cherchant alors les cls, on nit par les trouver mais elles ne sont
pas clairement identies, ce qui fait perdre du temps pour les essayer une une. Or, le
chronomtre tourne !
En n de compte, il reste deux machines dont laccs est impossible : la cl darmoire est
trouve mais pas la deuxime ncessaire pour activer le clavier ! Ces deux machines nis-
sent par sarrter, faute de courant, ce qui ntait pas prvu. Or il se trouve que ces machi-
nes sont justement juges critiques.
Moralit : un petit oubli a failli tout faire chouer ! Concernant les machines critiques, il
vaut mieux analyser lavance et dans le dtail les problmes potentiels.

Vrier la validit du plan


Le plan de continuit part dune photographie de lentreprise et de ses partenai-
res un moment donn. En raison des volutions qui ne manqueront pas de se
produire, le plan ne sera donc pas toujours dactualit et il faudra rgulirement
procder une mise jour. La liste des lments remettre jour est longue.
Une procdure particulire est normalement prvue pour cela (voir le chapi-
tre 12), mais elle nest pas toujours applique correctement. Parmi ces l-
ments, on peut citer :
les organigrammes et les listes de contacts ;
les informations concernant les partenaires (fournisseurs de sites de secours,
dpanneurs, etc.) ;
les caractristiques des systmes techniques de toute sorte, connaissant des
modifications rgulires qui doivent tre suivies afin que leur secours soit de
mme niveau.
Aucun exercice de test ne se rvle sans surprise sur ces aspects. Lexercice per-
mettra non seulement la mise jour des listes, mais surtout lamlioration de la
procdure de tenue jour elle-mme, en dtectant ses faiblesses. Lun des
meilleurs rsultats que lon puisse obtenir est dailleurs la sensibilisation des
responsables chargs de cette mise jour.

Former les employs


Cet objectif est trs souvent mis en avant par ceux qui pratiquent des tests rgu-
liers. Pour les employs comme pour les responsables, le premier test est le plus
difficile car on ne sait pas ce que lon a faire . Les tests suivants ressemblent
davantage des rptitions et des exercices de rodage.
Dans lidal, les employs devraient parvenir :
respecter les affectations aux groupes et attributions dactivits prvues par
le plan ;
ragir efficacement face toute sorte dimprvu (absence de personnel, allon-
gement des dlais, situations non conformes au plan, etc.) ;

135
Management de la continuit dactivit

se familiariser avec les locaux de secours, le centre de gestion de crise, les tra-
jets effectuer, les lieux visiter (pour rcuprer des bandes, par exemple) de
manire parer toute ventualit ;
utiliser aisment les moyens de communication et avoir le rflexe de rendre
des comptes (reporting).
Lexercice de test se rvle ainsi tre un bon moyen de former les employs, qui
peuvent eux-aussi proposer des amliorations du plan.
Pour les employs non directement impliqus dans les tests, la sensibilisation
aux problmes de continuit est un rsultat intressant de la campagne de tests.
Mthodes de test
Il existe plusieurs mthodes pour tester un plan, que celui-ci concerne la conti-
nuit ou pas dailleurs. Les principales mthodes en usage sont dcrites ci-
aprs. Le cot et le risque associs au test sont variables en fonction de la
mthode choisie.

Test de vrication (check-list)


Ce type de test est peu onreux et permet de prparer des tests plus approfon-
dis. Il consiste passer en revue le plan de continuit et les documents associs
pour en vrifier lexactitude et lapplicabilit, tout en inspectant la disponibilit
des ressources prvues. En particulier, cela revient vrifier :
lexactitude des listes de contacts et des numros de tlphone ;
la bonne documentation des applications critiques et des systmes informa-
tiques associs ;
la bonne description des dossiers vitaux (existence, lieu de conservation, etc.) ;
la prsence effective des sauvegardes dans les lieux prvus, sous la forme
attendue, aux dates voulues ;
lexistence des formulaires ncessaires aux procdures dgrades, avec la
bonne description desdites procdures ;
la bonne tenue des manuels dinstallation ou dintervention prvues sur le
site de secours ;
la prsence sur le site de secours du matriel et des documents qui sont cen-
ss sy trouver ;
la prsence au centre de gestion de crise des matriels et quipements pr-
vus, en bon tat de fonctionnement.
Ces vrifications peuvent se faire rgulirement. Limplication des groupes
dintervention, mme si elle est intressante, nest pas ncessaire.

Inspection de documents (walk-through)


Appel parfois test en chambre , linspection de documents consiste lire les
documents constituant le plan de continuit pour en drouler, virtuellement ou
blanc, le scnario dexcution.

136
Chapitre 6 Tester le plan de continuit

Avant de raliser ce type de test, il faut dterminer un scnario prcis de sinistre.


Par ailleurs, on doit avoir remis aux membres de lquipe de test une description
de leurs responsabilits, des activits effectuer et des procdures suivre. Le
test consiste ensuite, pour les personnes impliques, jouer le rle de leur res-
ponsabilit, en droulant les activits effectuer, tout en suivant les proc-
dures avec leur quipe. Le but est de vrifier que lensemble est correctement
conu et oprationnel.
Le fait de rassembler des groupes avec des responsabilits diverses dans le
mme exercice se rvle trs intressant, car cela permet ventuellement de :
dtecter des recouvrements de missions (deux groupes voulant faire la mme
chose) ;
dcouvrir des lacunes (personne pour certaines activits) ;
constater des trous dans les procdures, ou encore des points inapplicables
ou inutiles ;
observer ventuellement des difficults dans les activits ou rajuster le plan-
ning.
Ce genre de test a lavantage de familiariser les quipes avec leurs collgues, les
rles de chacun, les sites de secours et leurs ressources, les circuits de dcision
et de reporting. Les personnes impliques apprennent ainsi vivre le plan de
continuit. Afin de rendre les tests plus ralistes, les quipes peuvent dailleurs
tre dpches sur les lieux rels dintervention.

Simulation
Ce test est plus labor et plus coteux que les prcdents. Il sagit en effet de
simuler une interruption dactivit due un sinistre et dexcuter la portion du
plan de continuit correspondante.
La mise en uvre de ces tests peut comporter plusieurs variantes, dont vont
dpendre le degr de perturbation des activits de lentreprise et le cot du test :
simuler des activits (larrt dun serveur, par exemple) ou les effectuer relle-
ment (arrter effectivement le serveur) ;
faire la simulation sur un site de production rel ou sur un site de secours ;
demander aux employs concerns par les activits touches darrter effecti-
vement de travailler ou les laisser continuer ;
faire travailler une partie du personnel sur le site de secours ou employer les
moyens de secours avec des procdures dgrades ;
se limiter certaines portions du plan, concernant une activit de lentreprise
en particulier ou une partie dun site ;
se concentrer uniquement sur certaines tapes du plan, comme les trois pre-
mires, qui peuvent ncessiter un rodage particulier.
En outre, ces tests de simulation peuvent tre particulirement intressant pour
vrifier certains points particuliers tels que :

137
Management de la continuit dactivit

le degr de ractivit des prestataires impliqus ;


lefficacit de la sortie des sauvegardes de leur lieu de conservation ;
la faisabilit de lutilisation de tel ou tel site en secours pour les bureaux ;
le temps prvoir pour certains dplacements ;
la dure ncessaire la reconstitution des donnes sur le site de secours ;
la viabilit des procdures manuelles ;
lefficacit du plan en cas dabsence de tlphonie ou de messagerie ;
lefficacit des circuits de dcision en cas dabsence de certains responsables.
La simulation peut dailleurs tre centre sur des points particuliers pour les-
quels des doutes subsistent. Dans ce cas, les rsultats permettent dapporter de
relles amliorations au plan.

Test parallle
En informatique, le test parallle semploie pour remplacer un systme par un
autre et ainsi vrifier quils donnent le mme rsultat. Ce genre de test permet
dasseoir la confiance dans un systme de secours et dans les procdures de res-
tauration des donnes. Dans le cadre de la continuit dactivit, il sagit de faire
fonctionner le systme de secours en parallle du systme principal, afin quil
soit le plus ressemblant possible. Pour atteindre cet objectif, on procde comme
suit :
1. le systme principal fonctionne normalement sur son site ;
2. un moment donn, on fait comme si un sinistre stait produit : on com-
mence garder une trace manuelle des transactions saisies sur le systme
principal (en faisant comme sil nexistait plus) ;
3. le systme de secours prvu est mis en route sur le site de secours ;
4. les diverses sauvegardes disponibles sont rcupres et restaures sur le
systme de secours, en appliquant au besoin les journaux ;
5. les transactions manuelles (du point 2) sont saisies sur le systme de
secours ;
6. on compare alors les deux systmes, en notant tout cart concernant les
donnes.
Les carts de donnes sont dus aux priodes durant lesquelles lenregistrement
des transactions na pas t fait ou communiqu par exemple, le laps de temps
entre la dernire sauvegarde et le sinistre simul. Les raisons peuvent tre diver-
ses et les solutions techniques proposes galement. Dans tous les cas, cela
doit donner lieu un plan daction.
Ce type de test est dlicat et parfois coteux ; on leffectue en gnral quand les
autres tests ont t mens avec succs. Le test parallle peut tre ralis assez
facilement sur certaines solutions techniques (telles que le SGBD, voir le chapi-
tre 8).

138
Chapitre 6 Tester le plan de continuit

Grce ce test, il est galement possible de vrifier si les employs ont bien
accs au systme de secours. Enfin, il peut se rvler utile pour mesurer le
temps ncessaire chaque rcupration. On pourra ainsi analyser la manire de
rduire ces dlais sils savrent trop longs.

Test interruptif total


Cest le test complet. Tout se passe comme si un sinistre avait rellement eu
lieu. Le plan est activ en grandeur nature et les activits quil prvoit sont rel-
lement excutes.
Si le test le permet, lactivit normale peut continuer. Il faut bien videm-
ment avertir les clients, fournisseurs et partenaires de cette interruption pro-
gramme. On cherchera pour cela viter les priodes de grande activit ou les
pointes de transactions.
Comme il sagit du test le plus onreux, il ne sera ralis que lorsque les autres
tests auront t effectus et que les amliorations apporter dcouvertes au
cours de ceux-ci auront t intgres. Ce genre de test est trs rarement prati-
qu.

Faut-il annoncer le test ?


Faut-il prvenir les employs et les partenaires de lentreprise que le plan de
continuit sera test (en leur indiquant le site, le jour et lheure prcis) ? Ou
vaut-il mieux, au contraire, garder le secret et le dclencher limproviste ? Les
avis divergent, mais la faon de procder dpendra aussi de chaque situation.
En effet, plusieurs lments doivent tre pris en considration pour dterminer
la mthode adopter, dont certaines prchent en faveur dune annonce :
si le plan de continuit nest pas encore tout fait matris, rien ne sert de
compliquer les choses en ralisant des tests limproviste ;
si le plan comporte des dfauts, que le test soit annonc ou non, ils seront
tout de mme constats ;
si le test est annonc, lentreprise peut en rduire limpact et donc le cot.
Dautres incitent plutt privilgier la surprise :
seul le test non annonc permet de vrifier la bonne ractivit des employs ;
le sinistre rel ne prvenant pas, le test sera lui aussi ralis limproviste,
par souci de ralisme ;
la surprise empchera que certaines personnes soient tentes de rectifier
lavance des situations dommageables la continuit, que lon ne dcouvrira
donc pas.
En conclusion, les tests raliss limproviste ne sont recommands que si
lentreprise possde une bonne matrise de son plan de continuit, acquise la
suite de tests annoncs. Toujours dans une dmarche de progression, les pre-
miers tests non annoncs se feront sur un primtre limit et viseront essentiel-

139
Management de la continuit dactivit

lement valuer la ractivit des personnes sur les premires tapes du


planning.

Document de prparation
Pour russir lexercice du test, il est important de bien le prparer. Le manque de
prparation peut gnrer des doutes quant au srieux du plan et dcrdibiliser
toute action ultrieure. En effet, la direction gnrale accorde ces tests un
temps et une attention qui nest consquente que si les rsultats sont la hau-
teur des attentes. Enfin, pour tre crdible, il est ncessaire dtre raliste et
pragmatique.
On devra donc dcrire ce que lon attend concrtement du test dans un docu-
ment qui couvre les points suivants :
le dispositif humain et technique pour mener le test ;
les points du plan de continuit tester ;
la date, le lieu et la dure du test ;
les ressources ncessaires ;
les actions mener avant, pendant et aprs ;
la mthode dvaluation des points qui ressortiront travers ce test ;
le dispositif de surveillance et de compte rendu des vnements et constata-
tions.
Avant de dvelopper le plan de test proprement dit, les points de ce document
devront tre approuvs pralablement par la direction des services concerns.

Contraintes des tests


Un test peut perturber le droulement habituel des activits des employs.
Avant de le mettre en application, il est donc judicieux den dfinir les limites de
concert avec les oprationnels concerns. En effet, pour obtenir leur accord sur
un calendrier annuel et les perturbations acceptables, il faudra les convaincre de
lutilit des tests en leur montrant quils ont tout y gagner. Concrtement, on
validera avec eux un certain nombre de points :
les rpercussions acceptables sur le service ;
les contraintes financires, le budget allou et surtout ce que le test cotera
ceux qui en seront les victimes ;
les niveaux de scurit respecter : certaines drogations sont-elles
possibles ? dans quelles conditions ?
les limites de temps et de cots pour la mise disposition de moyens de
secours, de sites et demploys ;
la disponibilit du support technique fourni par les oprationnels en phase
de prparation et dexcution du test, puis lors de la remise en tat normal ;
la dtermination de toute autre contrainte ou limite aux actions de test (par
exemple : excution uniquement le week-end ou la nuit, etc.).

140
Chapitre 6 Tester le plan de continuit

laborer un plan de test

Pour chaque test programm, un plan est tabli afin den prciser formellement
le cadrage et de prvoir le planning de son droulement. Ce plan se droule
selon sept phases, devant chacune produire des rsultats tangibles (livrables) :
1. revue des tests antrieurs ;
2. description des objectifs, primtre et contraintes ;
3. dfinition de la tactique du test ;
4. mise en place de la logistique du test ;
5. planning et calendrier du test ;
6. revue des risques ventuels avant excution ;
7. documentation du test.

Phase 1 Revue des tests antrieurs


Lors de cette premire phase, les rapports de tests dj effectus sont passs en
revue pour tablir un bilan et capitaliser sur leurs rsultats. Ceux-ci contiennent
en effet des renseignements utiles, aussi bien au sujet des points du PCA qui
posent problme que de ceux qui ont t tests avec succs.
Cela permet galement de dresser la liste des points qui nont pas encore t
tests, le but tant damliorer les points dfaillants et dvaluer ceux qui nont
pas encore t tests.
Quand tout va bien, il faut le dire !
La socit Dugroup a rachet la socit DBC et fusionn leurs moyens informatiques.
Avant la fusion, DBC testait son plan de reprise (PRA) sur un site loign.
Aprs restructuration technique, Dugroup souhaite organiser une campagne de tests et
analyse dans ce but les rapports des tests antrieurs mens par DBC. Ces derniers sont
trs succincts et ne dcrivent pas avec sufsamment de prcision lexistant technique.
Difcile donc de dterminer les lments qui restent valables dans la nouvelle congura-
tion. Par ailleurs, les rapports font surtout tat de problmes de tlcommunications qui
ne sont plus pertinents dans la nouvelle structure.
Dugroup ne peut quasiment rien dduire des rapports de tests de DBC et ralise de nou-
veaux tests, qui recouvrent fort probablement des actions dj accomplies par DBC et
que lon aurait pu viter si leurs rsultats avaient t rapports plus prcisment.
Moralit : il est frquent de trouver dans les rapports de tests uniquement la liste de ce
qui ne va pas les points positifs tant luds. Sachez que, an doptimiser les tests sui-
vants, il est galement important de les indiquer !

Bien entendu, il faut galement intgrer dans la revue les ventuelles modifica-
tions subies par lentreprise qui rendent caducs certains tests raliss antrieu-
rement ou certaines actions correctives.
Par ailleurs, les documents des tests antrieurs peuvent tre rutiliss comme
modle pour les nouveaux tests.

141
Management de la continuit dactivit

lissue de cette phase, un document de revue des tests antrieurs doit tre
produit.

Phase 2 Description des objectifs, primtre et contraintes


Les objectifs, le primtre et les contraintes du test sont dfinis lors de discus-
sions en interne et doivent tre rdigs de faon minutieuse. Ces lments sont
dune importance capitale pour la russite des phases qui suivent, et ne doivent
jamais tre perdus de vue tout au long de leur droulement.

Objectifs
Il sagit de dcrire les objectifs que lon souhaite atteindre en ralisant le test.
Il est prfrable de classer ces objectifs par niveaux de priorit, en distinguant
bien ce qui est urgent et indispensable (objectifs prioritaires) de ce qui serait
simplement intressant, et pouvant par consquent tre test plus tard (objec-
tifs secondaires). Un classement en deux ou trois niveaux suffit. En voici quel-
ques exemples :
Objectifs prioritaires :
dterminer si le PCA est jour ;
vrifier que les ressources prvues en secours sont convenables ;
sassurer que les procdures de restauration de donnes informatiques fonc-
tionnent correctement ;
recrer lenvironnement informatique de secours sur le site distant et vrifier
le temps ncessaire ;
relocaliser un service sur un site de secours ;
sassurer que les premires tapes du PCA, en dbut de crise, se droulent
comme prvu ;
vrifier la ractivit des prestataires impliqus dans le plan.
Objectifs secondaires :
tester laccs des utilisateurs sur un systme de secours, une fois celui-ci mis
en route ;
vrifier louverture du centre de gestion de crise ( la suite des premires ta-
pes du plan) ;
tester une application donne sur un systme de secours ;
tester le retour la normale.
Les objectifs dits secondaires seront tests si la charge de travail et le contexte
le permettent.
Ne pas dvier de lobjectif !
La socit Bontemps teste la capacit relancer ses serveurs sur un site de secours. Elle
possde des serveurs Unix, Windows et un mainframe IBM.

142
Chapitre 6 Tester le plan de continuit

Tout se passe bien pour le mainframe et les serveurs Windows. Pour les serveurs Unix, en
revanche, elle constate quil manque certains droits de licence ou, plus exactement, quil
faut demander une monte de niveau et des correctifs auprs dun fournisseur.
Lquipe en charge du test contacte alors directement ledit fournisseur. Celui-ci entre
son tour en relation avec le responsable des achats de Bontemps, qui lui nest pas au cou-
rant de la situation. On en reste l, malgr la pression de lquipe de test.
Moralit : Il ne faut pas perdre de vue lobjectif du test ! Ici, il sagissait de vrier que
lon pouvait dmarrer les serveurs et non pas de dmarrer les serveurs . Le test aurait
donc d simplement produire le constat quil y avait un problme rsoudre pour les ser-
veurs Unix et non entraner sa rsolution en catastrophe !
Cela ne signie pas pour autant quil faille automatiquement tout arrter sur un constat
dimpossibilit. Lorsquun document est absent, par exemple, on le note, mais si on sait
o le trouver, on le cherche ! Cest une affaire de bon dosage trouver.
N. B. : Au passage, cet exemple montre que le responsable des achats peut lui aussi tre
impliqu dans les tests.

Primtre
Dfinir le primtre du plan de test consiste dlimiter le champ daction du
test. Celui-ci peut inclure :
les portions du PCA que lon souhaite vrifier(telles que les trois premires
tapes du planning ou la formation des groupes, par exemple) ;
les activits prvues par le planning sur un site donn ;
tout ce qui doit se passer sur un ou plusieurs sites de lentreprise ;
certains partenaires externes et contrats de secours ;
une technologie donne (en particulier, si celle-ci cote cher pour un niveau
de secours qui reste prouver) ;
une action particulire du plan (par exemple : mettre en route le centre de
gestion de crise).
Tout ce qui se trouve en dehors du champ daction peut galement tre list,
afin que le personnel effectuant les tests connaisse exactement les limites de
ses actions.
Pour une srie de tests ayant le mme objectif, le primtre, lui, peut changer
dun test lautre. Par exemple, il peut tre intressant de tester les mmes
objectifs sur les diffrents sites de lentreprise (y compris ceux ltranger) .

Contraintes
Cet aspect est trs important pour la suite. Si les contraintes sont trop fortes, le
test risque dtre difficile mener. linverse, une absence de contrainte peut
tre prjudiciable lentreprise. Voici les diffrents lments dterminer pour
le test en prvision :
lenveloppe budgtaire affecte aux cots des machines de secours, de dpla-
cement, de locations diverses, de licence, etc. ;

143
Management de la continuit dactivit

le niveau de perturbation entran sur lentreprise : peut-on rellement arr-


ter telle machine ? combien de temps ? quand ?
la scurit : peut-on obtenir des drogations ? faut-il prvoir des mesures
supplmentaires ?
les limites de charge prvues pour les spcialistes mis disposition pour le
test ;
pour les locaux prvus en secours, dventuelles contraintes despace, de
limites lectriques, de charge de machine ne pas dpasser ;
les approximations ncessaires (utilisation dun site en secours la place du
site principal, par exemple).
Ces contraintes dterminent souvent les points sur lesquels le test pourra tre
effectu en situation relle ou si on devra se contenter de faire une simulation.
Cest en effet le test qui doit tre adapt aux contraintes poses et non linverse.

Phase 3 Dnition de la tactique de test


Maintenant que lon sait prcisment ce que lon veut vrifier et dans quel cadre,
il faut dfinir la tactique observer pour parvenir au rsultat attendu tout en res-
tant dans les limites dfinies.

Scnario
La situation que lon veut tester est dcrite par crit dans un document qui sera
remis lquipe de test au dbut de lexercice. La description doit tre raliste et
crdible, elle ne doit pas rvler par avance ce que les testeurs sont supposs
dcouvrir par eux-mmes ou valuer. Elle doit en revanche permettre de limiter
la raction au primtre recherch.
Il peut tre intressant de prendre pour scnario certaines des catastrophes tu-
dies dans lanalyse de risque (voir le chapitre 1). Cela permet de se rapprocher
au plus prs dune catastrophe rellement probable.
La narration doit prsenter des faits, des dates et heures prcises et des cons-
tats dj raliss. Voici quelques exemples :
Scnario n 1 : Inondation du site CTI01
Objectif : valider les tapes 1, 2 et 3 du PCA.
Primtre : le site CTI01 et son site de secours.
Contrainte : pas dinterruption dactivit.
Document remis au chef de gestion de crise.
cause de la crue du Loir, lenvironnement du site CTI01 est inond. 1 h du matin, le
23 mars, le niveau deau atteint 30 cm, mesurs lentre servant de rfrence. La sur-
veillance de nuit du centre appliquant la procdure appelle le responsable de site qui
vient de vous rveiller.
Pour toute question : contacter M. Test (numro de tlphone).

144
Chapitre 6 Tester le plan de continuit

Scnario n 2 : Reprise de lapplication SAT02 sur le site dAngers


Objectif : valider la viabilit du contrat avec la socit CPPB.
Primtre : lapplication SAT02, le site de Vanves et son site de secours.
Contrainte : pas dinterruption dactivit.
Document remis au responsable de rcupration des moyens techniques.
cause dun problme grave sur le site principal de Vanves, il a t dcid darrter cer-
taines des applications en fonctionnement sur ce site. Le 15 mars 9 h, il est dcid
dactiver la version de secours de lapplication SAT02 sur le site dAngers, comme prvu
dans la convention de secours signe avec le CPPB. Il nest pas possible de se rendre sur
le site de Vanves. Le chef de gestion de crise vous transmet ce message.
Pour toute question : contacter M. Test (numro de tlphone).

Excepts les cas o lon veut simuler un tout dbut de sinistre et valuer la
manire dont les dommages sont dcouverts, le scnario doit dcrire les dom-
mages subis par lentreprise lors du sinistre. Tout doit tre prsent de manire
donner un niveau dinformation correspondant celui obtenu en situation
relle au moment que lon veut tester.
Cest partir du problme ainsi pos que le destinataire du message devra
enclencher les mesures prvues dans le plan au sein du cadre indiqu.

Choix de la mthode
Les diffrentes mthodes de test pratiques ont t prsentes dans la premire
section de ce chapitre. Au cours de llaboration de la tactique de test, on dter-
mine quelle mthode on recourt en fonction du scnario prvu.
Dans le cas du scnario n 2 ci-dessus, le test parallle pourra se rvler per-
tinent. Pour le scnario n 1, induisant des consquences plus lourdes si on le
mne fond, on prfrera une revue de documents (walk-through) ou une simula-
tion.

Date du test
La date et la dure du test seront fixes en fonction des disponibilits et des
diverses contraintes, tout en tenant compte des possibilits dexercice des par-
tenaires locaux ou contractuels. Le planning des tests doit tre considr
comme un engagement fort, respecter absolument.
Une erreur courante consiste prolonger les tests rencontrant des difficults.
Cette pratique est viter, lobjectif du test tant de mettre jour la difficult,
pas de la rsoudre. Il faut donc bien sparer les deux proccupations : le test
doit relever des difficults, des anomalies ; le temps de leur rsolution viendra
plus tard. On ne doit pas rester bloqu sur un problme, mais le noter et pas-
ser outre. Cest pour cette raison que les tests effectus en premire instance
sont de type check-list, walk-through ou simulation, car on rencontre, ce stade,
trop de problmes pour pouvoir drouler lensemble dun scnario en mode
rel.

145
Management de la continuit dactivit

La rsolution des difficults dcouvertes se fera par des plans dactions correcti-
ves qui seront dcids puis raliss par la suite. Les progrs raliss seront
mesurs lors de la campagne de test suivante.

Suivi et valuation du test


Cest un aspect essentiel : le cot de la campagne de test tant lev, celle-ci
doit se rvler productive et permettre de tirer le maximum denseignements.
Suivi des tests
Consistant collecter toutes les informations significatives sur le droulement
du test, le suivi pourra tre effectu par une assistance externe qui notera tout
ce qui se passe en apportant un regard critique. Toutes les constatations doivent
tre consignes, en ralisant des fiches de test du type de celle prsente en
exemple ci-aprs :

Tableau 6-1 : Exemple de che de test complter

Fiche de test N5/23-1


Objectif : Vrier ladquation de la conguration de reprise de lapplication A3
Test Qui ? Constats
1-1 : Se procurer la le testeur
conguration de le responsable
lapplication A3 dapplication (RA)
1-2 : Vrier la le testeur
conguration A3 de le gestionnaire de
secours la socit SecoursCo
2-1 : Identier les le testeur
moyens techniques le gestionnaire de
du secours A3 SecoursCo
2-2 : Mettre en le testeur
marche le secours le support de
A3 dans les dlais SecoursCo
prvus
3-1 : Se procurer les le testeur
sauvegardes A3 la logistique
3-2 : Restaurer les le testeur
sauvegardes A3 le support de
SecoursCo
4-1 : Tester un le testeur
utilisateur

Outre les vnements constats, ces fiches peuvent galement mentionner les
ventuelles actions correctives dtailles sur des fiches prvues cette effet.
Cela servira la rdaction du bilan des tests.

146
Chapitre 6 Tester le plan de continuit

En cas de difficult rsoudre ou de dcision prendre, on procdera peu ou


prou comme lors dun sinistre rel, avec un dispositif un peu plus lger. Un coor-
donnateur des tests sera dsign et joignable en permanence pour cela.
Critres dvaluation
Mieux vaut prciser lavance les critres qui vont tre utiliss pour valuer les
tests. Les campagnes de tests peuvent en effet tre cibles sur une problmati-
que particulire. Parmi les critres rcurrents figurent notamment :
lexistence ou non de documents importants tels que les analyses de risques,
dimpact sur lactivit ou de stratgie de continuit, les dfinitions de respon-
sabilits, ou encore le planning de continuit ;
la validit de ces documents : sont-ils actualiss ? par qui ? de quelle
manire ?
lexistence et lactualisation des inventaires dactifs ou des configurations sur
lesquelles se basent les travaux de reprises ;
lexistence et lactualisation des listes de personnel, avec indication du pour-
centage derreurs, lindication de supplants, etc. ;
le degr de pertinence des contrats en cours concernant les services de
secours, de sauvegarde ou de dpannage ;
ladquation des documents dcrivant le plan de continuit ;
la dimension praticable des plannings, des locaux, des choix techniques qui
sont faits dans le plan.
Ces critres doivent devenir des proccupations permanentes et tre indiqus
de manire dtecter lors de chaque test les manquements dans ces domaines,
au-del de ce que le test en lui-mme est suppos vrifier.

Suivi des dpenses du test


En termes de gouvernance de la continuit, il est ncessaire de suivre avec
attention les dpenses engendres par les tests. Il faut donc en conserver la
trace et vrifier le respect dun budget prvisionnel. Les rubriques principales du
budget seront :
les cots des jours-homme en interne consacrs aux tests ;
les cots des jours-homme de prestataires externes ;
les cots facturs par les socits de services de secours, de transports, de
logistique ;
les cots des ventuelles machines, serveurs, stockage et rseau mis dispo-
sition durant les tests et souvent facturs lusage ;
les frais de transports, htel, repas et menues dpenses provoques par les
dplacements sur des sites de secours, par exemple.
Les tests de type revue ou simulation sont nettement moins onreux que les
tests grandeur nature. En gnral, on y allouera un budget annuel. Il faut alors

147
Management de la continuit dactivit

dcider comment, dans le cadre de ce budget, les diffrents tests vont pouvoir
tre planifis.
Les plans dactions correctives mens aprs les tests sont en gnral compts
dans un budget diffrent, souvent port par les oprationnels concerns.

Phase 4 Mise en place de la logistique de test


Les tests ncessitent une prparation tant des employs que des sites et des dif-
frents moyens matriels ncessaires. Une logistique doit donc tre prvue pour
couvrir la fois les besoins en personnel (constitution des quipes, dplace-
ments, etc.) et en moyens techniques divers ncessaires pour le test. Le person-
nel habituel de lentreprise devra lui aussi subir une prparation , de mme que
les sites qui vont tre concerns et donc perturbs par les tests.

quipe en charge des tests


Lquipe de professionnels qui va piloter les tests est aussi charge de les prpa-
rer. Sa constitution, puisant dans les diffrents groupes dcrits dans le chapi-
tre 4, dpend grandement de la nature, du primtre et du type de test ralis.
linverse de la pratique en audit qui recourt des intervenants externes, il est
souhaitable de faire raliser les tests par ceux-l mme qui mneront les actions
testes en cas de sinistre. Cela vaut galement pour les groupes responsables
des diffrentes missions. Le test vaut exercice.
Au sein de cette quipe de testeurs, on pourra galement trouver :
des prestataires externes de socits de secours ;
des auditeurs qui peuvent ainsi suivre les tests, les valuer et proposer des
amliorations ;
des clients souhaitant valider la solidit du plan de leur fournisseur et y
participer ;
des spcialistes techniques dans certains domaines pointus.
Une fois lquipe constitue, elle est autonome et doit se suffire elle-mme.

Moyens techniques
Dautre part, il faut prparer les moyens techniques utiliss durant les tests.
Cela peut se limiter une salle de travail quipe en PC pour un test de type
walk-through (revue de documents), mais cela peut devenir beaucoup plus lourd
en cas de test en conditions relles. Dans ces derniers cas, le groupe de gestion
de crise est mis contribution pour lapprovisionnement en moyens de secours,
qui fait partie de ses missions dcrites dans le chapitre 4.
moins que la prparation ne soit elle-mme partie intgrante du test, tout ou
partie des moyens suivants devront en effet tre prts pour le test :
linfrastructure destine au personnel testeur (PC, tlphone, bureau, tlco-
pieurs, copieurs, etc.) ;

148
Chapitre 6 Tester le plan de continuit

le matriel ncessaire aux tests (lecteurs de bandes et cartouches, serveurs,


stockage, tlcommunications) avec les logiciels mis jour et droits de
licence adapts ;
les rservations chez les prestataires ayant eux-mmes prvus des tests en
commun avec lentreprise, ou chez les clients ventuellement impliqus ;
toutes les rservations ncessaires de spcialistes en support technique en
interne comme en externe ;
la documentation des tests, les formulaires et procdures dgrades devant
tre disponibles sur place ;
le site de gestion de crise, qui, sil est utilis, doit tre prt pour tre activ ;
enfin, les fiches de test communiquer.
La prparation logistique en elle-mme peut avoir t lobjet du test prcdent
ou de plusieurs tests antrieurs. Dans ce cas, la prparation avant test sarrte l
o le test commence, et ne porte pas sur les points qui seront prcisment tes-
ts. Cela permet de tester petit petit lensemble du plan de continuit.

Intendance et dplacements
Les tests ncessitent la prsence de personnel de test sur des sites distants,
chez des prestataires ou sur un site de gestion de crise lointain. Il faut alors pr-
voir toute lintendance lie ces dplacements, notamment :
prvoir qui devra se dplacer et o, arranger les dplacements, rserver les
htels, etc. ;
demander les autorisations daccs et les divers droits ncessaires ;
rserver les crneaux de prsence chez les prestataires, qui peuvent tre limi-
ts par contrat.

Sites de test
De la mme manire, les sites doivent avoir t prpars en fonction des points
que lon veut tester. On procde donc en trois temps :
1. faire la liste de ce qui est attendu du site de secours : dates de disponibilit,
matriel prsent, logiciels et niveaux de mises jour, documentation, sup-
port technique, infrastructure particulire, etc. ;
2. constater ce que le site fournit sur ces points ;
3. dterminer lcart combler.
Il est bon de visiter le site lavance afin de constater sur place les diffrents
problmes potentiels. Si ce site est fourni par un prestataire, cette visite devra
tre rendue possible par le contrat.
Souvent les contrats de prestations imposent des dates ou des priodes assez
restreintes pour effectuer les tests. De plus, le recours des spcialistes est sou-
vent assez limit et factur part par le prestataire. Il arrive enfin que certains
prestataires soient trs exigeants sur le respect de configurations prcises ou de

149
Management de la continuit dactivit

normes de scurit plus leves que celles que lentreprise pratique en interne.
Ces points sont donc tudier au plus prs avant de lancer les tests.

Phase 5 Planning et calendrier


Cette phase du plan de test est essentielle, et, plus grand sera le soin apport
sa ralisation, plus les risques de dpassement de dlai et de budget seront
rduits. Concrtement, planifier la campagne de tests consiste dcrire les acti-
vits et les tches effectuer, les affecter aux personnes adquates et prvoir
leur date et dure de ralisation.
Pour arriver cet objectif, on procde gnralement en plusieurs tapes :
1. prendre en compte lensemble du contexte des tests (cadrage des objectifs,
du primtre et des contraintes ; prise en considration de la tactique et des
objectifs) ;
2. slectionner dans le plan de continuit les missions et activits effectuer
(voir les chapitres 4 et 5), en les amnageant pour le test ;
3. affecter les activits aux employs, en leur donnant une charge (temps pass,
jours-homme) et des dates ;
4. raliser des fiches de tests remplir par les testeurs ;
5. dcrire le dispositif de suivi du test par des observateurs qui assurent le res-
pect du cadrage et la ralisation des objectifs.
Plus lentreprise a lexprience des tests, plus cette phase sera dtaille et, en
tout cas, fiable. Par ailleurs, il est intressant de rcuprer dun test lautre ce
qui a t produit lors de cette phase.

Phase 6 Revue des risques du test


Lobjectif principal du plan de test est de rduire les risques entrans par les
tests eux-mmes. Il est alors judicieux de runir certains des responsables de
lentreprise afin de faire un dernier bilan des risques et des diffrents param-
tres des tests avant leur excution.
Ce bilan consiste rpondre aux questions suivantes :
Les objectifs des tests sont-ils corrects et bien prsents dans les tests
prvus ?
Le primtre convient-il aux exigences des oprationnels et des responsables
de la continuit dactivit ?
Les contraintes sont-elles correctement formules et respectes par le plan
de test ?
Les scnarios, mthodes et le suivi sont-ils bien adapts au test que lon veut
raliser ?
La logistique et le planning ont-ils t suffisamment prpars ou demandent-
ils encore des amliorations ?
Le suivi permet-il une remonte efficace des informations et des constats ?

150
Chapitre 6 Tester le plan de continuit

La prparation du personnel a-t-elle t suffisante ?


Le degr dimplication des fournisseurs est-il correct ?
Le niveau dinformation des clients est-il convenable ?
Si lidal serait dobtenir une rponse positive chacune de ces questions, il
nest pas rare que certaines des rponses soient encore ngatives lors de ce
bilan, ncessitant assez souvent des actions correctives complmentaires telles
que :
des rductions de primtre ou de dure des tests ;
des visites de sites ou de fournisseurs permettant de prciser certains points ;
lamlioration de la communication auprs du personnel ou des clients les
avertissant des tests venir ;
une rvision des plannings et des charges ;
le recours un prestataire pour le suivi des tests.
Au final, les responsables doivent aboutir un accord acceptable afin de donner
le feu vert lexcution du test.

Phase 7 Documentation du plan


Le plan de test se matrialise par un document qui reprend le contenu de toutes
les tapes prcdentes.
Voici un exemple de structure dun plan pour une campagne de tests.

Plan de test
N didentification, Version, Responsable, Validation
1. Bilan des tests antrieurs
2. Cadrage des tests
2.1. Objectif de la campagne de tests
2.2. Primtre concern
2.3. Contraintes respecter
3. Tactique de test
3.1. Scnario
3.2. Mthode
3.3. Suivi et valuations
3.4. Coordination
4. Logistique des tests
4.1. quipes
4.2. Moyens techniques
4.3. Sites concerns
5. Planning des tests
5.1. Activits chiffres

151
Management de la continuit dactivit

5.2. Affectation des quipes


5.3. Fiches de tests
6. Revue des risques
6.1. Bilan des risques (questions/rponses)
6.2. Actions de rduction des risques

Excuter les tests

Une fois le plan de test complet et la revue des risques ayant donn le feu vert,
la ralisation des tests peut avoir lieu selon le plan prvu.

Rle et action des testeurs


La campagne de test est lance et lquipe de testeurs en est informe Tout tes-
teur doit avoir pralablement pris connaissance du scnario de tests, afin de sy
conformer au plus prs.
Pour raliser les tests, le testeur doit avoir accs deux types de documents :
le planning contenant les activits dont il a la charge ;
les fiches de test quil doit remplir.
Malheureusement, dans le domaine de la continuit dactivit, il est rare que
tout se passe comme prvu. En cas de doute ou de dcision imprvue prendre
face aux vnements, le testeur doit avoir le rflexe de se tourner vers le coor-
donnateur des tests. Ce dernier garde en effet la trace de toute demande remon-
te jusqu lui et de toute indication donne.

Consignation des constatations


Produire des informations partir des constatations des tests est la raison
dtre de la campagne de tests.
Les fiches de test sont remplies et collectes, de prfrence sur le moment plu-
tt que quinze jours aprs les vnements. Bien des fiches tant remplies la
main et de manire incomplte, un travail de collecte et de mise en forme est
indispensable. Il doit y figurer les points particuliers que lon cherche vrifier,
mais aussi toute autre constatation utile au plan de continuit.
Le tableau 6-2 donne un exemple de ce quoi peut ressembler la fiche de tests
prcdente, une fois remplie.
Les actions dcrites dans cette fiche sont extraites doprations qui visaient
tester la restauration dun applicatif sur un site de secours gr par un presta-
taire. Il aurait t possible aussi dy noter les dures ou les charges constates
pour la ralisation des ces activits. Ces informations sont en effet trs utiles
pour vrifier la faisabilit densemble.

152
Chapitre 6 Tester le plan de continuit

Tableau 6-2 : Exemple de che de test complte

Fiche de Test N5/23-1


Objectif : Vrier ladquation de la conguration de reprise de lapplication A3
Test Qui ? Constats
1-1 : Se procurer la le testeur La conguration pour A3
conguration de le responsable existe.
lapplication A3 dapplication (RA) Le RA la trouve inexacte.
Le RA la met jour : 2 jours-
homme.
1-2 : Vrier la conguration le testeur La conguration de secours
A3 de secours le gestionnaire de pour A3 nexiste pas.
SecoursCo Il existe une conguration
pour A2 (ancienne version
dA3).
2-1 : Identier les moyens le testeur Les moyens techniques pour
techniques du secours A3 le gestionnaire de A2 sont identis mais le
SecoursCo serveur X nest pas
disponible
2-2 : Mettre en marche le le testeur Seule une partie des moyens
secours A3 dans les dlais le support de SecoursCo pour A2 peut dmarrer (en
prvus 4 heures).
Les moyens A3 ne peuvent
tre mis disposition dans
les dlais.
3-1 : Se procurer les le testeur La logistique ne sait pas o
sauvegardes A3 la logistique se situent les sauvegardes
A3.
Seules les sauvegardes A2
sont trouves et apportes
sur le site.
3-2 : Restaurer les le testeur chec.
sauvegardes A3 le support de SecoursCo
4-1 : Tester un utilisateur le testeur chec.

Remarque
On remarque dans lexemple cit que le testeur est all au bout des possibilits en pre-
nant deux dcisions : ne possdant pas la bonne conguration, il a nanmoins essay de
voir si le prestataire externe de secours pouvait proposer lancienne (dcision 1). Ayant l
aussi dcouvert une anomalie, il a alors arrt le droulement des tests (dcision 2). Ce
test a donc t productif de rsultat.

153
Management de la continuit dactivit

Bilan des tests


Pour un ensemble de tests donn, un bilan peut tre ralis partir des diverses
sources dinformations utiles disponibles :
les fiches de test remplies ;
la main courante du coordonnateur ;
les comptes rendus des runions de dbriefing.
Ce bilan peut prendre la forme suivante et son plan peut dailleurs fort bien tre
repris pour constituer lordre du jour des runions de dbriefing.

Bilan de la campagne de tests 02-08/2


1. Rappel du plan de test (voir la section prcdente)
2. Objectifs des tests
2.1. Objectifs atteints
2.2. Objectifs non atteints
2.3. Causes de lchec
3. Tches de test
3.1. Tches ralises
3.2. Tches non ralises
3.3. Causes de lchec
4. Dfauts dtects dans le PCA
4.1. Matrise des risques
4.2. Analyse dimpact sur les activits
4.3. Stratgie de continuit
4.4. Missions et responsabilits
4.5. Planning des activits
4.6. Tests
4.7. Gestion des changements
5. Problmes dtects
5.1. Concernant les tests
5.2. Concernant le PCA
6. Propositions damlioration
6.1. Pour les tests venir
6.2. Pour le PCA
7. Plan daction pour lamlioration
8. Bilan gnral des tests (cot, dure, charge)

Suivi des actions damlioration


Les actions damlioration proposes doivent faire lobjet dune validation et
dun suivi. En effet, elles impliquent gnralement des cots de projet et

154
Chapitre 6 Tester le plan de continuit

dinvestissement divers ncessitant de les intgrer dans un budget. Le suivi de


ces actions tout au long de lanne est ralis spcifiquement par la Direction de
la continuit dactivit, qui incombe la responsabilit de leur bonne fin.
La prochaine campagne de tests pourra en partie vrifier, si cela est pertinent, la
bonne ralisation des actions dcides. Si cette campagne est effectue avant la
mise en place de ces actions, tombant sur les mmes dfauts, elle notera quils
sont en cours de suppression.

155
PARTIE III
Lingnierie
de la continuit
La technologie peut fournir un concours apprciable pour rendre lentreprise
plus rsiliente. Encore faut-il valuer son apport rel dans la situation particu-
lire de chaque entreprise. Cest ainsi le rle de lingnierie de rendre ce qui est
thoriquement possible concrtement ralisable.
Cette partie aborde la mise en uvre pratique des diverses technologies propo-
ses sur le march et utilises en partie par les entreprises. Elle se structure en
quatre chapitres :
Le chapitre 7 prsente les notions de fiabilit, de disponibilit et darchitec-
ture technique utiles pour la suite.
Le chapitre 8, consacr linformatique au centre de donnes, traite de la dis-
ponibilit des serveurs, du stockage et des rseaux du centre informatique
qui sont au cur de lactivit de lentreprise.
Le chapitre 9 traite de linfrastructure et du poste de travail, abordant ainsi
lenvironnement direct de lemploy dans son bureau, avec son ordinateur
personnel et son environnement bureautique.
Enfin, le chapitre 10 traite de la spcificit du centre informatique propre-
ment dit, afin que celui-ci constitue un point fort du dispositif.
Le schma ci-aprs dcrit la logique d'ensemble.
Management de la continuit dactivit

Le centre informatique

Rseau SAN

backbone

Les serveurs Le stockage

Rseau site loign

Les bureaux

Serveurs locaux LAN Stockage local

Schma gnral des moyens informatiques

158
Chapitre 7

Construire
la disponibilit

La continuit dactivit est une affaire dorganisation, de planification et de


technologie. La manire dont la technologie est utilise a des consquences
souvent ngliges sur la disponibilit des moyens et donc sur la continuit des
activits qui y recourent.
Ce chapitre dcrit les notions de base de la disponibilit et prsente des modes
dutilisation permettant lamlioration de la continuit dactivit. Il donne des
recommandations pour le choix des architectures, la mise en uvre et les pr-
cautions prendre pour que lusage des technologies soit bnfique en termes
de continuit.

Notions statistiques

Les probabilits et les statistiques sont utiles pour dcrire le comportement des
matriels divers, qui peuvent tomber en panne et ainsi dtriorer la continuit
dactivit. Les notions de fiabilit, de disponibilit et de maintenabilit sont
donc importantes pour slectionner les configurations matrielles et logicielles
les mieux adaptes aux besoins de continuit de lentreprise.

Disponibilit
La disponibilit dune machine indique la proportion du temps pendant lequel
cette machine fonctionne comme prvu. Elle est souvent donne par un pour-
centage, qui doit tre videmment le plus proche possible de 100 %, le reste
tant appel lindisponibilit.
Il est dusage, en matire de disponibilit, de compter les 9 et de classer
selon leur nombre. On parle couramment de disponibilit allant jusqu
99,999 %, qualifie de five nines en anglais ou cinq neufs . Ce chiffre 5 est
devenu en quelque sorte un idal atteindre. quoi cela correspond-il dans la
ralit ?

159
Management de la continuit dactivit

Le tableau suivant donne les temps darrts maximaux ne pas dpasser pour
respecter, sur une anne, les disponibilits indiques, sachant que la machine
en question doit fonctionner vingt-quatre heures sur vingt-quatre.

Tableau 7-1 : Disponibilit et temps darrt maximaux

Temps darrt maximum


Classe de 9 Disponibilit
par an
2 99 % 87 heures et 36 minutes
3 99,9 % 8 heures et 46 minutes
4 99,99 % 52 minutes
5 99,999 % 5 minutes et 12 secondes
6 99,9999 % 31 secondes

Cela signifie que si notre machine respecte dans son cahier des charges une dis-
ponibilit cinq neufs , elle ne pourra pas cumuler plus de 5 minutes et 12
secondes de panne ou darrt dans lanne.
Cependant le problme est que, en cas darrt de cette machine, cela demande-
rait beaucoup plus de cinq minutes pour la remettre en marche ou la remplacer
par une autre quivalente. Il faut donc analyser la disponibilit sous ses deux
constituants : la panne et la facilit de rparation.
Enfin, autre aspect important, la disponibilit est souvent mesure dans les
conventions de service la fois par anne pleine, comme ci-dessus, et en
moyenne annuelle sur cinq ans, par exemple. Si lon reprend le tableau prc-
dent, une machine disponible 99,999 % sur cinq ans peut se permettre une
panne de 26 minutes conscutives en une seule fois sur ces cinq ans. En revan-
che, lanne de la panne, elle ne satisfait pas au critre des cinq neufs dans
lanne. Les chiffres sont donc interprter avec prcision.

Fiabilit et rparabilit
La fiabilit mesure la propension ne pas tomber en panne. La rparabilit
mesure la facilit rparer et donc remettre en marche. Ces deux notions vont
de pair pour indiquer la disponibilit.
Entre deux pannes conscutives, il scoule un certain temps, la moyenne de ces
temps constats sur une longue priode est nomme moyenne des temps de
bon fonctionnement (MTBF). Plus la MTBF est leve, plus la machine est fia-
ble.
Le temps pass rparer est variable, une moyenne peut tre calcule : la
moyenne des temps des travaux de rparation (MTTR). Plus la MTTR est fai-
ble, plus la machine est rparable rapidement. La notion de rparation est

160
Chapitre 7 Construire la disponibilit

prendre au sens large : il peut sagir tout aussi bien dun remplacement pur et
simple.
En gnral, la MTBF se mesure en dizaines, voire centaines de milliers dheures,
alors que la MTTR se compte tout au plus en jours.
La MTBF est une donne attache une machine, un fabricant, et lexploitant
ne peut pas y changer grand chose. La MTTR, en revanche, lorsquelle porte sur
du matriel standard, dpend beaucoup de lorganisation de lentreprise. Il est
en effet possible de prvoir des pices de rechange ou une machine de secours,
de manire rduire ce dlai au minimum.

dfaillance

systme en marche systme en panne

rparation

Figure 7-1 : Dfaillance et rparation

On appelle taux de dfaillance linverse de la MTBF et taux de rparation linverse de la


MTTR.
Les statisticiens nous donnent les formules suivantes :
Indisponibilit = I = MTTR / (MTBF+MTTR)
Disponibilit = D = MTBF / (MTBF+MTTR)
Les disponibilits dune machine en fonction de ses MTBF et MTTR peuvent tre
donnes par un tableau du type suivant.

161
Management de la continuit dactivit

Tableau 7-0 : Disponibilit en fonction des MTBF et MTTR

MTBF si MTTR = 12 h si MTTR = 1 h


10 000 h 99,88 % 99,99 %
20 000 h 99,94 % 99,995 %
100 000 h 99,988 % 99,999 %
200 000 h 99,994 % 99,9995 %
500 000 h 99,998 % 99,9998 %

Gardant lesprit la cible des cinq neufs, la lecture de ce tableau est instructive,
car elle dmontre que :
Si lon ne peut pas rparer la panne en moins de douze heures, alors il ny a
aucun moyen dobtenir les cinq neufs viss. Cela ne sert rien dacqurir du
matriel haut de gamme haute fiabilit (MTBF leve).
Si lon peut rparer en une heure, alors un matriel dans le milieu de tableau
(avec une MTBF de 100 000 heures) pourra obtenir la disponibilit des cinq
neufs.
Si quatre neufs suffisent, alors un matriel ayant une MTBF de 10 000 heures
suffira si lon sait assurer une rparation en une heure.
Le prix du matriel dpend beaucoup de la MTBF : plus celle-ci est leve, plus
le matriel est cher. Le tableau ci-dessus tant donn titre dillustration, il est
rare quun mme matriel ait des taux de fiabilit aussi diffrents. En ralit,
disponibilit gale, il est ncessaire de faire un choix entre deux scnarios extr-
mes pour lachat de matriel, informatique ou non. Ces scnarios peuvent tre
typs ainsi :
1. acheter une machine plutt bon march, qui tombera en panne assez sou-
vent (une fois par an ?) mais que lon saura rparer vite (en moins dune
heure), parce que lon aura prvu des pices de rechange, par exemple la
frquence rgulire de la panne fait dailleurs que lon sait, force, bien la
rparer ;
2. acheter une machine onreuse, haute disponibilit, qui ne tombera en
panne que trs rarement (une fois tous les sept ans ?) peut-tre ne saura-t-
on pas la rparer, mais statistiquement, la machine sera remplace avant que
la panne narrive ; il est rare en effet quun matriel soit conserv plus de cinq
ans.
Au final, le choix se fixera toujours sur une option se situant entre ces deux
extrmes.
Attention : Ne pas tout miser sur la abilit aux dpens de la rparabilit !
La tendance naturelle, malheureusement, est de chercher avant tout la abilit au prix
fort et de ngliger la rparabilit. Il se rvle pourtant trs utile dtudier les possibilits

162
Chapitre 7 Construire la disponibilit

en cas de panne de la machine : prvoir des pices de rechange, voire une machine de
secours, permet en effet damliorer trs fortement la disponibilit, sans pour autant gre-
ver les cots.

Les modles redondants


Un modle redondant permet damliorer la disponibilit en multipliant tous
ses lments vitaux par deux. Ainsi, il faudra subir deux pannes au lieu dune
pour rendre le modle redondant indisponible, la deuxime panne survenant
alors que la premire na pas encore t rpare. Ce modle est dit tolrance
de panne .

dfaillance 1 dfaillance 2

2 systmes 1 systme 2 systmes


en marche en marche en panne

rparation rparation

tat de marche tat de panne

Figure 7-2 : Le modle redondant

Lindisponibilit rsultante tant le produit des indisponibilits de chaque


machine, elle est ainsi beaucoup plus faible. Un ensemble de deux lments
deux neufs , par exemple, devient quatre neufs . La disponibilit est donc
plus forte, mais le cot a lui aussi doubl ou presque. En outre, si la panne arrive
malgr tout, alors plus rien ne marche.
De plus, dans le cas de serveurs informatiques, il est ncessaire de sassurer que
les donnes sont accessibles par les deux machines et que les utilisateurs peu-

163
Management de la continuit dactivit

vent tre reconnects de lune lautre. Cela suppose de partager laccs aux
donnes entre les deux machines et de prvoir galement en double les con-
nexions. Il faut donc ici considrer aussi le problme de la dfaillance du stoc-
kage des donnes et de lindisponibilit du rseau (voir le chapitre 8).
Ce modle possde plusieurs variantes, en fonction de lutilisation des deux
machines : une machine peut tre libre pendant que lautre travaille ou la charge
peut tre rpartie sur les deux en parallle. Dans ce dernier cas, il faudra alors
tenir compte de la fiabilit de llment rpartiteur.
Linconvnient principal des modles redondants rside donc dans le fait que
chaque fois quon introduit un lment de solution, on introduit par la mme
occasion une nouvelle source de panne possible.

Le modle n+1
Dans le modle dit n+1, la charge de travail est rpartie sur n machines. Une
machine supplmentaire est mise part, larrt ou en veilleuse. Cette machine
inactive est destine remplacer la machine dfectueuse en cas de panne, aprs
un dlai dactivation plus ou moins long. Lorsquil sagit de serveurs informati-
ques, on parle souvent de cluster ou grappe n+1.
Il en rsulte que, pour que lensemble tombe en panne, il faut que deux machi-
nes au moins tombent en panne parmi le nombre n. Lindisponibilit cons-
quente peut donc se calculer ainsi :
Indisponibilit rsultante = n x (n-1) x I2

Remarquons que si lon fait cet exercice avec, par exemple, dix machines de
classe 2, on ne gagne quasiment rien en disponibilit (99,1 % au lieu de 99 %) !
En revanche, le bnfice de ce modle rside dans la consquence de la panne, qui
est fortement minimise : au lieu de tout perdre, on ne perd quun dixime des
machines, et donc un dixime de la capacit de traitement. Le risque est donc
diminu proportion. Cest pour cette raison que les oprateurs de type fournis-
seurs daccs Internet, par exemple, rpartissent leurs traitements sur une
grande quantit de serveurs moyennement fiables. Ils obtiennent ainsi souvent
des pannes aux effets marginaux, quils savent rparer rapidement.
Avec dix machines de classe 3, on obtient un ensemble de classe 4. L encore,
leffet de la panne est de perdre un dixime de la capacit de traitement. Enfin,
en termes de cot, les machines ncessaires pour raliser ces grappes sont
moins puissantes et donc moins onreuses. Mme sil faut en acheter un nom-
bre plus important, le cot total reste infrieur.

Prise en compte de la panne de mode commun


Les analyses prcdentes ne doivent pas pour autant ngliger la panne dite de
mode commun. En effet, ce type de panne est transverse au problme considr.
Lorsquon tudie par exemple des serveurs de constructeurs diffrents mais

164
Chapitre 7 Construire la disponibilit

bascule

Machine Machine Machine Machine Machine


1 2 3 n n+1

dfaillance activation

Figure 7-3 : Le modle n+1

fonctionnant avec des ventilateurs de mme modle et du mme fournisseur,


alors la panne de ventilateur aura des caractristiques communes tous.
Par extension, la panne de mode commun est celle qui simpose tous et qui
vite de calculer trop loin Lorsquon tudie la fiabilit dun ensemble de ser-
veurs, ce sera par exemple la panne dlectricit. On aura beau rduire les indis-
ponibilits des serveurs par diverses approches, il arrive un moment o une
autre panne, non prise en compte auparavant car trop peu probable, simpose
dsormais comme la plus grave. Il ne sert rien, en effet, darriver une disponi-
bilit de classe 4 avec des serveurs si leur alimentation lectrique est toujours
en classe 3, par exemple.
Lanalyse des risques doit donc absolument rechercher ce type de panne gn-
rale, permettant de savoir o porter rellement ses efforts. De plus, si cest cette
panne que lon doit subir, cela permet de ne pas trop pousser la recherche de
disponibilit du reste.
Les exemples de panne de mode commun ne manquent pas :
pannes de fournitures et dalimentation lectriques sur toute la chane de
distribution ;
bogues dans un logiciel : un bogue dans une application sur un serveur se
retrouvera sur le serveur de secours ;
panne du systme dexploitation ou du middleware (logiciel intercal entre le
matriel et lapplication), qui peut tre commun plusieurs machines : une
panne sur lune risque fort de se retrouver sur lautre les produits de virtua-
lisation entrent dans cette catgorie ;
dfaillance dun systme informatique utilitaire utilis par tous (coupe-feu,
antivirus ou serveur dautorisation) qui empche le fonctionnement de tous
les autres serveurs en attente ;

165
Management de la continuit dactivit

panne des systmes de refroidissement ou de climatisation, particulirement


sensibles avec des serveurs haute compacit (serveurs lames) ;
atteinte aux gaines enterres : cbles de rseau, tlphonie, eau, gaz, lectri-
cit, etc.,peuvent tre dtriors par une pelleteuse ou un boulement de
terrain ;
par extension, des vnements qui simposent tous, comme les arrts for-
cs pour le changement dheure des systmes qui ne le font pas automatique-
ment, par exemple, ou les coupures obligatoires de courant pour contrle ;
enfin, bien videmment, tout ce qui est de lordre du tremblement de terre, de
lincendie, de linondation et autre sinistre dtruisant tout un ensemble sans
distinction.
Exemple : la pelleteuse et le pont de Suresnes
Les environs de Puteaux et de Courbevoie ont vu simplanter de nombreux sites informa-
tiques. Dans les annes 80, la socit SLG avait un centre important dont la connexion
au rseau X25 tait vitale lpoque. Un contrat de disponibilit avait t ngoci avec
un grand oprateur qui fournissait plusieurs connexions parallles indpendantes.
Un jour, une panne de rseau survient ; les lignes basculent sur le secours Or lui aussi
est en panne. Plus aucune connexion rseau ne fonctionne. Une pelleteuse au bord du
pont de Suresnes avait malencontreusement sectionn des cbles. Et si loprateur avait
effectivement prvu deux cheminements diffrents, pour le passage de la Seine, les deux
voies se retrouvaient cte cte sur le pont, crant ainsi les conditions dune panne de
mode commun.

Dans certains cas, on peut rduire la probabilit doccurrence dune panne de


mode commun ou en diviser les effets pour viter quelle soit commune.
On peut limiter les situations o ce type de panne provoque un sinistre, en met-
tant en application le bon sens populaire : ne pas mettre tous ses ufs dans le
mme panier . En pratique, cela se traduit par des recommandations mention-
nes dans les chapitres 8, 9 et 10.

Arrts de fonctionnement

Lindisponibilit se traduit par un arrt du fonctionnement des machines. On


distingue deux types darrts : planifis ou non. Linterruption non planifie cor-
respond aux diverses pannes et se gre en termes de fiabilit et de rparabilit.
Cela ne veut pas dire pour autant que larrt planifi nest pas subi lui aussi
comme une contrainte dont on voudrait se passer. Il doit faire lobjet dune ges-
tion tout aussi soigneuse.

Arrt plani
Larrt planifi est une interruption du fonctionnement des machines qui est
prvue et normalement arrte au calendrier.

166
Chapitre 7 Construire la disponibilit

On distingue trois causes darrts planifis :


les arrts permettant de faire voluer la machine il sagit de remplacer
un lment par un autre plus efficace ou dajouter des composants pour ren-
dre la machine plus puissante, par exemple ;
les arrts pour maintenance un pice vieillit et doit tre remplace pour
viter la panne ; un systme dexploitation doit tre corrig pour rsister
une faille de scurit ou un virus ;
les arrts rglementaires ils sont effectus pour procder des contrles
techniques ou changer certains paramtres (changer lheure sur certains
matriels, par exemple).
Les volutions technologiques cherchant minimiser limpact de ces arrts, il
est possible de plus en plus dajouter de la mmoire ou de changer un ventila-
teur sans arrter toute la machine. Les efforts sur le matriel ont permis de limi-
ter les cas o larrt simpose. On parle alors dlment insrable chaud (hot
pluggable). En revanche, en ce qui concerne le systme dexploitation, les mid-
dlewares et les applications, il est beaucoup plus difficile dviter larrt, ne
serait-ce que parce que la plupart des amliorations installes ne deviennent
effectives quaprs redmarrage de la machine opration qui ncessite quel-
ques minutes.
Lorsque larrt de la machine est encore invitable, les assemblages de type n+1
sont plus facile exploiter : il permettent par exemple de narrter quune
machine sur les n, puis de la redmarrer avant darrter la suivante, et ainsi de
suite. Dans les systmes redondants, il faut dans le meilleur des cas que la
charge puisse se satisfaire dune seule machine et que lon puisse arrter 50 %
de la puissance pour mener lopration. On effectue gnralement ces actions
lorsque la charge est faible, la nuit par exemple.
De plus en plus, en effet, les arrts planifis sont vcus comme des contraintes
peu commodes. Pour des serveurs web ouverts au grand public (services bancai-
res, par exemple), on cherche les effectuer au moment du plus faible trafic (en
gnral le dimanche, vers deux heures du matin).
La possibilit de raccourcir voire dliminer les temps darrt planifis est
intressante considrer dans les critres de choix de matriels.

Impact de larrt
Lorsquun systme sarrte, que ce soit cause dune panne ou dun arrt plani-
fi, limpact sur le service ou les traitements assurs peut tre variable selon les
situations.
Pour un systme simple : tout est interrompu. On effectue les actions de
rparation ou de remise en tat et le redmarrage na lieu que lorsquelles
sont acheves. Cela peut tre long et difficile prvoir.
Pour un systme redondant : la premire panne ne devrait a priori pas se
sentir, grce au systme de basculement sur le second systme, mais il arrive

167
Management de la continuit dactivit

que celui-ci ne soit pas immdiat. Tous les usagers tant sur le mme sys-
tme, ils sont traits de la mme manire, mais il faut pour bien faire que les
donnes et le rseau soient accessibles aux deux machines indiffremment.
Cela peut tout aussi bien aller vite et sautomatiser en partie, comme cela
peut ne pas tre totalement matris par les exploitants. Bien videmment, si
la panne est double, tout est arrt et on est alors ramen au cas prcdent.
Pour un systme en grappe n+1 : les traitements et les utilisateurs sont
rpartis sur n systmes. Ne sont donc concerns par la panne que les 1/n uti-
lisateurs de llment dfaillant. Normalement, le systme de secours rem-
place assez vite le systme en panne et les utilisateurs sont peu touchs. De
plus, comme cette panne se produit relativement souvent, les oprateurs
savent la traiter. En cas de deuxime panne, les 1/n utilisateurs sont alors
arrts pour de bon. Ils ne retrouvent le service que lorsquun systme sup-
plmentaire de rserve est dmarr ou rpar. L encore, pour que tout ceci
fonctionne bien, il faut que les donnes et le rseau soient accessibles tou-
tes les machines. Sur ces systmes, la panne peut fort bien ne pas tre dcou-
verte tout de suite car les effets en sont rduits et peuvent ressembler des
problmes de performance. Il faut donc bien surveiller ces systmes.
Les questions cruciales se poser savrent donc tre des questions darchitec-
ture technique : ne faut-il quun seul serveur auquel cas il faudra une machine
tolrance de panne ? peut-on rpartir les traitements sur n machines auquel
cas on aura recours une grappe de serveurs ?
Lorsque se produit une panne dite de mode commun, les systmes qui en sont
victimes ne fonctionnent plus, quelle que soit leur rsilience propre. Il faut alors
avoir prvu un mcanisme de secours ou un redmarrage sur un environnement
non soumis cette panne. Cest ce qui est fait gnralement en disposant de
plusieurs sites.

Site secondaire et site distant

Toutes ces considrations entranent en effet les entreprises dfinir trois types
de sites afin de rpartir les risques et de diminuer les consquences de
sinistres : un site primaire et un site secondaire faible distance dun de lautre,
ainsi quun troisime site distant, loign de lordre de cent kilomtres au moins
des deux autres.

Le duo primaire-secondaire
Afin de limiter les risques lis une panne ou un sinistre local, il est recom-
mand de rpartir les lments techniques sur deux sites voisins. loigns de
quelques centaines de mtres ou de quelques kilomtres au maximum, ces sites
sont qualifis de campus ou mtropolitains par les anglo-saxons : on
peut souvent aller de lun lautre sans passer par le domaine public.

168
Chapitre 7 Construire la disponibilit

Le but de cette rpartition est triple :


1. Limiter les pannes de mode commun Il faut donc faire attention bien
sparer les alimentations lectriques, les cheminements de cbles divers, les
accs tlcom, etc. Une panne sur un site ne doit pas gnrer une panne sur
lautre.
2. Permettre la rpartition des systmes en grappes ou en redondance La
moiti des serveurs se trouve sur un site, lautre moiti sur lautre. Il en va de
mme pour le stockage. Les distances faibles, ne dpassant pas quelques
kilomtres (chiffre en hausse permanente, mais limit par les lois de la phy-
sique), permettent en effet ces choix technologiques.
3. Faciliter la reprise dun site sur lautre En cas de sinistre sur lun des
sites, lautre est suffisamment proche pour simplifier les activits de reprise.
Grce aux technologies rcentes de rpartition de charge, la bascule de la
charge dun site sur lautre (ou plutt dun serveur sur un autre au sein dune
grappe) est une activit courante.
La plupart des architectures techniques, mme monolithiques, permettent une
rpartition sur deux sites proches relis par des liens haut dbit fiables.

Le site distant
Ce troisime site est loign des deux autres de quelques centaines de kilomtres.
Il ne doit pas tre soumis aux mmes sinistres dits rgionaux : altitude, bassin flu-
vial, zone sismique diffrents, de mme que les quipements potentiellement
dangereux se trouvant proximit (aroport, industries risque, etc.).
En cas de perte des deux sites primaire et secondaire, ce troisime site sera uti-
lis comme lieu de reprise. La probabilit quon y ait recours est certes plus fai-
ble et les technologies dassistance au redmarrage sont galement dune autre
nature. Pour cette raison, certaines entreprises ne prvoient pas ce site comme
sil tait leur proprit, mais font appel une prestation.

En ralit
Les entreprises qui travaillent sur trois sites selon le modle idal dcrit ci-des-
sus sont fort peu nombreuses.
Certaines entreprises qui ont dj mis en place un schma deux sites mtropo-
litains voisins considrent comme exceptionnelle la ncessit dun site distant.
Dautres ne possdent quun seul site principal simple sur lequel elles rpartis-
sent leurs moyens, assorti dun site distant (100 km) vers lequel elles envoient
rgulirement des fichiers ou des lments susceptibles de faciliter la reprise.
Dautres, enfin, nont quun seul site en tout et pour tout et sont peu prpares
redmarrer ailleurs.
Sans atteindre forcment lidal prsent ci-dessus, il est recommand de diver-
sifier au maximum lemplacement des lments ncessaires la reprise de
lactivit.

169
Management de la continuit dactivit

Types darchitectures

Pour adapter les schmas prcdents aux systmes informatiques, il est primor-
dial de considrer la manire dont les applications et les donnes peuvent se
rpartir sur les systmes techniques et les sites.
Entrer dans le dtail de ces aspects serait fastidieux et sortirait du cadre de cet
ouvrage ; il est nanmoins ncessaire de connatre dans les grandes lignes les
diffrentes catgories techniques dans lesquelles on peut classer les applica-
tions.

Architecture monolithique
Dans une architecture monolithique, il est impossible de dcouper les applica-
tions, et les donnes sont dun seul tenant. Cette situation se rencontre trs
souvent dans les applications traditionnelles dentreprise : le fichier du person-
nel, par exemple, est unique et la paie est gre par un seul programme ou
groupe de programmes. Laccs des programmes aux donnes est assez rudi-
mentaire et exclusif.
Dans ces conditions, il nest pas possible de simplement rpartir les traitements
sur plusieurs machines. Il va falloir alors mettre en jeu des mcanismes de tol-
rance de panne ou de redondance simple 100/0, cest--dire avec une machine
supportant 100 % des traitements tandis quune autre est en attente ct.
On se trouve cette fois dans la situation inverse : les traitements sont raliss en
squences plus courtes ne portant que sur une partie des donnes. Les donnes
elles-mmes peuvent tre rparties en lots relativement indpendants.

Architecture granulaire
Par construction, les dpendances entre traitements et les liens entre les don-
nes sont suffisamment rduits pour quil soit possible de distribuer ces appli-
cations sur n serveurs. Lexcution dune application pour un utilisateur donn
se traduira ainsi par lexcution de plusieurs traitements les uns la suite des
autres sur des plateformes diffrentes ayant des changes plus ou moins com-
plexes entre elles. On parle assez souvent, dans ce contexte, darchitecture
client-serveur et de n tiers , ou encore denvironnements granulaires et
autonomes .
Ces traitements se prtent aisment des approches de type grappe n+1.
Limportance du rseau assurant des changes entre les machines est accrue
dans ce type darchitecture.

Une ralit multiple


Bien videmment, en ralit, lentreprise cumule diverses situations dcoulant
de lhistoire de ses choix informatiques.

170
Chapitre 7 Construire la disponibilit

Les situations monolithiques se rencontrent souvent dans les environne-


ments de type grands systmes anciens ou avec les grandes bases de don-
nes conues dans les annes 1980-1990 qui sont toujours en exploitation
sans modification.
Les architectures granulaires se rencontrent beaucoup dans linformatique
des serveurs web, des serveurs dapplications pour Internet et des divers
outils associs (pare-feu, anti-virus, gestionnaire didentits).
Les grands progiciels dentreprise cumulent souvent ces deux types
darchitectures : monolithique pour les bases de donnes centrales, assez gra-
nulaire pour des traitements de modules professionnels ou pour des prsenta-
tions de donnes spcifiques, le tout coupl des applications beaucoup plus
anciennes (dites hrites ), la plupart du temps monolithiques elles aussi.
Dans la ralit, on aura donc faire cohabiter des systmes tolrance de pan-
nes, des systmes redondants et des grappes n+1. Il faudra cependant prendre
soin de bien choisir larchitecture la mieux adapte chaque usage.

171
Chapitre 8

Linformatique
au centre de donnes

Le centre de donnes, ou centre informatique, abrite des lments cls pour


lactivit de lentreprise : les serveurs, le stockage et des matriels de rseau ou
priphriques. La manire dont ces diffrents matriels sont choisis, organiss
et grs va influencer la disponibilit gnrale des services quils produisent.
Des recommandations en matire de choix darchitecture et des listes de points
importants considrer simposent pour mettre en uvre une informatique
propice la continuit dactivit.

Les serveurs

Les serveurs jouent un rle central dans les traitements informatiques. Pour
amliorer leur disponibilit, diffrentes approches se sont dveloppes, qui
mettent en uvre les concepts prsents prcdemment (voir figure 8-1).
Les solutions prsentes sur le march ont diffrentes caractristiques quil est bon
de connatre lorsquon construit sa stratgie de continuit (voir le chapitre 3).

Serveurs tolrance de panne


Lune des manires dobtenir des machines fiables consiste doubler les l-
ments qui risquent le plus de subir une dfaillance et sassurer par un systme
appropri que la machine, en cas de panne dun lment, utilise automatique-
ment lautre.
Les machines ainsi conues sont dites tolrance de panne (fault tolerant), en
ce sens quelles acceptent une panne de chacun des composants doubls.
Lorsquun lment est tomb en panne, la machine continue fonctionner et
ladministrateur a juste changer la pice ultrieurement, la plupart du temps
sans interrompre le systme.
Ces machines ont connu leur heure de gloire dans les annes 1985-1995. Les
marques Tandem et Stratus se sont illustres dans ce domaine. Elles sont plus
chres que des machines normales, pour deux raisons :

173
Management de la continuit dactivit

rseau

application application
application
cache
serveur
middleware cache cache

systme dexploitation cache

SAN rseau de stockage

contrleur cache
stockage
disques disques bandes

Figure 8-1 : Schma dun serveur et de son stockage

une bonne partie du matriel existant en double, la note est elle-mme


double ;
le systme supervisant le bon fonctionnement en cas de panne est peu com-
mun son prix est en consquence.
Lors de lapprciation des risques sur ces machines, on prendra de prfrence le
scnario dans lequel la panne la plus craindre est de mode commun. La
machine tant suffisamment fiable, le risque premier est en effet la perte du site
ou de lalimentation lectrique, par exemple. La solution sera alors de placer
une machine de ce type sur le site principal en prvoyant une autre machine
hors de porte des pannes de mode commun, cest--dire distance et alimen-
te diffremment.
Mise en grappe
Concernant les serveurs, les offres de mise en grappe, ou clustering, sont nom-
breuses et riches en fonctionnalits. Pour rester dans le cadre de cet ouvrage,
nous nabordons que les aspects ayant trait la continuit dactivit.

174
Chapitre 8 Linformatique au centre de donnes

Les points considrer pour mettre en uvre des mcanismes de continuit


sont les suivants :
considrer la rpartition des charges : est-elle souple et dynamique ou fige ?
dterminer ce qui peut tre isol en cas de dfaillance, ou ce qui peut tre
chang immdiatement sans interruption ;
dterminer et si possible liminer les points uniques de dfaillance ;
considrer les situations demandant larrt des machines et en rduire le
nombre ;
tudier la faisabilit des mcanismes de bascule (dune machine vers une
autre ou plusieurs autres) ;
privilgier les machines qui dtectent bien et tt les dfaillances et qui met-
tent des alertes ;
tudier les capacits de retour la normale ;
tudier la connexion au rseau et son transfert en cas de dfaillance ;
tudier la connexion au stockage et son transfert en cas de dfaillance ;
analyser les mcanismes dautomatisation et de script (programme de
commandes) ;
faire la liste des pices quil faut conserver sur le site pour une rparabilit
optimale.

Serveur 1 Serveur 2

SAN

Figure 8-2 : Bascule dun serveur sur un autre

175
Management de la continuit dactivit

En gnral, lentreprise choisit un ou deux fournisseurs et conserve la mme


solution long terme. La maintenance est souvent ngocie part. Cette solu-
tion doit tre connue afin que les diffrentes parties prenantes puissent en tirer
le meilleur profit en termes de disponibilit.
Enfin, il faut garder lesprit que le cluster peut se construire sur un ou deux
sites, priori assez proches.

Virtualisation
La virtualisation est un ensemble doutils logiciels et de middleware qui permet-
tent de :
dcouper un serveur physique donn en plusieurs serveurs logiques ou
machines virtuelles gomtrie variable ;
masquer aux serveurs logiques la ralit du matriel existant rellement.
La virtualisation saccompagne doutils de gestion qui permettent de travailler
sur les machines virtuelles. Le travail de lexploitant est alors modifi : au lieu
de grer uniquement des machines relles avec leurs caractristiques techni-
ques propres, il gre dun ct des machines virtuelles (abstraites) et de lautre
les machines relles (ou physiques en gnral moins nombreuses) sur lesquel-
les tournent les machines virtuelles. Par ailleurs, il existe un certain niveau
dinterchangeabilit entre les machines relles : une machine virtuelle peut,
dans certaines limites, fonctionner sur diffrentes machines physiques.
Du point de vue de la continuit dactivit, la virtualisation prsente des avanta-
ges mais aussi des inconvnients.

Avantages de la virtualisation
Une machine virtualise est constitue de fichiers. Elle est donc tlchargeable
ou peut tre envoye par simple transfert de fichier. Cela simplifie les scnarios
de reprise distante : une machine virtuelle tournant sur une machine relle
dfaillante sera photographie et les fichiers la dcrivant envoys sur le site
distant, o cette machine virtuelle pourra tre rgnre sur une machine
relle en tat de marche. Ces actions pouvant sautomatiser, il devient alors pos-
sible de cloner les machines virtuelles.
On voit donc lintrt de cette technologie pour les scnarios de reprise.
Il est possible assez facilement de tenir prtes des machines relles dis-
tance pour recevoir les machines virtuelles.
Le transfert et la rgnration dune machine virtuelle sur un autre site sont
rendus beaucoup plus faciles.
Bien des tches peuvent sautomatiser, en portant sur plusieurs machines ou
plusieurs sites la fois.
La machine virtuelle hrite de la fiabilit de la machine relle sur laquelle elle
fonctionne, pour le meilleur et pour le pire.

176
Chapitre 8 Linformatique au centre de donnes

Ainsi, la gnralisation des outils de virtualisation rvolutionne le travail de


reprise et dadministration des machines.
Remarque
Les aspects de connexion au rseau et de stockage, qui sont la limite du primtre vir-
tualis, ne doivent pas tre oublis dans les schmas de continuit dactivit.

Inconvnients de la virtualisation
Cependant, lusage de la virtualisation dans le cadre dun plan de continuit
comporte galement un certain nombre dinconvnients.
Elle reprsente un outil de plus sur les machines, et donc une cause de panne
supplmentaire.
Les machines virtuelles gres la place des machines physiques ne peuvent
pas fonctionner sur un serveur classique : elles ncessitent un serveur quip
au moins dune couche de virtualisation adapte, ce qui limite les scnarios.
Le matriel utilisable en cas de reprise doit avoir prvu la virtualisation, ce
qui reprsente un effort et un cot supplmentaire.
Le matriel que lon peut utiliser pour la reprise doit avoir t prvu par la vir-
tualisation, qui doit tenir compte de ses caractristiques : cela limite les cas
possibles ; la situation est pire sans virtualisation toutefois.
Les outils restent compartiments selon les diffrentes technologies : les
outils pour matriels Unix IBM ne sont pas du tout les mmes que pour ceux
dHP et trs diffrents de ceux des matriels processeur Intel fonctionnant
avec Windows.
Il faut grer la fois des configurations relles et virtuelles.
Malgr tout, dans lensemble, les spcialistes saccordent dire que lusage de
la virtualisation en environnement Intel/Windows est plutt bnfique dans le
cadre dun plan de reprise.

Le stockage

Le stockage reprsente le deuxime pilier de linformatique, car cest l que rsi-


dent les donnes. Les fournisseurs de stockage ont dvelopp des offres de plus
en plus indpendantes des serveurs, proposant des fonctions trs intressantes
pour sauvegarder les donnes, les rpliquer distance et les restaurer sur des
systmes de secours.
Toutes ces fonctions sont regarder de prs pour laborer une stratgie de con-
tinuit. En effet, la multitude de combinaisons possibles entre les serveurs, les
outils logiciels, les fonctions propres au stockage et les agencements de sites
rend les choix difficiles.

177
Management de la continuit dactivit

Fonctions des contrleurs


Le contrleur est en quelque sorte le chef dorchestre du stockage : il prend la
responsabilit des donnes, les conserve et les protge ; il sait o les retrouver,
rpond aux demandes daccs des serveurs, demande des traitements spcifi-
ques, transfre des donnes dun support un autre (dun disque vers une
bande, par exemple), etc. Appliqu au contrleur, le mot donne est
dailleurs abusif. En gnral, celui-ci ne voit en effet que des ensembles de bits
ou blocs dont il a la charge. Il na pas notion du fait que ces blocs constituent
une donne ou appartiennent un mme fichier, cette connaissance tant rser-
ve au domaine du serveur.
En se concentrant sur les enjeux de continuit, il est important dtudier les
points suivants.
Nature du contrleur : est-ce un serveur simple, sans redondance (plutt
rare), ou une grappe de serveurs (plus usuel) ? Encore mieux : est-ce un mat-
riel spcifiquement tudi pour la fiabilit ?
Le contrleur spare-t-il les traitements davant-plan (vers les serveurs) et
darrire-plan (vers les disques) sur des processeurs spars ?
La manire dont le contrleur est connect aux serveurs permet-elle la redon-
dance ou lquilibrage sur plusieurs voies ? Passe-t-elle par un rseau spcia-
lement ddi au stockage ?(Voir la section sur les SAN en fin de chapitre).
La manire dont le contrleur est connect aux disques ou mmoires diver-
ses est-elle suffisamment fiable ?
La manire dont le contrleur rpartit les blocs crits sur plusieurs disques
avec bit de parit, la gestion des groupes RAID qui utilise plusieurs lots de
disques en parallle et assure des niveaux de fiabilit diffrents quil faut con-
natre.
Qualit du cache interne : est-il volatile ? Conserve-t-il ses donnes en cas de
coupure de courant ?
Le contrleur permet-il le routage dentre/sortie ? Cette fonction consiste
router les critures vers un autre contrleur distant et en garantir la bonne
excution locale et distante, synchronise ou non.
Le contrleur permet-il de raliser des clichs (snapshots) ? Cette fonction con-
siste cette fois garder une image fige des donnes pendant un certain
temps. Tant que les donnes sont figes, les modifications qui les concernent
sont alors consignes ailleurs sans inconvnient.
Le contrleur peut-il grer des cohrences entre donnes ou blocs ? (cest--
dire modifier tous les blocs dun mme groupe ensemble ou nen modifier
aucun).
Toutes ces fonctions prsentent un grand intrt dans les diffrents schmas de
continuit dactivit, comme lillustrent les trois exemples suivants.

178
Chapitre 8 Linformatique au centre de donnes

Snapshot ou clich
Le snapshot permet de ger une image des donnes et de les sauvegarder sur bande
(cela peut prendre cinq heures et plus) pendant que la production continue sans interrup-
tion. Sans cette fonction, il faut interrompre les critures dans les chiers sauvegarder,
et donc interrompre une partie de lactivit.
Routage dentre/sortie
Le routage dE/S permet, sous certaines conditions, de conserver sur un site distant une
copie exacte du stockage principal. En cas de plan de reprise sur ce site distant, les don-
nes y sont identiques.
RAID
Le RAID (Rapid Array of Independent Disks ou baie de disques indpendants) permet,
avec des disques simples, dobtenir une bonne abilit : en cas de dfaillance dun dis-
que, les donnes sont reconstituables partir des autres disques.

Toutes ces fonctions ne sont pas prsentes de la mme manire dans les mat-
riels disponibles sur le march. Des substitutions sont possibles, certaines fonc-
tions pouvant tre absentes du stockage si elles sont contenues dans le
middleware, par exemple.

serveur

100 km
SAN dans le centre

mises jour

contrleur 1 contrleur 2 contrleur 3

synchronisations ponctuelles
Figure 8-3 : Contrleurs changeant sur un SAN local et avec un site distant

Remarque
Notons enn que, dans certains cas particuliers, les fonctions de contrleur rsident dans
un serveur au sein dune grappe, voire dans une partition virtualise sur un serveur. Mais
cela ne change pas radicalement ce qui est dit plus haut.

179
Management de la continuit dactivit

Fonctions du middleware
Middleware est un terme gnrique pour dsigner le logiciel qui se situe au-
dessus du systme dexploitation mais en dessous des applications. Il joue un
rle important dans la gestion de la conservation des donnes et il faut donc
sen proccuper dans une approche de continuit des traitements.

Systmes de chiers
Le systme de fichiers (file system) permet tout simplement de grer les fichiers,
ce qui est une forme de conservation des donnes. On y trouve plusieurs fonc-
tions utiles pour la continuit dactivit, parmi lesquelles :
la capacit reconstituer des fichiers endommags ;
la protection des accs en criture et en lecture ;
le support des grappes (clustered file system) qui permet des serveurs diffrents
daccder concurremment et en mme temps aux donnes tout en garantis-
sant leur intgrit.
Cependant, limportance des systmes de fichiers pour la continuit samoindrit
de plus en plus. En effet, pour disposer de fonctions avances, on leur prfre
les SGBD ou les systmes NAS, qui sont des serveurs ddis au systme de
fichiers.

Moniteurs transactionnels
Les moniteurs transactionnels sont des middlewares qui assurent la bonne ex-
cution des transactions, c'est--dire des modifications coordonnes des don-
nes.
Parmi les fonctions utiles quils prsentent en termes de continuit, on citera
essentiellement :
la capacit reconstituer un tat correct des donnes en annulant une tran-
saction qui sest mal droule ;
la possibilit de router une transaction (transaction routing) vers un autre sys-
tme pour quelle sy excute, ce qui permet davoir des donnes identiques
sur deux sites diffrents, par exemple.
Les moniteurs transactionnels sont eux aussi en perte de vitesse, car supplants
par les SGBD qui possdent, entre autres, les mmes avantages.

SGBD
Les SGBD ou systmes de gestion de bases de donnes prennent une place pr-
pondrante dans la continuit dactivit. Ils concentrent en effet des fonctions
indispensables :
la capacit reconstruire un tat propre des donnes aprs un incident
(matriel ou non), en annulant les modifications qui ont chou (rollback ou
retour en arrire) ;

180
Chapitre 8 Linformatique au centre de donnes

la possibilit de raliser des mises jour de donnes sur plusieurs bases


rparties potentiellement en des lieux diffrents, avec un engagement sur le
rsultat (commit ou validation) quoi quil arrive ;
la facult de figer un tat cohrent des donnes et de noter part, dans un
journal, la totalit des modifications qui y sont apportes par la suite sur une
priode donne ;
la possibilit de reconstituer des donnes correctes en partant dun tat ant-
rieur correct et en lui appliquant les modifications contenues dans un journal
(forward recovery ou restauration par progression) ;
de manire gnrale, la possibilit de procder des interventions intelligen-
tes sur les donnes, les SGBD en permettant la comprhension ; il est ainsi
possible un administrateur de nettoyer des tables en annulant certaines
transactions et pas dautres pratiquer avec modration toutefois.
De manire obtenir une protection optimale en cas de sinistre, on tablit en
gnral une base primaire active sur un site et une base de secours en
sommeil sur un autre site. La base en sommeil peut se contenter dune copie
ponctuelle des donnes tout en recevant le journal des mises jour. En cas de
besoin, il faudra, pour la rveiller , appliquer les journaux afin de reconstituer
les donnes, ce qui peut prendre un certain temps. On se trouve alors dans la
catgorie du secours tide (moyens prpars mais pas prts lusage : voir le
chapitre 3).
En revanche, la base de secours peut tre totalement jour en permanence si
elle applique les modifications de la base primaire au fur et mesure. Cela peut
se faire soit de manire synchronise avec la base primaire, soit de manire
asynchrone. Lintrt majeur est que ce qui est valid (ou commit ) sur un
site, lest galement sur lautre.
Enfin, dans les approches les plus avances, il nest plus fait de distinction entre
base primaire et base secondaire : plus exactement, les activits sont rparties
entre les deux bases, chacune tant primaire pour elle-mme et
secondaire pour lautre.
Il existe aussi des mises en uvre intressantes dans lesquelles la base secon-
daire est utilise par des applications qui ne travaillent quen lecture. Cela per-
met ainsi de soulager la base primaire et de rentabiliser les investissements
pour le secours en cas de sinistre. Sil est besoin de basculer sur la base de
secours, les applications en lecture sont alors arrtes et les applications de
production dmarres.
Par prcaution, il faut, videmment, ne pas stocker le journal et les copies de la
base de donnes au mme endroit que la base active. En effet, en cas de perte
du systme de stockage, on perdrait par la mme occasion la capacit recons-
truire les donnes.

181
Management de la continuit dactivit

Mises jour

rseau

SGBD actif faisant


SGBD en veille
des mises jour

Base de Base de
rfrence rfrence

Figure 8-4: : Deux SGBD changeant distance

Caches internes et risques associs


Le cache est une zone de mmoire provisoire o lon place des donnes en tran-
sit. Un programme met des donnes en cache, par exemple, avant quelles ne
soient envoyes un contrleur de stockage. Le contrleur lui-mme peut
ensuite mettre ces donnes en cache avant quelles ne soient crites sur dis-
ques, lieu de leur stockage final et scuris. Ce mcanisme permet dobtenir des
gains en performance considrables.
La fiabilit de ces zones de cache est souvent sujette caution. En effet, elles ne
sont gnralement pas protges en cas de panne dlectricit par exemple,
alors quun disque, lui, conserve bien videmment son contenu. Lapparition
des caches non-volatiles reprsente ici une avance positive.
Concernant la continuit dactivit, les caches posent problme car, bien que
parfois trs important pour la rcupration des donnes, leur contenu est trs
souvent perdu en cas de sinistre. De plus, les systmes de routage ou de propa-
gation des entres/sorties (voir page 178) ne rpercutent sur le site distant que
les critures sur disque. Or, les critures de donnes modifies en cache nont
pas encore fait lobjet dune demande dcriture sur disque et sont ainsi igno-

182
Chapitre 8 Linformatique au centre de donnes

res du contrleur. Lapplication considre alors que la donne est modifie,


alors quelle ne lest pas, ni sur le stockage primaire, ni sur le secondaire. Cette
incohrence portant sur des donnes potentiellement importantes pour lentre-
prise cre une situation trs difficile grer en cas de reprise.
Un contrle se rvle donc ncessaire sur tout cela. Il existe des produits qui,
lorsquune donne modifie est crite en cache, forcent immdiatement lcri-
ture sur disque. Les grands systmes (mainframe IBM), et souvent les SGBD,
grent cela ainsi de manire trs prcise. En cas de doute, il faut vrifier que les
produits ou outils complmentaires adquats sont en place et bien actifs.

Protection continue des donnes (CDP)


La CDP (Continuous Data Protection) ou protection continue des donnes est une
technique assez rcente qui consiste surveiller un systme en capturant toutes
les modifications de donnes y ayant lieu. Ces modifications, une fois captures,
sont conserves en lieu sr, gnralement sur un serveur ddi cette fonction
de CDP. La fiabilit de ce serveur de CDP doit donc tre considre avec la plus
grande attention.
Le systme ainsi surveill est accompagn dagents de surveillance propres au
produit assurant la CDP, dont il faut galement tudier la fiabilit. Vus du sys-
tme surveill, ils sont en effet considrs comme des corps trangers prove-
nant dun autre fournisseur.
Proposant des pistes damlioration intressantes en matire de continuit,
cette technologie est toutefois rcente et doit encore faire ses preuves.

Stockage en rseau NAS


Le stockage en rseau NAS (network-attached storage) est un serveur de fichiers
attach au rseau IP (protocole Internet). Les serveurs dapplications sadres-
sent lui pour accder des fichiers partags en mode lecture ou criture. Le
NAS met ainsi en uvre un ou plusieurs systmes de fichiers.
Concernant la continuit dactivit, les avantages du NAS sont hrits la fois
de sa nature de contrleur et de celle de serveur. Les caractristiques mention-
nes prcdemment au sujet des serveurs, contrleurs et systmes de fichiers
restent donc valables pour ce type de stockage. Parmi elles :
lagencement interne du NAS , qui peut tre base de tolrance aux pannes
ou de redondance en grappe 1+1 ;
la capacit reconstruire des fichiers endommags ;
la possibilit de figer des clichs (snapshots : voir page 179) sur des fichiers
entiers et intervalles rapprochs ;
la possibilit de revenir en arrire sur un clich antrieur, fichier par fichier ;
la capacit sauvegarder directement partir du NAS sur des systmes
bandes, par exemple, sans passer par les serveurs ;

183
Management de la continuit dactivit

la capacit router sur un site voisin ou distant les modifications apportes


aux fichiers, tout en restant sur le rseau IP habituel ;
la possibilit de dplacer des groupes de fichiers entiers dun NAS un autre,
quils soient proches ou distants.
La simplicit dutilisation des NAS dans les environnements utilisant de nom-
breux fichiers, surtout sils sont partags, leur a donn une place prpondrante
dans les entreprises et dans les plans de reprise.

Sauvegarde et restauration
On prsente souvent la sauvegarde sur bande comme tant lunique prcaution
prendre pour se prmunir dune perte de donnes catastrophique. Assez sou-
vent, les questionnaires daudit se focalisent donc sur la sauvegarde, selon une
vision remontant aux annes 1980.

La sauvegarde est-elle encore utile ?


Les descriptions qui prcdent montrent que bien dautres technologies sont
disponibles pour viter les pertes de donnes et faciliter leur reconstruction.
Cela ne veut pas dire loin de l que la sauvegarde ne sert rien : il reste des
situations o elle est ncessaire, mme si celles-ci deviennent, avec lexpansion
des nouvelles technologies, de plus en plus rares.
Plus la pratique des technologies comme le snapshot ou la copie miroir locale et
distante effectue par des systmes de stockage, des NAS ou des SGBD se
rpand, plus la ncessit technique dune sauvegarde sur bande diminue. Cinq
raisons maintiennent toutefois son usage :
Les technologies cites ne sont pas employes partout, car tous les systmes
en place ne le permettent pas.
Le cot des investissements ncessaires dans ces nouvelles technologies est
lev, la formation des exploitants coteuse et longue. La sauvegarde
demeure une solution bon march, simple et assez efficace, qui a tout du
moins le mrite dexister.
Quand toutes les autres solutions ont chou, recourir au stockage de bandes
labri des dsastres reste la solution ultime.
La rglementation lexige dans un certain nombre de cas.
La proximit technologique avec larchivage (qui nest pas une sauvegarde)
fait que certains utilisateurs conservent des archives partir des sauvegardes
sur bandes.
Dans la ralit, on constate que la sauvegarde sur bande combine aux autres
techniques mentionnes prcdemment permet darriver des solutions de
compromis defficacit et de cot intressantes.
La problmatique spcifique de la sauvegarde des donnes sur PC, en particu-
lier sur les ordinateurs portables, sera vue dans le chapitre 9.

184
Chapitre 8 Linformatique au centre de donnes

Objectif : restaurer les donnes


Il ne faut surtout pas perdre de vue lobjectif auquel tous ces moyens techniques
doivent parvenir : restaurer les donnes qui ont t perdues. La sauvegarde na
en effet aucun intrt si les donnes ne peuvent tre restaures ou si la restau-
ration ne fournit pas de donnes correctes.
Les grandes entreprises ne possdent gnralement pas un seul systme de
sauvegarde et restauration, mais plusieurs. On distingue trois catgories de sau-
vegardes, souvent dictes par les outils eux-mmes.
Les sauvegardes compltes : tout est sauvegard en totalit. La restauration
est ainsi aise, car il ny a aucune question se poser. En revanche, la sauve-
garde est longue et si les donnes ont peu volu, a quantit de cassettes ou
autre mdia saccrot inutilement, car contenant de nombreuses donnes
identiques dune fois sur lautre.
Les sauvegardes incrmentielles : ne sont sauvegardes que les donnes
qui ont chang par rapport la sauvegarde prcdente, la premire sauve-
garde tant complte. Cette mthode est rapide et peu consommatrice
despace sur les bandes. Cependant, lors de la restauration des donnes, elle
implique souvent de rechercher toute une srie de bandes de sauvegardes
diverses. linverse de la prcdente, cette mthode est donc efficace en sau-
vegarde mais difficile en restauration.
Les sauvegardes diffrentielles : aprs une premire sauvegarde complte,
cette mthode ne sauvegarde que les donnes ayant t modifies depuis la
dernire sauvegarde complte. La restauration ncessite alors davoir seule-
ment la dernire sauvegarde complte et la dernire sauvegarde diffren-
tielle. Envisage en gnral fichier par fichier, cette mthode est un bon
compromis : plus longue en sauvegarde que la sauvegarde incrmentielle,
mais plus rapide en restauration.

Grer les cassettes et autres supports


Les cassettes de sauvegarde ou autre mdia (disques optiques, DVD, etc.)
ncessitent une gestion particulirement soigneuse dans le cadre du plan de
continuit. Les aspects suivants doivent tre absolument pris en compte :
Les cassettes doivent tre entreposes dans un lieu sr, labri des risques
qui psent sur les systmes dont elles sont les sauvegardes.
Les employs qui viendront rcuprer les cassettes en cas de sinistre doivent
pouvoir les trouver et les identifier facilement.
Si certaines cassettes sont constitues en lots manipuler ensemble, ceux-ci
doivent tre vidents (regroups dans une mallette, par exemple).
linverse, il peut arriver que certaines cassettes ne doivent pas se trouver
ensemble (sauvegardes de clients diffrents, par exemple, qui ne doivent
absolument pas tre mlanges) : cela doit tre clairement identifiable.

185
Management de la continuit dactivit

Dans les cas o des contraintes sappliquent sur les lots de cassettes (confi-
dentialit, urgence, destination particulire, etc.), celles-ci doivent tre indi-
ques et faciles comprendre par les personnes charges de les rcuprer.
Il peut tre intressant dindiquer une priorit de traitement ou de prise en
compte, lorsque les lots de cassettes ne peuvent tre dmnags en une
seule fois. Celle-ci est base alors sur les dlais de restauration (par
exemple : immdiat, moins de 4 heures, mme jour, moins de 24 heures, de
24 72 heures, plus de 72 heures).
Le moyen de transport peut tre ventuellement indiqu sur les lots.
Il est indispensable de tester rgulirement la lisibilit des cassettes et de
copier neuf celles qui vieillissent mal, avant quelles ne deviennent illisi-
bles.
Les cassettes devenues inutiles doivent tre limines (ou recycles).
Les consignes des fabricants pour le stockage doivent tre respectes absolu-
ment.
Un systme de gestion informatique des sauvegardes peut tre utile pour admi-
nistrer tout cela.
Exemple : un oubli fcheux
La socit de service informatique SLBanque gre linformatique de la Banque du Muse,
en banlieue parisienne. Les systmes de production (ordinateurs, stockage) sont situs
dans un centre informatique proche du priphrique. Des sauvegardes sont effectues
rgulirement et, tous les lundis, des convoyeurs viennent prendre livraison de mallettes
de cartouches destination dun centre dentreposage en province proche.
Un lundi, des travaux importants ont lieu au centre, ncessitant de dsactiver en partie
louverture automatique des portes. Les convoyeurs effectuent malgr tout leur transfert
habituel, et une fois partis, des livreurs arrivent avec du matriel dun tout autre ordre.
Aprs 45 minutes, la livraison est nie et lon ferme enn les portes la main. Cest l
quon aperoit une mallette de cassettes oublie, reste l pour caler une porte !
Il na pas t possible de retrouver ou dappeler les convoyeurs. Fort heureusement, le
nom du client tait indiqu sur la mallette et celui-ci, une fois averti, a prvenu qui de
droit.
Et pourtant le client aurait-il constat seul quil lui manquait une mallette ? Cette
msaventure a conduit par la suite la socit SLBanque et ses clients revoir leurs proc-
dures de sortie des cassettes de sauvegarde.

Robots de sauvegarde
Les robots de sauvegarde sont des matriels priphriques qui servent sauve-
garder et restaurer les donnes sur un support en gnral amovible (cassette,
cartouche). Ils sont la plupart du temps partags par diffrents environne-
ments techniques et utiliss par de nombreux serveurs ou NAS. Leur constitu-
tion mcanique, comportant un grand nombre de pices en mouvement, les
rend fragiles et leur fiabilit dpend avant tout dune bonne maintenance.

186
Chapitre 8 Linformatique au centre de donnes

Le matriel avec lequel la sauvegarde est effectue peut tre diffrent de celui
avec lequel la restauration sera ralise : il suffit de ne pas se trouver sur le
mme site. Des prcautions de compatibilit sont ncessaires, sous peine de ne
pouvoir restaurer correctement.
Il existe des systmes qui virtualisent les bandes et les drouleurs de bandes :
les VTS (virtual tape servers ou serveurs bande virtuelle). Nombre doprations
dcriture et de lecture se font alors sur disques au lieu de se faire sur du mat-
riel rel bande. Toutefois, la scurit des oprations de sauvegarde est garan-
tie par la ralisation finale de cassettes de sauvegarde appropries. Ces
systmes permettent ainsi dviter les crations inutiles de cassettes.
Tous ces systmes proposent souvent dautres fonctions en option, dont il faut
tenir compte dans le cadre dun plan de continuit. En effet, il faut tre sr de
pouvoir restaurer :
la compression des donnes il faut pouvoir dcompresser lors de la
restauration ;
le chiffrement de la mme manire, il faut pouvoir dchiffrer et avoir les
droits techniques et administratifs pour le faire ;
la dduplication (limination de doublons pour gagner de lespace), qui pose
le mme type de contraintes.
La capacit effectuer une restauration correcte sur un systme potentiellement
diffrent du systme de sauvegarde est fondamentale. Sans cela, en effet, toute
sauvegarde est inutile. Parmi les points considrer, on compte :
la compatibilit des formats en tous genres (cassette, drouleur, chargeur,
codage, etc.) ;
la compatibilit des logiciels, qui est une exigence trs forte dans presque
tous les cas, on aura besoin pour la restauration du mme logiciel que celui
qui a servi pour la sauvegarde ;
une bonne gestion des droits associs ladministrateur qui charge une sau-
vegarde doit disposer des droits ncessaires, loutil doit lautoriser oprer ;
les performances la restauration ne devant pas durer dix heures si lon dis-
pose dun temps limit quatre heures, les dbits doivent tre calculs
correctement ;
ltat des matriels de restauration, qui doit tre vrifi et test, avec des con-
trats de maintenance convenables ;
lexistence et lactualit des licences dutilisation.
Tous ces aspects sont importants, surtout dans les cas o le logiciel et les
moyens de restauration utiliss sur un site de secours ne sont pas ceux que ce
site emploie pour son usage propre.

187
Management de la continuit dactivit

Les rseaux du centre informatique

Le centre informatique dispose de plusieurs types de rseaux :


le rseau assurant la connexion des terminaux et postes de travail aux
serveurs ; le protocole IP y est omniprsent ;
le rseau supportant les changes des serveurs entre eux, avec plusieurs
vitesses et dbits possibles : si des protocoles de grappe existent encore, IP
haute vitesse se gnralise et on assiste lmergence de technologies nou-
velles comme Infiniband ;
le rseau de stockage SAN (Storage Area Network), qui connecte le stockage en
groupes aux divers serveurs.
Pour optimiser les dbits, rduire les risques et isoler les perturbations, ces dif-
frents rseaux peuvent tre cloisonns et recourir des protocoles divers. Ils
peuvent aussi, pour des raisons defficacit, partager des artres rapides. Les
cblages sont de natures diffrentes, mme si la fibre optique se gnralise.
En gnral, on fait encore la distinction entre SAN et rseau traditionnel.

Rseau de stockage SAN


Le SAN (Storage Area Network) est un rseau qui assure la connexion entre des
contrleurs de stockage, des units de disques diverses et des serveurs. On le
trouve principalement en salle informatique, dont il ne sort que pour assurer
une liaison avec un site secondaire trs proche.
La principale technologie rseau du SAN est la technologie dinterconnexion
appele Fibre Channel (FC), qui opre principalement mais pas seulement sur
fibre optique courtes distances. La liaison avec le troisime site distant, sil
existe, ncessitera une autre technologie et un couplage avec des routeurs sp-
ciaux. De nouvelles techniques normalises apparaissent, tel le protocole iSCSI
(Internet Small Computer System Interface), appel aussi SCSI sur IP, qui consiste
transmettre les instructions et donnes dans des paquets IP. Elles rapprochent
le SAN des techniques de rseau traditionnel.
Comme tout rseau, le SAN utilise des routeurs et des commutateurs plus ou
moins puissants et volus.
En ce qui concerne le SAN, la fiabilit et la disponibilit mritent la plus grande
attention : un SAN en panne, mme partiellement, peut paralyser une salle
informatique entire, dans le cas o les serveurs principaux ne peuvent plus
accder leur stockage.

Rseau traditionnel
Concernant le rseau traditionnel, lanalyse et les mesures prendre ressem-
blent beaucoup celles ayant trait aux serveurs. On y retrouve en effet les
mmes orientations et architectures :

188
Chapitre 8 Linformatique au centre de donnes

la segmentation ou rpartition sur des lments en grappes de type n+1, avec


de petites machines simples ddies une tche particulire (pare-feu, anti-
virus, dtecteurs divers, etc.) ;
la consolidation (monolithique) sur des quipements trs puissants, uniques
et donc tolrance de panne ;
la virtualisation, qui permet une mme machine dabriter des fonctions
multiples ;
la redondance qui, associe une virtualisation simple, permet dabriter deux
machines virtuelles dans une mme machine physique et den arrter une
sans interrompre lautre.
Les volutions du rseau sont par ailleurs dictes par les volutions des
serveurs : si lon consolide dix serveurs pour nen faire quun seul, le rseau qui
les reliait change de nature de mme que sa vulnrabilit aux pannes. Les deux
approches doivent tre associes pour obtenir une configuration haute dispo-
nibilit.
Performance et abilit des rseaux
Quel que soit le type de rseau, il est indispensable de porter un regard attentif
et critique sur les points suivants :
la possibilit pour des matriels de constructeurs diffrents de travailler
ensemble ; en effet, le respect des protocoles nest souvent pas suffisant et il
faut galement tudier les comportements de matriel en prsence danoma-
lies ou de pannes partielles ce comportement doit tre cohrent dune
machine lautre ;
la tolrance aux pannes des lments centraux qui constituent des points
uniques de dfaillance, tels que les commutateurs directeurs ;
la possibilit ou non de diversifier les chemins daccs entre lorigine et la
destination, afin de se prmunir dune panne sur un chemin ;
la souplesse de passage dun chemin un autre en cas de panne du premier :
est-ce automatique ou manuel ? Peut-on utiliser deux voies en parallle ou
de manire alterne ?
le comportement des matriels en cas de redmarrage suite divers types
dinterruption, qui doit tre cohrent et rtablir un tat du rseau acceptable ;
la conservation des changements de paramtres dynamiques, afin dviter, en
cas de redmarrage, de faire une restauration sur un tat antrieur incorrect.
Construire un rseau performant, cest aussi construire un rseau fiable. L
encore, les pannes de mode commun ne doivent pas tre ngliges dans lva-
luation de la fiabilit (voir le chapitre 7).

189
Chapitre 9

Infrastructure
et poste de travail
de lemploy
Tout ce qui a trait lenvironnement de travail de lemploy tlphonie, poste
de travail en rseau, bureau ne doit pas non plus tre nglig. Ces lments,
utilisant des technologies de plus en plus avances, sont en effet des points vul-
nrables mais indispensables la continuit de lentreprise.
Ceci inclut dans une certaine mesure les problmatiques lies aux ressources
humaines, bien que ce sujet soit la limite du primtre de cet ouvrage.

Les rseaux

Lanalyse de la disponibilit du rseau se rvle toujours complique, parce


quun rseau nest pas un objet technique comme les autres. En effet, ce
nest pas parce que les routeurs ou commutateurs fonctionnent que le rseau
est disponible. Le bon fonctionnement dun rseau implique en gnral deux
acteurs chacun une extrmit avec la plupart du temps un oprateur entre
les deux. Cest un jeu trois. Quant aux cas o le rseau fonctionne mal, il nest
pas toujours ais den dterminer les causes. La vision de son tat de fonction-
nement peut dailleurs tre diffrente selon lendroit do on lobserve.
Par ailleurs, lorsque seul le rseau ne fonctionne pas dans une entreprise, les
techniciens les plus avancs se retrouvent dsempars : aucune machine rpa-
rer. Tout au plus peut-on essayer de basculer vers un autre rseau ou un autre
oprateur en esprant que celui-ci ne sera pas victime de la mme avarie.

Rseau tlphonique
En dpit de la monte en puissance des nouvelles technologies, le tlphone
joue encore un rle primordial dans la vie de lentreprise, comme lillustre
lexemple suivant.
Exemple : lacheteur et le tlphone
M. Achat est acheteur chez un fabricant qui dpend fortement de ses fournisseurs en ter-
mes de dlais. Un soir, de retour son domicile, il voit au journal tlvis rgional quun

191
Management de la continuit dactivit

incendie sest dclar chez son principal fournisseur. La tlvision montre des ammes et
le commentaire est imprcis. Souhaitant avoir plus dinformation, M. Achat essaie dappe-
ler le site sinistr : impossible. Le site est trop loign pour quil sy rende en voiture.
Le lendemain matin, il cherche joindre son commercial attitr chez le fournisseur en
vain. Par prcaution, il passe commande chez un autre fournisseur, pratiquant des prix
trs levs, sacriant ainsi la scurit.
Trois jours aprs, M. Achat apprend que le sinistre ne concernait ni lusine ni les stocks de
son fournisseur, mais uniquement des bureaux et la salle de lautocommutateur.
Moralit :
il peut tre utile de disposer du numro de portable de son commercial ;
en cas dincendie, il faut essayer dans la mesure du possible de transmettre la tlvi-
sion des informations prcises, en esprant quelles passeront lantenne ;
la socit sinistre doit prvoir un accueil tlphonique de ses clients, dans des cas sem-
blables de sinistre : son oprateur doit avoir des solutions.

Les rseaux tlphoniques nont pas t conus en prvision que tout le monde
appelle tout le monde au mme moment (plus exactement, quune moiti des
abonns appelle lautre moiti). Ils sont dimensionns pour permettre le trafic
de quelques pourcents dune zone donne (on cite souvent le chiffre de 10 % en
Amrique du Nord). Cela est valable aussi bien pour la tlphonie fixe que pour
la tlphonie mobile. Ainsi, en cas de sinistre rgional, ou simplement dinci-
dent ou vnement attirant la curiosit gnrale, il est impossible de compter
sur un acheminement sr des appels.
Vu de lutilisateur en entreprise, le rseau tlphonique peut tre dcompos en
trois parties, dont chacune mrite lattention :
les cheminements internes lentreprise, courant dans des goulottes, avec
des connexions situes dans des rpartiteurs ou armoires quil faut vrifier ;
le cheminement hors de lentreprise, dirig vers les moyens techniques de
loprateur (central tlphonique) en passant par la voie publique et ses
alas ;
lautocommutateur de lentreprise, qui est une machine sapparentant dsor-
mais un ordinateur, avec sa redondance interne, sa maintenance, ses mises
niveaux et ses techniciens.

Cblage interne
Concernant le cblage interne et les armoires de rpartition, il faut sassurer
que :
les cabinets de passage des cbles sont ferms cl ;
les rpartiteurs et sous-rpartiteurs sont quips en systmes anti-incendie
(extincteurs automatiques eau ou sprinklers) ;
rien dautre nest stock sur place (si ce nest de la mort au rats mais pas les
guirlandes de Nol !) ;
les cls sont en possession des personnes habilites et delles seules ;

192
Chapitre 9 Infrastructure et poste de travail de lemploy

lclairage est suffisant dans les cabinets ;


la sparation avec le rseau informatique, qui utilise souvent les mmes ins-
tallations, est faite correctement en effet, ce dernier peut dgager de la cha-
leur car il est actif ;
laccs aux goulottes y est suffisamment restreint.
Le cheminement du cblage doit tre connu et document, les entres dans les
locaux et ttes tlcom (points darrive des fils) localises sur un plan du
btiment.

Cbles extrieurs
Les cbles externes ne dpendent pour lessentiel pas de la socit, mais de
loprateur tlcom. Cest souvent le point faible de la chane qui relie lautocom
de lentreprise au central de loprateur ou divers POP (points de prsence). Il
faut donc surveiller certains aspects, mme sils ne sont gnralement pas du
ressort de lentreprise :
les temptes, la glace ou la neige peuvent endommager les lignes ariennes :
une inspection sur place permet au moins de comprendre le risque ;
les accidents de vhicules contre des poteaux tlphoniques peuvent eux
aussi affecter les lignes ;
les lignes enterres sont soumises aux alas des travaux publics (voir
page 166 lanecdote du pont de Suresnes).
Lentreprise peut demander ou loprateur tlphonique proposer des chemine-
ments spars. Il faut alors tudier par o les cbles passent et comment effec-
tuer la sparation : quelle distance y a-t-il entre les cbles, quels sont les points
de regroupement, comment se font les passages de rivires, etc. ?
Le fait de passer par un deuxime oprateur nest pas une garantie, car ce der-
nier peut fort bien emprunter une ligne loue auprs du premier oprateur. Il
peut donc tre utile de se renseigner sur tous ces points et, pourquoi pas, de
parcourir en voiture le trajet emprunt par les cbles.
Quant aux oprateurs mobiles, ils encourent des problmes du mme ordre,
ceci prs que certaines portions de cblage sont remplaces par des ondes hert-
ziennes dont la fiabilit va dpendre des pylnes, des antennes, des metteurs
et dautres matriels informatiques. La tlphonie mobile est galement sensi-
ble aux intempries, des vents forts pouvant, par exemple, endommager les
antennes.

Autocommutateur
Lautocommutateur accueille les lignes tlphoniques externes et distribue les
appels sur dautres liens internes. Associs lautocommutateur, on trouve sou-
vent dautres matriels tels que des serveurs interactifs de rponse vocale, des
botes vocales, des rpondeurs, des systmes de routage dappels, des moyens
de confrence, etc.

193
Management de la continuit dactivit

Il faut alors procder comme pour une petite salle informatique, en vrifiant les
points suivants :
la liste des quipements, avec descriptions et numros de srie ;
les contacts et numros du service de maintenance, en cas de panne ;
les sauvegardes qui doivent avoir t faites et leur lieu de conservation ;
des lments tels que les alimentations lectriques secourues, les alarmes en
cas de dpassements de temprature ou de taux dhumidit ;
la scurit daccs : les cls du local de lautocom (ferm cl) doivent tre en
possession de quelques personnes responsables identifies ;
les systmes anti-incendie : ceux-ci doivent tre prvus et leurs tests avoir t
excuts et nots.
La similitude avec la salle informatique ne sarrte pas l : il est en effet possible
de louer un autocom de secours qui peut tre amen dans un conteneur et con-
nect au rseau de lentreprise. Ce type de contrat peut avoir t prvu en
secours (voir le chapitre 3).
La similitude avec les pratiques des informaticiens est cependant faible, la tl-
phonie restant un monde part.

Rseau informatique
Le rseau informatique du lieu de travail se dcompose lui aussi en trois parties,
qui prsentent une analogie forte avec la tlphonie :
le rseau local (LAN Local Area Network), proche du poste de travail des
employs ;
des matriels de commutation ou de routage, des contrleurs de rseau, des
serveurs bureautiques ou dimpression, des imprimantes dpartementales,
situs en gnral dans de petites salles ou des sites appropris dans les
locaux ;
le rseau externe lentreprise, pour lequel les commentaires sont les mmes
que prcdemment pour la tlphonie.
Le rseau fdrateur (backbone) de lentreprise, prsent en salle informatique, est
trait dans le chapitre 8.

Rseau local (LAN)


Le Local Area Network (LAN) est le rseau interne aux bureaux qui connecte les
postes de travail aux divers quipements utiles.
Comme on la vu plus haut, une partie du cblage du rseau interne lentre-
prise, de mme que certains moyens de rpartition, est souvent trs voisine phy-
siquement de la tlphonie. Les mmes remarques sappliquent donc en ce qui
concerne les goulottes, les cabinets de rpartiteurs, etc.
Lapparition de la tlphonie sur IP transforme le tlphone en vritable termi-
nal Internet branch sur le LAN. Ce tlphone a toutefois besoin dune alimen-

194
Chapitre 9 Infrastructure et poste de travail de lemploy

tation lectrique qui est souvent fournie par le LAN lui-mme, moyennant des
amnagements. Cela ajoute un risque dont il faut tenir compte dans les armoi-
res de cbles.
En rgle gnrale, il faut contrler :
les cheminements des cbles et leur protection ;
les installations de rpartiteurs, ou sous-rpartiteurs, avec des documents
jour, des plans clairs, des terminaisons identifies ;
les salles ou placards utiliss, qui doivent tre ferms cl, les cls tant dis-
ponibles auprs de personnes clairement identifies ;
les moyens anti-incendie, inspects rgulirement avec une preuve de lins-
pection.

Serveurs bureautiques
Les serveurs bureautiques compltent le poste de travail (PC) de lutilisateur et
conservent des documents (fichiers Word, Excel, etc.), permettant de fournir du
stockage local ainsi que des moyens dimpression et de messagerie, par exem-
ple. Leur dfaillance empche, entre autres, laccs des utilisateurs leurs docu-
ments, lchange de messages et limpression. Ces serveurs sont considrs de
plus en plus souvent comme critiques par les entreprises.
La pratique qui consistait installer ces serveurs bureautiques prs des photo-
copieuses ou des machines caf a vcu. Les grandes orientations actuelles
consistent dplacer et consolider ces serveurs, en fonction de leur mission :
sur des NAS (voir le chapitre 8), pour les serveurs de fichiers, souvent dpla-
cs dans un centre informatique ;
sur de gros serveurs de messagerie (en grappe ou redondance), situs en
gnral dans un centre informatique ;
sur de petits serveurs ddis aux impressions avec une imprimante locale,
dpartementale ou multifonction proche des utilisateurs.
Au vu de ces volutions, les serveurs bureautiques rejoignent les serveurs de
stockage associs au centre informatique. Ils bnficient alors de toute linfra-
structure et des systmes de sauvegarde du centre.
Si lentreprise utilise encore des serveurs bureautiques dlocaliss, il faut alors :
identifier les administrateurs et les responsables ;
sassurer quil ny a pas de surchauffe ou danomalies denvironnement (vibra-
tions, humidit hors norme) ;
sil y a des sauvegardes, sassurer quelles sont bien ralises et entreposes
en lieu sr ;
sil y a des imprimantes, limiter la quantit de papier entrepose prs des
machines, qui constitue un risque supplmentaire dincendie.

195
Management de la continuit dactivit

Le poste de travail

Le poste de travail de type PC a une importance variable dans linformatique


gnrale de lentreprise. Historiquement, linformatique est apparue bien avant
le PC et utilisait des terminaux passifs. Les premiers PC ne servaient qu la
bureautique et leur connexion rseau entre eux et aux serveurs ne sest faite que
progressivement. Aujourdhui, lutilisateur ne connat plus linformatique que
par son PC.

Une importance variable


Au sein de lentreprise, plusieurs usages du PC cohabitent des degrs divers.
Avec les architectures dites client-serveur , le PC a acquis une importance
nouvelle : il devient dpositaire dune partie des applications de lentreprise,
dont certaines sont critiques.
Le PC est toujours la base des applications bureautiques (traitement de texte,
tableur) qui sont de plus en plus intgres dans le systme dinformation de
lentreprise.
Le PC est trs souvent aussi un client lourd de messagerie, dpositaire de
la bote aux lettres de son utilisateur.
Il est quelquefois utilis en tant que client lger ou simple navigateur web,
auquel cas il peut tre remplac par des terminaux lgers.
Les donnes quil manipule sont prsentes soit sur son disque dur, soit sur
un serveur de fichiers local de lentreprise (voir NAS ou serveur de fichiers
dans le chapitre 8), soit sur un serveur central au centre informatique.
Le PC est donc dpositaire dune partie plus ou moins importante des donnes
vitales de lentreprise. Mme si cette part est actuellement en diminution, car on
prfre centraliser le stockage sur des moyens plus srs, on ne peut pour autant
lignorer.
Par ailleurs, en tant que poste de travail commun, les accs aux serveurs et
applications centraliss de lentreprise passent par le PC, sa perte empchant
donc tout travail sur linformatique.
Enfin, certains utilisateurs crent, modifient et suppriment sur leur PC des don-
nes vitales pour lentreprise. Cette pratique quelque peu dangereuse existe par
exemple dans certains services financiers o des donnes ainsi gres sont
injectes dans des outils de reporting comptable. Ces donnes prsentent un
risque (pas uniquement en termes de continuit, dailleurs) quil faut identifier.
On les appelle donnes utilisateurs (user data).
Se prmunir contre la perte du PC revient donc protger des donnes, protger
des applications et permettre de continuer travailler malgr tout.

196
Chapitre 9 Infrastructure et poste de travail de lemploy

Protection des donnes


Trois niveaux de protection sont gnralement pratiqus en ce qui concerne les
donnes manipules sur PC .
1. Aucune protection : si le PC est dtruit ou si le disque dur est hors service,
la donne est dtruite ou plus exactement perdue.
2. Protection locale : lutilisateur dispose dun graveur de DVD, dun enregis-
treur sur cassette ; les donnes quil veut conserver sont ainsi sauvegardes
localement.
3. Protection par le rseau : les donnes du PC sont conserves sur un serveur
NAS ou autre, o les sauvegardes sont organises.
En matire de continuit dactivit, il est important pour lentreprise de sassu-
rer que les sauvegardes sont effectues convenablement. Si ce nest pas le cas, il
faut modifier la manire de faire en gnralisant la protection par le rseau (cas
n 3).

Protection des applications


Pour les applications utilises sur PC, le mme schma se retrouve quelques
dtails prs.
1. Aucune protection : en cas de perte, lapplication nest a priori pas rcupra-
ble.
2. Protection locale : le CD dinstallation a t conserv et on peut rinstaller
localement lapplication perdue.
3. Protection par le rseau : en cas de perte, lapplication peut tre tlchar-
ge et rinstalle partir dun lieu de conservation central.
Il est clair que les pratiques sont tudier pour vrifier que les applications vita-
les de lentreprise se trouvent bien dans le dernier cas (sur le rseau). Une am-
lioration des pratiques est envisager srieusement si ce nest pas le cas.
Certaines entreprises limitent la protection locale (cas n 2) au strict minimum,
voire linterdisent, cette pratique de bricolage local tant juge dangereuse.
Certains outils sont capables, partir du rseau, de dtecter des applications
installes localement et de les dsactiver aprs avoir averti un administrateur.

Comment continuer travailler ?


Pour pouvoir continuer travailler en cas de sinistre, lutilisateur aura besoin de
rcuprer ses donnes et ses applications locales. Cela est ralisable dans les
cas suivants :
lorsque celles-ci sont accessibles via le rseau (cas n 3 ci-dessus) et que le
rseau est en tat ;
lorsque celles-ci sont rcuprables via un support correctement conserv
mme si le contexte est plus difficile et alatoire ;

197
Management de la continuit dactivit

lorsquaucune donne ou application nest conserve en local (cas du termi-


nal lger) : lutilisateur na alors besoin que de se connecter au serveur.
Tout dpendra donc de la disponibilit du rseau et des accs aux serveurs.
Dautre part, lutilisateur a besoin de rcuprer son outil de travail : un PC simi-
laire celui quil a perdu, ou bien un terminal lger. Il faut donc conserver un
stock de PC prts lusage et assez voisins des PC quils remplacent. Ce type de
stock est assez souvent prvu dans les contrats de maintenance amliore, o il
sagit de remplacer un PC en panne dans un dlai rapide que la maintenance
standard ne permet pas dobtenir. Il faut alors bien vrifier que le cas du sinistre
est prvu, la particularit dans cette situation tant en effet le nombre important
de PC changer dun seul coup.
Le PC rcupr doit tre conforme aux modles (masters) de lentreprise : il doit
respecter certaines caractristiques techniques physiques et logicielles, dispo-
ser dun certain nombre dapplications pr-installes et configures. De plus, sa
scurit doit tre prvue en respect des normes de lentreprise.
Pour rcuprer un poste de travail, il est aussi possible de recourir des porta-
bles stocks labri ou de permettre lemploy de travailler de chez lui avec
son ordinateur personnel.

PC portables
Par rapport ce qui prcde, le portable possde un avantage il peut tre
conserv labri et un inconvnient : il nest pas connect au rseau en perma-
nence.
Le problme de la sauvegarde individuelle se pose davantage dans le cas des
portables, o elle est plus facilement tolre, pouvant dailleurs prendre des for-
mes simples comme la gravure sur DVD ou la cl USB. Afin que le portable bn-
ficie des facilits de lentreprise, il est indispensable de le connecter
rgulirement pour sauvegarder sur le rseau son contenu et pour mettre jour
son systme et ses applications.
Dautre part, en cas de sinistre, le portable a moins de chance den tre victime
(absent ou stock dans un coffre). Mais sil est sinistr, rcuprer ses donnes
sera plus difficile. Il est donc trs important de sensibiliser son titulaire afin quil
stocke ses donnes le plus souvent possible sur le rseau de lentreprise ou sur
un mdia amovible quand il se dplace.
Le PC portable possde une batterie qui le met labri des coupures de courant.
En revanche, en cas de stockage prolong, il faudra penser la charge et la
bonne sant des batteries.
Enfin, ce type de PC est beaucoup plus sensible au vol, la perte ou la destruc-
tion durant les dplacements.
Il existe des armoires spciales pour conserver les PC portables. Certaines sont
de vritables coffres forts, rsistent au feu et permettent mme de charger les
batteries. Les solutions les plus volues autorisent aussi les connexions rseau

198
Chapitre 9 Infrastructure et poste de travail de lemploy

permettant des mises niveau de logiciel, le tout alors que les PC portables se
trouvent dans le coffre.

Travail domicile
En cas de sinistre, il arrive que lentreprise demande ses salaris de travailler
depuis leur domicile. Loutil de travail utilis peut varier :
cela peut tre un PC portable prt par lentreprise que le salari se procure
au bureau ou conserve chez lui ;
cela peut tre un PC fixe qui, en gnral, appartient lemploy mais sur
lequel lemployeur a install certains logiciels.
Gnralement, pour tre efficaces, ces PC sont connects Internet de diverses
manires et peuvent accder certains serveurs de lentreprise. En cas de sinis-
tre, cette solution peut permettre de gagner du temps : lemploy rentre chez lui
et accde des applications dentreprise ou des services lous chez un tiers,
pour la messagerie par exemple.
Ce type de travail particulier veille des questions relatives aux quipements de
travail la maison, la responsabilit et aux cots, qui doivent tre dfinies
clairement lavance entre lemployeur et le salari, voire figurer dans le contrat
de travail. Les cots lis aux communications doivent tre pris en compte et
lemployeur fournir un service appropri de support technique. Question scu-
rit, cest lentreprise de prendre les mesures qui simposent pour assurer la
protection des donnes utilises et traites par le travailleur distance (achat
de logiciel spcifique, mise en place dun systme de scurit daccs au serveur
de lentreprise, mode terminal ou client lger, etc.). De son ct, le tltra-
vailleur doit respecter les rgles de lentreprise le concernant : confidentialit,
restriction lusage des quipements ou outils informatiques, etc.

Les ressources humaines

Il nest de richesse que dhomme , dit le proverbe. Lentreprise ne doit donc


pas ngliger de prendre en considration les ressources humaines dans son
approche de la continuit. Cela concerne les employs comme les prestataires
externes.
Deux approches diffrentes sont envisageables, lemploy pouvant tre victime
dun sinistre ou, linverse, tre de son fait lorigine dun sinistre ou dune
interruption dactivit (malveillance ou erreur humaine).

La malveillance
Parmi les actions malveillantes dommageables la continuit de lactivit, on
trouve :
le dpart de personnel provoquant des manques de comptence graves ;

199
Management de la continuit dactivit

larrt de travail en production avec ou sans blocage dlments importants


pour la continuit de lentreprise ;
le vandalisme, dampleur variable, commis par des lments intrieurs
lentreprise ;
le terrorisme ou sabotage ;
leffacement, volontaire ou non, de donnes, logiciels ou systmes ;
le vol de documents importants pour la continuit de lentreprise ou la
scurit ;
des saisies de donnes volontairement fausses, des lancements de program-
mes inexacts ou avec de mauvais paramtres dans lintention de nuire ;
les modifications volontaires de comportement de logiciel, les virus informa-
tiques, etc.
Plus proches de la thmatique de la scurit, ces considrations touchent l la
limite du sujet de cet ouvrage. Des listes plus approfondies de ces menaces sont
disponibles auprs des associations professionnelles qui ont dvelopp des
approches de la scurit et des parades (comme le Clusif avec Mehari, par
exemple : voir en annexe 1).
En rgle gnrale, la pratique face aux actes de malveillance consiste :
1. dtecter les postes sensibles et connatre les personnes qui les occupent ;
2. accorder des droits daccs prcis et scuriss pour les employs ces pos-
tes (logons informatiques, accs des salles, accs des listings imprims,
etc.) ;
3. suivre et tracer tous les vnements ayant lieu sur ces postes, avec des jour-
naux informatiques par exemple, des mains courantes, des enregistrements
vido (internes et externes) ;
4. mettre en place des contrles rguliers (par la hirarchie, la DRH) ;
5. sassurer autant que possible que les actions malveillantes ventuelles ne
sont pas irrmdiables et peuvent tre rcupres (par des sauvegardes et
des secours divers) ;
6. enfin , tudier les contrats dassurance pour vrifier comment la malveillance
y est incluse.
Tout ceci doit bien sr seffectuer dans le respect de la lgislation.

Laide aux victimes


Dans les cas o les ressources humaines sont victimes du sinistre, on pensera
alors :
aux premiers secours, bien videmment ;
lassistance psychologique mettre en place ;
aux aides familiales auprs des proches ;
aux comptences et remplacements prvoir ;

200
Chapitre 9 Infrastructure et poste de travail de lemploy

la communication des vnements ;


tablir des listes prcises des victimes ;
la fatigue de ceux qui travaillent ou assistent au sauvetage ;
dterminer ce que lon peut faire et ce que lon doit faire et demander de
laide pour couvrir le dcalage.

201
Chapitre 10

Le centre
informatique

Avec les divers mouvements de consolidation des matriels informatiques de


lentreprise, le centre informatique se trouve dpositaire dlments trs impor-
tants pour la disponibilit et la continuit des activits.
Le centre informatique lui-mme possde une infrastructure particulire quil
faut choisir et grer avec soin afin de satisfaire aux objectifs de continuit de
lentreprise.

Choix du site

Idalement au nombre de trois (primaire, secondaire et distant), les centres


informatiques sont localiss sur deux sites : un premier site sur lequel sont
organiss les centres primaire et secondaires en duo ou campus et un
deuxime site distance convenable, sur lequel on prvoit le centre de secours
distant.
Cette dualit du premier site est un idal que natteignent que les entreprises
ayant un niveau dexigence trs lev en matire de continuit dactivit. Les
autres se contentent dun site dit principal convenablement fiable selon leurs
critres, doubl dun site distant pour le secours.
Ce deuxime site distance est considr comme moins critique que le site
principal. Toutefois, ce site distant est en ralit trs souvent le site principal
dune autre branche de lentreprise ou dune autre socit ; il est alors aussi cri-
tique que les autres. Le choix du site doit donc dans tous les cas de figure tre
effectu avec la plus grande attention, base de critres raisonns.
Lapprciation des risques prsente dans le chapitre 1 a donn une liste des
principaux facteurs prendre en compte, laquelle on se reportera. Lors du
choix dun site pour y crer un centre informatique, il est ainsi possible de slec-
tionner un emplacement permettant de minimiser ces risques. Lapproche est
tout de mme dlicate, car il faut trouver des compromis : un site idalement
situ, loin des tremblements de terre et des inondations, sil est loin de toute

203
Management de la continuit dactivit

ville agrable et de toute universit risque fort de nattirer aucun employ


comptent ! Il faut donc graduer les exigences et peser le pour et le contre de
critres potentiellement contradictoires.

Vulnrabilit du site
On se reportera sur ce point au chapitre 1. Nanmoins, lorsquil sagit de choisir
une nouvelle implantation, il est intressant dvaluer aussi la vulnrabilit des
diffrentes solutions possibles.
Pour un dsastre donn, la vulnrabilit dun site se mesure en pertes financi-
res, mais aussi et surtout en pertes humaines. Sur ce deuxime point, il faut
considrer un certain nombre de facteurs, tels que :
la densit de population dans la zone considre ;
la comprhension scientifique du risque ;
le niveau dducation et de sensibilisation du public ;
lexistence de systmes davertissement, de communication, dalerte ;
la disponibilit ou non dinfrastructures de secours et leur degr de
prparation ;
le respect des rgles de construction, les pratiques locales ;
certains facteurs culturels dterminant la raction du public.
Tous ces points peuvent en effet jouer sur les comportements et donc sur les
consquences du sinistre.

Attractivit du site
Le site envisag doit attirer des collaborateurs (le site totalement vide tant une
vue de lesprit) et offrir un environnement propice aux activits. Ce sujet sort du
thme de cet ouvrage, mais citons nanmoins :
lexistence de collges, de lyces, duniversits ou dcoles dingnieurs
proximit ;
la qualit de vie (voir par exemple les classements faits par certaines revues
du genre les villes o il fait bon vivre ) ;
lvolution des populations (en baisse ou en hausse) ;
la facilit se loger sur place ( lhtel ou en logement fixe) ;
le droit du travail et la protection sociale (pour les sites ltranger) ;
la connaissance ou non des caractristiques des lieux (la notion de zone
inondable, zone risque, etc. existe-t-elle sur place ?) et leur suivi dans le
temps.
La continuit dactivit est en effet aussi une affaire de comptence et de moti-
vation du personnel.

204
Chapitre 10 Le centre informatique

Climat des affaires


Le site doit se trouver dans un environnement propice aux affaires. Cela con-
cerne aussi bien la situation conomique et politique, mais vu sous langle de la
continuit dactivit, on observe les points suivants :
la prsence de compagnies dassurance et doffres de contrats convenables ;
une fourniture de qualit pour llectricit, la tlphonie, le rseau ;
la proximit des points daccs rseau, ou des points de prsence pour la
fibre optique haut dbit ;
la facilit acqurir un terrain plus vaste que le simple centre informatique ;
le cot de limmobilier pour le site et les collaborateurs ;
la possibilit dobtenir des offres de services de secours, dhbergement
informatique, de conseil, etc.
En particulier lorsque lon a choisi ltranger, ces points peuvent savrer dter-
minants pour la bonne mise en uvre dun plan de continuit.
Rgles de prcaution
titre de prcaution, certaines rgles sont gnralement admises et respectes
pour le choix dun site, quelle que soit la ville ou le pays :
tre situ plus dun kilomtre de toute voie ferre, autoroute, voie de pas-
sage de cargos, usine classe risque ou usine de traitement des eaux ;
tre situ plus de cinq kilomtres de tout aroport ;
tre assez loign dmetteurs radio ou radars puissants (qui normalement
nacceptent rien proximit) ;
tre distance suffisante dune centrale nuclaire, apprcier selon les
pays ;
ne pas tre trop loign dun poste source lectrique (moins de cinquante
kilomtres), les dfauts dalimentation lectrique tant souvent proportion-
nels cette distance ;
se tenir en dehors de toute zone inondable, loin de laval dun barrage ;
avoir accs facilement leau potable et de leau en gnral pour refroidir
ou teindre un incendie.
Bien videmment, si ces rgles sont valables lorsquon choisit le site, elles peu-
vent ne plus sappliquer ultrieurement.
Il est souhaitable, dans la logique du plan de continuit, de dterminer les crit-
res jugs valables par la direction, de leur accorder un certain poids, puis de les
valuer ou faire valuer. Les notes obtenues permettent alors de dpartager les
sites candidats.

205
Management de la continuit dactivit

Infrastructure du centre informatique

Le centre informatique accueille des lments critiques tels que des serveurs,
des rseaux, du stockage, etc. Il permet leur fonctionnement mais peut aussi
provoquer des pannes diverses et varies dont certaines sont de mode commun
(voir le chapitre 7) et donc prjudiciables la continuit.
lments critiques
Les lments du centre informatique pouvant connatre des pannes prjudicia-
bles la disponibilit sont nombreux : les contraintes en termes de fiabilit et
de scurit portant dessus sont tudier soigneusement. On peut citer en
particulier :
la chane des alimentations lectriques qui doivent tre redondantes, prot-
ges et que lon doit pouvoir couper par sections ;
les capacits gnrer du courant lectrique en cas de coupure (batteries,
alternateurs, gnrateurs Diesel ou fioul) doivent tre dimensionnes correc-
tement en puissance, qualit de courant et dure de production ;
la climatisation doit tre suffisamment fiable et adapte aux calories va-
cuer et sa maintenance ne doit pas ncessiter larrt gnral ;
les ventuels points chauds de la salle doivent tre dtects et refroidis loca-
lement, la temprature des lments sensibles (serveurs) surveille ;
les filtrations dair doivent aussi maintenir le bon taux dhumidit ;
les systmes de scurit daccs et de surveillance vido doivent permettre la
traabilit des accs dans le respect des lois ;
les systmes de dtection et de scurit incendie peuvent viter des dommages
importants : leur bon tat de fonctionnement doit tre vrifi rgulirement ;
les planchers et faux planchers doivent pouvoir supporter le poids des machi-
nes (qui volue la hausse) ;
les canalisations deau doivent viter toutes les zones o une fuite serait
catastrophique ;
les cbles lectriques et de rseau SAN, IP, etc. doivent suivre des chemine-
ments distincts ;
les interventions de maintenance doivent pouvoir se faire en perturbant le
moins possible lensemble ; dans certains cas, il faut prvoir des bipasses.
En rsum, un centre informatique est un ensemble de technologies diverses
qui doit avoir fait lobjet dune tude dingnierie de conception visant une
bonne disponibilit et une rparabilit aise.
Rfrentiels et normalisation
Durant les annes 2000-2005, des travaux concourants ont abouti un ensemble
de bonnes pratiques pour la conception et lamnagement des centres informa-

206
Chapitre 10 Le centre informatique

tiques. Des comits dutilisateurs ou de normalisation se sont penchs sur le


sujet, tels que le Uptime Institute aux tats-Unis ou la Telecommunications Industry
Association (TIA), auteur de la norme TIA 942.
Ces travaux ont class le niveau de service dun centre informatique en quatre
catgories (tiers en anglais), du plus faible au plus lev. Le tableau suivant pr-
sente quelques caractristiques de ces quatre catgories ou classes.

Tableau 10-1 : Les quatre classes du centre informatique, selon le Uptime Institute

Classes Caractristiques principales


1 alimentation lectrique sur une voie
refroidissement sur une voie
nombreux points uniques de dfaillance
pas de gnrateur lectrique si autonomie lectrique de huit minutes
vulnrable aux intempries
indisponibilit infrieure 28,8 heures par an
2 alimentation lectrique sur une voie
refroidissement sur une voie
quelques composants redondants
gnrateur de secours
supporte 24 heures de coupure de courant
quelques critres de choix de site
salle informatique formellement spare
indisponibilit infrieure 22 heures par an
3 alimentation lectrique et refroidissement sur plusieurs voies dont une seule
active
alimentation et refroidissement redondants
fournisseurs de service doubls
supporte 72 heures de coupure de courant
critres levs de choix de site
rsistance au feu : 1 heure
permet la maintenance chaud (concurrente)
indisponibilit infrieure 1,6 heures par an
4 alimentation lectrique et refroidissement sur plusieurs voies actives
composants gnralement redondants
tolrance aux pannes
supporte 96 heures de coupure de courant
critres trs exigeants de choix de site
rsistance au feu dau moins 2 heures
scurit physique de haut niveau
quipe de maintenance prsente 24h/24 7j/7
indisponibilit infrieure 0,4 heure par an

Bien videmment, un site donn peut se trouver en classe 3 sur un thme et en


classe 1 sur un autre. Cest cependant le plus bas (donc 1) qui lemporte car la

207
Management de la continuit dactivit

chane de disponibilit prend la valeur du maillon le plus faible. Dans la prati-


que, nombre de fournisseurs ne pouvant prtendre compltement la classe 4
(car il leur manque certains lments) mais estimant tre meilleurs que la classe
3 qualifient leur centre informatique de 3+ .
Il existe certaines diffrences dapproche et de contenu entre le Uptime Institute et
la TIA 942. Pour plus de dtails, se rfrer aux documents cits en annexe 2.
Lorsque lentreprise a recours un prestataire externe pour son centre informa-
tique, elle a tout intrt spcifier dans son cahier des charges des rfrences
aux classes dfinies par ces normes.

Les principaux risques et leur parade

Un centre informatique est expos, comme tout btiment, aux risques habituels
que sont lincendie, linondation, la foudre, etc. Le fait quil hberge des l-
ments critiques pour lactivit de lentreprise et dtienne des informations sen-
sibles en stockage exige une dmarche oriente dans deux directions :
un niveau de protection ou de prvention lev ;
une capacit relle limiter les consquences.
Lorsquon conoit un centre partir de zro, il est possible de jouer sur les deux
tableaux, et en particulier sur la prvention. Lorsque le centre existe dj, en
revanche, les menaces sont dj prsentes et il faut alors en limiter les cons-
quences ventuelles.

Incendie
Le feu, dans un centre informatique ou ses annexes, peut avoir des consquen-
ces graves, dont certaines sont difficiles percevoir immdiatement.

Dgts
Les dgts dun incendie sont directs et vidents : pertes de stocks et de docu-
ments, destruction de biens et de rserves diverses, dommages causs par leau
ncessaire lextinction du feu, locaux devenus impropres leur usage, etc.
Mais dautres dommages atteignent le centre informatique de faon beaucoup
plus pernicieuse :
affaiblissement de certaines structures du btiment telles que des poutres ou
des murs ;
destruction de cloisons ou vitrages, rendant nulles les isolations de zones
risque ;
dgts peu visibles dans les faux planchers, les gaines surleves de passage
de cbles, les systmes de climatisation ;
dtrioration importante des isolants des cbles, devenus impropres leur
usage et risquant de provoquer des courts-circuits ;

208
Chapitre 10 Le centre informatique

problmes dus aux fumes et manations toxiques.


En outre, les incendies peuvent avoir des effets indirects qui sapparentent des
pannes de mode commun : ainsi, si une coupure gnrale de lalimentation
lectrique est requise et que les gnrateurs Diesel sont interdits de fonctionne-
ment, aucun serveur ne pourra fonctionner. Si, de plus, la connexion rseau vers
lextrieur du site est hors service, ces situations peuvent mettre en danger toute
action de reprise sur un site voisin ou loign et rduire ainsi nant toute stra-
tgie de continuit.

Parades
Les parades mettre en place sont de plusieurs natures. Les listes donnes ci-
aprs ne prtendent pas tre exhaustives mais sont particulirement adaptes
au contexte du centre informatique.
Prvenir
Des actions lmentaires de respect de certaines rgles se rvlent trs efficaces
en termes de prvention :
ne pas laisser dans une zone risque des cartons demballage, du polystyrne
et autre combustible lorsquune machine est dballe, son emballage doit
tre sorti de la salle et mis en un lieu prvu cet effet ;
organiser le stockage des rserves de papier pour imprimantes de manire
ne pas fournir de combustible au feu ;
respecter les recommandations des constructeurs pour les alimentations
lectriques des machines et les sections de cblage ;
inspecter les cbles lectriques, changer immdiatement tout cble dnud,
toute connexion noircie ou suspecte ;
faire respecter les interdictions de fumer (le mgot mal teint est une cause
importante dincendie) ;
rglementer lusage des chauffages lectriques dappoint, des machines
caf et de tout autre appareil qui maintient une temprature leve ;
liminer de la salle informatique et de ses abords tout ce qui peut constituer
un combustible ;
respecter et faire respecter la rglementation en vigueur ;
faire visiter les locaux par les services incendies (un expert des pompiers, par
exemple) pour obtenir un tat des lieux et ventuellement connatre les ris-
ques du voisinage ;
sparer les cheminements de cbles conducteurs de courant fort de ceux
transmettant du courant faible ;
passer une fois par an laspirateur dans le dessous des faux planchers ;
inspecter les goulottes de cbles en nettoyant tout ce qui na pas sy trouver.

209
Management de la continuit dactivit

Ragir
Ds les premires flammes, il faut ragir. Certaines ractions permettent de
rduire les dgts, voire darrter le feu avant quil y ait sinistre. Les actions sui-
vantes peuvent contribuer encourager les bons comportements :
mettre en place des extincteurs appropris aux diffrentes natures de feux
possibles, les garder en bon tat par une maintenance rgulire et indiquer
clairement leur emplacement ;
former rgulirement le personnel au bon usage des extincteurs avec des
exercices pratiques ;
mettre en place les dtecteurs appropris capables de dclencher lalarme ;
concevoir un dclenchement dalarme correct, capable dentraner des
actions telles que :
fermer des portes coupe-feu,
activer des systmes dextinction,
prvenir les secours,
ouvrir les verrous lectroniques de portes pour permettre les vacuations,
alerter le personnel dvacuation,
ventuellement, arrter des machines sensibles ;
squiper en systmes dextinction qui conviennent lenvironnement dune
salle informatique (gaz neutre non mortel, conforme aux normes) ;
dterminer les lments sensibles en cas dincendie (cassettes, bandes,
documents) et prvoir un stockage appropri (coffre ignifug, par exemple) ;
poser des affiches et communiquer sur le comportement adopter en cas
dincendie ;
faire des exercices dvacuation du centre ;
tester les quipements.
Dans tous les cas, la mthode la plus efficace consiste dtecter le plus tt pos-
sible lincendie, en prvenant des personnes formes qui organisent les actions
prvues, tout en ayant sensibilis le reste des employs.

Dgt des eaux


Sous cette appellation gnrique, on trouve des sinistres dimportance variable
susceptibles daffecter le centre :
inondations avec des consquences pouvant aller jusqu rendre un centre
totalement inutilisable ;
pluies importantes avec des ruissellements, des infiltrations de toiture ou de
faade provoquant des dommages au btiment, aux machines et aux stocks
en gnrant des infiltrations ;
infiltrations ou fuites provoquant des dgts que lon ne dcouvre pas forc-
ment tout de suite, mais qui dtriorent des sous-ensembles du centre ;

210
Chapitre 10 Le centre informatique

condensations localises qui rongent des conduites, abment lentement des


revtements ou des plafonds, provoquent des courts circuits.

Consquences
Les effets des dgts des eaux sont directs et indirects, de mme que les para-
des seront immdiates et diffres.
Effets directs : la prsence de leau empchant toute activit dans le centre,
il faut ragir immdiatement en pompant leau et en la dversant en contre-
bas, si cest possible, ou dans un bac tanche ;
Effets indirects : une fois leau vacue, le centre connat des moisissures,
des courts-circuits, etc. ; il faut asscher les murs, dtruire et reconstruire des
cloisons, ter et reposer les tapisseries, les moquettes, le cblage lectrique
et tlphonique cela peut prendre plusieurs semaines pendant lesquelles le
centre est inutilisable.
Les effets des dgts des eaux peuvent aller bien au-del de ce quon imagine en
premire analyse et il nest pas rare de dcouvrir, une fois les eaux vacues, des
pannes diverses sur des systmes qui ont t endommags par un sjour dans
leau ou par un simple degr dhumidit trop lev.

Prcautions prendre
Lorsquon peut dcider de limplantation dun centre, les prcautions dj men-
tionnes plus haut consistant viter toute zone inondable simposent. Pour
tous les autres cas, il est intressant denvisager les solutions suivantes pour la
prvention et la raction en cas de sinistre :
prvoir des bassins dexpansion situs plus haut que le centre et se fournir en
pompes de relevage dun bon dbit ;
drainer les alentours du centre et en amliorer ltanchit ;
surlever la partie la plus sensible du centre ;
ne pas faire passer de canalisations deau au-dessus dlments sensibles ;
si le centre possde un systme de refroidissement eau, en prvoir la circu-
lation en niveau bas ;
prvoir des systmes anti-fuite ou de coupure en cas de fuite sur les
canalisations ;
prvoir des bipasses et des piges froid pour pouvoir changer les vannes
dfectueuses ou certaines pompes sans avoir tout interrompre ;
pour tout systme (climatiseur, canalisation froide) qui risque lhumidit ou
la condensation, prvoir une rcupration de leau ainsi produite par bac ou
lchefrite ;
laisser les canalisations apparentes et accessibles de manire ce quon
puisse les inspecter facilement.
Par ailleurs, il est important de tenir compte du fait que linondation mne la
plupart du temps une coupure lectrique. Il est donc judicieux davoir conu le

211
Management de la continuit dactivit

centre de manire ce que les systmes les plus sensibles soient mis hors
datteinte de leau avec une alimentation par batteries et/ou gnrateur Diesel,
eux-mmes hors deau.

Dysfonctionnements lectriques
Lalimentation lectrique est indispensable pour tous les moyens informatiques
du centre. Ses dfauts sont ainsi fortement prjudiciables au bon fonctionne-
ment des machines.

Dfauts courants
Parmi les dfauts courants de lalimentation lectrique, on peut noter :
les variations de tension, les microcoupures ;
les parasites ou courants induits (par les ballasts de tubes fluorescents, par
exemple) ;
des perturbations diverses en frquence ou des dfauts dus des onduleurs
de qualit mdiocre ;
les problmes de rfrences de potentiels multiples et dlectricit statique ;
la foudre qui gnre des courants pouvant avoir des consquences destructri-
ces distance.
Les divers quipements ragissent de manire variable ces dfauts. Certains
quipements industriels vont dailleurs eux-mmes en gnrer. Si le centre est
voisin dune usine quipe de machines lectriques (gros moteurs lectriques,
appareils de soudure lectrique), il faudra tre particulirement vigilant.

Prcautions prendre
Parmi les prcautions utiles prendre, citons les actions suivantes :
sparer les matriels sensibles comme les serveurs ou les routeurs de rseau
des matriels perturbateurs (moteurs lectriques, par exemple) ;
prvoir des transformateurs ayant la puissance ncessaire ;
gnraliser la mise au neutre ;
choisir des cbles de qualit et sassurer que leur pose a t effectue
correctement ;
prvoir des cheminements de cbles vitant les perturbations mises ;
sparer le passage des alimentations nominales de celui de lalimentation de
secours (prcaution gnrale : voir les chapitres prcdents) ;
vrifier rgulirement les connexions.

Moyens techniques
Pour amliorer la qualit du courant apport en salle informatique, il est possi-
ble de recourir des dispositifs tels que des onduleurs ou des moteurs lectri-
ques volant dinertie doubls de batteries. En gnral, ces moyens permettent

212
Chapitre 10 Le centre informatique

dattnuer les dfauts du courant dorigine publique et de pallier certaines


coupures de courte dure (dix minutes).
Pour des coupures de plus longue dure, il faut avoir les moyens de gnrer soi-
mme du courant, via des gnrateurs Diesel ou gaz. Les onduleurs batterie
doivent assurer le relais jusqu ce que ceux-ci entrent en action.
Quant la foudre, elle ncessite une protection technique par paratonnerre en
particulier. On utilise aussi les parafoudres pour protger linstallation lectri-
que et les lignes de transmission de donnes, la fibre optique tant prfrer
dans ce cas.
Enfin, llectricit statique peut se rvler dangereuse dans le cas des opra-
teurs intervenant sur les serveurs et touchant des lments sensibles (cartes
mres, processeurs) qui peuvent se trouver gravement endommags. Il faut
rgler correctement lhygromtrie de la salle, poser des revtements antistati-
ques au sol et porter des vtements en textiles ne produisant pas dlectricit.
Pour tous ces moyens techniques concourant la bonne disponibilit du centre,
il faut prvoir une surveillance correcte et un contrat de maintenance permet-
tant la remise en route rapide, incluant des pices de rechange si ncessaire.

Autres risques
Enfin, un centre informatique est expos dautres risques encore que ceux qui
ont t tudis prcdemment.

Dfaut de climatisation
La climatisation peut tomber en panne, que ce soit en raison dune coupure
lectrique (dj mentionne) ou pour des raisons plus particulires, telles que :
des fuites de liquide rfrigrant ;
des pannes de ventilateurs ou daro-rfrigrant externe ;
lexposition un rayonnement solaire direct trop lev.
Dans tous les cas, la temprature monte et atteint des zones impropres au bon
fonctionnement des machines, serveurs, stockage, etc. Les mesures prventives
consistent alors prvoir des redondances des systmes de climatisation (de
type n+1), doubler les alimentations et surveiller et maintenir ces systmes.
En cas de dfaillance totale, larrt des machines sensibles ou responsables des
plus gros dgagements de chaleur est prvoir rapidement.
Il existe aussi un risque plus rcent dinsuffisance chronique de refroidissement
dans certains endroits de la salle informatique o sont concentrs certains ser-
veurs qui dgagent plus de calories que la moyenne. La parade face ce pro-
blme consiste alors :
ne pas remplir compltement les racks de machines ;
disperser dans la salle les machines ou groupes de machines de ce type ;
prvoir des complments ponctuels de refroidissement aux points chauds.

213
Management de la continuit dactivit

Ces technologies, qui concentrent la puissance informatique et donc par la mme


occasion le dgagement calorifique, peuvent amener repenser la conception de
lensemble de la climatisation de la salle ou amnager une salle particulire.

Intrusions de personnel
Lentre dans le centre ne doit tre rserve quau personnel habilit. Il existe en
effet diffrents risques :
vols de matriel, de sauvegardes ;
mise sur coute, pose de bretelles tlcom ;
vandalisme, destructions diverses.
Une protection efficace sera apporte par :
des mcanismes de contrle daccs simples (gardien) ou sophistiqus (iden-
tification et authentification par carte, etc.) ;
la traabilit des personnes entrant sur le site (nom, prnom, jour, heure, per-
sonne visite) ;
la difficult daccs dans le centre (portes verrouilles, absence de baies vitres) ;
une vidosurveillance des alentours du site ;
la mise sous protection des lments sensibles comme les tableaux lectri-
ques, les moyens de coupure divers ou les rpartiteurs tlcom, qui ne doi-
vent pas tre accessibles au premier venu ;
une procdure de contrle la sortie des employs emportant du matriel ou
des sacs pouvant en contenir.

Pollutions diverses
Normalement, ces aspects ont d tre pris en compte dans le choix du site sur
lequel le centre est install. Cependant, pour les centres situs dans des zones
industrielles ou proximit dun site industriel, il existe certains risques lis la
pollution :
manation de gaz dangereux pour le personnel ou le matriel ;
poussires de diverses natures ;
eau impropre son usage.
Toutes ces atteintes toxiques peuvent se traduire par des problmes de sant,
des dysfonctionnements de matriel, des risques de courts-circuits ou dincen-
die, des dclenchements dalarme intempestifs, etc.
La parade pourra tre apporte par :
des filtrations adaptes ;
des portes coupe-feu ;
des clapets dans les gaines de circulation dair ;
des zones en lgre surpression ;
une protection des rserves deau.

214
PARTIE IV
La gouvernance
de la continuit
Historiquement, les proccupations de continuit dactivit sont apparues
divers endroits dans lentreprise et diffrents niveaux de son organigramme.
Les dmarches sont tantt techniques, tantt organisationnelles ; elles sont
restes partielles, opportunistes et peu coordonnes.
Une prise de conscience au plus haut niveau est en train de soprer. Elle pousse
les directions gnrales considrer la continuit dactivit dans son ensemble
et mettre en place les lments dune bonne gouvernance qui sont traits dans
les trois chapitres suivants :
la politique de continuit (chapitre 11), dont l objectif est de mettre en place
une structure ;
le lancement des actions dlaboration du PCA et sa maintenance
(chapitre 12) ;
le contrle ou la vrification de sa bonne excution (chapitre 13).
Chapitre 11

La politique
de continuit

Le mot politique inexactement employ comme traduction de langlais


policy signifie ici lexpression dune volont de la direction gnrale de
lentreprise. Ainsi, ce terme recouvre aussi bien la volont que lexpression : il
sagit donc dun document actant des dcisions, accompagn dune communica-
tion interne lentreprise. Cette politique se traduit dans les faits par la mise en
uvre dun plan de continuit.

Exprimer une volont

La politique, en matire de continuit, correspond une dcision de la part de


la direction gnrale de lentreprise, qui exprime ainsi sa volont et ses engage-
ments.
La volont de dvelopper un plan de continuit dactivit est exprime dans un
document mis par la direction gnrale. Ce document, simple et facile lire
(cinq pages environ), sert de cadre gnral dans lequel toutes les actions ult-
rieures en termes de continuit dactivit pourront et devront sinscrire. Voici un
descriptif type de sa structure :

Politique de continuit dactivit


1. Rsum
2. Introduction
3. Conditions dapplication
4. Objet
5. Primtre
6. Dcision
7. Bnces
8. Responsabilits
9. Rfrences

217
Management de la continuit dactivit

1. Rsum
Le rsum permet dannoncer lessentiel en quelques lignes.
Exemples
Les directeurs de branche doivent mettre en uvre un plan de continuit dactivit.
Les responsables de groupe doivent montrer quils ont pris en compte lobligation
davoir un plan de continuit efcace.
Les plans doivent tre conus, publis et tests pour les activits juges critiques.

2. Introduction
Lintroduction donne le cadrage gnral, ainsi quune description du contexte.
Exemples
En termes de continuit dactivit, la socit X a ralis un plan de continuit qui nces-
site une adaptation et un largissement depuis son rachat par la socit Y.
Ce document exprime lorientation gnrale de lentreprise Z sur les deux ans venir.

3. Conditions dapplication
Ici sont exprimes les conditions dapplication de la politique de continuit : sa
date dentre en vigueur, sa situation par rapport au pass, etc.
Exemples
La prsente politique sapplique compter du jj/mm/aaaa.
Elle annule le document mis prcdemment.

4. Objet
En fonction de la culture de lentreprise et des travaux dj raliss, on prcise
ensuite lobjet prcis de la politique.
Exemples
Proposer une structure gnrale pour les actions de continuit lancer.
Dvelopper des plans de continuit.
Amliorer le plan de continuit et en tendre le primtre.
Dgager un budget pour les actions de continuit menes par les directions
oprationnelles.
Lancer une campagne de test des plans existants.

5. Primtre
Une fois lobjet dtermin, la politique prcise le primtre du plan de conti-
nuit, avec ses exclusions ventuelles.
Exemples
Le primtre est lensemble de la SA en France.
Les principaux fournisseurs de logistique sont inclus dans le primtre.
Les liales situes hors de lUnion Europenne ne font pas partie du primtre.

218
Chapitre 11 La politique de continuit

6. Dcisions
Exprimant clairement et de faon structure ce qui est dcid par la direction,
cette section reprsente le cur du document.
Exemples
Les directeurs dunits seront les responsables chargs de dnir leurs activits critiques
et le niveau de continuit dsir.
La structure du plan de continuit suivra les modles fournis par la norme PAS 56.
Les directeurs de rgion mneront des revues annuelles du plan.
Des tests de simulation seront mens une fois par an dans les rgions, sous la responsa-
bilit des chefs de zone.
Les contrats avec les prestataires devront inclure une clause ad-hoc.

7. Bnces attendus
Il sagit maintenant de justifier la dcision. On trouve ici des arguments que lon
peut rutiliser pour expliquer ou justifier la dmarche.
Exemples
Amlioration du service rendu au client.
Limitation des consquences dun sinistre sur les personnes, les biens et
lenvironnement.
Rendre la reprise du travail plus efcace aprs un incident de type X.

8. Responsabilits
La dfinition des responsabilits est importante pour encourager des comporte-
ments bien aligns.
Exemples
Le responsable de la continuit rendra compte au comit directeur de ltat davance-
ment des travaux.
Le comit de continuit est dpositaire de la prsente politique ; il signalera au comit
directeur les ventuels amnagements y apporter.
Les responsables de branche sont responsables de la mise en uvre du plan dans cha-
cune de leur branche.

9. Rfrences
On indique ici les ventuelles normes suivre ou les documents de politique ou
directives dune maison mre, par exemple.

Nommer un comit de pilotage

La direction gnrale dsigne une structure de type comit de pilotage (ou


COPIL) pour le plan de continuit. Comme la plupart du temps, ce plan nexiste

219
Management de la continuit dactivit

pas au dpart, cest cette structure qui se voit confier la mise en place ou la cra-
tion dun plan de continuit dactivit (PCA) en bonne et due forme.
Parmi les attributions de ce comit, on trouve :
respecter et faire respecter les orientations de politique dfinies
prcdemment ;
dfinir les objectifs du projet de mise en uvre dun plan de continuit
dactivit ;
fournir le support et les aides ncessaires au bon avancement du projet ;
suivre lavancement du projet (ce qui est accompli, ce qui reste faire, risques
encourus) ;
dcider des orientations et rorientations ventuelles du projet ;
grer le budget allou au projet.
Ce comit se runit rgulirement (toutes les semaines ou tous les quinze jours)
et publie un compte rendu.
La responsabilit du projet en lui-mme incombe un directeur de projet qui
fait souvent partie du comit de pilotage. Les diffrents chefs de projet rendant
compte ce directeur peuvent tre rattachs divers services. Il est judicieux
demployer pour ce projet particulier les mmes structures de projet utilises
habituellement par lentreprise. Enfin, il est indispensable que ce projet ne soit
pas men uniquement par des personnes sans exprience oprationnelle. Ils
peuvent tre dtachs temporairement mais doivent avoir une bonne connais-
sance et habitude du terrain.

220
Chapitre 12

Construire
et maintenir le plan
de continuit
Suite une dcision de la direction gnrale, lentreprise doit construire son
plan de continuit en mode projet sous la matrise dun comit de pilotage. Des
actions de sensibilisation des employs laccompagnent.
Une fois le plan de continuit mis en uvre, la vie continue, lentreprise volue,
les hommes changent. Or, pour tre efficace, le PCA doit toujours rester dactua-
lit. Cest le but de la maintenance du plan.

Lancement du projet de PCA

Le projet de PCA doit tre lanc par le comit de pilotage (COPIL) cr dans le
cadre de la note de politique.
Un brin de crmonial (du type runion de lancement) est souvent utile pour
marquer les esprits. Les oprationnels et les responsables dunits doivent en
effet savoir pertinemment quils vont tre mis contribution et comprendre pr-
cisment ce que lon attend deux.
Quiproquo au CoDir : linformatique ne peut dcider seule !
La socit Mding lance un projet de PCA en France.
Son approche part des quipes informatiques de production (au sens exploitation ).
partir de modles de questionnaires tablis par sa maison mre dans un pays dEurope,
certains des responsables dexploitation informatique tablissent des questions prcises
sur les serveurs, avec diffrents critres de rponse. Ils demandent alors des responsa-
bles de dveloppement informatique de remplir les fameux questionnaires, ce quils font
sans trop se poser de questions.
On obtient nalement des informations sur les temps possibles dinterruption des ser-
veurs Uranus, Neptune et Saturne.
En comit de direction (CoDir), le responsable du PCA flicite les responsables mtiers
davoir rpondu aussi vite. Ceux-ci carquillent les yeux, car bien que responsables de leur
processus, personne nest jamais venu les questionner sur la sensibilit au sinistre de
leurs activits.

221
Management de la continuit dactivit

Intrigu, le responsable du PCA enqute et dcouvre que personne na jamais demand


quoi que ce soit aux responsables dactivits et que pour eux, dailleurs, Uranus, Neptune
et Saturne ne sont que des plantes !
Ce quiproquo permet donc de recommencer lopration selon une meilleure manire de
faire : repartir des processus, observer les temps darrt admissibles, puis traduire cela en
termes informatiques. Le rsultat constat est alors fort diffrent : autres matriels,
autres contraintes...
Moralit : le personnel du service informatique ne peut et ne doit pas deviner la place
des oprationnels, alors que ces derniers ne connaissent pas leffet de leurs demandes sur
linformatique ce qui est somme toute normal ! Il faut donc veiller consulter les res-
ponsables oprationnels au mme titre que les techniciens.

Concernant la planification de projet et le reporting, il est conseill demployer


les mthodes usuelles dans lentreprise. En effet, mieux vaut sur ces points vi-
ter dapporter trop de nouveaut.

Formation et sensibilisation

Afin dviter bien des msaventures sur un projet unique dans lhistoire de
lentreprise, il est bon davoir mis en place un programme de formation et de
sensibilisation.
Ce programme pourra comporter plusieurs sessions allant de la sensibilisation
gnrale des formations plus approfondies destines aux chefs de projets.

Formation des chefs de projet


Une session de formation pour chefs de projet peut comporter les aspects
suivants :

Objectifs
Donner aux participants des connaissances de base permettant de compren-
dre les approches et les enjeux de la continuit dactivit (CA).
Permettre aux responsables dexpliquer et dinitialiser correctement une
dmarche CA dans lentreprise.
Fournir une mthode pour aborder la CA en entreprise et aboutir la ralisa-
tion dun PCA.

Contenu
Introduction : dveloppement dun PCA (tapes importantes, documents
types, principaux concepts, dfinitions).
Construction du PCA :
Matrise du risque : quels sont les principaux risques et comment les aborder ;
comment mesurer et approcher le risque ; comment le diminuer ?

222
Chapitre 12 Construire et maintenir le plan de continuit

Analyse dimpact sur les activits : que lentreprise doit-elle craindre ; quelles
sont les activits critiques ?
Dveloppement dune stratgie de continuit : quelles sont les options disponibles ;
lesquelles tudie-t-on ; comment choisir ?
Dveloppement dun PCA : contenu du plan, travaux effectuer, attribution des
missions, ceci afin daboutir un plan ralisable ; prsentation de listes
types utiles.
Test du plan : comment sassurer que tout fonctionne ; quels types de tests
effectuer ?
Maintenance du PCA : que faut-il surveiller ; comment mettre jour le plan ?
Gouvernance de la CA :
document de politique gnrale ;
comit de pilotage ;
projet de dveloppement ;
formation et sensibilisation ;
lois et rglements prendre en compte ;
associations utiles.
Conclusion : demain, je commence par quoi ?

Rsultat
la fin de la formation, le participant a acquis une comprhension des enjeux et
une vision claire des actions mettre en place en premier lieu. Il peut avoir
accs des outils en ligne pour initialiser sa dmarche.

Sensibilisation gnrale
Les sessions de sensibilisation peuvent tre organises pour toucher le maxi-
mum de personnel. Elles doivent faire passer des messages simples et durer
tout au plus une demi-journe.
Certaines entreprises organisent ces sessions rgulirement dates fixes sur
une priode : tous les lundis aprs-midi pendant deux mois, par exemple.

Coordination

Le projet dlaboration du PCA touche bien des aspects de lentreprise. Les tra-
vaux quil met en uvre interfrent maints endroits avec dautres activits
appartenant dautres projets en cours.
Il est donc important de garder une vue globale et cohrente de lensemble.
cet effet, un rle de surveillance doit tre dvolu un comit directeur dans
lentreprise, afin de dtecter les besoins en coordination et de procder aux arbi-
trages ncessaires.
Par ailleurs, de par sa nature transverse, la continuit dactivit ncessite
dentreprendre des actions communes ou tout au moins coordonnes avec des

223
Management de la continuit dactivit

organismes locaux ou nationaux, avec des directives internes ou externes, avec


des prestataires ou confrres impliqus, etc. Le rle de coordination est donc
fondamental.

Le projet de mise en uvre du PCA

la suite dune dcision de la direction gnrale, lentreprise est donc tenue de


mettre en uvre un plan de continuit dactivit (PCA). Cest un projet part
entire, essentiel pour lentreprise.
Ce projet de mise en uvre du PCA suit les principaux jalons indiqus dans cet
ouvrage du chapitre 1 au chapitre 5 : apprciation des risques, analyse dimpact
sur les affaires, dveloppement dune stratgie de continuit, politique et
cadrage du plan, attribution des diffrentes missions et planification des activi-
ts. Ces jalons peuvent servir bon escient au dcoupage du projet en diffren-
tes phases. En effet, ils se prtent bien une planification des actions, avec des
charges attribues et des livrables clairs. La plupart des livrables sont illustrs
dans les chapitres cits.
Concernant les choix techniques ncessaires llaboration de la stratgie de
continuit, on peut cette fois sappuyer sur les chapitres de la troisime partie
de cet ouvrage. Quant au test du PCA, qui vient un peu plus tard dans le projet,
la procdure et les enjeux sont dcrits dans le chapitre 6.
Pour les socits qui possdent dj un PCA et qui veulent lamliorer, le projet
damlioration peut commencer par une campagne de tests. Les actions dam-
lioration des dfauts ainsi rvls constituent alors les tapes suivantes.
Le rle de contrle exerc par la direction gnrale ou le comit de pilotage est
capital. Il faut en effet vrifier rgulirement :
le degr davancement du projet dtablissement du PCA sur ses principales
tapes ;
les frais engags et les charges consommes ;
lvaluation du reste faire ;
les principaux problmes rencontrs ;
les actions correctives entreprises.
Si tout se droule bien selon ce schma, lentreprise devrait, la fin du projet,
disposer dun PCA conforme ses orientations.

Maintenance du PCA

La politique exprime par la direction gnrale a donc permis de lancer le projet


de ralisation du PCA, qui a t men bien. Il faut alors le maintenir en ordre

224
Chapitre 12 Construire et maintenir le plan de continuit

de fonctionnement. Cet aspect devra tre ncessairement mentionn dans la


politique.
En effet, lorsque lentreprise dispose dun PCA oprationnel, il lui faut malgr
tout faire face diverses perturbations :
les menaces et les risques voluent ;
les activits de lentreprise changent ;
lentreprise elle-mme subit des transformations, dmnage, rachte des
filiales ou se fait racheter ;
la technologie offre des possibilits nouvelles ;
les processus de lentreprise se modifient ;
les personnels voluent ; certains partent, dautres arrivent ;
les fournisseurs et les clients ne sont plus les mmes.
Tout ceci fait que le PCA initial devient erron en partie et inapplicable en ltat.
Il faut donc le modifier, ladapter et sassurer quil demeure valable malgr tout.
Cest le rle du processus de maintenance du PCA, qui seffectue au travers
dune gestion des changements.

Un processus difcile
La gestion des changements est un exercice difficile dans bien des domaines, et
dautant plus dans la continuit dactivit.
Grer les changements suppose en effet que quelquun soit tenu au courant de
tout ce qui a chang et le traduise dans une modification du PCA. Mission
impossible ! Les changements surviennent de toute part et sont souvent effec-
tus par les oprationnels sur le terrain qui nen avertissent pas forcment le
gestionnaire des changements du PCA. Or celui-ci ne peut les dcouvrir tout
seul et, par consquent, encore moins en tenir compte. Une discipline de fer est
ncessaire pour que les oprationnels prviennent systmatiquement le ges-
tionnaire lors dun changement, et hormis les transfomations videntes telles
quun dmnagement de site, dans la plupart des cas, aucune certitude nexiste.
Cest pour cette raison que nombre de changements sont en fait dcouverts lors
des tests. Ceux-ci constatent en effet des inexactitudes dues des changements
non rpercuts.
Faut-il pour autant ne rien faire ? Non, bien sr, mais limportant est de rester
pragmatique. Avant tout, il faut nommer un responsable de la continuit dacti-
vit en charge de la maintenance du plan.

Veille des changements


Certains changements peuvent tre dcouverts au moins partiellement par un
responsable de la continuit (RC), dans trois domaines :

225
Management de la continuit dactivit

les mutations de personnel : certains spcialistes changent de poste, quit-


tent lentreprise ou sont promus ; certains responsables changent, dans
lentreprise comme chez les fournisseurs employs pour la continuit ;
les volutions technologiques : des solutions techniques nouvelles sont
mises en uvre, tandis que les anciens systmes sont abandonns. Ces
changements ne sont hlas pas facile dtecter dans leur totalit ;
lvolution de lorganisation des processus et des activits de lentreprise :
ce qui tait critique au dpart peut ltre moins et inversement. Ces modifica-
tions peuvent tre prises en compte.
Le RC doit donc mettre en place un systme de veille ou de dtection. Cela peut
se faire de plusieurs manires :
en observant ce qui se passe, en consultant les annonces internes, en suivant
les mutations, les projets, etc. ;
en contactant les chefs de projets et en les sensibilisant limportance de la
communication de ce type dinformations ;
en mettant des circulaires pour rappeler certains lments importants, faire
circuler des listes et demander vrification ;
en se faisant rgulirement confirmer par les responsables dactivit ce qui
est critique ou non, les diffrents dlais de reprise, etc. ;
en demandant laccs des outils de gestion de configuration o certains
changements sont dtectables ;
en demandant tre mis en copie lors de la cration de nouveaux projets,
etc. ;
en tranant du ct de la machine caf
Il est intressant de mettre ce poste un responsable reconnu et charismatique.
Il sagit parfois dun responsable de groupe, voire du coordonnateur du PCA
(voir le chapitre 4).
Important
Le devoir de rendre compte en cas de changement ayant un impact sur le PCA est un
message essentiel faire passer lors des sessions de sensibilisation.

Politique de test ncessaire


La source la plus vidente pour identifier les changements est le rsultat des
tests. Il peut dailleurs tre intressant dy chercher les changements que lon
aurait pu dcouvrir sans test, uniquement en ayant averti le responsable de la
gestion des changements du PCA, ceci afin damliorer la procdure de commu-
nication ce sujet. Il existe aussi des situations o les tests font apparatre des
besoins de changements autres que dans le PCA proprement dit dans les com-
portements, par exemple.
tant donne son importance cruciale pour le maintien en tat oprationnel du
PCA, une politique de test est elle-aussi ncessaire. Elle doit prvoir les types de

226
Chapitre 12 Construire et maintenir le plan de continuit

tests, leur frquence et leur ordonnancement dans le calendrier. Les aspects pra-
tiques de mise en uvre des tests sont dtaills dans le chapitre 6, et seuls les
points de politique et dorganisation sont donc prsents ici.

Types de tests
Il est important de bien organiser les tests de manire optimiser le rapport
entre test et rsultats et viter de se retrouver dans des situations bloquantes.
Exemple : O sont les bandes ?
La socit DFD a ralis sur le papier un PCA sommaire. Elle na aucune culture de test
de PCA. Elle dcide de raliser sur trois jours un test en simulation, avec relle mise en
uvre dun ensemble de serveurs de secours sur un site distant chez un prestataire.
Pour ce test ambitieux, la socit rserve un support grand systme et Unix de haut
niveau chez ledit prestataire. Ces spcialistes coteux sont rservs pour trois jours fer-
mes.
Le premier jour, H0, il faut aller chercher les cassettes de sauvegarde dans le lieu o
elles sont conserves. Petit cafouillage : qui doit y aller ? O est-ce exactement ? Aprs
deux heures de discussion (H+2), deux techniciens partent en voiture sur le fameux site
de conservation des cartouches de bandes. Arrivs sur place : problme ! Personne ne
veut les accepter. On nentre en effet pas comme dans un moulin sur ce site scuris, exer-
cice de test ou pas ! Le compteur tourne Au bout dune heure et aprs changes de fax,
ils peuvent enn accder aux lieux (H+3).
Arrivs enn si prs du but, autre problme : parmi toutes ces armoires, laquelle est la
bonne ? O sont les cls ? Qui peut renseigner ? Et dans larmoire : quelles sont les casset-
tes reprendre ? Toutes ? Cela ne tiendra jamais dans la voiture ! Quelques-unes ?
Lesquelles ? Nous sommes dj H+4. Le problme est enn rsolu H+5, il ne reste
plus qu trouver la route pour se rendre sur le site de secours, ce qui na pu se faire sans
le tlphone portable et les collgues
Pendant ce temps l, les experts systmes sont facturs au prix fort, quasi ne rien faire.
Moralit : avant de se lancer dans un test de grande ampleur, vrions les listes, tablis-
sons qui fait quoi, allons voir sur place comment cela se prsente, notons les noms de
ceux qui dtiennent les informations En bref, prfrons dabord des tests de type check-
list ou walk-through.

Il existe une certaine logique respecter dans la dmarche de test, qui doit tre
progressive. Pour une socit peu entrane en la matire, il faut considrer les
points suivants :
commencer par de petits tests bien cibls sur un problme concret et un pri-
mtre restreint (voir lexemple prcdent de la recherche des sauvegardes,
que lon peut tester part) ;
organiser plusieurs petits tests de ce type assez rapprochs (tous les mois) un
peu partout dans la socit ;
augmenter progressivement limportance des tests et le primtre concern ;
capitaliser chaque fois en tirant des conclusions pdagogiques des tests et
en modifiant les documents du PCA aux points ncessaires ;

227
Management de la continuit dactivit

utiliser ventuellement des cas rels vcus pour organiser une session de
formation ;
prouver par lexemple que tout ce processus est bnfique : le mme test qui
a pris quatre heures avec des difficults sera refait le mois suivant en une
heure, une fois les difficults aplanies ;
ventuellement, faire des tests gigognes (le test 3 cumulant les tests 1 et 2),
afin de montrer une progression.
Il est intressant de dvelopper ces aspects et de les suivre au cours de lanne
par une communication auprs des comits de direction, des dpartements, etc.

Frquence des tests


Il est courant de considrer que la frquence et lambition des tests sont inver-
sement lies. Plus la frquence est leve, moindre est lambition en termes de
contenu, de primtre et de cot.
La sensibilit au besoin de test est variable selon les entreprises, les cultures et
le caractre des quipes dirigeantes. Certaines socits organisent un test trs
important tous les ans, un test moyen tous les six mois, et de petits tests de type
check-list tous les mois. Dautres sont moins exigeantes et font des check-lists tous
les six mois et des tests plus ambitieux tous les deux ans, voire plus. Il existe
aussi une proportion non nulle de socits qui ne testent rien ou font juste son-
ner les alarmes incendie. Ne rien tester revient constater labsence de PCA ou
programmer sa mort. En effet, aucun PCA non test nest viable moyen
terme.
Par consquent, il est important de maintenir un climat, non pas de test, mais
de prparation au sinistre. Cela passe notamment par la ralisation de tests
concernant un petit primtre mais frquents.
Les tests mensuels
On peut organiser tous les mois des tests assez lgers et peu perturbateurs per-
mettant de vrifier certains points prcis, comme lexactitude des listes ou
lactualit des divers documents. Le chapitre 6 prsente cela en dtail.
Ces exercices de test, peu exigeants en ressources et peu coteux, ne mobilisent
quune partie des groupes (voir le chapitre 4) et des spcialistes impliqus dans
la continuit dactivit.
Les tests trimestriels
Chaque trimestre, on peut pratiquer des exercices un peu plus larges et plus
complexes que les prcdents, permettant de passer en revue certains points
particuliers sur lesquels subsistent encore des doutes : droulement des opra-
tions du PCA suite la dcouverte du sinistre, communication en cas de sinistre,
clauses des contrats de service, mise en place des groupes dont les membres ne
se connaissent pas, activation du centre de crise, etc.

228
Chapitre 12 Construire et maintenir le plan de continuit

Il est important dimpliquer dans ces tests le personnel qui serait impliqu en
situation relle, en faisant appel des responsables hirarchiques opration-
nels.
Les tests semi-annuels
Moins frquents, plus ambitieux et plus onreux, ces tests peuvent recourir la
simulation en la combinant avec les dmarches de revue et de check-list des tests
prcdents. Ils permettent par exemple de vrifier lensemble du PCA en simu-
lant un sinistre sur un primtre raisonnable, ou encore de simuler la dispari-
tion de certaines activits critiques et leur reconstruction sur un site de secours
dans les dlais impartis. On peut, ce stade, effectuer en simulation ou en
parallle un ensemble de tests qui a t auparavant correctement effectu en
check-list ou walk-through ou, pour une thmatique donne, passer en revue le PCA
complet pour dtecter ce qui risque de bloquer (accs scuriss, autorisations
de connexions, mots de passes, etc. pour la scurit, par exemple).
Ces tests ne pourront tre organiss que si les tests moins ambitieux qui prc-
dent ont t mens bien, suivis des actions correctives ncessaires. Procder
ainsi permet en effet de dcouvrir assez tt et de corriger par anticipation cer-
tains points de blocage qui auraient fauss un exercice de plus grande ampleur.
Le test annuel
Prvu pour passer en revue lensemble du PCA en simulation ou en interruption
partielle ou totale, ce test est le plus complet que lon puisse pratiquer.
Peu dentreprises testent lensemble de leur PCA, depuis lexpression des
besoins sur le site de secours jusquau retour sur le site primaire et au bilan. Il
est vident que la faisabilit dun tel test dpend galement beaucoup des
moyens que la socit consacre cette activit. En outre, lorganisation de tests
de cette ampleur implique souvent clients et fournisseurs et, dans certains cas,
certaines socits alertent aussi la presse pour crer un vnement.
Dans la mme optique, il est galement intressant de faire participer lentre-
prise des tests organiss par les autorits ou autres acteurs simulant par
exemple un accident nuclaire ou une explosion dusine grandeur nature.

Vue densemble des tests


La diversit des tests est telle que cela ncessite un minimum de ligne direc-
trice, afin de mettre en vidence leur intrt. Les apports rels en termes de for-
mation et damlioration du PCA doivent tre souligns. La publication dun
document pluriannuel annonant les tests par lentit responsable du PCA
prend alors tout son sens, uvrant la bonne comprhension de la politique de
continuit de lentreprise.
Ce document permet en effet de prsenter une situation en volution, en partant
de tests simples et rguliers pour aboutir des tests annuels plus complexes.

229
Management de la continuit dactivit

Prise en compte des conclusions daudits


Afin dvaluer la mise en uvre de la politique de continuit de lentreprise, la
ralisation daudits est indispensable. Des dtails sur ce sujet sont donns dans
le chapitre 13. Les audits produisent des rsultats dont il faut absolument tenir
compte, car ceux-ci vont avoir un impact non ngligeable sur le PCA.
Laudit permet en effet de constater plusieurs types danomalies :
des carts entre la politique de lentreprise et la ralit ;
des diffrences entre ce qui est crit dans le PCA et la ralit du terrain ;
des risques non couverts.
Ces constatations vont entraner des modifications dans le PCA, permettant
dassurer sa bonne maintenance.
En outre, lapparition imminente de normes internationales dans le domaine de
la continuit dactivit va permettre de donner aux audits le rle essentiel de
faire apparatre certains besoins de mise en conformit, eux-aussi sources de
modifications du plan (voir en annexe 1).
Changements dans lentreprise, rsultats des tests, conclusions daudits tous
ces aspects devront tre pris en compte pour modifier le plan de continuit en
vue de le maintenir dactualit et de lamliorer.
Gestion des changements du plan
Au cours des diffrentes procdures dcrites prcdemment (veille des change-
ments, tests, audits), lensemble des besoins de modifications dans le plan de
continuit est ainsi collect. Ces besoins vont se traduire en demande de chan-
gements.
On entre alors dans un processus classique de gestion des changements, por-
tant sur un ensemble de prescriptions et de documents. Les principales tapes
en sont :
1. collecter et classer les diffrentes demandes de changements en fonction
des chapitres du plan sur lesquels elles portent ;
2. faire analyser et valider ces demandes par les diffrents responsables concer-
ns, savoir les personnes en charge des sections correspondantes du plan
de continuit, certains responsables dactivits ou des chefs de groupes (voir
le chapitre 4) ;
3. attribuer les modifications aux entits concernes et les faire raliser en
mode brouillon ;
4. vrifier lensemble des modifications effectues en brouillon pour y
dtecter dventuelles incohrences ou des difficults de mise en uvre ;
5. aprs dventuelles corrections, faire un dernier tour de rvision pour obtenir
les approbations de tous les responsables concerns ;
6. intgrer les modifications dfinitives dans le plan de continuit en respec-
tant la gestion de version et les rgles de mise jour en place cela peut se

230
Chapitre 12 Construire et maintenir le plan de continuit

faire sur un systme documentaire centralis ou sur des copies dcentrali-


ses qui seront mises jour chacune par leurs responsables en suivant une
procdure coordonne ;
7. avertir les oprationnels des changements du plan.
Cas particulier : Mise jour des listes
Parmi les dfauts dtects dans le plan et ncessitant une modication, on retrouve sou-
vent le problme des listes de matriel, de personnel, etc., qui devraient rendre compte
des mouvements de machines et de personnels, mais qui, de fait, ne sont souvent pas
tenues jour.
Pour ce type de modications, plutt que demployer la procdure de gestion des change-
ments dcrite ici, il convient dadopter une gestion particulire de type gestion de
conguration plus proche du terrain. Ces listes devront donc tre mises jour rgulire-
ment, au fur et mesure des volutions. Il est important daccorder le plus grand soin
ce processus.

231
Chapitre 13

Le systme
de contrle

Pour toute orientation manant de la direction gnrale, il convient de sassurer que


la ralit du terrain sy conforme : cest alors quintervient le contrle. Toute politique
saccompagne dune vrification de son excution, et donc dun systme de contrle.
En ce qui concerne le PCA, la pratique est encore nouvelle pour bien des entre-
prises. Nanmoins, des dmarches fondes sur les rfrentiels et les bonnes
pratiques quils prsentent se mettent peu peu en place.

Objectifs

La dmarche de contrle de la continuit dactivit permet dapporter des


rponses aux deux questions suivantes :
la volont de la direction gnrale est-elle bien traduite sur le terrain ?
par quels moyens la direction gnrale peut-elle faire passer les inflexions de
sa politique dans les faits ?

Dnir une structure de rfrence


La premire chose faire est de dfinir un cadre de travail qui va servir de rf-
rence indiscute. Cela peut tre une norme, un ensemble de pratiques juges
bonnes, un rfrentiel mtier, etc.
Dans le domaine de la continuit dactivit, les rfrentiels existants proviennent
actuellement plutt du monde anglo-saxon. Ce sont des normes comme celles du
Disaster Recovery Institute (USA) ou du British Standard Institute (Royaume Uni). LAFNOR
a elle aussi entam des travaux sur ce sujet. Lannexe 1 fait le point sur ces normes.
Rien nempche cependant une socit de se construire son propre rfrentiel,
mme sil existe de bonnes raisons prchant en faveur dun rfrentiel externe.
Cela permet de couper court toute discussion, en invoquant largument
suivant : nous suivons la rfrence du march .
Cela facilite les comparaisons entre plusieurs socits.

233
Management de la continuit dactivit

En contexte international ou dans le cadre dun groupe de socits de cultu-


res diverses, cela permet davoir une approche neutre.
Lors de fusions dentreprises, cela facilite lunification.
Par dcision de la direction gnrale, la socit doit donc se construire ou, de
prfrence, se choisir un rfrentiel et le conserver.
Ce rfrentiel est gnralement structur en grands chapitres, comme le montre
lexemple de structure suivante :

Rfrentiel de continuit dactivit N 1


1. Matrise des risques
2. Analyse dimpact sur les activits
3. Stratgie de continuit
4. Plan de continuit
5. Test du plan
6. Gouvernance de la continuit

Voici un autre exemple :

Rfrentiel de continuit dactivit N 2


1. Connaissance des risques et des impacts
2. Stratgie de continuit
3. Affectation des responsabilits
4. Dnition du planning
5. Test du plan

Il apparat dans ces exemples que la structure choisie, en cinq sept points,
dcline toutes les actions ncessaires pour prtendre avoir une vritable mise
en uvre de la continuit en entreprise.

Dterminer les objectifs


La direction gnrale dtermine alors, dans le cadre choisi, les objectifs quelle
veut atteindre, sous la forme dinstructions. Ces instructions dtaillent les titres
de chapitre du rfrentiel choisi.
Les encadrs qui suivent donnent des exemples.
Pour la matrise du risque :

Objectifs
1. Documenter le cadrage de la dmarche
2. Identier les menaces et les risques
3. Faire la liste des biens exposs
4. Analyser les options possibles
5. Faire une prconisation documente

234
Chapitre 13 Le systme de contrle

Pour lanalyse dimpact sur les activits :

Objectifs
1. Documenter le cadrage de la dmarche
2. Analyser les processus dactivit
3. Dterminer les congurations concernes
4. Dterminer les processus critiques et leurs paramtres
5. laborer une stratgie documente

Pour le plan de continuit :

Objectifs
1. Documenter le cadrage de la dmarche
2. Dnir ce quest un sinistre
3. Prciser les primtres
4. Dnir les groupes et leurs responsabilits
5. Mettre en place un centre de gestion de crise
6. tablir un planning rpartissant les activits en diffrentes tapes
7. tablir un plan de communication
8. tablir un plan daffectation
9. Mettre en place un systme de documentation

Pour les tests du plan :

Objectifs
1. Documenter le cadrage de la dmarche
2. Expliquer les objectifs des campagnes de tests
3. Dcrire les types de tests prvus et leurs impacts
4. Prconiser des moyens pour les tests
5. Formaliser le suivi des tests
6. Documenter les conclusions

Comme on le voit sur ces exemples, ces objectifs sont tout la fois suffisamment
gnraux pour tre universels dans leur application et suffisamment prcis pour
orienter lentreprise dans une direction choisie. Trs importants pour lentreprise,
ils sont valables long terme (au moins trois ans) et sappliquent toutes les
variantes organisationnelles ou gographiques que lentreprise connat.

Dcliner les objectifs


Les chapitres du rfrentiel choisi ont t, dans un premier temps, dtaills en
objectifs atteindre. Dans un second temps, ces objectifs sont dclins pour

235
Management de la continuit dactivit

tenir compte des spcificits locales et dtaills plus finement pour tre plus
prcis.
Il existe plusieurs manires de procder. Le plus souvent, il est intressant de
traduire lobjectif en quelques questions (entre trois et sept) qui pourront tre
poses la direction locale, ou sur lesquels un auditeur pourra sappuyer pour
son valuation.
Voici deux exemples :

Chapitre N 1 Matrise du risque


Objectif N 2 Identier les menaces et les risques
Q1. Les critres de slection sont-ils prciss ?
Q2. Les dcoupages raliss sont-ils approuvs ?
Q3. Les responsables dentit concerns sont-ils impliqus ?
Q4. Les exclusions ventuelles sont-elles mentionnes ?
Q5. Les techniques danalyse sont-elles dcrites ?
Q6. Les sources dinformation sont-elles cites ?

Chapitre N 3 Stratgie de continuit


Objectif N 1 Identier les besoins de reprise
Q1. Dispose-t-on dun rappel des analyses prcdentes ?
Q2. Les exigences des processus critiques sont-elles exprimes ?
Q3. La liste des besoins de reprise est-elle fournie ?
Q4. Les besoins sont-ils segments par nature ?
Q5. Les besoins communs sont-ils identis ?

On obtient ainsi une vingtaine de questions par chapitre, cest--dire cent vingt
cent cinquante questions pour lensemble de la politique de continuit. La for-
mulation de ces questions est parfois dlicate. En effet, la rponse ne doit pas
laisser une grande marge linterprtation mais pouvoir, au contraire, sappuyer
sur des faits constatables. Certaines socits de conseil peuvent fournir une
assistance apprciable sur ce sujet assez dlicat.

valuer le plan

partir de ces questions, il va enfin tre possible dobtenir des rponses. Il


existe plusieurs manires de procder :
confier les questionnaires aux responsables des entits concernes et leur
demander de rpondre cest ce quon appelle lauto-valuation ;

236
Chapitre 13 Le systme de contrle

demander un observateur interne lentreprise (auditeur interne) de se for-


ger une opinion et de remplir les questionnaires ;
faire appel un valuateur externe lentreprise ;
employer les trois mthodes prcdentes la fois.
Lvaluation proprement dite peut elle aussi prendre plusieurs formes :
une rponse binaire : oui ou non ;
une chelle de graduation telle que : pas daccord , moyennement
daccord , plutt daccord ou tout fait daccord ;
une note de 0 (mauvais) 5 (excellent).
Il est intressant de faire valuer les mmes points par des personnes diffren-
tes et de constater les carts ventuels.
Les rponses collectes permettent de produire diffrents schmas au pouvoir
explicatif variable. Certaines socits de conseil fournissent des grilles danalyse
et des modles trs explicites.

Synthse Questionnaire 2007


Gestion des risques
7
6
5
4
Maintenance du plan de continuit Analyse dimpact sur les activits (BIA)
3
2
1
0
Note

Test du plan de continuit Dfinition d'une stratgie

Plan de continuit

Figure 13-1 : valuation dune entreprise sur des critres multiples

Tirer les conclusions

Grce cette analyse, la direction gnrale dispose dune photographie de


lexistant. La plupart du temps, lorsque cette image mane des responsables
oprationnels eux-mmes, cet tat des lieux est trs intressant. Il permet en
effet de dterminer les points forts et les points faibles de lentreprise selon le
point de vue des oprationnels.
La direction gnrale, de son ct, peut souhaiter que lentreprise obtienne au
moins une note palier sur certains domaines. Elle peut fixer une note cible

237
Management de la continuit dactivit

atteindre, module selon les ttes de chapitre de sa stratgie. Cela peut sexpri-
mer sur le schma suivant :

Synthse Questionnaire 2007


Gestion des risques
7
6
5
4
Maintenance du plan de continuit Analyse dimpact sur les activits (BIA)
3
2
1
Note Cible
0

Test du plan de continuit Dfinition d'une stratgie

Plan de continuit

Figure 13-2 : Les objectifs par rapport lvaluation

La comparaison entre les souhaits exprims par la direction gnrale et ce qui


ressort des rponses aux questionnaires permet de faire apparatre les points ou
les thmes pour lesquels des amliorations sont ncessaires. L encore, lappel
une socit de conseil peut apporter une aide prcieuse .

Recommencer

Lensemble de ces oprations doit tre effectu nouveau rgulirement, par


exemple tous les ans. Recommencer lexercice permet en effet de :
constater et mesurer les progrs ;
viter de sendormir sur ses lauriers ;
modifier ventuellement les orientations, les instructions, les questions ;
faire varier les niveaux dexigence demands ;
modifier le primtre de lexercice.
Il est galement possible dy ajouter des orientations sortant un peu du cadre de
la continuit dactivit, en matire de scurit ou de qualit par exemple. Mais
cela sort du cadre de cet ouvrage.

238
Annexe 1

Normes et bonnes
pratiques

Aucune norme internationale ne sest encore impose de manire indiscutable


dans le domaine de la continuit dactivit. Certains rfrentiels prsentent
cependant des dmarches intressantes.
Par ailleurs, certaines normes traitant dautres thmatiques connexes (la scu-
rit, par exemple) incluent un chapitre ou un paragraphe concernant la conti-
nuit, et nombre de travaux sur ce thme sont raliss actuellement au sein des
divers organismes de normalisation.

Les normes internationales

Les normes concernant la continuit dactivit sont essentiellement dorigine


amricaine ou britannique. Elles consistent gnralement dcrire les
meilleures pratiques (best practices, en anglais) issues de lexprience des pro-
fessionnels du sujet abord.

Normes de type bonnes pratiques


Le terme norme peut en soi prter confusion. Il ne sagit en effet pas ici de
normes industrielles donnant prcisment les cotes dune pice respecter
absolument, mais plutt de lignes de conduite. Ces normes sont des ensembles
de recommandations mises sur des manires de faire par une association de
professionnels coopts. Ces associations, qui participent galement diffrents
degrs aux travaux de normalisation dans leur pays et lISO (Organisation
internationale de normalisation), se donnent en gnral trois objectifs :
1. partager et accumuler les expriences pour dcrire par crit ce qui fonctionne
le mieux sous forme dun corpus de bonnes pratiques ;
2. former des professionnels ces bonnes pratiques et dcerner des certificats
ou des attestations de formation gradus par niveaux ;
3. faire la promotion de ces professionnels certifis en assurant ainsi une sen-
sibilisation du march aux enjeux de la continuit.

239
Management de la continuit dactivit

Parmi ces associations se consacrant la continuit dactivit, deux organismes


se distinguent :
Le DRII (Disaster Recovery Institute International ou organisation internationale
pour la reprise aprs sinistre ), pionnier dorigine amricaine, est trs actif
depuis 1988.
Le BCI (Business Continuity Institute ou organisme pour la continuit
dactivit ), cr en 1994 et dorigine britannique, est un contributeur impor-
tant auprs de lorganisme de normalisation britannique, le BSI (British Stan-
dard Institute), et de lorganisation internationale de normalisation ISO.

La base de connaissance du DRII


En 1997, le DRI International a publi une base de connaissances collectes et
formalises par ses soins en matire de continuit. Son ambition est de prsen-
ter en dix points ce que tout responsable de la continuit doit matriser. Ces dix
points sont :
1. le dmarrage et la gestion du projet de continuit ;
2. lvaluation et la matrise du risque ;
3. lanalyse dimpact sur les activits ;
4. le dveloppement dune stratgie de continuit ;
5. les interventions durgence ;
6. la mise en place dun plan de continuit ;
7. les programmes de sensibilisation et de formation ;
8. la maintenance et les tests du plan de continuit ;
9. la communication de crise ;
10. la coordination avec les autorits.
Cette somme est internationalement reconnue.

La norme BS 25999
Le British Standard Intitute (BSI), entit de normalisation britannique (quivalent
de lAFNOR en France), a mis rcemment une norme sur le sujet de la
continuit : la BS 25999. Cette norme britannique est lheure actuelle la plus
avance sur le thme de la continuit dactivit et mrite toutes les attentions,
pour plusieurs raisons.
Elle concentre en son sein tout un ensemble de travaux et dexpriences pra-
tiques de premire importance.
Son rayonnement va bien au-del du Royaume-Uni : son influence se fait
sentir dans une cinquantaine de pays.
LISO a jusqu prsent repris bon nombre de normes de type bonnes
pratiques du BSI pour en faire des normes ISO, sans quasiment les modifier.

240
Annexe 1 Normes et bonnes pratiques

BS 25999-1 et BS 25999-2
Comme pour les autres normes rcentes du BSI de type bonnes pratiques , la
norme BS 25999 est scinde en deux parties :
la BS 25999-1 est le code de bonnes pratiques en tant que tel concernant la
mise en uvre de la continuit dans lentreprise ;
la BS 25999-2 ( venir) donne des recommandations ncessaires ces rali-
sations et la prparation aux audits.
Les six points de la BS 25999-1
La norme britannique BS25999-1 prconise une dmarche en six points :
1. Comprendre lorganisation de lentreprise Il sagit tout autant de conna-
tre les risques auxquels lentreprise est expose que ses activits critiques.
Cela correspond assez bien aux chapitres 1 et 2 du prsent ouvrage.
2. Dterminer les options de continuit Cela consiste choisir, parmi les
diffrentes options possibles, ce que lentreprise fera en cas de sinistre et
lister les besoins en termes dquipements, de sites, de secours, de comp-
tences Cela correspond peu ou prou au chapitre 3 du prsent ouvrage.
3. Dvelopper et mettre en uvre une rponse Il sagit ici de dvelopper le
plan de continuit et dattribuer les rles et responsabilits. Cela correspond
aux chapitres 4 et 5 du prsent ouvrage.
4. Introduire la continuit dactivit dans la culture de lentreprise Ce
point consiste organiser des formations, sensibiliser les employs et
dcrire les aspects touchant la continuit au sein des postes de travail.
5. Tester, maintenir et auditer Il sagit ici de tout ce qui concerne les tests,
exercices, maintenances et audits, correspondant aux chapitres 6, 12, et 13
de cet ouvrage.
6. Piloter le programme de continuit dactivit On aborde ici la gestion de
lensemble des actions dcrites prcdemment et la responsabilit de la
continuit (voir les chapitres 11 et 13).
Les cinq premiers points se succdent, telles les phases dun projet. Le dernier
point doit tre une proccupation permanente de lquipe en charge de la conti-
nuit.

Travaux de lISO
Actuellement, lOrganisation internationale de normalisation (ISO International
Organization for Standardization) ne semble pas considrer la continuit dactivit
comme un thme part, mais plutt comme une proccupation commune
plusieurs thmes et clate sous diverses rubriques. On peut citer en particulier
les normes consacres la scurit de linformation de la famille ISO 27000 et
les guides de prparation aux sinistres.

241
Management de la continuit dactivit

Cette approche semble en effet poser problme au sein de lISO, car lors de cha-
que approfondissement des thmes de la continuit dactivit, des difficults de
rdaction surgissent.

La norme scurit ISO 27002


Cette norme prsente une srie de prconisations concrtes pour assurer la
scurit de linformation. Elle compte neuf chapitres traitant des diffrents
domaines concerns par la scurit.
Le chapitre 14 de la norme ISO 27002 traite de la gestion du plan de continuit
de lactivit sur deux pages environs. Autant dire que le problme nest abord
que de trs haut et uniquement travers les aspects informatiques.
LISO est en train de refondre les normes de cette famille 27000 et un numro a
t rserv pour les aspects continuit dactivit du systme dinformation et
des tlcommunications : lISO 27031. lheure actuelle, les travaux sur cette
portion de norme semblent hsitants, faisant sentir linfluence de la monte en
puissance des normes purement consacres la continuit. quoi bon, en effet,
traiter de continuit dans une norme sur la scurit alors que, par ailleurs, des
organismes comme la BSI tudient la continuit en tant que telle ?

La spcication ISO/PAS 22399


Un exemple supplmentaire de la situation actuelle lISO et de lclatement
des approches de la continuit apparat avec la spcification disponible
publiquement ou PAS (Publicly Available Specification) ISO/PAS 22399:2007, qui
aborde la Scurit socitale Lignes directrices pour tre prpar un incident et gestion de
continuit oprationnelle.
Cette PAS sappuie, quant elle, sur des contributions de type bonnes
pratiques manant des cinq organismes de normalisation nationaux dAustra-
lie, dIsral, du Japon, du Royaume-Uni et des tats-Unis. Son influence sur les
travaux en entreprise est faible.

La situation en France

En France, trois organismes montrent un intrt particulier pour la continuit


dactivit : il sagit de lAFNOR, du Club de la Continuit dActivit et du forum
tripartite (ou Joint Forum).

Travaux de lAFNOR
LAFNOR a publi une norme BP Z74-700 dans la catgorie des bonnes prati-
ques. Celle-ci se consacre cependant essentiellement aux activits de reprise
aprs sinistre (correspondant aux chapitres 4 et 5 de cet ouvrage).
La norme AFNOR est tourne vers les problmes de perte dexploitation, de plan
de reprise dactivit (PRA) et aborde peu la matrise des risques.

242
Annexe 1 Normes et bonnes pratiques

LAFNOR travaille aussi un glossaire.

Le Club de la Continuit dActivit (CCA)


Cr en 2007 en France, ce club a pour ambition de faciliter et promouvoir le par-
tage dexprience entre ses membres. Il a lanc des groupes de travail sur des
sujets aussi divers que la pandmie grippale, les contraintes rglementaires et
les concepts et vocabulaire de la continuit en franais.
Ce club gre aussi un wiki de travail accessible au grand public.

Le forum tripartite ou Joint Forum


En collaboration avec la Banque de France et diverses institutions, un document
intitul Principes directeurs en matire de continuit dactivit a t publi en 2006. Ce
document prconise un certain nombre de principes dont cet ouvrage dailleurs
se fait le reflet.
On consultera le site web indiqu en Annexe 2 pour plus de dtails.

Les approches connexes

Des organismes autres que ceux de normalisation ralisent eux aussi des docu-
ments de prconisations ou de bonnes pratiques. Certains dentre eux agissent
dans un primtre qui recoupe en partie la continuit dactivit. En voici quel-
ques-uns qui mritent lattention.

ITIL
LITIL est un ensemble de pratiques et de recommandations permettant de grer
la production informatique de services. Dans sa version 2, ce rfrentiel est
constitu de dix livres. Lun de ceux-ci, intitul Fourniture des services, comprend
cinq processus, dont un dnomm Gestion de la continuit de service.
La continuit du service est ainsi traite comme un thme parmi plusieurs dizai-
nes dautres. Lapparition de la version 3 de lITIL, encore plus ambitieuse et
plus riche, na fait que diluer encore la proccupation de continuit
dactivit . En ralit, la pratique de lITIL dans les socits qui le mettent en
application a gnralement fait peu de cas de ce processus en particulier.
En revanche, il est important de souligner quune bonne mise en uvre la faon
ITIL de la gestion des configurations, des changements, des incidents et des
problmes concourt assurment une continuit dactivit efficace.

Mehari
Le Clusif (Club de la scurit de linformation franais) a dvelopp ces derni-
res annes une approche originale dvaluation des risques lis la scurit de
linformation. Mehari fournit gratuitement (sous licence publique) un ensemble
structur de mthodes, doutils et des bases de connaissance pour :

243
Management de la continuit dactivit

analyser les enjeux majeurs de lentreprise en matire de scurit, en tu-


diant les dysfonctionnements principaux et leur gravit ;
tudier les vulnrabilits, cest--dire identifier les faiblesses et les dfauts
des mesures de scurit ;
rduire la gravit des risques en travaillant en parallle sur les causes et les
consquences ;
piloter la scurit de linformation, avec des objectifs, des indicateurs et des
plans dactions.
Cette approche franaise est dote de divers outils et tableaux disponibles en
licence libre. Bien que restant cantonne aux risques encourus par le systme
dinformation, elle propose malgr tout un tour dhorizon intressant.
NFPA 1600
Lassociation de protection contre lincendie NFPA (National Fire Protection Associa-
tion) a t cre en 1896 aux tats-Unis. Sa mission est de rflchir et prconiser
des approches techniquement fondes pour rduire les problmes dus au feu et
autres risques.
En janvier 2000, la NFPA a publi la norme NFPA 1600 proposant un ensemble
commun de critres pour grer les catastrophes, les situations de secours et les
programmes de continuit. Cest une norme amricaine ANSI (American National
Standards Institution). NFPA 1600 prsente un nombre important de documents
listant des bonnes pratiques dans des domaines aussi varis que la politique de
continuit, les divers comits de programme, la manire didentifier et de clas-
ser les risques et les menaces, la planification des actions, la coordination, la
communication, la logistique, la formation, lducation du public, etc.

244
Annexe 2

Sources
dinformation

Dans une dmarche de mise en place du plan de continuit, il est utile de dispo-
ser dinformations neutres, sres et jour.
Voici quelques organismes susceptibles den fournir.
Organismes francophones
AFNOR (Association franaise de normalisation) www.afnor.org
Club de la Continuit dActivit (CCA) www.clubpca.eu
Clusif (Club de la Scurit de lInformation Franais) www.clusif.asso.fr
Forum tripartite avec la Banque de France www.banque-france.fr
Haut Comit Franais pour la Dfense Civile (HCFDC) www.hcfdc.org
Institut National de lEnvironnement Industriel et des Risques INERIS)
www.ineris.fr
Institut dtudes et de Recherche pour la Scurit des Entreprises (IERSE)
www.ierse.fr
Institut National des Hautes tudes de Scurit www.inhes.interieur.gouv.fr
Ministre de lcologie www.ecologie.gouv.fr et www.vigicrues.ecologie.gouv.fr
Organismes anglophones
Business Continuity Planners Association (BCPA) www.bcpa.org
Disaster Recovery Institute International (DRII) www.drii.org
Business Continuity Institute (BCI) www.thebci.org
British Standard Institute (BSI) www.bsi-global.com
Business Continuity Management Information eXchange (BCMIX)
http://BCMIX.collectivex.com
Association of Insurance and Risk Managers www.airmic.com
United Nations Environment Programme (UNEP) www.unep.org
Incident.com www.incident.com
ISO (International Organization for Standardization) www.iso.org

245
Management de la continuit dactivit

National Fire Protection Agency (NSPA) www.nfpa.org


Uptime Institute http://uptimeinstitute.org
Telecommunications Industry Association (TIA) www.tiaonline.org

246
Index
A armoires de rpartition 192
arrt 166
impact 167
acceptation du risque 24 planifi 166
actifs 12 ART (Annualized Rate of Threat) 15
inventaire 13 assurance 25
activation du plan 91, 110 attractivit dun site 204
activit 40, 56 audit 230
analyse dimpact sur les ~s Voir analyse autocommutateur 193
critiques 39, 42
auto-valuation 236
affectation des tches 130
aversion au risque 28
AFNOR 242
aide aux victimes 200
AIE (Annualized Impact Expectancy) 18 B
ALE (Annualized Loss Expectancy) 17
alerte 106 bandothques 57
alimentations lectriques 206 Banque de France 243
amlioration base de donnes
actions d~ 154 de secours 181
du plan de continuit 124 primaire 181
analyse BCI (Business Continuity Institute) 240
dimpact sur les activits 35, 80, 235
bnfices attendus 219
BIA 53
documentation 53 besoins (catgories) 56
de processus 40 BIA (Business Impact Analysis) Voir analyse
du risque par les entits 19 dimpact
analyse des risques Voir apprciation bilan
application daprs sinistre 129
bureautique 196 de limpact sur lactivit Voir BIA
critique 46 des tests 154
apprciation des risques 5 bogues 165
analyse des risques 5 bonnes pratiques 233
contrle 33 BS 25999 240
arbres de dfaillance 21 BSI 240
architecture BSI (British Standards Institute) 240
client-serveur 196 bureaux et locaux 56
granulaire 170 besoins 56
monolithique 170 difficults prvisibles 65
archivage (site d) 58 options de reprise 61

247
Management de la continuit dactivit

site de secours 117 commandement 87


business unit (quipe) 93 communication 122
de crise 88, 91
C plan de ~ 103
communiqu
dtat de sinistre 109
cblage 192
dclaration de sinistre 109
cheminements 195
cache 182 commutateur 191
cadrage directeur 189
des tests 133 compression des donnes 187
du plan 77 confidentialit 99
calcul du risque 17
consquences 12
cassettes (lots de)
contacts (listes de ~) 97
catastrophe 9
naturelle 11 continuit
CDP comit de ~ 31
protection continue des donnes 183 gouvernance 147
CDP (Continuous Data Protection) 183 plan de ~ dactivit 75
centre politique de ~ 40, 217
de donnes 173 stratgie de ~ 55, 80
de gestion de crise 84, 121 contraintes des tests 140, 143
de secours 86
informatique 173 contrle 233
cercles concentriques 22 apprciation des risques 33
centre de gestion de crise 87
chambre (test en ~) 136
changements contrleur 178
demande de ~ 230 coordination 96
gestion des ~ 225 du PCA 90
veille des ~ 230
cot
charges 131
et faisabilit (tude) 71
check-list 136
par unit de rduction du risque
chiffrement 187 (CURR) 28
cinq neufs 159
crise
clich 178
centre de gestion de ~ 84, 121
client-serveur 170 communication de ~ 88, 91
climatisation 206 groupe de gestion de ~ 90
dfaut 213
critres dvaluation 72
Club de la Continuit dActivit 243
Clusif 243 critiques
cluster 164 activits ou processus ~ 39, 42
clustered file system 180 autres ressources ~ 47
clustering 174 donnes et enregistrements ~ 56
sauvegardes ~ 96
comit
de continuit 31 systmes et applications ~ 46
de pilotage (COPIL) 219, 221 CURR (Cost per Unit of Risk Reduction) 28

248
Index

D quipe
mtiers 93
PCA 89
dclaration escalade 107
dactivation du plan 91 estimation Voir valuation
de sinistre 108 tat des lieux 237
dduplication 187 valuation
dfaillance des dommages 91
arbres de ~ 21 des impacts 106
points uniques de ~ 22 des options face aux risques 23
taux de ~ 161 critres 72
dgt des eaux 210 du PCA 236
du sinistre 107
dlai moyen dactivation 65 estimation des impacts sur les
dlais 131 processus 41
demande de changements 230 estimation qualitative des impacts 14
quantitative des pertes 14
dmarche de test 227
vitement du risque 24
disponibilit 159, 160
serveurs 173 externalisation 25
documentation
analyse dimpact 53 F
analyse des risques 32
plan de test 151
domicile (travail ~) 125, 199 faux planchers 206
fiabilit 160, 206
dommages (valuation) 91
Fibre Channel 188
donnes
et enregistrements critiques 56 fiche de test 146, 152
besoins 57 fichiers (systme de ~) 180
difficults prvisibles 67 file system 180
options de reprise 63 filtrage de lair 57
non informatises 58 fonction (de lentreprise) 40
dossier dtude des risques 29 formation 101, 135, 222
DRII (DRI International) 240 Forum tripartite 243
droits daccs 200 forward recovery 181
dure dindisponibilit maximale fournisseur 59
tolrable Voir MTD fournitures lectriques 57
dysfonctionnements lectriques 212
G
E
gestion
EAT (Expected Availability Time) 65 de crise
critures sur disque 182 centre de ~ 84, 121
groupe de ~ 90
lectricit (panne d~) 8 des changements 225, 230
employs domicile 125 des risques 80
entits (analyse du risque par ~) 19 gouvernance 147, 215, 223

249
Management de la continuit dactivit

grands systmes 171 inventaire


granulaire (architecture) 170 des actifs 13
grappe 164 des ressources critiques 48
mise en ~ 174 ISO 239, 241
groupe ISO 27002 242
constitution des ~s 99 ISO 27031 242
de gestion de crise 90 ISO/PAS 22399 242
de rcupration technique et opra- ITIL 128, 243
tionnelle 94
de redmarrage des activits 92
des relations internationales 94 L
des utilisateurs courants 93
mise jour 103
LAN 194
lancement (runion de ~) 221
H listes de contacts 97
logistique 92
haute disponibilit 162 de test 148
planification 111
lots de cassettes 57
I
M
impact
analyse d~ sur les activits Voir BIA
financier 41 machines virtuelles 176
moyenne annuelle des ~s 18 mainframe 183
oprationnel 42 maintenance 224
sur les activits 80
matrise du risque 234
valorisation qualitative des ~s 14
malveillance 199
imprimantes 57
matires dangereuses 95
incendie 208
Mehari 243
indisponibilit 159, 163
menace 6
maximale tolrable Voir MTD
origine 6
informatique 56 probabilit doccurrence 6
besoins 57 sources 10
centre ~ 203
middleware 176, 180
difficults prvisibles 66
infrastructure 206 mise en grappe 174
locaux 57 missions (PCA) 77, 89
options de reprise 61 mode commun (panne de) 164
remise en route 94 modle
site de secours 114 n+1 164
systmes et applications critiques 46 redondant 163
inondation 7, 210 moniteurs transactionnels 180
inspection de documents 136 monolithique (architecture) 170
interruptif total (test ~) 139 moyenne
intrusions de personnel 214 des impacts annuels 18

250
Index

des pertes annuelles 17 tolrance de ~ 163


moyens 6 parallle (test) 138
de secours 92 paramtres de reprise 48
MTBF (moyenne des temps de bon PC 57, 196
fonctionnement) 15, 160 portables 198
MTD (Maximum Tolerable Downtime) 38, PCA (plan de continuit dactivit) 75, 77,
44, 49, 56, 105, 131 105
dure dindisponibilit maximale tol- activation 110
rable 38 amlioration 124
indisponibilit maximale tolrable 38 cadrage 77
MTTR (moyenne des temps des travaux construction 222
de rparation) 160 contexte 80
valuation 236
maintenance 224
N objectifs 78
primtre 79, 218
planning 83
n tiers 170 points faibles 134
n+1 (modle) 164 projet 83, 221
NAS 183 structure 81
tests 133
NFPA 1600 244
pelleteuse 166
niveau de prparation 59
pertes
normes 206, 239
moyenne annuelle des ~ 17
notification (rapport de ~) 106 scnario 14
valorisation quantitative 14
O pilotage (comit de ~) 219
plan
dintervention durgence 84
objectifs 78, 234, 235 de communication 103
occurrence de continuit dactivit Voir PCA
probabilit annuelle d~ 15 de reprise dactivit 105
probabilit d~ 6 de secours 104
options de test 141, 151
de reprise 58 plan de test 151
confrontation aux exigences 64 planification 105
critres dvaluation 72 de la logistique dintervention 111
tude de cot et faisabilit 71 planning 105
slection 70 PCA 83
face aux risques 23 point
traitement du risque 23 chaud en salle 206
origine (dune menace) 6 cible de rcupration 36
de sauvegarde 36
unique de dfaillance 22
P politique 217
de continuit 40, 217
panne de test 133, 226
dlectricit 8 pollution 214
de mode commun 164 portable (PC) 198

251
Management de la continuit dactivit

poste de travail 57, 191, 196 refroidissement 57


postes sensibles 200 relations internationales (groupe des ~)
PRA (plan de reprise dactivit) 105 94
premire intervention 106 rparabilit 160, 162
premiers secours 91 rparation 127
prparation (niveau de ~) 59 taux de ~ 161
priorits 44 rpartiteurs 192
probabilit doccurrence 6, 159 reprise 112
annuelle 15 options de ~ 58
chiffrage 15 paramtres de ~ 48
procdures de secours 53 plan de ~ 105
process 40 rseau 188, 191
processus 40, 56 de stockage 188
analyse de ~ 40 informatique 194
critiques 42 local (LAN) 194
production industrielle 56 tlphonique 191
besoins 58 responsabilits (PCA) 77, 89, 219
difficults prvisibles 69
ressources humaines 199
options de reprise 63
rcupration des moyens 95 restauration 184
site de secours 119 des dossiers vitaux 95
progrs 238 par progression 181
projet de PCA 221 retour la normale 126
protection continue des donnes Voir CDP retour en arrire (rollback) 180
runion de lancement 221
revue des tests antrieurs 141
R
risque 7
analyse des ~s 5
rapport apprciation des ~s 5
de notification du sinistre 106 documentation 32
de sinistre 108 aversion au ~ 28
stratgie de continuit 74 calcul du ~ 17
rcupration 112 documentation 29
des dossiers vitaux 95 dossier dtude 29
des moyens de production industrielle gestion des ~s 80
95 niveaux de ~ 17
des sauvegardes critiques 96 options de traitement 23
groupe de ~ technique et oprationnel- acceptation 24
le 94
cots 26
point cible de ~ 36
temps de ~ cible 37 vitement 24
temps de ~ du travail 37 rduction 24, 27
transfert 25
redmarrage des activits (groupe de ~)
92 robot de sauvegarde 186
redondant (modle) 163 routage dentre/sortie 178
rduction du risque 24, 27 RPO (Recovery Point Objective) 36, 51, 56
rfrentiel 206, 234 RTO (Recovery Time Objective) 37, 49, 56

252
Index

S darchivage 58
de secours
de bureaux 117
SAN 188 de production industrielle 119
sauvegarde 51, 57, 184 informatique 66, 114
cassettes de ~ 185 de test 149
distant 168, 169
complte 185
informatique 203
diffrentielle 185
primaire 168
frquence 68
secondaire 168
incrmentielle 185
vulnrabilit 204
point de ~ 36
rcupration 96 SLE (Single Loss Expectancy) 14
robots de ~ 186 snapshot 178
type 68 statistiques 159
scnario stock de secours 69
de pertes 14 stockage 177
de test 144 distant 68
secours rseau de ~ 188
base de ~ 181 stratgie de continuit 55, 80
centre de gestion de crise de ~ 86 rapport dtude 74
moyens de ~ 92 validation 74
plan de ~ 104 suivi des tests 146
premiers ~ 91
surveillance vido 206
procdures de ~ 53
site de ~ 66 systme
bureaux 117 de contrle 233
informatique 114 de fichiers 180
production industrielle 119 informatique
stock de ~ 69 critique 46
tide 181
scurit 206 T
daccs 206
sensibilisation 102, 136, 223
serveur 173 tches
tolrance de panne 173 affectation des ~ 130
bureautique 195 manuelles 53
disponibilit 173 tactique de test 144
SGBD 180 taux
SIE (Single Impact Expectancy) 15 de dfaillance 161
de rparation 161
simulation 137
tlcommunications 57
sinistre 77
bilan daprs ~ 129 tlphonie 191
chronologie 35 sur IP 194
communiqu dtat 109 temps
dclaration 108 de rcupration cible 37
notification 106 de rcupration du travail 37
rapport de ~ 108 testeurs (quipe) 152
site 205 tests 227, 235
attractivit 204 annonce 139

253
Management de la continuit dactivit

bilan 154 transition 128


cadrage 133 travail domicile 125, 199
contraintes 140, 143
de vrification (check-list) 136
dpenses 147 U
du PCA 133
fiche de ~ 146, 152
frquence 228 Uptime Institute 207
inspection de documents (walk-through) urgence 91
136
interruptif total 139 utilisateurs (groupe des ~) 93
logistique 148
mthodes 136
objectifs 133, 142 V
parallles 138
primtre 143
validation (runion de ~) 74
plan de ~ 141
politique de ~ 133, 226 valorisation
revue des ~ antrieurs 141 des impacts 14
revue des risques 150 des pertes 14
scnario 144 virtualisation 176
simulation 137
VTS 187
sites 149
suivi 146 vulnrabilit 204
tactique 144
TIA 942 207
W
tolrance de panne 163, 168
serveur ~ 173
traitement du risque Voir options walk-through 136
transfert du risque 25 WRT (Work Recovery Time) 37, 49, 56

254
12346_ManagmentContinuite 18/06/08 11:38 Page 1

Management de la
Continuit dactivit E M M A N U E L B E S L U A U

EMMANUEL
BESLUAU
P r f a c e d e F r a n o i s T t e

A
lheure o le systme dinformation (SI) est au cur des pro-
cessus, une panne informatique de seulement trois jours suffit
paralyser durablement toute entreprise non prpare. Si la
prvention des risques et la scurit font lobjet de proccupations
croissantes, les responsables ngligent trop souvent de se prmunir
Lauteur

Management de la
contre les consquences dventuels dsastres. Or le management de
Ingnieur informatique diplm de Centrale et de
la continuit dactivit (MCA) offre des solutions efficaces pour PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTI-

lUniversit de Berkeley, Emmanuel Besluau a renforcer la rsistance de lentreprise et du SI face aux crises de toute NUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE
nature (inondation, incendie, pannes, malveillance).

Continuit
occup de nombreux postes responsabilits dans PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE
de grands groupes de diffrents secteurs, notam-
ment bancaire et de services (IBM, Sligos-Carte Proposant une dmarche la fois organisationnelle et technique, REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA

Bancaire, Atos-Infogrance). Aujourdhui consul- ce guide complet et document dcrit pas pas la mise en uvre CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE
tant associ au Duquesne Group, il crit priodi- concrte dun plan de continuit dactivit (PCA) solide et opra- SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE
quement dans la presse informatique et intervient
tionnel. Il sappuie sur des tudes de cas rels issues de la longue CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DAC-
en tant quexpert reconnu auprs de DSI sur des
sujets comme la continuit de service, les exprience de lauteur pour fournir une mthodologie efficace et TIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA
architectures techniques des centres informa- une revue des solutions possibles (plan de reprise, sites de secours, PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE

d activit
tiques, les bonnes pratiques de production de

Continuit d activit
continuit de service, outils de sauvegarde, architectures du SI, tests et PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE
service (ITIL, scurit, etc.). Il est membre actif du audits, etc.) enrichies de recommandations pratiques et de documents
Club de la Continuit dActivit. DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN
types, sans oublier daborder les principes de gouvernance et la
DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE
Franois Tte est Prsident du Club normalisation en cours.
DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA
de la Continuit dActivit (CCA).
PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE
www.clubpca.eu
Au sommaire PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE
Matrise du risque. Apprciation des menaces. Analyse dim- DE SERVICE PLAN DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN
pact (BIA). Activits critiques. Paramtres de reprise (RPO, RTO,
MTD et WRT). Stratgie de continuit. Plan de continuit DE CONTINUITE DACTIVITE PCA PLAN DE REPRISE PRA CONTINUITE DE SERVICE PLAN DE CONTINUITE
dactivit (PCA). Disaster Recovery Plan (DRP). Plan de reprise
(PRA). Missions et groupes dintervention. Centre de gestion de
crise. Planning. Plan de communication. Campagnes de tests.
Implmentation ISO 27001
Fiches de tests. Ingnierie de la continuit. Disponibilit.
Fiabilit et rparabilit. Redondance. Modles de cluster n+1.
Snapshot et copie miroir. Serveurs tolrance de panne.
qui sadresse ce livre ? Virtualisation. Stockage NAS et SAN. Contrleurs, cache et
routage dE/S. Protection continue des donnes (CDP).
Aux responsables risque ou continui- Sauvegarde et restauration. Robots et bandothques. Rseau GESTION DU RISQUE - ANALYSE DES IMPACTS
t (RSSI, RPCA) et leurs quipes backbone et LAN. Centre informatique (site, infrastructure,
risques et parades). Tlcommunications. Poste de travail (PC). STRATEGIE DE CONTINUITE - PLAN DE CONTINUITE D'ACTIVITE (PCA)
Aux chefs de projet chargs de Travail domicile. Gouvernance de la continuit. Politique de
MISE EN UVRE ORGANISATIONNELLE ET INFORMATIQUE
mettre en place un PCA continuit. Comit de pilotage. Projet du PCA. Maintenance.
Gestion des changements. valuation, tests et audits. Systme ,
Aux DG et chefs dentreprise
souhaitant aborder le MCA
de contrle. Formation et sensibilisation. Normes et bonnes
pratiques. Tiers du Uptime Institute. TIA 942. BS 25999.
Assurer la prennit de l entreprise:
TESTS ET MAINTENANCE - INGENIERIE DE LA CONTINUITE
GOUVERNANCE - SENSIBILISATION - NORMALISATION
ISO 27002, ISO 27031 et ISO/PAS 22399. AFNOR BP Z74-700.
tous les responsables mtier
proccups par la continuit de
Business Continuity Institute (BCI). DRII. Club de la Continuit
dActivit (CCA). Joint Forum. ITIL. Mehari. NFPA 1600.
planification, choix techniques
leur activit
Aux DSI et responsables techniques
ayant faire des choix de systmes
et mise en uvre
Aux auditeurs dans le domaine
des technologies de linformation
Aux professionnels de la scurit Gratuit !
ou dITIL dsirant approfondir le 60 modles de livrables
volet continuit
prts lemploi
un outil de cration
de business plan

También podría gustarte