Plan BC

El objetivo de esta rea es asegurar que el candidato de CISA entienda y pueda proveer garanta de que en el caso de una interrupcin,
los procesos de continuidad del negocio y recuperacin de desastres asegurarn el reinicio a su debido tiempo de los servicios de TI mientras que se minimiza el impacto sobre el negocio. Esta rea representa el 14 por ciento del examen CISA (aproximadamente 28 preguntas) Hay tres (3) tareas dentro del rea de continuidad del negocio y recuperacin de desastres: 6.1 Evaluar si las previsiones de respaldos y de recuperacin son las adecuadas para asegurar que se retome el procesamiento. 6.2 Evaluar el plan de recuperacin de desastres de la organizacin para asegurar que ste posibilita la recuperacin de las capacidades de procesamiento de TI en el caso de un desastre. 6.3 Evaluar el plan de continuidad del negocio de la organizacin para asegurar su capacidad de continuar las operaciones esenciales del negocio durante el perodo de una interrupcin de TI. Existen ocho reas de conocimiento dentro del rea del Plan de Continuidad del Negocio y Recuperacin de Desastres: 6.1 Conocimiento de copias de respaldo de datos, procesos de almacenamiento, mantenimiento, retencin y recuperacin, y prcticas. 6.2 Conocimiento de aspectos regulatorios, legales, contractuales y de seguros relacionados con la continuidad del negocio y recuperacin de desastres. 6.3 Conocimiento del anlisis de impacto sobre el negocio (BIA).
6.4 Conocimiento del desarrollo y mantenimiento de los planes de continuidad del negocio y recuperacin de desastres. 6.5 Conocimiento de los enfoques y mtodos de prueba de la continuidad del negocio y recuperacin de desastres. 6.6 Conocimiento de las prcticas de administracin de recursos humanos relacionados con la continuidad del negocio y recuperacin de desastres (por ejemplo, planeacin de evacuaciones, equipos de respuesta). 6.7 Conocimiento de los procesos utilizados para activar los planes de continuidad del negocio y recuperacin de desastres. 6.8 Conocimiento de los tipos de sitios altemos de procesamiento y los mtodos usados para monitorear los acuerdos contractuales (por ejemplo, hot sites, warm sites, coid sites).
PLANEACIN DE LA CONTINUIDAD DEL NEGOCIO / RECUPERACIN DE DESASTRES El negocio moderno no puede evitar todas las formas de riesgo corporativo o de dao potencial. Un objetivo realista es asegurar la supervivencia de una organizacin estableciendo una cultura que identificar y administrar esos riesgos que podran causarle problemas. Algunos ejemplos de estos riesgos corporativos incluyen: Incapacidad de mantener los servicios crticos al cliente. Dao en la participacin de mercado, la imagen, reputacin o marca.
No poder proteger los activos de la Compaa, incluyendo propiedad intelectual y personal. Falla de control del negocio. No poder cumplir los requisitos legales o regulatorios.
El objetivo de la continuidad del negocio / recuperacin de desastres es habilitar a una institucin para que contine brindando sus servicios crticos en caso de desastre y que pueda sobrevivir a una interrupcin por un desastre en sus sistemas de informacin. Es necesaria una planeacin rigurosa y una asignacin de recursos para planear adecuadamente para un evento semejante. La planeacin de la continuidad del negocio (BCP por business continuity planning) es un proceso diseado para reducir el riesgo del negocio de la organizacin derivado de una interrupcin inesperada de sus funciones / operaciones (manuales o automatizadas) crticas necesarias para la supervivencia de la misma. Esto incluye los recursos humanos /materiales que soportan estas funciones / operaciones crticas, y la garanta de la continuidad del nivel mnimo de servicios necesarios para las operaciones crticas. El primer paso de la BCP es generalmente una evaluacin del riesgo que permite encontrar los procesos ms importantes que soportan el negocio. El plan de continuidad de negocio se concentra en la disponibilidad de dichos procesos, dado que el propsito de la BCP es posibilitar que un negocio contine sus operaciones si surgiera cualquier tipo de perturbacin. BCP es principalmente una responsabilidad de la Alta Gerencia, ya que ella es la encargada de salvaguardar tanto los activos como la viabilidad de la organizacin. El plan de continuidad del negocio es generalmente ejecutado por las unidades de negocio para proveer un nivel mnimo de funcionalidad de las operaciones del negocio, inmediatamente despus de que se produzca una interrupcin, mientras se est llevando a cabo la recuperacin. Este plan debe abarcar todas las funciones y los activos que se requieren para continuar como una organizacin viable. Esto incluye los procedimientos de continuidad calificados como necesarios para sobrevivir y para minimizar las consecuencias de la interrupcin del negocio. El plan de continuidad del negocio incluye el plan de recuperacin de desastre (DRP) y el plan para la continuidad de las operaciones. Adicionalmente, el DRP es por lo general el plan que siguen las unidades de negocio para recuperar una instalacin operativa. En el caso de SI, se ocupa del procedimiento requerido para recuperar la instalacin de procesamiento de TI. El
plan de recuperacin de SI debe ser consistente con el plan general de continuidad de negocio de la organizacin y debe apoyarlo. La planificacin de la continuidad del negocio toma en consideracin: Las operaciones clave que son ms necesarias para la supervivencia de la organizacin. Los recursos humanos / materiales que las soportan.
El plan de continuidad del negocio incluye: El plan de recuperacin de desastres que se usa para recuperar una instalacin que se tom inoperable, incluyendo la reubicacin de las operaciones en un nuevo lugar El plan de operaciones que debe ser seguido por las unidades de negocio mientras se lleva a cabo la recuperacin El plan de restauracin que se usa para regresar las operaciones a la normalidad, ya sea en una instalacin recuperada o nueva Las operaciones que forman parte del plan de continuidad del negocio deben considerar todas las funciones y activos requeridos para continuar como una organizacin viable. El grado de aprovisionamiento para las instalaciones alternas es ultimadamente una decisin de negocio basada en la administracin del riesgo. Para el caso de la planificacin de recuperacin de desastres de SI, se debe considerar lo mismo que en el caso de la planificacin de continuidad del negocio, con la diferencia de que en este caso los sistemas de procesamiento de informacin estn amenazados. El procesamiento de SI es una operacin de muchas que mantienen a la organizacin no slo viva sino tambin exitosa, lo que lo hace de importancia estratgica. A travs de todo el proceso de BCP, el plan general de la organizacin debe ser tomado en consideracin. Todos los planes de SI deben soportar y ser consistentes con el plan de continuidad del negocio corporativo. Esto significa que las instalaciones de procesamiento alternas que soportan las operaciones clave deben estar listas y tener planes actualizados respecto a su uso. El primer paso para desarrollar un plan de continuidad del negocio es efectuar un anlisis del riesgo. Para hacer esto, se deben identificar las amenazas que conciernen a los activos de la organizacin. En el caso de planificacin de recuperacin de desastres, los activos son los componentes del sistema de informacin. El riesgo es directamente proporcional al valor del activo y a la probabilidad de ocurrencia de la amenaza percibida. La clasificacin de los diferentes sistemas de aplicacin implantados en la organizacin depende de la naturaleza del negocio as como tambin del valor de la aplicacin para el negocio.
Este valor es directamente proporcional al papel que desempea el sistema de aplicacin para soportar la estrategia de la organizacin. Luego se hacen coincidir los componentes del sistema de informacin con las aplicaciones (por ejemplo, el valor de una computadora o una red est determinado por la importancia del sistema de aplicacin que la usa). Una vez que la evaluacin del riesgo identifica el valor de los componentes de sistemas de informacin de la organizacin, se puede desarrollar un plan para establecer la criticidad de los sistemas en la mayora de los mtodos apropiados para su recuperacin. Un plan de continuidad del negocio es mucho ms que slo un plan para los sistemas de informacin. Un plan de continuidad del negocio identifica lo que el negocio har en el caso de un desastre. Por ejemplo, dnde se presentarn a trabajar los empleados?, cmo se recibirn las rdenes mientras el sistema de cmputo se est restableciendo?, qu proveedores debern ser llamados para que provean los suministros que se necesiten? Un subcomponente del plan de continuidad del negocio es el plan de recuperacin de desastre de TI. Este, tpicamente detalla el proceso que el personal de TI utilizar para restablecer los sistemas de cmputo. Los planes de recuperacin de desastre pueden estar incluidos en el plan de continuidad del negocio o como un documento completamente separado, dependiendo de las necesidades del negocio. No todos los sistemas requerirn de una estrategia de recuperacin. Basada en los resultados del anlisis de riesgo, la administracin puede no ver una relacin costo-beneficio favorable para restablecer ciertas aplicaciones en el caso de un desastre. Un factor que se debe tener siempre presente para determinar las opciones de recuperacin es que el costo nunca debe exceder el beneficio. En resumen, el concepto planeacin de la continuidad del negocio, es igual a la combinacin de la planeacin de recuperacin ante desastres y la continuidad de las operaciones del negocio. Dependiendo de la complejidad de la organizacin, podra haber uno o ms planes para ocuparse de los diversos aspectos de la continuidad del negocio y recuperacin de desastre. Estos no tienen necesariamente que estar integrados en un solo plan. Sin embargo, cada uno tiene que ser consistente con los otros planes para tener una estrategia viable de BCP. 6.1.1 Planeacin de la Continuidad del Negocio/Recuperacin de Desastres de SI
La planeacin de la continuidad del negocio / recuperacin de desastres de los sistemas de informacin es un componente importante del plan general de la organizacin para la continuidad del negocio y de la estrategia de recuperacin de desastre. El procesamiento de los sistemas de informacin es de importancia estratgica, porque casi todos los procesos del negocio dependen del uso de recursos de informacin automatizados para alcanzar los objetivos de la misin de una organizacin. Por lo tanto, debera haber una instalacin reservada y lista para soportar estas operaciones clave en caso de una interrupcin en que el negocio no pudiera funcionar sin el procesamiento de informacin continuo. En caso de que el plan de SI sea separado, deber ser consistente con el plan corporativo de continuidad del negocio.
6.1.2
Desastres y Otras Interrupciones
Los desastres son interrupciones que ocasionan que los recursos crticos de informacin queden inoperantes por un perodo de tiempo, impactando adversamente las operaciones del negocio. La interrupcin podra durar desde varias horas hasta varios das, dependiendo de la extensin del dao a los recursos de informacin. Ms importante an, los desastres requieren esfuerzos de recuperacin para restaurar el estado operativo. Un desastre puede ser causado por calamidades naturales, como por ejemplo terremotos, inundaciones, tomados, tormentas elctricas severas, incendios, etc. los cuales causan daos importantes a las instalaciones de procesamiento y a la localidad en general. Otros eventos desastrosos que causan interrupciones pueden ocurrir cuando los servicios esperados ya no son proporcionados a la compaa, como por ejemplo, el suministro de energa elctrica, las telecomunicaciones, el suministro de gas natural u otros servicios provistos por externos (que pueden o no estar relacionados con un desastre natural). Un desastre podra tambin ser causado por eventos precipitados por seres humanos tales como ataques terroristas, ataques de hackers, virus o error humano. No todas las interrupciones crticas del servicio se clasifican como desastres, pero tienen an un carcter de alto riesgo. Por ejemplo, la interrupcin del servicio es causada a veces por mal funcionamiento del sistema, eliminacin accidental de archivos, ataques de negacin de servicio, intrusiones y virus. Estos casos pueden requerir que se tomen acciones para recuperar el estado operativo a fin de reanudar el servicio. Dichas acciones pueden requerir la restauracin de hardware, software o archivos de datos. Por tanto, se debe contar con un sistema de clasificacin basado en riesgos, bien definido para determinar si un evento causante de interrupcin requiere o no iniciar los esfuerzos de BCP. Un buen plan de continuidad del negocio tomar en cuenta todos los tipos de acontecimientos que impacten tanto las instalaciones de procesamiento de los sistemas de informacin crticos como las funciones normales de operacin del negocio del usuario final. Para los casos ms graves, se requieren estrategias de marcha atrs de corto y largo plazo. Para el corto plazo, se puede necesitar una instalacin de procesamiento alterna para satisfacer las necesidades operativas inmediatas, como en el caso de un desastre natural mayor. En el largo plazo, para recuperacin ante desastres, se debe considerar una nueva instalacin permanente, equipada para proveer la continuidad del servicio de procesamiento de los sistemas de informacin de manera regular. Tratando con Daos a la Imagen, la Reputacin o la Marca Los rumores dainos pueden surgir de muchas fuentes (incluso internas). Pueden o no estar asociados con un incidente serio o con una crisis. Ya sean espontneos o un efecto colateral de un problema de continuidad del negocio o recuperacin de desastre, sus consecuencias pueden ser devastadoras. Una de las peores consecuencias de las crisis es la prdida de la confianza y de la buena voluntad. Las actividades de relaciones pblicas efectivas (PR) en una organizacin pueden jugar un papel importante para ayudar a contener el dao a la imagen y asegurar que la crisis no
empeore. Ciertas industrias (por ejemplo, refineras de petrleo, plantas qumicas, de transporte o de energa nuclear) tienen protocolos elaborados para tratar con accidentes y con catstrofes. Toda organizacin que experimente un incidente mayor deber considerar y aplicar algunas mejores prcticas bsicas. Independientemente de las consecuencias de un incidente (demora o interrupcin del servicio, prdidas econmicas, etc.), de darse alguno, cualquier opinin pblica o rumores negativos pueden ser muy costosos. Reaccionar de manera apropiada en pblico (o para con los medios) durante una crisis no es sencillo. Se debe nombrar y preparar de antemano un vocero debidamente entrenado. Normalmente, el asesor legal o un funcionario de relaciones pblicas es la mejor eleccin. Nadie, independientemente de su rango en la jerarqua de la organizacin, con excepcin del vocero, debe hacer declaraciones pblicas. Como parte de la preparacin, el vocero debera contar con y mantener actualizado un comunicado genrico con espacios en blanco a ser llenados con las circunstancias especficas. Esto no debe ser desviado a causa de improvisacin o de presin de tiempo. El comunicado no debe establecer las causas del incidente sino ms bien indicar que se ha iniciado una investigacin y sus resultados sern reportados. No se debe suponer la responsabilidad. No se debe culpar al sistema o al proceso. En su lugar, se puede sugerir un posible error humano. 6.1.3 Proceso de BCP
El proceso de planeacin de la continuidad del negocio puede dividirse en las etapas siguientes: Creacin de una poltica de continuidad del negocio y recuperacin de desastre. Anlisis del impacto sobre el negocio. Clasificacin de las operaciones y anlisis de criticidad.
Desarrollo de un plan de continuidad del negocio y procedimientos de recuperacin de desastre. 6.1.4 Programa de entrenamiento y de toma de conciencia. Prueba e implementacin del plan. Monitoreo. Poltica de Continuidad del Negocio del Negocio y Recuperacin de Desastres
Una poltica de continuidad del negocio y recuperacin de desastres debe ser proactiva y abarcar controles preventivos, de deteccin y correctivos. El plan de continuidad del negocio (BCP) es el control correctivo ms crtico. Depende de que otros controles sean efectivos, en particular la administracin de incidentes, y respaldo de medios. Las directrices siguientes estn alineadas con las mejores prcticas. Los incidentes y sus impactos pueden, hasta un cierto punto, ser mitigados a travs de monitoreo preventivo.
Esto requiere que el grupo de administracin de incidentes tenga el personal adecuado, est debidamente respaldado y entrenado en administracin de crisis y que el plan de continuidad del negocio est bien diseado, documentado, probado en ejercicio, financiado y auditado. 6.1.5 Administracin de Incidentes dentro de BCP
Los incidentes y las crisis son dinmicos por naturaleza. Evolucionan, cambian con el tiempo y las circunstancias, y a menudo son rpidos e imprevisibles. A causa de esto, su administracin debe ser dinmica, proactiva y bien documentada. Un incidente es cualquier evento no esperado, incluso si ste no causara daos significativos. Dependiendo de una estimacin del nivel de daos resultantes al negocio, todos los tipos de incidentes deben ser clasificados. Un sistema de clasificacin podra incluir las siguientes categoras: sin importancia, menor, mayor y crisis. Cualquiera de estas clasificaciones es dinmicamente provisional hasta que se resuelva el incidente. Estos niveles pueden describirse como sigue: Incidentes sin importancia son los que no causan daos perceptibles o significativos, como por ejemplo, cadas del sistema operativo (OS) muy breves con recuperacin total de la informacin o cortes de energa momentneos con respaldo de UPS. Eventos menores son los que, aunque no insignificantes, no producen un impacto material (de relativa importancia) o financiero negativo. Los incidentes mayores causan un impacto material negativo sobre los procesos de negocios y pueden afectar otros sistemas, departamentos o incluso clientes externos. La crisis es un incidente mayor que puede tener un impacto material (de relativa importancia) serio sobre el funcionamiento continuo del negocio y que puede tambin tener un impacto adverso sobre otros sistemas o terceros. La seriedad de ellos depende de la industria y de las circunstancias, pero la severidad es generalmente directamente proporcional al tiempo transcurrido desde el inicio del incidente hasta su resolucin. Los incidentes menores, mayores y las crisis deben ser documentados, clasificados, y se les debe dar seguimiento hasta que sean corregidos o resueltos. Este es un proceso dinmico, ya que un incidente mayor puede disminuirse momentneamente y an as expandirse ms tarde para convertirse en una crisis mayor. Los accidentes sin importancia pueden ser analizados estadsticamente para identificar cualquier causa sistmica o evitable. La figura 6.1 provee un ejemplo de un sistema de clasificacin de incidentes y protocolo de reaccin. El oficial de seguridad (SO) u otra persona designada debe ser notificado sobre todos los incidentes tan pronto ocurra cualquier evento que los provoque. Esta persona deber seguir un protocolo preestablecido (por ejemplo, llamar a un vocero, alertar a la alta gerencia e involucrar a las agencias regulatorias). En general, el criterio principal para la severidad (nivel) de los incidentes es el tiempo sin servicio. El servicio puede definirse como la inclusin de compromisos con clientes que pueden
ser tanto clientes externos como departamentos internos. En la mayora de los entornos, la severidad es proporcional al tiempo improductivo. Otros criterios pueden incluir el impacto sobre los datos o sobre las plataformas. Un enfoque conservador a salvo de fallas sera asignar a cualquier incidente insignificante un nivel inicial, provisional de severidad (ver la figura 6.1). A medida que el incidente evoluciona, este nivel debe ser reevaluado con frecuencia por la persona o por el equipo a cargo, al que a menudo se hace referencia como un equipo de respuesta a incidentes o de llamada de incendio (firecall). Figura 6.1 Niveles de Incidentes /Crisis REACCIONES ANTE LOS NIVELES DE INCIDENTES/CRISIS
6.1.6
Anlisis del Impacto al Negocio
El anlisis del impacto al negocio (BLA.) es el primer paso para desarrollar el plan de continuidad del negocio. Esta etapa implica identificar los diversos eventos que podran tener un impacto sobre la continuidad de las operaciones y su impacto financiero, humano y de reputacin sobre la organizacin. Para ejecutar esta etapa con xito, se debe lograr un entendimiento de la organizacin, de los procesos claves del negocio y de los recursos de TI utilizados para soportarlos. Esta etapa requiere un elevado nivel de soporte por parte de la alta gerencia y la total participacin del personal tanto de Tecnologa de la informacin (TI) como de los usuarios finales. Se debe establecer la criticidad de los recursos de informacin (por ejemplo, aplicaciones, datos, redes, software de sistema, instalaciones o centros de procesamiento, etc.) que dan soporte a los procesos crticos del negocio de una organizacin con la aprobacin de la alta gerencia. Es importante incluir todos los tipos de recursos de informacin y mirar ms all de los
tradicionales (por ejemplo, operaciones del mainframe) para que se puedan incluir en la planeacin de la continuidad del negocio /recuperacin ante desastres. Por ejemplo, muchos grupos de usuarios finales han instalado LANs sofisticadas y estaciones de trabajo que realizan funciones crticas diariamente, y muchos ejecutivos almacenan informacin vital en laptops y PDAs. A veces stos son puestos en operacin sin la participacin de TI. Hay diferentes mtodos para efectuar un anlisis del impacto sobre el negocio (BIA). Uno de los ms populares es el mtodo de cuestionario, el cual implica desarrollar un cuestionario detallado y circularlo a los usuarios clave tanto en las reas de TI como de los usuarios finales. La informacin recopilada es tabulada y analizada. En el caso de que se requiera ms informacin, el equipo de BIA contactara a los usuarios relevantes para ms informacin. Otro mtodo popular es entrevistar a grupos de usuarios clave. La informacin recopilada durante estas sesiones de entrevistas es tabulada y analizada para desarrollar un plan y una estrategia detallada de BIA. Un tercer mtodo es reunir a personal de TI y usuarios relevantes para llegar a una conclusin respecto al impacto potencial sobre el negocio de diversos niveles de interrupcin. Donde sea posible, los auditores de SI deben analizar el volumen de transacciones pasadas para determinar el impacto sobre el negocio si el sistema no estuviera disponible por un perodo prolongado de tiempo. Esto sustanciara el proceso de entrevistas que llevan a cabo los auditores de SI para realizar el BIA. Las tres principales preguntas que deben ser consideradas durante la etapa de anlisis del impacto sobre el negocio incluyen las siguientes: Cules son los diferentes procesos de negocio? Cada proceso necesita ser evaluado para determinar su importancia relativa. Las indicaciones de criticidad pueden incluir, por ejemplo: El proceso que soporta la salud y la seguridad, como por ejemplo los registros de pacientes de hospital y los sistemas de control de trfico areo. La interrupcin del proceso causara una prdida de ingresos a la organizacin o costos excepcionales inaceptables. El proceso debe satisfacer requisitos legales o estatutarios. El nmero de segmentos del negocio o nmero de usuarios que son afectados. Un proceso puede ser crtico o no dependiendo de factores tales como tiempo y modo de operacin, (por ejemplo, horas de negocio u operaciones de ATM). Produccin. Pago a los empleados. Publicidad. Despacho de productos terminados.
Cumplimiento de leyes y regulaciones. Cul es el perodo crtico de tiempo de recuperacin para los recursos de informacin en el cual se debe restablecer el procesamiento del negocio antes de que se experimenten prdidas significativas o inaceptables? En gran parte, la duracin de este perodo de tiempo depende de la naturaleza del negocio que est presentando la interrupcin. Por ejemplo, las instituciones financieras, como los bancos y las empresas de seguros, tendrn por lo general un perodo de tiempo de recuperacin crtico mucho ms corto que las empresas de fabricacin (produccin). Tambin, la poca del ao o da de la semana pueden afectar la ventana de tiempo para la recuperacin. Por ejemplo, un banco que est experimentando un apagn mayor un sbado a medianoche tiene ms tiempo para recuperarse que si fuera un lunes a medianoche, dado el supuesto de que el banco no procesar en domingo. Para tomar esta decisin, como se muestra en la Figura 6.2, hay dos factores independientes de costo a considerar: Uno es el costo de tiempo improductivo del desastre, cuyo componente principal se deriva del tiempo improductivo y de la falta de servicio. Este componente, en el corto plazo (por ejemplo, horas, das, semanas), crece rpidamente con el tiempo, donde el impacto de una interrupcin aumenta cuanto ms tiempo dura. En un momento determinado deja de crecer, reflejando el momento o el punto en el que el negocio ya no puede funcionar. El costo del tiempo improductivo (que aumenta con el tiempo) tiene muchos componentes (dependiendo de la industria y de la compaa especfica y de las circunstancias), entre ellos: costo de recursos inactivos (por ejemplo, en la produccin), demoras (por ejemplo, adquisicin), y costos indirectos (por ejemplo, prdida del segmento de mercado, imagen y reputacin). El otro factor es el costo de las estrategias de correccin alternativas (la activacin del plan de continuidad del negocio), que disminuye con el objetivo escogido para el tiempo de recuperacin. El costo de recuperacin tiene tambin muchos componentes (muchos de ellos rgidos - inflexibles). Esto incluye el costo de preparar y probar peridicamente el plan de continuidad del negocio, el costo de los requerimientos de respaldo fuera del sitio, el costo de la cobertura de seguros, el costo anual de los contratos de sitio alternativo, etc. Las estrategias alternativas de recuperacin pueden estar representadas por puntos utilizando coordenadas, tales como marco de tiempo - costo. Al identificar estos costos, la Figura 6.2 muestra tambin la suma de ambas curvas de costo como costos totales (interrupcin y recuperacin), donde una organizacin querra encontrar el punto en el cual el costo total puede ser minimizado. Esto puede ser hecho evaluando las estrategias alternativas de desarrollo, donde con unas pocas estrategias discretas, la curva descendente puede ser trazada y cada punto en esa curva representara una posible estrategia. La curva como un todo representa todas las estrategias posibles. Cada estrategia posible tiene probablemente un costo fijo (es decir, no cambia con el tiempo) - cuanto ms corto es el tiempo de recuperacin que se pretende, ms elevado ser el costo fijo. La organizacin paga por todos ellos, an si no ocurriera ningn accidente. Si hubiera un accidente, algunos de estos costos aumentarn de manera significativa (por ejemplo, su contrato de warm site puede proveer un costo anual fijo ms un costo diario por ocupacin
efectiva) debido a la necesidad de personal adicional, horas adicionales, transporte adicional y otra logstica (por ejemplo, per diem (viticos diarios), nuevas lneas de comunicacin). Si la estrategia de continuidad del negocio est dirigida a un tiempo ms largo de recuperacin, ser menos costosa que un requerimiento ms estricto, pero es posible que sea ms susceptible a que los costos de tiempo improductivo se eleven fuera de control. Figura 6.2 Costos to nternrpdn vs Costos fie Operacin CO TOTAL \ Operadores STOS
Dscontifiuafas A )/ o#'*'*' .^^^rapo-iiaia.sa servicio; Mnimo Estrategias tfs Rswpsrsctsu TIEMPO
En resumen, la suma de todos los costos - tiempo sin servicio y recuperacin como costo total tiene que ser minimizado. El primer grupo, los costos del tiempo sin servicio, se incrementan con el tiempo y el segundo, los costos de recuperacin, decrecen con el tiempo; la suma usualmente es una curva en U. En el fondo de la curva en U se puede encontrar el costo ms bajo. Clasificacin de las Operaciones y Anlisis de la Criticidad Cul es la clasificacin de los sistemas considerando los riesgos? Esto implica una determinacin del riesgo basndose en el impacto que se deriva del perodo de tiempo de recuperacin crtico as como tambin de la probabilidad de que ocurra una interrupcin adversa. Muchas organizaciones considerarn un riesgo de ocurrencia para determinar un costo razonable de su preparacin. Por ejemplo, pueden determinar que hay un 0.1 por ciento de riesgo (o 1 en 1000) de que en los prximos cinco aos la organizacin sufra una interrupcin grave. Si el impacto que se determina de una interrupcin es de US$10 millones entonces el costo mximo razonable de estar preparados podra ser US$10 millones x 0.1 por ciento = US$10,000 durante cinco aos. A partir de este proceso basado en el anlisis del riesgo, puede tener lugar la clasificacin de la prioridad de los sistemas crticos para desarrollar las estrategias de recuperacin. El procedimiento de clasificar por importancia del riesgo se
debe llevar a cabo en coordinacin tanto con el personal de procesamiento de los sistemas de informacin como con el usuario final. Un sistema tpico de clasificacin del riesgo puede contener las clasificaciones que se encuentran en la Figura 6.3. La etapa siguiente en la administracin de la continuidad es identificar las diversas estrategias de recuperacin y las alternativas disponibles para recuperarse de una interrupcin y /o de un desastre. La seleccin de una estrategia apropiada basada en el anlisis del impacto sobre el negocio y en el anlisis de la criticidad es el paso siguiente para desarrollar un plan de continuidad de negocios y un plan de recuperacin de desastres. Las dos medidas que ayudan en la determinacin de las estrategias de recuperacin son el objetivo de punto de recuperacin (Recovery Point Objective - RPO) y el objetivo de tiempo de recuperacin (Recovery Time Objective - RTO). Figura 6.3 Clasificacin de los Sistemas Clasificacin Descripcin
Crtico Estas funciones no pueden realizarse a menos que sean reemplazadas por capacidades idnticas. Las aplicaciones crticas no pueden ser reemplazadas por mtodos manuales. La tolerancia a la interrupcin es muy baja. Por lo tanto, el costo de interrupcin es muy alto. Vital Estas funciones pueden realizarse manualmente pero slo por un perodo breve de tiempo. Hay mayor tolerancia a la interrupcin que con los sistemas crticos, por lo tanto, los costos de interrupcin son un poco ms bajos considerando que las funciones son restauradas dentro de un marco de tiempo determinado (por lo general 5 das o menos). Sensitivo Estas funciones se pueden realizar manualmente, a un costo tolerable y por un perodo prolongado de tiempo. An cuando se pueden realizar manualmente, por lo general es un proceso difcil y requiere de personal adicional para llevarlas a cabo. No Sensitivo Estas funciones pueden ser interrumpidas por un perodo prolongado de tiempo, a un costo muy pequeo o nulo para la compaa y requiere de poco o ningn esfuerzo para ponerse al da cuando son restauradas.
6.1.7
Objetivo de Punto de Recuperacin y Objetivo de Tiempo de Recuperacin
El Objetivo de Punto de Recuperacin (RPO) se determina en base a la prdida aceptable de datos en el caso de una interrupcin de las operaciones. Ello indica el punto ms anticipado en el tiempo al cual es aceptable recuperar los datos. Por ejemplo, si el proceso puede permitirse perder los datos hasta cuatro horas antes del desastre, entonces la ltima copia de respaldo debera ser hasta cuatro horas antes del desastre o de la interrupcin y por tanto, las transacciones durante RPO y la interrupcin debern ser ingresadas despus de la recuperacin, (conocido como catchup data o puesta al da de los datos).
RPO cuantifica efectivamente la cantidad permitida de prdida de datos en el caso de interrupcin. Es casi imposible recuperar la totalidad de los datos. Incluso despus de ingresar los datos faltantes, algunos todava se perdern y a ellos se hace referencia como datos hurfanos. El objetivo de tiempo de recuperacin (RTO) est determinado en base al tiempo improductivo aceptable en el caso de una interrupcin de las operaciones. Ello indica el punto ms anticipado en el tiempo en el que las operaciones de negocio deben retomarse despus del desastre. La figura 6.4 muestra la relacin entre RTO y RPO. Figura 6.4 Relacin entre un RTO y RPO Relationshsp Between RTO and RPO
Recovery Point Objective /Recovery Time Objective
h/^ Fime -1 2 ir 24 hrs
1 hr Mirroring Backup Ambos conceptos estn basados en parmetros de tiempo. Cuanto ms bajo sea el tiempo de recuperacin requerido, ms elevado ser el costo de las estrategias de recuperacin, es decir, si el RPO est en minutos (prdida de datos aceptable ms baja posible), entonces el espejado o la duplicacin de datos debe implementarse como la estrategia de recuperacin. Si el RTO es menor, entonces el sitio alternativo podra preferirse a un contrato de hot site. Tambin, cuanto ms bajo sea el RTO ms baja ser la tolerancia a desastre. La tolerancia a desastre es la brecha de tiempo dentro de la cual el negocio puede aceptar la no disponibilidad de los servicios crticos de TI. Adems de RTO y RPO, hay algunos parmetros adicionales que son importantes para definir las estrategias de recuperacin. Estos incluyen:
Ventana de interrupcin - El tiempo que una organizacin puede esperar desde el punto de falla hasta la restauracin de servicios/aplicaciones crticas. Despus de ese tiempo, las prdidas progresivas causadas por la interrupcin no son aceptables. Objetivo de entrega de servicio (SDO) - El nivel de servicios a proveer durante el modo de proceso alterno hasta que se restaure la situacin normal. Esto est directamente relacionado con las necesidades del negocio. Cortes mximos tolerables - El tiempo mximo que la organizacin puede soportar procesar en modo alterno. Despus de este punto, pueden surgir diferentes problemas, en especial, si el SDO alterno es ms bajo que el SDO habitual, y la informacin pendiente de ser actualizada puede tomarse no manejable. 6.1.8 Estrategias de Recuperacin
Una estrategia de recuperacin es una combinacin de medidas preventivas, detectivas y correctivas. La accin ms efectiva sera: Donde sea posible, eliminar la amenaza completamente Minimizar la probabilidad de que ocurra Minimizar el efecto una ocurrencia
Eliminar la amenaza y minimizar el riesgo de que ocurra pueden resolverse a travs de la implementacin de seguridad fsica y ambiental. Minimizar el efecto puede lograrse implementando una resiliencia (capacidad de volver al estado normal de operacin luego de ocurrir un evento adverso) integrada a travs de direccionamiento alternativo y redundancia, que se discuten en detalle ms adelante en este captulo. Por lo tanto, el primer enfoque de la recuperacin de desastre debera ser determinar si se puede implementar la resiliencia integrada. Los planes formales de recuperacin de desastre y de continuidad del negocio deberan estar establecidos, para asegurar la restauracin de las instalaciones perdidas o daadas, en especial las que no estn cubiertas por la resiliencia integrada. Una estrategia de recuperacin identifica la mejor forma de recuperar un sistema en caso de interrupcin, incluyendo desastre, y provee orientacin basada en qu procedimientos detallados de recuperacin se pueden desarrollar. Se deben desarrollar diferentes estrategias y se deben presentar todas las alternativas a la alta gerencia. La alta gerencia debe seleccionar la estrategia ms apropiada de las alternativas ofrecidas y aceptar el riesgo residual inherente. Las estrategias elegidas deben ser usadas para desarrollar el plan detallado de continuidad del negocio. La seleccin de una estrategia de recuperacin dependera de: La criticidad del proceso del negocio y las aplicaciones que soportan los procesos. Costo.
El tiempo requerido para recuperarse. Seguridad.
Hay diversas estrategias para recuperar los recursos crticos de informacin. La estrategia apropiada es la que tiene un costo para un tiempo aceptable de recuperacin que tambin es razonable con el impacto y la probabilidad de ocurrencia que se determin en el anlisis de impacto sobre el negocio. El costo de recuperacin es el costo de prepararse para posibles interrupciones (es decir, compra, mantenimiento y prueba regular de las computadoras redundantes, y mantenimiento del direccionamiento alterno de la red) as como tambin el costo de poner todos estos elementos en uso en el caso de una interrupcin. Estos ltimos costos pueden a menudo estar asegurados, pero los primeros generalmente no lo estn. Sin embargo, las primas de seguros para desastre sern por lo general ms bajas si hay un plan adecuado. En general, cada plataforma de TI en la que corra una aplicacin que soporte una funcin crtica del negocio necesitar una estrategia de recuperacin. Hay muchas estrategias alternativas. Se debe seleccionar la alternativa ms apropiada en trminos de costo de recuperacin y de costos del impacto basado en el nivel de riesgo relativo identificado en el anlisis de impacto sobre el negocio. Las estrategias de recuperacin basadas en el nivel de riesgo identificado para la recuperacin deberan incluir desarrollar: 6.1.9 Hot Sites Warm Sites Coid Sites Instalaciones de procesamiento de informacin duplicada Sitios mviles Acuerdos recprocos con otras organizaciones Alternativas de Recuperacin
Las interrupciones ms prolongadas y ms costosas, en particular los desastres que afectan la instalacin fsica primaria, requieren alternativas de recuperacin en un sitio distinto a la ubicacin primaria (Offsite). Los tipos de instalaciones de respaldo de hardware en sitio alternativo que existen son: Hot sites - Se configuran totalmente y estn listos para operar dentro de varias horas. El equipo, red y software del sistema deben ser compatibles con la instalacin primaria que est siendo respaldada. Las nicas necesidades adicionales son personal, programas, archivos de datos y documentacin.
Los costos asociados con el uso de un hot site de terceros por lo general son elevados, pero ms bajos que crear un sitio redundante, y con frecuencia son costos justificables para las aplicaciones crticas. Cuando se planea apropiadamente, la cobertura de seguro por lo general compensar los costos incurridos por usar este tipo de instalacin. Los costos incluyen un costo bsico de suscripcin, una cuota mensual, cargos de prueba, costos de activacin (para cuando el sitio es usado para una emergencia real) y cargos por uso por hora o por da. Las estructuras de precios varan entre proveedores. Algunos proveedores de Hot sites imponen un derecho elevado de activacin para desalentar el uso innecesario de la instalacin. Otros vendedores no tienen costos de activacin y estimulan el uso de la facilidad para fines que no son de desastre, como por ejemplo el procesamiento cuando el sitio primario est sobrecargado. El contrato debe incluir la cantidad de tiempo que se necesita, la frecuencia y el tiempo especificado para la prueba. El hot site est destinado para operaciones de emergencia durante un perodo limitado de tiempo y no para uso prolongado. El uso prolongado afectara la proteccin de otros suscriptores. Por lo tanto, el hot site debe ser considerado como un medio de lograr la continuacin de operaciones esenciales, por un perodo de hasta varias semanas una vez ha ocurrido un desastre o emergencia mayor. Planes adicionales son necesarios para atender las operaciones posteriores. Varios vendedores ofrecen facilidades de warm sites o coid sites para que un suscriptor migre a ellas despus que de que se ha concluido la recuperacin de operaciones. Esto liberar al hot site para que pueda ser usado por otros suscriptores. Los componentes del plan de recuperacin de desastre para la conectividad de la red a un hot site a travs de una red pblica conmutada debe considerar aspectos tales como la redundancia y mantener capacidad suficiente en diferentes vas para poder redirigir una va en caso de ser necesario. Tambin debe proveer direccionamiento de acceso nocturno a travs de diferentes oficinas centrales, de modo que ningn punto de falla pueda incapacitar toda la red. Warm sites - Estn parcialmente configurados, por lo general con conexiones de red y equipo perifrico seleccionado, como por ejemplo unidades de discos, unidades de cintas y controladores, pero sin la computadora principal. Algunas veces un warm site est equipado con una CPU menos potente que la que se usa generalmente. El supuesto detrs del concepto de warm site es que la computadora puede por lo general obtenerse rpidamente para una instalacin de emergencia (a condicin que sea un modelo ampliamente usado) y, como la computadora es la unidad ms cara, dicho acuerdo es menos costoso que un hot site. Despus de la instalacin de los componentes que se necesitan, el sitio puede estar listo para el servicio dentro de horas; sin embargo, la ubicacin y la instalacin de la CPU y de otras unidades faltantes podra tomar varios das o semanas. Coid sites - Tienen slo el ambiente bsico (cableado elctrico, aire acondicionado, piso, etc.) para operar una instalacin de procesamiento de informacin. El coid site est listo para recibir los equipos, pero no ofrece ningn componente en el lugar antes que se requiera su uso. La activacin del lugar puede llevar varias semanas. IPFs Duplicadas (Redundantes) Son lugares de recuperacin dedicados, desarrollados por la empresa que se prepara para la interrupcin y que pueden respaldar las
aplicaciones crticas. Pueden variar desde un hot site listo y en espera hasta un contrato recproco para el uso de la instalacin de otra compaa. El supuesto es que hay pocos problemas para coordinar la compatibilidad y la disponibilidad en el caso de sitios duplicados de instalaciones de procesamiento de la informacin. Sin embargo, las organizaciones ms grandes pueden experimentar problemas similares a los encontrados en acuerdos recprocos entre compaas no relacionadas. Esto es particularmente cierto si las instalaciones de procesamiento de informacin a nivel departamental o divisional son administradas por separado, o cuando existen celos polticos hostiles internamente. Deben existir varios principios para asegurar la viabilidad de este mtodo: El lugar escogido no debe estar sujeto a los mismos desastres naturales que el lugar original (primario). Debe haber una coordinacin de estrategias de hardware /software. Debe existir un grado razonable de compatibilidad que sirva como base del respaldo. Se debe asegurar la disponibilidad de recursos. Las cargas de trabajo de los sitios deben estar monitoreadas para asegurar que la disponibilidad para uso de respaldo de emergencia no se vea afectada. Debe haber acuerdos respecto a la prioridad de agregar aplicaciones (cargas de trabajo) hasta que se hayan utilizado plenamente todos los recursos de recuperacin. Es necesaria una prueba peridica. Aunque los lugares duplicados sean propiedad comn e incluso si los sitios estn bajo la misma administracin, es necesaria una prueba de la operacin de respaldo. Sitios mviles - Este es un remolque diseado que puede ser transportado rpidamente a un lugar de negocio o a un sitio alterno para proveer una instalacin acondicionada lista de informacin de procesamiento. Estos sitios mviles pueden estar conectados para constituir reas de trabajo ms grandes y pueden ser configuradas previamente con servidores, computadoras de escritorio, equipos de comunicacin, e incluso con enlaces de datos de microonda y de satlite. Son una alternativa til en el caso de un desastre expandido y son una alternativa eficiente en costos para duplicar las instalaciones de procesamiento de informacin para una organizacin de oficinas mltiples. Acuerdos recprocos con otras organizaciones - Este es un mtodo usado con menos frecuencia entre dos o ms organizaciones con equipos o aplicaciones similares. Bajo el acuerdo tpico, los participantes prometen proveerse mutuamente tiempo de computadora cuando suija una emergencia. Las ventajas incluyen:
Bajo costo
Es posible que sea la nica opcin disponible, en casos de equipo de vendedor nico, porque no se dispone de hot sites Las desventajas incluyen: Por lo general no son obligatorias
Las diferencias en la configuracin de equipos a menudo necesitan cambios en los programas para operar con efectividad Los cambios de cargas de trabajo o configuraciones que no son notificados a los participantes vuelven el acuerdo limitado o intil ssl ^ , Capitulo 6 Las preguntas crticas que se deben cubrir en un acuerdo recproco incluyen:
Cunto tiempo estar disponible el sitio de la computadora anfitriona? Qu instalaciones, equipos y software estarn disponibles? Se proveer asistencia de personal? Con qu rapidez se puede tener acceso a la instalacin anfitriona de recuperacin? Pueden establecerse en el lugar anfitrin las comunicaciones de voz y datos? Por cunto tiempo puede continuar la operacin de emergencia? Con qu frecuencia puede el sistema ser probado para verificar su compatibilidad? Cmo se mantendr la confidencialidad de los datos? Qu tipo de seguridad se brindar para las operaciones y los datos de los sistemas de informacin? Con qu anticipacin se requiere dar aviso para usar la instalacin? Hay ciertas pocas del ao, mes, etc., en que las instalaciones del socio no estn disponibles? Tecnologas de Recuperacin Las disposiciones contractuales para el uso de instalaciones de terceros deben abarcar lo siguiente: Configuraciones Son las configuraciones de hardware y software adecuadas para satisfacer las necesidades de la compaa, a medida que stas varan en el tiempo?
Desastre - Es la definicin de desastre lo suficientemente amplia para satisfacer las necesidades anticipadamente? Velocidad de disponibilidad - Con qu rapidez despus de un desastre estarn disponibles las instalaciones? Suscriptores por sitio - El contrato limita el nmero de suscriptores por sitio?
Suscriptores por rea - El contrato limita el nmero de suscriptores en un edificio o rea? Preferencia - Quin obtiene preferencia si hay desastres comunes o regionales? Existe copia de respaldo para las facilidades de respaldo? Es el uso de la instalacin exclusivo o el cliente tiene que compartir el espacio disponible si mltiples clientes declaran desastre simultneamente? Tiene el proveedor ms de una instalacin disponible para uso del suscriptor? Seguros Existen coberturas de seguro adecuadas para los empleados en la instalacin de respaldo? El seguro actual reintegrar esos montos? Perodo de uso -Cunto tiempo est disponible la instalacin para su uso? Es este perodo adecuado? Qu soporte tcnico proveer el operador del sitio? Es adecuado? Comunicaciones - Son las comunicaciones adecuadas? Son suficientes las conexiones de comunicacin con el sitio de respaldo, para permitir la comunicacin ilimitada si fuera necesario? Garantas - Qu garantas dar el proveedor respecto a la disponibilidad del sitio y lo adecuado de las instalaciones? Hay limitaciones de responsabilidad (generalmente hay) y est la compaa dispuesta a vivir con stas? Auditora - Hay una clusula de derecho a auditar, que permite una auditora del sitio para evaluar la seguridad lgica, fsica y ambiental? Pruebas - Qu derechos de prueba estn incluidos en el contrato? Verificar con la compaa de seguros para determinar cualquier reduccin de primas que puedan obtenerse debido a la disponibilidad del lugar de respaldo. Confabilidad - El proveedor debe poder dar fe de la confiabilidad del o de los sitios que se estn ofreciendo. Idealmente, el proveedor debe tener una UPS, suscriptores limitados, una administracin tcnica adecuada y garantas de compatibilidad de hardware y software. Obtencin de Hardware Alternativo Hay varias alternativas disponibles para asegurar el hardware y las instalaciones fsicas de respaldo, incluyendo: Un proveedor o tercero - Los proveedores de hardware son por lo general la mejor fuente para el reemplazo de equipo. Sin embargo, esto implica a menudo un perodo de espera que no es aceptable para las operaciones crticas. Es improbable que cualquier proveedor garantice
una reaccin especfica ante una crisis. Los acuerdos con el proveedor se utilizan mejor cuando se planea trasladarse de un hot site a un warm o coid site. Los acuerdos se deben planear por adelantado. Otra fuente de reemplazo de equipo es el mercado de hardware usado. Este mercado puede suministrar componentes crticos o sistemas enteros, previo aviso, en un tiempo relativamente breve, a menudo con ahorro. Estas relaciones de ventas deben ser cultivadas anticipndose a la emergencia real. Fuera de inventario - Dichos componentes estn rpidamente a disposicin provenientes del inventario de los proveedores, previo aviso, no muy anticipado, y con una necesidad mnima de acuerdos especiales. Para hacer uso de este mtodo, se deben utilizar varias estrategias, incluyendo: Actualizar peridicamente el equipo para mantenerse al da Mantener la compatibilidad del software para permitir la operacin de equipos ms nuevos Contrato de crdito o tarjetas de crdito de emergencia - Asegurar los planes de recuperacin incluye instrucciones sobre cmo se va a pagar dicho equipo. Esto podra ser por medio de un contrato de crdito con proveedores o mediante la disposicin de una tarjeta de crdito de emergencia, con un lmite de crdito suficientemente alto. No debera dejarse a empleados individuales, incluso a gerentes, el asumir la responsabilidad de dichas compras por su propia cuenta. Dado que se requieren datos y software para estas estrategias, es necesario considerar acuerdos especiales para su respaldo en medios removibles y para su almacenamiento seguro y a salvo fuera del sitio. Adicionalmente, parte de la recuperacin de las instalaciones de TI involucrarn las telecomunicaciones, para las cuales las estrategias que se consideran usualmente incluyen: Prevencin de desastres de red, que incluye:
Direccionamiento alternativo Direccionamiento diversificado Diversidad de red de largo alcance Proteccin del loop local Recuperacin de voz Disponibilidad de circuitos apropiados y ancho de banda adecuado Planes de recuperacin de desastres de servidor
Estas estrategias se discuten en ms detalle ms adelante en este captulo. Habiendo desarrollado una estrategia para la recuperacin de las instalaciones de TI, suficiente para soportar los procesos crticos del negocio, es esencial que las estrategias para estas actividades puedan funcionar hasta que todas las instalaciones sean restauradas. Por lo tanto pueden incluir: No hacer nada hasta que las instalaciones de recuperacin estn listas Usar los procedimientos manuales
Cumplir solamente con los requisitos reglatenos y legales Concentrarse en los clientes, proveedores, productos, sistemas, etc. ms importantes.
Usar sistemas basados en PC para capturar datos para procesamiento posterior o realizar procesamiento local simple. 6.1.10 Desarrollo de Planes de Continuidad del Negocio y Recuperacin de Desastres Basado en la informacin recibida del BIA, el anlisis de criticidad y la estrategia de recuperacin seleccionada por la gerencia, se debe desarrollar un plan detallado de continuidad del negocio y recuperacin de desastre. Se deben resolver todos los problemas involucrados en la interrupcin de los procesos de negocio, incluyendo la recuperacin ante desastre. Los diversos factores que se deben considerar mientras se desarrolla el plan son: Estar preparado antes de un desastre cubriendo el manejo de respuestas a incidentes para resolver todos las incidentes que afecten los procesos y anlisis del negocio Procedimientos de evacuacin Procedimientos para declarar un desastre
Las circunstancias bajo las cuales se debe declarar un desastre. Todas las interrupciones no son desastres, pero un pequeo incidente, si no es resuelto a su debido tiempo o de manera apropiada puede conducir a un desastre. Por ejemplo, un ataque de virus no reconocido y contenido en el tiempo puede hacer colapsar toda la instalacin de TI. La clara identificacin de las responsabilidades en el plan La clara identificacin de las personas responsables de cada funcin en el plan La clara identificacin de informacin de los contratos La explicacin paso por paso de la opcin de recuperacin
La clara identificacin de los diversos recursos requeridos para la recuperacin y operacin continua de la organizacin La aplicacin paso por paso de la etapa de recuperacin.
El plan debe estar documentado y escrito en un lenguaje sencillo comprensible para todos. Es comn identificar los equipos de personal que son responsables de tareas especficas en caso de desastre. Algunos equipos importantes que se deben constituir y sus responsabilidades estn explicados a continuacin. Se deben mantener copias del plan fuera del sitio. 6.1.11 Organizacin y Asignacin de Responsabilidades El plan debe identificar los equipos con sus responsabilidades asignadas en el caso de un incidente / desastre. Para implementar las estrategias que se han desarrollado para la recuperacin del negocio, se debe identificar el personal de toma de decisiones de SI y del usuario final. Estas personas por lo general lideran equipos creados en respuesta a una funcin
crtica o tarea definida en el plan. Dependiendo del tamao de la operacin del negocio, estos equipos pueden estar diseados para ser asumidos por una sola persona. La participacin de los siguientes equipos depende del nivel de la interrupcin del servicio y de los tipos de activos perdidos o daados. Es una buena idea desarrollar una matriz sobre la correlacin entre los equipos que se necesitan para participar y el esfuerzo de recuperacin /nivel de interrupcin estimado. Los equipos pueden incluir: Equipo de respuesta a incidentes - Un equipo que ha sido diseado para recibir la informacin sobre todo incidente que pueda ser considerado como una amenaza a los activos /procesos. Este informe puede ser til para coordinar un incidente en curso y o para un anlisis post-mortem. El anlisis de todos los incidentes tambin provee entradas para actualizar los planes de recuperacin Equipo de accin de emergencia - Es el primer equipo de respuesta. Se designan como bomberos y personal auxiliar de bomberos, cuya funcin es ocuparse de los incendios o de otros escenarios de respuesta de emergencia. Una de sus funciones primarias es la evacuacin ordenada de personal y garantizar la vida humana. Equipo de evaluacin de daos - Evala el grado de los daos una vez ha ocurrido un desastre. El equipo debe estar constituido por personas que tengan la capacidad de evaluar los daos y de estimar el tiempo que se requiere para las operaciones de recuperacin en el lugar afectado. Este equipo debe incluir personal con habilidad en el uso de equipos de prueba, con conocimientos sobre sistemas y redes y entrenado en las regulaciones y procedimientos de seguridad aplicables. Adems, tienen la responsabilidad de identificar las posibles causas del desastre y su impacto sobre los daos y predecir el tiempo en que se estar fuera de operacin. Equipo administrador de la emergencia - Responsable de coordinar las actividades de todos los otros equipos y est a cargo de la toma de decisiones claves. Ellos determinan la activacin del plan de continuidad del negocio. Otras funciones conllevan organizar las finanzas de la recuperacin, manejar los asuntos legales que se presentan a partir del desastre y manejar las relaciones pblicas y las consultas de los medios de comunicacin. Este equipo funciona como el supervisor de los desastres y se requiere para coordinar las siguientes actividades: Recuperar los datos crticos y vitales desde el sitio de almacenamiento alterno Instalar y comprobar el software del sistema y las aplicaciones en el lugar de recuperacin (hot site, coid site, oficina de servicios). Identificar, comprar e instalar hardware en el lugar de recuperacin del sistema Operar desde el lugar de recuperacin del sistema Redireccionar el trfico de comunicaciones de red
Restablecer la red de usuario /sistema Transportar a los usuarios a la instalacin de recuperacin Reconstruir bases de datos Suministrar los artculos de oficina necesarios, tales como , formularios especiales, inventario de cheques, papel Hacer los arreglos y pagar por los gastos de reubicacin de los empleados en el sitio de recuperacin Coordinar el horario de uso de los sistemas y de trabajo de los empleados Equipo de almacenamiento Offsite - Responsable de obtener, empacar y enviar los medios y los registros a las instalaciones de recuperacin, as como tambin de establecer y supervisar un programa de almacenamiento externo para la informacin creada durante las operaciones en el lugar de recuperacin Equipo del software - Responsable de restaurar el software del sistema y sus actualizaciones, si las hay, de cargar y probar el software de los sistemas operativos y de resolver los problemas a nivel del sistema. Equipo de las aplicaciones - Viaja al lugar de recuperacin del sistema y restaura los paquetes y los programas de aplicacin del usuario en el sistema de respaldo. A medida que progresa la recuperacin, es posible que este equipo tenga la responsabilidad de monitorear el desempeo de las aplicaciones y la integridad de la base de datos. Equipo de seguridad - Continuamente monitorea el sistema de seguridad y los enlaces de comunicacin, resuelve cualquier conflicto de seguridad que dificulte la recuperacin oportuna del sistema y asegura la correcta instalacin y funcionamiento del paquete de software de seguridad. Tambin es responsable de la seguridad de los activos de la organizacin durante el trastorno a continuacin de un desastre. Equipo de operaciones de emergencia - Est constituido por operadores de tumo y supervisores de tumo que residirn en el lugar de recuperacin de los sistemas y administrarn las operaciones del sistema durante la totalidad del desastre y de los proyectos de recuperacin. Otra responsabilidad podra ser coordinar la instalacin de hardware, si un hot site u otra facilidad lista para el equipo no ha sido designada como el centro de recuperacin. Equipo de recuperacin de la red - Responsable de redireccionar el trfico de comunicaciones de voz y de datos de la red WAN, restablecer el control de la red anfitriona y el acceso al lugar de recuperacin del sistema, proveer un soporte continuo para las comunicaciones de datos y supervisar la integridad de las comunicaciones. Equipo de Comunicaciones - Viaja al lugar de recuperacin donde trabajan conjuntamente con el equipo remoto de red para establecer una red de usuario /sistema. Este equipo es tambin responsable de conseguir e instalar hardware de comunicaciones en el
lugar de recuperacin y de trabajar con las portadoras locales de conmutacin y proveedores de gateway en el redireccionamiento de servicio local y acceso al gateway. Equipo de Transportes - Sirve como un equipo de apoyo para ubicar un lugar de recuperacin, si no se hubiera determinado uno previamente, y es responsable de coordinar el transporte de los empleados de la compaa al sitio de recuperacin. Tambin pueden ayudar a contactar los empleados para informarles de los nuevos lugares de trabajo y para programar y hacer arreglos para el alojamiento de los empleados. Equipo de hardware de usuario Ubica y coordina la entrega e instalacin de terminales de usuario, impresoras, mquinas de escribir, fotocopiadoras y otros equipos necesarios. Este equipo ofrece tambin soporte al equipo de comunicaciones y a cualquier esfuerzo de salvamento de hardware y de instalaciones. Equipo de preparacin de datos y registros - Trabajan desde las terminales instaladas en el lugar de recuperacin del usuario, actualiza la base de datos de las aplicaciones. Este equipo supervisa tambin al personal contratado para el ingreso de los datos y asiste en los esfuerzos de salvar los registros, obtener los documentos primarios y otras fuentes de informacin ingresada. Equipo de soporte administrativo - Provee soporte al personal de oficina, a los otros equipos y sirve como un centro de mensajes para el lugar de recuperacin del usuario. Este equipo puede tambin controlar las funciones de contabilidad y de nmina as como tambin la administracin continua de las instalaciones. Equipo de suministros - Da apoyo a los esfuerzos del equipo de hardware de usuarios contactando a los vendedores y coordinando la logstica para un suministro continuo de los elementos necesarios de oficina y de cmputo. Equipo de salvamento - Administra el proyecto de reubicacin. Este equipo hace tambin una evaluacin ms detallada de los daos a las instalaciones y equipos que la realizada inicialmente; suministra la informacin necesaria al equipo administrador de la emergencia para determinar si el plan debera estar dirigido a la reconstruccin o reubicacin; provee la informacin necesaria para presentar reclamos de seguros (los seguros son una fuente primaria de financiamiento para los esfuerzos de recuperacin) y coordina los esfuerzos necesarios para el salvamento inmediato de los registros, como por ejemplo restaurar documentos en papel y en medios electrnicos. Equipo de reubicacin Coordina el proceso de traslado del hot site a una nueva ubicacin o a la ubicacin original restaurada. Esto implica la reubicacin de las operaciones de procesamiento de los sistemas de informacin, trfico de comunicaciones y operaciones de usuario. Este equipo tambin monitorea la transicin a los niveles normales de servicio. Equipo de coordinacin - Responsable de coordinar los esfuerzos de recuperacin en las diversas oficinas ubicadas en lugares geogrficos diferentes. Equipo de asuntos legales - Responsable de manejar los problemas legales que suijan por diversas razones debido a cualquier incidente o no disponibilidad de servicio (por ejemplo,
de acuerdo con las nuevas leyes establecidas por muchos pases, la organizacin es responsable de asegurar sus activos de TI, y ser responsable de los daos a terceros inocentes en el caso de incidencia).
Equipo de prueba de recuperacin - Responsable de probar diversos planes desarrollados y de analizar el resultado. Equipo de entrenamiento - Un equipo que proveer entrenamiento a los usuarios para las disposiciones de los procedimientos de continuidad del negocio y recuperacin de desastre. 6.1.12 Otros Aspectos a Tener en Cuenta en el Desarrollo del Plan El personal que debe reaccionar a los escenarios de desastre / interrupcin es el responsable de los recursos ms crticos. Por lo tanto, la participacin de la Gerencia y de los usuarios es vital para el xito del plan de continuidad del negocio. La participacin de la Gerencia de Usuarios es esencial para la identificacin de los sistemas crticos, sus tiempos crticos de recuperacin asociados y la especificacin de los recursos que se necesitan para su recuperacin. Las tres divisiones principales que requieren participacin en la formulacin del plan de continuidad del negocio son los servicios de soporte, las operaciones del negocio y el soporte de procesamiento de la informacin. Como el objetivo subyacente de la planeacin de la continuidad del negocio es el reiniciar las operaciones del negocio, es esencial considerar, cuando se desarrolle el plan, a toda la organizacin, y no slo los servicios de procesamiento de los sistemas de informacin. Donde no exista un plan de continuidad del negocio uniforme para toda la organizacin, el plan para el procesamiento de los sistemas de informacin debe extenderse para incluir la planeacin para todas las divisiones y unidades que sean dependientes de las funciones de procesamiento de los sistemas de informacin. Los planes de procesamiento de datos deben extenderse a las reas de usuario para abarcar las fuentes de informacin, la transmisin de datos al departamento de procesamiento de los sistemas de informacin y la entrega y despliegue de los resultados procesados a las unidades de usuario. Cuando se formule el plan, se deben incluir los puntos siguientes: Una lista del personal, con informacin de contacto, requerido para mantener las funciones crticas del negocio en el corto, mediano y largo plazo La configuracin de las instalaciones fsicas, escritorios, sillas, telfonos, etc. que se requieren para mantener las funciones crticas del negocio en el corto, mediano y largo plazo 6.1.13 Componentes de un BCP Dependiendo del tamao y / o de los requerimientos de una organizacin, un BCP puede estar constituido por ms de un documento de plan. Este puede incluir: Plan de recuperacin (o reiniciacin) del negocio (BRP)
Plan de continuidad de operaciones (COOP) Plan de soporte de la continuidad / plan de contingencia de TI Plan de comunicaciones de crisis Plan de respuesta a incidentes Plan de recuperacin de desastre (DRP) Plan de emergencia de ocupante (OEP)
Para las fases de planeacin, implementacin y evaluacin del plan de continuidad del negocio se debe acordar lo siguiente: Las polticas que regirn todos los esfuerzos de continuidad y recuperacin Las metas /requerimientos/ productos para cada fase Instalaciones alternativas para realizar tareas y operaciones Recursos de informacin crtica a instalar (por ejemplo, datos y sistemas) Personas responsables de su ejecucin
Recursos disponibles para ayudar en la ejecucin del plan (incluyendo recursos humanos) El cronograma de actividades con las prioridades establecidas
La mayora de los planes de continuidad del negocio se crean como procedimientos que acomodan las estrategias de recuperacin del sistema, del usuario y de la red. Se deben conservar copias del plan en la sitio alterno de recuperacin y, de ser posible, en las residencias del personal clave responsable de la toma de decisiones. Cada vez con ms frecuencia, una organizacin coloca su plan en un web site espejado Los componentes de este plan incluyen al personal clave en la toma de decisiones, respaldos de los suministros que se requieren, la organizacin y la asignacin de las responsabilidades, redes de telecomunicacin y seguros. Personal Clave para la Toma de Decisiones El plan debe contener un directorio de notificaciones del personal clave o rbol de llamadas en la toma de decisiones de SI y del personal del usuario final que se requiera para iniciar y llevar a cabo los esfuerzos de recuperacin. Es por lo general un directorio telefnico de las personas que deben ser notificadas en caso de un desastre o de una catstrofe. El punto para recordar cuando se prepara la lista es que en el caso de un desastre extendido o de un incendio / explosin durante horas normales de negocio que daa severamente las oficinas de la organizacin, muchos jefes de equipo pueden no estar disponibles. Este directorio debe contener la informacin siguiente:
Una lista, con prioridades, de los contactos, es decir, quin debe ser llamado primero en una lista de telfonos. Nmeros de telfono y direcciones primarias y de emergencia para cada persona crtica a contactar, Estos sern por lo general jefes clave de equipo, responsables de contactar a los miembros de su equipo. Nmeros de telfono y direcciones de los representantes del equipo y de los vendedores de software. Nmeros de telfono de los contactos, dentro de la compaa, que hayan sido designados para proveer suministros y equipo o servicios. Nmeros de telfono de las personas a contactar en las instalaciones de recuperacin, incluyendo representantes en el mismo lugar o servicios definidos previamente de redireccionamiento de las comunicaciones de red. Nmeros de telfono de las personas a contactar en las instalaciones de almacenamiento alterno (offsite) y de las personas a contactar dentro de la compaa que estn autorizadas para retirar las copias de respaldos de la instalacin alterna. Nmeros de telfono de los agentes de la compaa de seguros. Nmeros de telfono de los contactos del personal de las empresas contratadas.
Nmeros de telfono y contactos de agencias legales / regulatorias /de gobierno, si se requiriera. Respaldos de los Suministros Requeridos El plan debe considerar todos los suministros necesarios para la continuidad de las actividades normales del negocio durante el proceso de recuperacin. Esto incluye procedimientos escritos detallados y actualizados que puedan ser fcilmente seguidos por el personal permanente y el contratado que no est familiarizado con las operaciones estndar de recuperacin. Tambin, un suministro de formularios especiales como por ejemplo, un stock de cheques, formularios de facturas y formularios de rdenes deben estar resguardados en otro lugar. Si la funcin de ingreso de datos dependiera de ciertos dispositivos de hardware y/o de programas de software, estos programas y equipos deben ser suministrados al Hot-site incluyendo equipo especializado y programas de Intercambio Electrnico de Datos (EDI). Lo mismo se aplicara al equipo criptogrfico. Mtodos de Recuperacin de Desastre de las Redes de Telecomunicaciones El plan debe abarcar las redes de telecomunicaciones de la organizacin. Hoy da, las redes de telecomunicaciones son claves para los procesos comerciales tanto en las organizaciones grandes como en las pequeas. Es por eso que se debe dar una alta prioridad a los procedimientos para asegurar capacidades continuas de telecomunicaciones.
Las redes de telecomunicacin son susceptibles a los mismos desastres naturales que los centros de datos, y tambin son vulnerables a diversos inconvenientes que son propios de las caractersticas de los medios de telecomunicacin. Estos incluyen los desastres de la oficina central de conmutacin, corte d cables, perturbaciones de corta duracin y errores en las comunicaciones, violaciones de la seguridad relacionados con intrusin (hacking) (los intrusos telefnicos se conocen como phreakers) as como vulnerabilidades causadas por humanos. Es responsabilidad de la organizacin y no de los proveedores de servicios de comunicacin asegurar servicios constantes de comunicacin. Los proveedores de servicios de comunicacin no son responsables de suministrar servicio de respaldo, a pesar de que muchos hacen duplicacin de los principales componentes dentro de sus sistemas. Por lo tanto, la organizacin debe hacer provisiones para respaldar sus propias instalaciones de telecomunicacin. Para mantener los procesos crticos del negocio, el plan de continuidad de procesamiento de informacin del negocio debe disponer que se cuente con las capacidades adecuadas de telecomunicaciones alternas. Las capacidades de telecomunicacin que deben ser consideradas incluyen los circuitos telefnicos de voz, las redes de rea ancha (conexiones con los centros de datos distribuidos), redes de rea local (conexiones de PC del grupo de trabajo) y proveedores de intercambio electrnico de datos con terceros. Se deben identificar los requerimientos crticos de capacidad para los diversos casos de corte de energa y para cada tipo de telecomunicacin, como por ejemplo, 2 horas, 8 horas 24 horas. Los suministros ininterrumpidos de energa deben ser suficientes para proveer energa alterna a los equipos de telecomunicaciones, as como tambin a las computadoras. Los mtodos de proteccin de la red son: Redundancia - Implica una variedad de soluciones, que incluyen:
Proveer capacidad adicional, con un plan para usar el excedente de capacidad, si no estuviera disponible la capacidad primaria normal de transmisin. En el caso de una LAN, se podra instalar un segundo cable a travs de una ruta alterna para ser usado en el caso de que se daara el cable primario. Proveer vas mltiples entre los routers Protocolos dinmicos de direccionamiento, como por ejemplo primero abrir la ruta ms corta (OSPF - Open Shortest Path First) y protocolo mejorado de direccionamiento de gateway interior (EIGRP). Considerar, para las fallas de dispositivos, el evitar un solo punto de falla en los routers, switches, firewalls, etc. Proteger los archivos de configuracin para recuperacin en el caso de que los dispositivos de red fallen, como son los routers, switches, etc. Por ejemplo, las organizaciones deben utilizar los servidores de Protocolo Trivial de Transporte de Archivos (TFTP). La mayora de los dispositivos de red soportan TFTP para guardar y recuperar la informacin de configuracin.
Direccionamiento Alternativo - Direccionamiento alternativo es el mtodo de direccionar informacin a travs de un medio alterno como por ejemplo cable de cobre o fibra ptica. Esto involucra el uso de distintas redes, circuitos o puntos si la red normal no estuviera disponible. La mayora de los proveedores locales de servicios de comunicacin estn desplegando anillos de fibra ptica de rotacin contraria (counter-rotating). Estos anillos tienen cables de fibra ptica que transmiten informacin en dos direcciones diferentes y se encuentran en grupos de cables cubiertos y separados para mayor proteccin. En la actualidad, estos anillos se conectan a travs de una oficina central de conmutacin. Sin embargo, la expansin futura de los anillos puede incorporar una segunda oficina central en el circuito. Algunos proveedores de servicios de comunicacin estn ofreciendo rutas alternativas para puntos diferentes de presencia u oficinas centrales alternativas. Otros ejemplos incluyen circuitos conmutados como una alternativa para los circuitos dedicados; telfonos celulares y comunicacin por microondas como una alternativa para los circuitos terrestres y el correo expreso como una alternativa para las transmisiones electrnicas. Direccionamiento diverso- El mtodo de encaminar el trfico a travs de instalaciones divididas de cable, o instalaciones duplicadas de cable. Esto se puede lograr con fundas de cables diferentes y/o duplicadas. Si se usan fundas diferentes de cables, el cable puede estar en el mismo conducto y por lo tanto sujeto a las mismas interrupciones que el cable al que est respaldando. El abonado de servicio de comunicacin puede duplicar las instalaciones teniendo rutas alternativas, aunque la entrada hacia y desde el lugar del cliente puede estar en el mismo conducto. El abonado puede obtener direccionamiento diverso y direccionamiento alternativo desde el proveedor de servicios de comunicacin local, incluyendo instalaciones de entrada dual. Sin embargo, adquirir este tipo de acceso es muy costoso y requiere mucho tiempo. La mayora de los proveedores de servicios de comunicacin proveen instalaciones para direccionamiento alternativo y diverso, a pesar de que la mayora de los servicios son transmitidos por los medios terrestres. Adems, estas instalaciones de cableado estn por lo general ubicadas en el suelo o en el subsuelo. Las instalaciones ubicadas en el suelo comparten el espacio con los sistemas mecnicos y elctricos que pueden crear grandes riesgos debidos a error humano y a la ocurrencia de un desastre. Diversidad de Red de Largo Alcance - Muchos vendedores de instalaciones de recuperacin han puesto a disposicin diversas redes de larga distancia utilizando circuitos TI entre los principales proveedores de servicios de comunicacin de larga distancia. Esto asegura el acceso de larga distancia si algn proveedor de servicios de comunicacin experimentara una falla de red. Varios de los principales proveedores de servicios de comunicacin han instalado ahora software de redireccionamiento automtico y lneas redundantes que proveen recuperacin instantnea si ocurriera un corte en sus lneas. El Auditor de SI debe verificar que la facilidad de recuperacin tenga estas capacidades vitales de telecomunicacin. Proteccin de Circuito de "ltima Milla" - Muchas instalaciones de recuperacin proveen una combinacin redundante de acceso de proveedores de servicios de comunicacin locales Tls, microondas y/o cable coaxial al enlace local de comunicaciones. Esto permite tener acceso a las comunicaciones aunque el proveedor de servicios de comunicacin local haya tenido un desastre. Tambin se utiliza el direccionamiento alternativo del proveedor de servicios de comunicacin local.
Recuperacin de Voz - Dada la dependencia de las industrias de servicios, financieras y de venta al detalle de los servicios de voz, se sugiere contar con cableado redundante o servicios de VoIP. Arreglo Redundante de Discos Independientes (o Baratos) Arreglo Redundante de Discos Baratos (Redundant Array of Inexpensive Disks -RAID) provee mejoras de desempeo y capacidades de tolerancia a fallas por medio de soluciones de hardware o de software, desglosando datos y grabndolos en una serie de mltiples discos para mejorar el desempeo y/o salvar simultneamente grandes archivos. Estos sistemas proveen el potencial para mirroring (operacin en espejo) eficiente en costos fuera del sitio para respaldo de datos. Se define una variedad de mtodos clasificados en 11 niveles, siendo los ms populares 0, 3 y 5, para combinar varios manej adores de disco (disk drives) , pero aparentando ante el sistema como un solo manejador de disco. RAID mejora la solucin de un solo manejador ya que ofrece mejor desempeo y /o redundancia de datos. Descripcin de los Niveles de RAID Las descripciones a nivel de RAID son las siguientes: Nivel 0 - Striped Disk Array Without Fault Tolerance (arreglo de disco con datos distribuidos sin tolerancia de fallas ) : Mejora el desempeo creando lo que parece ser un disco de entre varios manej adores de disco separados fsicamente. Las reas que parecen ser un cilindro o una pista en un manejador de disco lgico estn distribuidas entre dos o ms manejadores de disco fsicos. Los beneficios de este mtodo se relacionan con el desempeo mejorado en el acceso a los datos logrando velocidades y tamaos mximos de transferencia. Por ejemplo, cuando se lee un bloque de datos, la operacin de lectura puede implicar varias lecturas simultneas separadas de varios discos fsicos. Sin embargo, este mtodo, a pesar de que mejora el desempeo, no provee redundancia ni paridad. Nivel 1 - Mirroring (Espejado) : Permite que una copia exacta de informacin en un rea de disco, sea copiada a otra. Una vez establecidos, los datos grabados en el disco tambin se graban en el espacio libre de la otra mitad del disco espejo. Cuando se implementa el sistema espejo, los aspectos a considerar incluyen: Los manejadores (drives) del sistema espejo corren desde el mismo controlador, y no protege los datos de falla del controlador de drives, a menos que el sistema espejado sea ejecutado desde un controlador independiente. Para un mejor desempeo en la lectura a disco y mayor tolerancia a fallas, se debe usar un controlador de disco independiente para cada mitad del disco espejo. El sistema de espejado de disco corta efectivamente a la mitad el espacio disponible del disco. El sistema de espejado de disco tiene un costo inicial bajo, ya que slo se necesita un drive adicional para lograr tolerancia a fallas.
El sistema de espejado de disco hace ms lentas las grabaciones, ya que los datos deben ser grabados en dos lugares cada vez, pero acelerar las lecturas, ya que el controlador de entrada / salida (I/O) tiene dos lugares desde los cuales leer informacin. Generalmente, para los ambientes multiusuario, el sistema espejo obtiene el mejor desempeo de todos los niveles RAID. Nivel 2 -Hamming code ECC - Es el proceso de intercalar datos en mltiples drives, incluyendo informacin de paridad creada usando la tcnica del cdigo de Hamming. El cdigo de Hamming es la tcnica de codificacin de algoritmos hash que se usa para recuperar los datos perdidos que estn duplicados en otro drive. Si un algoritmo hash se aplica a los datos en un disco que tambin est en un disco redundante y los valores son iguales entre los dos, los datos son recuperables desde el disco redundante. Este nivel requiere generalmente un gran nmero de discos para almacenamiento del usuario adems de los discos que contienen la codificacin de recuperacin de errores, donde puede haber, por ejemplo, un disco de recuperacin por cada cuatro discos de almacenamiento del usuario. Este nivel, sin embargo, se usa muy pocas veces a causa de la gran cantidad de recursos de computadora que son necesarios. Nivel 3 - Transferencia paralela con paridad Usa paridad a nivel de byte en dispositivos (drives) dedicados y datos de usuario distribuidos a travs de los mltiples dispositivos. Provee las caractersticas del nivel 0 - mejor desempeo del disk striping - adems de la redundancia provista con el uso de paridad de datos en un dispositivo dedicado de paridad. La informacin de paridad se calcula cuando los datos se graban, lo cual puede afectar el desempeo. Este proceso provee capacidades de tolerancia a fallas a travs de la disponibilidad de drives redundantes (por lo menos tres). Nivel 4 - Discos de datos independientes con bloques de paridad compartida - es similar al nivel 3, pero usa paridad de nivel de bloque y disk striping, en vez a nivel de byte dentro de un bloque. Como el nivel 3, provee capacidades de tolerancia a fallas a travs de la disponibilidad de drives redundantes. Nivel 5- Discos de datos independientes con bloques de paridad distribuida - Hace una distribucin, tanto de los datos como de la informacin de paridad en todos los drives mltiples a nivel de bloque. Difiere del disk striping normal en que los datos de la banda de paridad son recuperables, de ese modo se provee al sistema de la capacidad de tolerancia a fallas. Cuando los datos son grabados en un disco, los datos se graban en todos los discos divididos en bandas en un arreglo de discos, tal como ocurre con el disk striping del nivel 0 de RAID. Sin embargo, la informacin de paridad grabada en disco se hace en un disco separado de aquel donde los datos correspondientes estn grabados. De ese modo, si ocurriera algo a uno de los discos en el arreglo, los datos en ese disco pueden ser reconstruidos a partir de la informacin de paridad en los otros discos.
Adicionalmente, el nivel de RAID 5 difiere del nivel 4 en que la informacin de paridad en el nivel 5 de RAID est distribuida en todos los discos en el arreglo. En el nivel 4, el disco especfico est dedicado a informacin de paridad, lo que hace al nivel 5 ms rpido que el nivel 4, porque puede ejecutar ms de una operacin de escritura a la vez. Nivel 6- Discos de datos independientes con dos esquemas independientes de paridad distribuida - Es similar a RAID 5 en que hace striping tanto de datos como de informacin de paridad en todos los drives mltiples. Sin embargo, difiere en que calcula dos conjuntos de informacin de paridad para cada bloque de datos. Este mtodo con proteccin de paridad provee capacidades elevadas con tolerancia a fallas para responder a fallas de disco o de vas. Nivel 7 - Asincrona optimizada para tasas elevadas I/O as como tambin tasas elevadas de transferencia de datos - Se basa en una arquitectura caracterizada por transferencias asincronas de I/O. Estas transferencias son controladas de manera independiente y escondidas (cached) por medio de un microprocesador interno de arreglo integrado en OS en tiempo real, donde todas las escrituras y las lecturas son escondidos centralmente por medio de un bus interno de transferencia de datos escondidos de alta velocidad con generacin de paridad integrada en el escondite. Esto permite que mltiples drives de disco conectados sean diseados como hot standbys. Es una solucin patentada altamente costosa que provee altos niveles de desempeo a travs de sus capacidades de transferencia de datos que son escondidos. Nivel 10- Fiabilidad muy alta combinada con alto desempeo - Se caracteriza como un arreglo de datos distribuidos (striped) con altas tasas I/O alcanzadas distribuyendo los segmentos del nivel 1 (requiere un mnimo de cuatro pistas para implementarse). Nivel 53- Altas tasas de I/O y desempeo de transferencia de datos - Se caracteriza como un arreglo de datos distribuidos (striped) de nivel 0 con segmentos como los arreglos del nivel 3. Las altas tasas de transferencia de datos se alcanzan debido a los segmentos de arreglo de nivel 3 y a altas tasas de I/O basadas en striping de nivel 0. Esta es una solucin costosa, pero con altas capacidades de desempeo. Nivel 0+1 - High data transfer performance ( alto desempeo de transferencia de datos ) Est implementado como un arreglo de espejo (mirror) cuyos segmentos son arreglos de nivel 0. Diseado con la tolerancia a fallas similar al nivel 5, este mtodo es muy costoso de implementar y es susceptible de una prdida significativa de su capacidad de tolerancia de fallas si fallara cualquiera de sus pistas. En esencia, se convierte en un arreglo de nivel 0 cuando falla alguna pista donde se necesita un mnimo de cuatro para su implementacin. Comparando las tcnicas arriba citadas, los niveles 0 y 1 de RAID tienen mejor desempeo cuando se basan en software, mientras que los niveles 3, 5 y 6 de RAID se ejecutan ms rpido en hardware. El nivel 2 de RAID se basa en hardware y es intensivo en recursos y por lo tanto se usa muy pocas veces. Los niveles restantes son soluciones de alto costo /alto nivel de gastos generales con limitada escalabilidad. Seguros
El plan debe contener informacin clave de los seguros de la organizacin. La poltica de tener seguros para los equipos de procesamiento de los sistemas de informacin es por lo general una poltica de riesgos mltiples diseada para proveer diversos tipos de cobertura de SI. Debe ser construida de manera modular de modo que pueda ser adaptada al ambiente de SI particular del asegurado. Los tipos especficos de cobertura disponible son: Equipo e instalaciones de SI: Provee cobertura por daos fsicos al sitio de procesamiento de informacin y al equipo de su propiedad. (Se deben obtener seguros del equipo arrendado cuando el arrendatario sea responsable de la cobertura de riesgos). Se le advierte al Auditor de SI que revise estas plizas ya que muchas plizas slo obligan a reemplazar equipos no recuperables con "otro de clase y calidad similares" sin que obligue necesariamente al proveedor del equipo a que los reemplace con equipos nuevos idnticos al equipo daado. Reconstruccin de los Medios (software) - Cubre daos a los medios de SI que sean de propiedad del asegurado y del cual el asegurado sea responsable. El seguro est disponible para situaciones que se presenten en el lugar de procesamiento normal, en el sitio alterno o durante el trnsito de un sitio al otro y cubre el costo real de reproduccin del medio. Las consideraciones para determinar el valor de la cobertura son los costos para reproducir los medios daados, los gastos de los respaldos y el reemplazo fsico de los dispositivos de los medios, como por ejemplo las cintas, los cartuchos y los discos. Gastos Adicionales - Estn diseados para cubrir los costos adicionales que ocasiona la continuidad de las operaciones luego de los daos o de la destruccin en el sitio de procesamiento de informacin. El valor del seguro por cobertura de gastos adicionales se basa en la disponibilidad y en el costo de las instalaciones y de las operaciones de respaldo alternativo. Los gastos adicionales pueden tambin cubrir la prdida de las ganancias netas causadas por daos a los medios de computacin. Esto provee el reembolso por prdidas monetarias provenientes de la suspensin de operaciones a causa de la prdida fsica de los equipos o de los medios. Un ejemplo de una situacin que requiere este tipo de cobertura sera si las instalaciones de procesamiento de informacin estuvieran en el sexto piso y los primeros cinco pisos se quemaran, las operaciones se interrumpiran aunque el centro de procesamiento de informacin no hubiera sido afectado. Interrupcin del Negocio - Cubre la prdida de las ganancias debido a la interrupcin de la actividad de la compaa por causa de algn mal funcionamiento de los sistemas de informacin de la organizacin. Documentos y Registros Valiosos - Cubre el valor real efectivo de los documentos y registros valiosos (no definidos como medios) que se encuentren en las instalaciones del asegurado, contra la prdida o dao fsico directo. Errores y Omisiones - Provee proteccin legal de responsabilidad en caso de que el profesional cometa un acto, error u omisin que tenga como consecuencia una prdida financiera para un cliente. Este seguro fue originalmente diseado para las oficinas de servicios
pero ahora varias compaas de seguros lo ofrecen para proteger a los analistas de sistemas, los diseadores de software, los programadores, los consultores y otro personal de SI. Capitulo 6 Cobertura de Fidelidad - Por lo general toma la forma de fianzas generales o colectivas. Cubre prdida originada por actos deshonestos o fraudulentos de los empleados. Este tipo de cobertura es la que prevalece en las instituciones financieras que operan su propio IPF. Transporte de Medios - Provee cobertura para la prdida o dao potencial a los medios en trnsito hacia las instalaciones de procesamiento de informacin fuera de las instalaciones. La redaccin de la cobertura de trnsito en la pliza especifica, por lo general, que todos los documentos deben ser filmados o copiados de otro modo. Cuando la pliza no manifiesta especficamente que los datos sean filmados antes de ser transportados y el trabajo no es filmado, la Gerencia debe obtener del asegurador del transportador una carta que describa especficamente la posicin y la cobertura del transportador en el caso de que se destruyan los datos. Varios puntos clave son importantes para recordar sobre los seguros. La mayora de los seguros abarca solamente prdidas financieras, basadas en el nivel histrico de desempeo y no el nivel existente de desempeo. Tambin, los seguros no compensan las prdidas de imagen y de la buena reputacin (goodwill) 6.1.14 Pruebas del Plan La mayora de las pruebas de la continuidad del negocio no llegan a una prueba a escala total de todas las porciones operativas de la corporacin. Esto no debe excluir la realizacin de pruebas totales o parciales, porque uno de los fines de la prueba de continuidad del negocio es determinar si el plan funciona bien o determinar qu porciones del plan necesitan ser mejoradas. La prueba debe ser programada durante un tiempo que minimice las interrupciones a las operaciones normales. Los fines de semana son generalmente un buen momento para llevar a cabo las pruebas. Es importante que los miembros clave del equipo de recuperacin participen en el proceso de prueba y se les d el tiempo necesario para poner todo su esfuerzo en ello. La prueba debe ocuparse de todos los componentes crticos y simular las condiciones reales de procesamiento en el perodo de tiempo ms activo, an si se lleva a cabo fuera de horas laborables. Especificaciones La prueba debe tratar de cumplir las siguientes tareas: Verificar si el plan de continuidad del negocio es completo y preciso Evaluar el desempeo del personal involucrado en el ejercicio
Evaluar el entrenamiento y el conocimiento de los miembros del equipo de continuidad que no pertenece al negocio
Evaluar la coordinacin entre el equipo de continuidad del negocio y los vendedores externos y los proveedores Medir la habilidad y capacidad del lugar de respaldo para llevar a cabo el procesamiento prescrito. Evaluar la capacidad de recuperacin de los registros vitales
Evaluar el estado y la cantidad de equipo y de suministros que han sido reubicados en el lugar de recuperacin. Medir el desempeo general de actividades operativas y de procesamiento de los sistemas de informacin relacionadas con el mantenimiento de la entidad de negocio. Ejecucin de Pruebas Para efectuar pruebas, se deben completar cada una de las siguientes etapas de prueba: Pre-Prueba- El conjunto de acciones necesarias para establecer el escenario para la prueba real. Va desde colocar las mesas en el rea apropiada de recuperacin de operaciones hasta transportar e instalar equipo telefnico de respaldo. Estas actividades estn fuera del mbito de las que ocurriran en el caso de una emergencia real, en la que no hay advertencia previa del caso y, por lo tanto, no hay tiempo para acciones preparatorias. Prueba - Es la accin real de la prueba de continuidad del negocio. Las actividades operativas reales son ejecutadas para probar los objetivos especficos del plan de continuidad del negocio. Se debe realizar el ingreso de datos, llamadas telefnicas, procesamiento de los sistemas de informacin, el manejo de rdenes y movimiento de personal, equipo y proveedores. Los evaluadores examinan a los miembros del personal cuando stos realizan las tareas designadas. Esta es la prueba real de la preparacin para responder a una emergencia. Post-Prueba- La limpieza de las actividades de grupo. Esta fase comprende asignaciones tales como devolver todos los recursos a su lugar apropiado, desconectar el equipo, devolver el personal y eliminar todos los datos de la compaa de los sistemas de terceros. La limpieza posterior a la prueba incluye tambin evaluar formalmente el plan e implementar las mejoras indicadas. Adems, se pueden efectuar los siguientes tipos de pruebas: Evaluacin de escritorio/ Prueba en papel - Un recorrido del plan en papel, que involucra a los principales participantes en la ejecucin del plan quienes razonan lo que podra ocurrir en un tipo particular de interrupcin de servicio. Ellos pueden recorrer todo el plan o slo una parte del mismo. La prueba en papel por lo general precede la prueba de preparacin. Prueba de Preparacin - Por lo general una versin localizada de una prueba total, en la que los recursos reales son empleados en simular una cada de sistema. Esta prueba se realiza peridicamente en diferentes aspectos del plan y puede ser una forma costo-efectiva para obtener gradualmente evidencia sobre si el plan es bueno. Tambin provee un medio para mejorar el plan en etapas.
Prueba operativa total - Est a un paso de una interrupcin real de servicio. La organizacin debe haber probado el plan en papel y localmente antes de probar el cierre completo de las operaciones. Para los fines de probar el plan de continuidad del negocio, ste es el desastre. Documentacin de Resultados Durante cada etapa de la prueba se debe mantener documentacin detallada de las observaciones, problemas y resoluciones. Cada equipo debera tener un formulario de diario con pasos especficos e informacin a ser registrada, que pueda ser usada como documentacin. Esta documentacin sirve tambin como informacin histrica importante que puede facilitar la recuperacin durante un desastre real. Adicionalmente, las compaas de seguros o las autoridades pueden requerirla. Finalmente, la documentacin tambin ayuda a efectuar un anlisis detallado tanto de las fortalezas como de las debilidades del plan. Anlisis de Resultados Es importante tener formas de medir el xito del plan y de la prueba comparando con los objetivos planteados. Por lo tanto, los resultados deben ser calibrados en forma cuantitativa en oposicin a una evaluacin basada nicamente en la observacin. Las medidas especficas varan dependiendo de la prueba y de la organizacin. Sin embargo, estas medidas generales usualmente aplican: Tiempo El tiempo transcurrido para realizar las tareas prescritas, la entrega de equipo, la reunin de personal y la llegada a un lugar predeterminado. Cantidad - La cantidad de trabajo realizado en el lugar de respaldo por el personal de oficina y las operaciones de procesamiento de los sistemas de informacin. Conteo - El nmero de registros vitales llevados exitosamente al lugar de respaldo frente al nmero requerido, y el nmero de suministros y de equipo solicitado frente al efectivamente recibido. Tambin se puede medir el nmero de sistemas crticos recuperados exitosamente con el nmero de transacciones procesadas. Exactitud - La exactitud de la entrada de datos en el lugar de recuperacin frente a la exactitud normal (como un porcentaje). Tambin se puede determinar la exactitud de los ciclos reales de procesamiento mediante la comparacin de los resultados salientes con los resultados para el mismo perodo procesado bajo condiciones normales. Mantenimiento del Plan Se deben revisar y actualizar en forma programada los planes y estrategias para la continuidad del negocio para que reflejen el reconocimiento continuado de los requerimientos cambiantes. Los siguientes factores, entre otros, pueden tener un impacto sobre los requerimientos de continuidad del negocio y la necesidad de que el plan sea actualizado: Una estrategia que es apropiada en un punto en el tiempo puede no ser adecuada cuando las necesidades de la organizacin cambian
Se pueden desarrollar o adquirir nuevos recursos /aplicaciones
Los cambios en la estrategia del negocio pueden alterar la importancia de las aplicaciones crticas o considerar como crticas aplicaciones adicionales. Los cambios en el software o ambiente de hardware pueden hacer obsoletas o inapropiadas los planes actuales. Un paso importante para mantener un plan de continuidad del negocio es actualizarlo y probarlo cada vez que ocurran cambios relevantes dentro de la organizacin. Tambin es aconsejable incluir BCP como parte del proceso SDLC. La responsabilidad de mantener el plan de continuidad del negocio a menudo recae en el coordinador del plan de continuidad del negocio. Las responsabilidades especficas de mantenimiento del plan incluyen: Desarrollar un programa para revisin y mantenimiento peridicos del plan avisando a todo el personal sobre sus funciones y la fecha lmite para recibir revisiones y comentarios Exigir revisiones no programadas cuando hayan ocurrido cambios significativos.
Examinar las revisiones y comentarios y actualizar el plan dentro de los 30 das siguientes a partir de la fecha de revisin Hacer arreglos y coordinar las pruebas programadas y no programadas del plan de continuidad del negocio para evaluar si son adecuadas. Participar en las pruebas programadas del plan, que deben realizarse por lo menos una vez al ao en fechas especficas. Para las pruebas programadas y no programadas, el coordinador escribir evaluaciones e integrar cambios para resolver los resultados de prueba fallidos en el plan de continuidad del negocio en un plazo de 30 das. Desarrollar un programa para entrenar el personal de recuperacin en los procedimientos de emergencia y de recuperacin, como se establece en el plan de continuidad del negocio. Las fechas de entrenamiento deben programarse dentro de los 30 das siguientes a cada revisin del plan y a la prueba programada del plan. Mantener registros de las actividades de mantenimiento del plan de continuidad del negocio - pruebas, entrenamiento y revisiones. Actualizar, por lo menos trimestralmente, el directorio de notificaciones con todos los cambios de personal, incluyendo nmeros de telfono, responsabilidades o estatus dentro de la compaa. Una herramienta de software para administrar planes de continuidad y de recuperacin puede ser muy til para rastrear y dar seguimiento a las tareas de mantenimiento. 6.1.15 Respaldo (Backup) y Recuperacin
Como es aconsejable asegurar que las actividades lucrativas de un negocio (incluyendo las operaciones de SI en su funcin de soporte) no sean interrumpidas en el caso de un desastre, se usan medios secundarios de almacenamiento (por lo general rollos de cinta, cartuchos de cinta, discos duros removibles, casetes o discos espejados) para almacenar programas y datos asociados para fines de copias de respaldo. Estas cintas u otros medios de almacenamiento secundario son almacenados en una o ms instalaciones fsicas (a las que se hace referencia como bibliotecas fuera del sitio o alternas (offsite), basado en la disponibilidad de uso y riesgo percibido de interrupcin del negocio. Es la responsabilidad del bibliotecario offsite mantener un inventario perpetuo del contenido de estas bibliotecas, controlar el acceso a los medios de biblioteca y rotar los medios entre diferentes bibliotecas, en la medida que sea necesario. Tambin, es necesario mantener una copia actualizada del plan de continuidad del negocio. Controles de la Biblioteca en el Sitio Alterno Los controles sobre las instalaciones de la biblioteca ubicada en el sitio alterno de almacenamiento son importantes para asegurar la operacin ininterrumpida del negocio en caso de desastre y para optimizar la utilizacin de los recursos de SI. El acceso no autorizado a esta informacin podra traer como consecuencia prdida de datos, cambios no autorizados a los datos e impacto en la capacidad de SI para proveer servicios continuos de cmputo y podran resultar en prdida o cambios no autorizados a los datos. . Los controles sobre la biblioteca en el sitio alterno incluyen: Garantizar el acceso fsico al contenido de la biblioteca
Asegurar que la construccin fsica pueda resistir el fuego /calor (por lo menos dos horas) Ubicar la biblioteca lejos de la sala de computadoras, preferentemente a millas /kilmetros de distancia para evitar que el riesgo de un desastre afecte a ambas instalaciones. Asegurar que slo el personal autorizado tenga acceso a la biblioteca y a los medios fuera de lnea. Asegurar que se mantenga un inventario perpetuo de todos los medios de almacenamiento y de los archivos almacenados en la biblioteca. Asegurar que se mantenga un registro de todos los medios de almacenamiento y archivos trasladados hacia y desde la biblioteca. Asegurar que se mantenga un registro de informacin respecto al contenido, a las versiones y a la ubicacin de los archivos de datos. Seguridad y Control de las Instalaciones alternas (Off-site) El sitio alterno de procesamiento de informacin debe ser tan seguro y controlado como el sitio primario. Esto incluye controles adecuados de acceso fsico como por ejemplo puertas cerradas con cerrojo, ninguna ventana y personal para vigilancia. El Centr alterno no debe ser
identificado con facilidad desde el exterior, por lo tanto, no deben existir letreros que identifique el vendedor /compaa y la ubicacin y uso del sitio. Esto se hace con el fin de prevenir un sabotaje intencional al sitio alterno si la destruccin del sitio primario proviniera de un ataque malicioso. La instalacin alterna no debe estar sujeta al mismo desastre natural que afect al sitio primario. La instalacin alterna debe poseer el mismo monitoreo y control ambiental constante que el sitio primario. Esto incluye el monitoreo de humedad, de temperatura y de aire que lo rodea para lograr condiciones ptimas para almacenar medios magnticos y en papel y, si fuera aplicable, equipo operativo de cmputo y dispositivos perifricos. Incluido en los controles ambientales apropiados, est el suministro ininterrumpido de energa operando sobre un piso falso y con la instalacin de detectores de humo y de agua apropiados y un sistema de extincin de incendio probado y en operacin. Respaldos de los Medios y de la Documentacin Un elemento crucial del plan de recuperacin para la continuidad de un negocio, en el sitio o en el sitio alterno, es la disponibilidad de datos adecuados. La duplicacin de datos y de documentacin importantes, incluyendo el almacenamiento de dichos datos y de la documentacin de respaldo en el sitio alterno, es un requisito previo para cualquier tipo de recuperacin. A las copias de datos tomadas para respaldo en el sitio alterno de almacenamiento se les debe dar el mismo nivel de seguridad que a los archivos originales. La instalacin alterna y los acuerdos para su transporte deben, por lo tanto, satisfacer los requerimientos de seguridad para los datos de clase ms sensitiva en los medios de respaldo. Procedimientos Peridicos de Copias de Respaldo Tanto los archivos de datos como los de software deben ser respaldados peridicamente. El perodo de tiempo en el que se debe programar la copia de respaldo puede diferir por programa de aplicacin o por sistema de software. Por ejemplo, ciertos sistemas de aplicacin que se ejecutan mensualmente en los cuales los archivos principales o de transacciones se actualizan mensualmente requerirn que se programen las copias de respaldo despus de que se ejecute la produccin mensual. Sin embargo, los sistemas operativos o el software de aplicacin que sea actualizado con frecuencia podrn requerir copias de respaldo semanales. A menudo los sistemas en lnea /en tiempo real que efectan el procesamiento de grandes volmenes de transacciones requieren copias de respaldo cada noche o inmediatamente o utilizan actualizaciones de archivos maestros espejados en una instalacin de procesamiento separada. Programar las copias de respaldo peridicas puede a menudo realizarse con facilidad por medio de un sistema automatizado de administracin de cintas y de un software automatizado de programacin de trabajos. Automatizar los procedimientos de respaldo prevendr contra rotacin equivocada o respaldos perdidos debidos a error del operador. Frecuencia de Rotacin
Los respaldos de los datos y del software deben seguir a la ocurrencia de cambios de manera continuada. Una copia del archivo o registro en un momento determinado en el tiempo debe ser realizada con fines de respaldo. Todos los cambios o transacciones que ocurran durante el intervalo entre la copia y la fecha actual tambin deben ser retenidos. Las consideraciones para establecer los cronogramas de respaldo de archivos incluyen las siguientes: Se debe determinar la frecuencia y perodo de retencin de cada respaldo de los archivos. La estrategia de respaldo debe anticipar la falla en cualquier etapa del ciclo de procesamiento. Los archivos maestros deben ser retenidos a intervalos apropiados, como por ejemplo al final de un procedimiento de actualizacin, para proveer sincronizacin entre los archivos y los sistemas. Los archivos de transacciones deben coincidir con los archivos maestros, de modo que un archivo maestro de una generacin previa pueda ser actualizado completamente para recrear un archivo maestro actualizado. Los archivos en tiempo real requieren tcnicas especales de respaldo, como por ejemplo bitcora o log duplicado de transacciones, uso de imgenes de registros maestros antes y/o despus, identificar la fecha de las transacciones y simulacin de las comunicaciones. Los Sistemas de Administracin de Base de Datos (DBMS, sigla de los trminos en ingls) requieren un respaldo especializado, por lo general provisto como una caracterstica integral del DBMS. Las descripciones de los archivos necesitan ser mantenidas para que coincidan con cada versin de un archivo que sea retenido; para los sistemas DBMS, esto puede conllevar guardar versiones separadas de los diccionario de datos. Puede ser necesario asegurar la licencia para usar determinado software de vendedor en un sitio alterno; esto se debe arreglar con anticipacin a la necesidad. El respaldo del software debe incluir bibliotecas de cdigo objeto y de cdigo fuente y debe incluir disposiciones para mantener los parches (Patch) de los programas actualizados en todos los lugares donde existan respaldos. De igual modo, cualquier documentacin que se requiera para la operacin consistente y continua del negocio debe ser preservada en un sitio de respaldo alterno. Esto incluye los documentos requeridos para restaurar la base de datos de produccin. Como ocurre con los archivos de datos, las copias fuera del sitio se deben mantener actualizadas para asegurar su uso. Es importante recordar que un respaldo adecuado es un prerrequisito para una recuperacin exitosa. Tipos de Medios y Documentacin Rotada
Sin software, el hardware de computadora tiene poco valor. Por lo tanto, el software incluyendo sistemas operativos, lenguajes de programacin, compiladores, programas utilitarios y de aplicacin debe ser mantenido en un sitio alterno y en un estado actualizado. Tambin la documentacin en papel y sus copias deben ser almacenadas en un sitio alterno. Esta informacin en la forma de guas operativas, manuales de usuario, registros, archivos de datos, bases de datos y documentos de entrada /salida, provee la materia prima y los productos terminados para el ciclo de procesamiento de los sistemas de informacin. La Figura 6.5 describe la documentacin que debe tener respaldo y que debe ser almacenada en un sitio alterno. FIGURA 6.5 Almacenamiento en el Sitio Alterno Clasificacin Descripcin
Procedimientos de Operacin Libreras o bibliotecas (programas) de ejecucin de las aplicaciones, instrucciones para la ejecucin consecutiva de trabajos, manuales del sistema operativo y procedimientos especiales Documentacin de Sistemas y de Programas Diagramas de flujo, listados del cdigo fuente de los programas, descripcin lgica de los programas, sentencias o instrucciones del lenguaje especial de control de trabajos (Job Control Language), condiciones de error y manuales de los usuarios. Procedimientos Especiales Cualquier procedimiento o instruccin que est fuera de lo ordinario como por ejemplo el procesamiento de excepcin, variaciones en el procesamiento y procesamiento de emergencia. Documentos Fuente de Entrada Documentos de Salida Copias duplicadas, fotocopias, microfichas, reportes de microfilm o resmenes que se requieren para hacer auditora, anlisis histrico, la realizacin de trabajo vital, la satisfaccin de los requisitos legales o agilizar los reclamos de seguros. Plan de Continuidad del Negocio Una apropiada copia del plan para referencia.
Los datos sensitivos que se almacenan en un sitio alterno deben ser almacenados en un contenedor de medios magnticos a prueba de incendio. Cuando los datos son enviados de regreso al sitio de recuperacin, los datos deben ser almacenados y sellados en el contenedor de medios magnticos. Toda organizacin debera tener una poltica escrita que rija qu es lo que se almacena y por cunto tiempo. Los cronogramas de copias de respaldo y la rotacin de cintas, CDs o cualquier medio que se use en un lugar alterno son importantes. Esta rotacin de cintas se puede realizar por medio de software de administracin. Mtodo de Rotacin
A pesar de que hay diversos mtodos para la rotacin de medios, una de las tcnicas ms aceptadas es referida como el mtodo Abuelo-Padre-Hijo. En este mtodo, se hacen copias de respaldo (hijo) diariamente durante el curso de una semana. La copia de respaldo final tomada durante la semana se convierte en la copia de respaldo para esa semana (padre). Los medios anteriores de copia de respaldo diario son entonces rotados para su reutilizacin como medios de respaldo para la segunda semana. Al final del mes, la copia de respaldo semanal final es retenida como la copia de respaldo para ese mes (abuelo). Los medios de respaldo semanal anteriores son entonces rotados para su reutilizacin en los meses posteriores. Normalmente, las cintas u otros medios mensuales y anuales son retenidos y no estn sujetos al ciclo de rotacin. Un elemento clave de este mtodo es que las copias de respaldo rotadas en el sitio alterno no deben ser devueltas para su reutilizacin hasta que su reemplazo haya sido enviado al sitio alterno. Como un ejemplo, los medios de respaldo para la semana 1 no deben ser devueltos del almacenamiento alterno hasta que la copia de respaldo de fin de mes est almacenada con seguridad en el sitio alterno. Se pueden emplear variaciones de este mtodo dependiendo de si se requieren copias de respaldo trimestrales y de la cantidad de redundancia que una organizacin pueda desear tener. Mantenimiento de los archivos Almacenados en el Sitio Alterno Se debe mantener un inventario de los elementos almacenados en el sitio alterno. Este inventario debe contener informacin como por ejemplo: El nombre del archivo de datos, el nmero de serie del volumen, la fecha en que fue creado, el perodo contable y el nmero de identificacin de respaldo (backup Identification number - bin) de almacenamiento en el sitio alterno para todas las cintas de respaldo. El nombre del documento, su ubicacin, el sistema pertinente y la fecha de la ltima actualizacin para toda la informacin crtica. Los sistemas automatizados de administracin de cintas tienen por lo general opciones que ayudan a registrar y mantener esta informacin. Mejores Prcticas de Administracin de la Continuidad del Negocio (Management Best Practices -BCM) La necesidad de revisar continuamente y de mejorar en base al proceso de continuidad del negocio es crtica para el desarrollo de estrategias exitosas y robustas de recuperacin para una organizacin, independientemente de si la organizacin est en la etapa inicial de desarrollo de un BCP o desarrollando la implementacin inicial de un proceso de BCM. En un esfuerzo de aumentar las capacidades de BCM (y de cumplir con las directrices regulatorias), algunas organizaciones han comenzado a adoptar las mejores prcticas de entidades independientes de la industria y especficas de la industria y agencias regulatorias. Algunas de estas entidades/prcticas/regulaciones/estndares son: Instituto de Continuidad del Negocio (Business Continuity Institute -BCI) - Buenas prcticas para la administracin de continuidad del negocio
Agencia Nacional de Proteccin contra Incendios de Estados Unidos (US National Fire Protection Agency -NFPA) Asociacin Federal de Administracin de Emergencias de Estados Unidos (US Federal Emergency Management Association- FEMA) - Gua para negocios e industrias para la administracin de emergencias Objetivos de Control para Tecnologa de la informacin y relacionadas (COBIT)
Instituto Nacional de Estndares y Tecnologas de Estados Unidos (US National Institute of Standards and Technology-NIST) Consejo Federal de Examen de Instituciones Financieras de Estados Unidos (US Federal Financial Institutions Examination Council-FFIEC) Junta de Reserva Federal de Estados Unidos (US Federal Reserve Borrad-FRB)
Ley de Portabilidad y Responsabilidad de Seguros de Salud de Estados Unidos (US Health Insurance Portability and Accountability Act-HIPAA) Comisin Federal Regulatoria de Energa de Estados Unidos (US Federal Energy Regulatory Commission-FERC) Instituto Internacional de Recuperacin de Desastres (Disaster Recovery Institute Intemacional- DRII) - Prcticas profesionales para los profesionales de la continuidad del negocio A fin de asegurar la continuidad del servicio, se debe elaborar un plan de continuidad del negocio para minimizar el efecto de las interrupciones. Este plan debe estar basado en el plan a largo plazo de TI y debe cumplir con la estrategia general de continuidad del negocio. Por lo tanto, el proceso de desarrollar y mantener un Plan de Recuperacin ante Desastres /Continuidad del Negocio apropiado sera: Preparar anlisis de impacto del negocio del efecto de la prdida de procesos crticos del negocio. Identificar y clasificar, segn prioridad, los sistemas y otros recursos que se requieren para soportar los procesos crticos del negocio en caso de una interrupcin. (Anlisis del Impacto sobre el Negocio) Escoger estrategias apropiadas para recuperar por lo menos un sitio de procesamiento alterno, suficientes para soportar los procesos crticos del negocio para que stos puedan funcionar hasta que el sitio de procesamiento est totalmente listo nuevamente. Desarrollar el plan detallado para recuperar las instalaciones de SI (Plan de Recuperacin de Desastre).
Desarrollar un plan detallado para que las funciones crticas del negocio continen operando a un nivel aceptable. (Plan de Continuidad del Negocio). Probar los planes.
Mantener los planes a medida que cambia el negocio y se desarrollan los cambios y los sistemas. 6.2 AUDITORIA AL PLAN DE CONTINUIDAD DEL NEGOCIO / RECUPERACION DE DESASTRES
Las tareas del Auditor de SI incluyen: Entender y evaluar la estrategia de continuidad del negocio y su conexin con los objetivos del negocio. Evaluar los planes de continuidad del negocio para determinar si son adecuados y estn actualizados a travs de la revisin de los planes y comparndolos con los estndares apropiados y/o con las reglamentaciones del gobierno. Verificar que los planes de continuidad del negocio sean efectivos para asegurar que las capacidades de procesamiento de informacin puedan ser reanudadas prontamente despus de una interrupcin imprevista revisando los resultados de las pruebas anteriormente realizadas por el personal de SI y por el personal usuario. Evaluar el almacenamiento en el sitio alterno para asegurar que es adecuado, inspeccionando la instalacin y revisando su contenido y la seguridad y los controles ambientales del mismo. Evaluar la capacidad del personal de SI y del usuario para responder con eficacia en situaciones de emergencia revisando los procedimientos de emergencia, el entrenamiento de los empleados y los resultados de sus pruebas y ejercicios. Asegurar que el proceso de mantener planes est instalado y vigente.
Evaluar si los manuales y procedimientos de continuidad del negocio estn escritos en una forma sencilla y fcil de entender. Esto se puede lograr a travs de entrevistas y determinando si todos los interesados entienden sus funciones y responsabilidades con respecto a las estrategias de continuidad del negocio. 6.2.1 Revisin del Plan de Continuidad del Negocio (BCP)
Cuando se est revisando el plan desarrollado, los Auditores de SI deben verificar que sean evidentes los elementos bsicos de un buen plan. Los procedimientos de auditora para tratar dichos elementos bsicos incluyen: Obtener una copia vigente del plan o del manual de continuidad del negocio.
Obtener una muestra de las copias distribuidas del manual y verificar que estn al da.
Evaluar la efectividad de los procedimientos documentados para iniciar la ejecucin del plan de continuidad del negocio. Revisar la identificacin, las prioridades y el apoyo planeado de las aplicaciones crticas, incluyendo los sistemas desarrollados basados en PC o desarrollados por el usuario final. Determinar si todas las aplicaciones han sido revisadas en cuanto a su nivel de tolerancia en el caso de un desastre. Determinar si todas las aplicaciones crticas (incluyendo las aplicaciones de PC) han sido identificadas. Determinar si el Hot site tiene las versiones correctas de todo el software del sistema. Verificar que todo el software sea compatible; de otro modo el sistema no podr procesar los datos de produccin durante la recuperacin del desastre. Revisar la lista del personal de continuidad del negocio, los contactos del Hot site de emergencia, los contactos del vendedor de emergencia, etc. para que sean los apropiados y que estn completos. Escoger una muestra del personal asignado y llamarlos para verificar que efectivamente sus nmeros de telfono y direcciones sean correctos como se indican y que posean una copia vigente del manual de continuidad del negocio. Entrevistarlos para establecer si conocen y entienden las responsabilidades que se les asignaron en una situacin de interrupcin /desastre. Evaluar los procedimientos para documentar las pruebas.
Evaluar el procedimiento para actualizar el manual. Las actualizaciones se aplican y son distribuidas a su debido tiempo? Estn documentadas las responsabilidades especficas de mantenimiento del manual? Adems de los pasos citados aqu anteriormente se debe: Evaluar todos los procedimientos de emergencia escritos para verificar si contemplan todos los detalles, si son apropiados, exactos, actuales y comprensibles. Identificar si las transacciones reingresadas en el sistema a travs del proceso de recuperacin necesitan ser identificadas por separado de las transacciones normales. Determinar si todos los equipos de recuperacin tienen procedimientos escritos a seguir en el caso de un desastre. Determinar si existe un procedimiento adecuado para actualizar los procedimientos de emergencia escritos. Determinar si los procedimientos de recuperacin de usuarios estn documentados.
Determinar si el plan trata de manera adecuada el traslado al sitio de recuperacin.
Determinar si el plan trata de manera adecuada la recuperacin desde el sitio de recuperacin. Determinar si los elementos necesarios para la reconstruccin del sitio primario de procesamiento de la informacin estn almacenados en el sitio alterno, como por ejemplo los planos, el inventario de hardware y los diagramas del cableado. gn| ""111 $SP iiifi
Continuidad del Negocio y Rccupei acin de Desasir 3S^\ Preguntas a considerar: Identifica el plan los puntos de encuentro del comit de administracin de desastres o del equipo de administracin de emergencias para que se renan y decidan si se debe activar el plan de continuidad del negocio? Son los procedimientos documentados adecuados para una recuperacin exitosa? Considera el plan diferentes grados de desastres?
Se consideran en el plan los respaldos para las telecomunicaciones? (Incluyendo los respaldos de lneas para comunicacin de voz y de datos) Considera el plan la reubicacin a una nueva instalacin de procesamiento de informacin en el caso de que no se pueda restaurar el centro original? Incluye el plan procedimientos para cruzar los datos de archivos principales, los datos automatizados del sistema de administracin de cintas, etc., con los archivos recogidos previos al desastre? Considera el plan la carga de datos procesados manualmente en un sistema automatizado? Se requieren respaldos regulares y sistemticos de archivos de aplicaciones y datos sensitivos y/o crticos? Quin determina los mtodos y la frecuencia de almacenamiento o respaldo de los datos de informacin crtica? Qu tipo de medios se estn usando para la toma de las copias de respaldo?
Se usa un sitio de almacenamiento alterno para mantener respaldos de la informacin crtica que se requiere para procesar operaciones, tanto en el sitio como fuera de l? Se asign prioridad a las necesidades de los usuarios de modo que el hardware pueda ser redistribuido cuando los equipos se han retirado del sitio para su reparacin?
Existe documentacin adecuada para realizar una recuperacin en caso de desastre o de prdida de datos? 6.2.2 Evaluacin del los Resultados de las Pruebas Anteriores
El coordinador del plan de continuidad del negocio debe mantener documentacin histrica de los resultados de las pruebas anteriores. Estos resultados deben ser revisados y el Auditor de SI debe determinar que se hayan incorporado al plan las acciones que requieran ser corregidas. Tambin, el Auditor de SI debe evaluar las pruebas anteriores para verificar s contemplan todos los detalles y si son precisas para alcanzar sus objetivos. Se deben revisar los resultados de las pruebas para determinar si se alcanzaron los resultados apropiados y para determinar las tendencias de problemas y las resoluciones apropiadas de los problemas. 6.2.3 Evaluar el Sitio de Almacenamiento Alterno
El sitio de almacenamiento alterno debe ser evaluado para asegurar la presencia, sincronizacin y vigencia de los medios y de la documentacin crticos. Esto incluye archivos de datos, software de aplicacin, documentacin de las aplicaciones, software del sistema, documentacin del sistema, documentacin de operaciones, suministros necesarios, formularios especiales y una copia del plan de continuidad del negocio. Para verificar las condiciones que se mencionan aqu, el Auditor de SI debe realizar una revisin detallada del inventario. La revisin incluye comprobar si los nombres de los archivos, los nmeros de serie de los volmenes, los perodos contables y las ubicaciones de identificacin de respaldos (biri) de las cintas son los correctos. El Auditor de SI debe tambin revisar la documentacin y compararla con la documentacin de produccin para verificar si est actualizada as como tambin evaluar la disponibilidad de la instalacin y asegurar que la misma se ajuste a los requerimientos de la administracin. 6.2.4 Entrevistar al Personal Clave
El Auditor de SI debe entrevistar al personal clave requerido para una recuperacin exitosa de las operaciones del negocio. Todo el personal clave debe tener un entendimiento de las responsabilidades que se les ha asignado, as como tambin documentacin detallada y actualizada que describa sus tareas. 6.2.5 Evaluar la Seguridad del Sitio Alterno
La seguridad del sitio alterno debe ser evaluada para asegurar que tenga los controles de acceso fsico y ambiental apropiados. Estos controles incluyen la capacidad de limitar el acceso slo a los usuarios autorizados a ingresar al sitio, pisos falsos, controles de humedad, controles de temperatura, circuitos especializados, suministro ininterrumpido de energa, dispositivos de deteccin de agua, detectores de humo y un sistema apropiado de extincin de incendios. El Auditor de SI debe examinar el equipo para verificar si tiene actualizadas las taijetas de inspeccin y de calibracin. 6.2.6 Revisar el Contrato de Procesamiento Alternativo
El Auditor de SI debe obtener una copia del contrato con el proveedor del sitio de procesamiento alterno. Se deben verificar las referencias del proveedor para asegurar que es confiable. Se debe revisar el contrato contra los lincamientos siguientes: Asegurar que el contrato est redactado con claridad y sea comprensible
Reexaminar y confirmar los acuerdos de la organizacin con las reglas que se apliquen a los sitios compartidos con otros suscriptores. Asegurar que la cobertura del seguro se ajuste a los costos del desastre y cubra la totalidad (o la mayor parte) de los mismos. Asegurarse que se puedan realizar pruebas en el Hot site a intervalos regulares. Revisar y evaluar los requerimientos de comunicacin para el sitio de respaldo.
Asegurarse de que el documento de depsito en garanta (en fideicomiso) establecido para el cdigo de fuente sea revisado por un abogado que se especialice en tales contratos. Determinar la tolerancia del recurso de limitacin en el caso de la violacin de un contrato. 6.2.7 Revisar la Cobertura de Seguros
Es esencial que la cobertura del seguro refleje el costo real de recuperacin. Tomando en consideracin la prima de seguro (costo), se debe verificar que la cobertura de los daos de los medios, la interrupcin del negocio, el reemplazo de equipo y el procesamiento de la continuidad del negocio sean adecuados.

Plan BC

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Plan BC

Cargado por

Copyright:

Formatos disponibles

El objetivo de esta rea es asegurar que el candidato de CISA entienda y pueda proveer garanta de que en el caso de una interrupcin,

Desastres y Otras Interrupciones

Anlisis del Impacto al Negocio

Dscontifiuafas A )/ o#''' .^^^rapo-iiaia.sa servicio; Mnimo Estrategias tfs Rswpsrsctsu TIEMPO

Objetivo de Punto de Recuperacin y Objetivo de Tiempo de Recuperacin

Recovery Point Objective /Recovery Time Objective

h/^ Fime -1 2 ir 24 hrs

El tiempo requerido para recuperarse. Seguridad.

Se pueden desarrollar o adquirir nuevos recursos /aplicaciones

Determinar si el plan trata de manera adecuada el traslado al sitio de recuperacin.

También podría gustarte