Está en la página 1de 12

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

1 Caso real

Cuando el huracn Gastn lleg a tierra en Carolina del Sur en 2004, la gente de Richmond, Virginia, esperaba que la tormenta "pasara pronto", dice Dick Cosby, el administrador del sistema de Estes Express Lines. "En lugar de ello, la tormenta permaneci sobre nosotros la mayor parte del da". El 30 de agosto Richmond recibi 2.230 milmetros de lluvia en slo unas pocas horas, empujando al ro James a ms de 3 metros por encima de la medida habitual de inundaciones. Debido al diluvio, la ciudad desactiv algunos desages pluviales perifricos a fin de impedir que el centro de la ciudad se inundara todava ms. El resultado? "Estamos inundados", recuerda Cosby. Pero "inundados" era poco decir. El centro de datos de Estes termin con los equipos computacionales sumergidos bajo 1,5 metros de agua, incluyendo agua de las alcantarillas para aguas de tormenta adems del cido de las UPS. Pero eso no fue lo peor, como Cosby explica: "Cada pieza de hardware, incluidos nuestros siete servidores IBM i-System, toda la SAN, los switches de fibra, routers, equipos de red y sistema telefnico estaba inundado. Afortunadamente, el personal de la empresa - una familia propietaria de las empresas de transporte con una red de 185 terminales de transporte en 46 estados y una flota de ms de 29.000 tractores y remolques mitig algunos de los daos causados mediante apagar sus sistemas tan pronto como vieron el agua
Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

en la habitacin. "Apagamos todo por media hora, pero era demasiado tarde para hacer nada ms por entonces", dice Cosby. Como parte del procedimiento habitual el personal de Estes ya haba hecho respaldos de los datos de sus equipos productivos y las cintas haban dejado el lugar esa maana; las cintas estaban secas y lejos. En el mejor de los casos esto significaba que tendra que volver a crear slo un da de trabajo. Lamentablemente, los siete servidores no estaban ni secos ni lejos sino que se encontraban con sus unidades completamente sumergidas en el agua de tormenta y de alcantarilla. En lugar entrar en pnico, la compaa tom accin para limpiar el desorden con el objetivo de ser capaz de encender algunos de los servidores. Cosby relata: "Trajimos una empresa para drenar la habitacin - lo que tom la mayor parte del da - y, a continuacin, usando la mquina de fax de una estacin servicio cercana enviamos una peticin a IBM con una solicitud de sustitucin inmediata de equipamiento". Despus que sacamos uno de los servidores y dejamos que se secara, el personal de IBM de Rochester volvi a armarlo para ver si podan obtener una copia de seguridad y, sorprendentemente, si pudieron. Perdimos algunas unidades y cosas as, pero debido a que las unidades internas estaban espejadas, si pudieron ser encendidas". Fue una bendicin pues esto permiti a Estes completar las copias de seguridad de Sybase y ser llevadas a un sistema de reemplazo que entr en operacin el fin de semana siguiente. El sistema de produccin que fue recuperado de debajo del agua estando ah 12 horas logr seguir funcionando hasta que lo apagamos tres meses ms tarde", dice Cosby Como resultado de este desastre, Estes ha puesto en funcionamiento nuevos procesos y sistemas de recuperacin ante desastres, incluyendo el sistema de almacenamiento de IBM Global Mirror y dos servidores i-System en un sitio para recuperacin ante desastres en Arizona que se espejan hacia Richmond. "Si bien es cierto hemos tenido suerte, creo que nuestra rpida recuperacin - que tom solo una semana - se debe en gran parte a la ayuda que recibimos de nuestro socio de negocios IBM por no mencionar la calidad del hardware de este fabricante" reconoce Cosby.

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Contenidos
1 2 3 CASO REAL....................................................................................................................... 2 LA ACTUALIDAD ............................................................................................................ 5 ACCIN.............................................................................................................................. 6 3.1 RESPALDOS DE LA INFORMACIN CRTICA ................................................................. 6 3.2 REDUZCA SUS DATOS. .................................................................................................. 7 3.3 TOME PRECAUCIONES. ................................................................................................. 7 3.3.1 Proteja sus respaldos fuera del sitio principal........................................................ 7 3.3.2 Cifrado de datos. ..................................................................................................... 8 3.3.3 Respalde su configuracin. ..................................................................................... 8 3.3.4 Minimice los riesgos................................................................................................ 9 3.4 ELABORE UN PLAN DE RECUPERACIN ANTE DESASTRES. ........................................ 10 3.4.1 Las personas.......................................................................................................... 10 3.4.2 Su proveedor de servicio. ...................................................................................... 10 4 5 CONCLUSIONES ............................................................................................................ 11 FUENTES DOCUMENTALES....................................................................................... 12

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

2 La actualidad
Segn un ejecutivo de Iron Mountain existen tres elementos bsicos en toda organizacin: el Capital Humano, la Tecnologa y la Informacin. Tanto en el caso del recurso humano como de las tecnologas estas se pueden reemplazar, pero esto no ocurre con la informacin. La informacin no tiene reemplazo y cuando se pierde no existe forma de reemplazarla con nada. Una presentacin de negocios de Sun Microsystems de 2007 confesaba: Junto con estas nuevas oportunidades hay tambin mayores riesgos incluyendo los riesgos operativos, como catstrofes a gran escala o pandemias, el calentamiento global, la agitacin poltica o regional y el terrorismo. Adems, los reglamentos de sociedades y direccin corporativa imponen controles ms estrictos, requiriendo ms auditoras y transparencia. Por ltimo hay incertidumbres econmicas entre ellos el aumento de los tipos de inters, y aumento de los costos de la energa." A modo de ejemplo, podemos sealar que para 2008, la Dcima Encuesta Global de Seguridad de la Informacin realizada por la consultora Ernst & Young en Mxico, revela que slo 19% de las compaas ha diseado y mantiene una estrategia puntual para la seguridad de sus datos y la continuidad del negocio. Considerando estos razonamientos se hace necesario contar con un procedimiento de proteccin de informacin ante cualquier evento con mayor urgencia que nunca. Un mito habitual es creer que la planificacin de recuperacin ante desastres cae en el dominio de los ingenieros y especialistas de TI solamente. Es un imperativo que esta responsabilidad sea compartida entre los ejecutivos de la compaa y los administradores de TI. El anlisis de impacto ante un desastre debe mirarse desde las perspectivas financieras y fsicas (la infraestructura) mediante formularse las siguientes preguntas: Cunto de los recursos de la organizacin podran daarse? Cules son los costos totales? Qu esfuerzo se requiere para volver a ponerse en pie? Cunto tiempo tomar el recuperarse? Cul es el impacto a nivel corporativo? Qu clientes se vern afectados y de qu manera? Cmo afectar esto el precio de mercado de la compaa?

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Accin
La estrategia bsica de respaldo y recuperacin consta de los siguientes pasos generalmente aceptados:

3.1 Respaldos de la Informacin Crtica


o Establezca un ranking de su informacin ms sensible a su negocio e identifique dnde se halla. o En caso de haber iniciado recientemente su plan de respaldos considere lo siguiente: Mantenga un plano lgico de acceso a dicha informacin a fin de conocer quienes la utilizan y cmo se vera afectado el negocio en ausencia de la informacin all contenida. Para cada uno de sus servicios de negocio defina los perodos RPO y RTO y en base a esto disee el plan de respaldos que cada servicio requerir. Involucre en la revisin del diseo al menos a las siguientes personas de la organizacin: o El administrador de respaldo de datos y resguardo de medios magnticos o El administrador de la base de datos. o El administrador de la aplicacin. o El administrador del sistema operativo. o El administrador de la red de datos. o El administrador de los sistemas de almacenamiento. o El administrador de los sistemas de energa y enfriamiento. o El administrador de accesos fsicos. o El administrador del centro de datos. o El administrador de seguridad (accesos lgicos, firewall, etc) Haga una actualizacin a esta revisin cada seis meses al menos. Tenga presente en el diseo los presupuestos contemplados para la adquisicin de tecnologa. Aproveche la experiencia de los dems. Guese utilizando las normas ITIL e ISO20000 en lo referido a Proteccin de Datos. No olvide que los datos sensibles al negocio no estn necesariamente en su totalidad en los servidores y en los sistemas de almacenamiento de disco; tambin estn las estaciones de trabajo ya sean mviles o fijas.

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

3.2 Reduzca sus datos.


El futuro lleg y lleg antes de lo previsto. Los actuales sistemas de informacin estn sufriendo una explosin en el tamao de los datos que deben contener y manejar. EMC indica que el mayor problema que enfrentan las organizaciones de TI es la administracin del tamao creciente de dicho crecimiento. Un enfoque correcto al momento de efectuar respaldos de datos es reducirlos de tamao y ver cunto se ahorra en espacio. Esta es una reduccin lgica y no fsica de los datos pues al momento de requerirlos de regreso estos deben estar intactos. Se ha adoptado actualmente el mtodo de reduccin de datos mediante el uso de sistemas de almacenamiento intermedio que cuentan con algoritmos avanzados de de-duplicacin de datos. Por tratarse de sistemas basados en disco de bajo costo la inversin en este tipo de tecnologa es una alternativa sumamente viable. Un integrador local ha propuesto exitosamente el uso de de-duplicacin de datos basado en respaldos incrementales hacia el sistema de-duplicador durante todo un mes. Finalmente el respaldo histrico, generalmente el respaldo mensual, es enviado a cinta. Durante este perodo los datos estn disponibles para pronta recuperacin reduciendo dramticamente el uso de medios fsicos y de la administracin que ello conlleva. Varias de estas alternativas de de-duplicacin se integran fcilmente con los actuales sistemas de respaldo. Dependiendo del tipo de datos este integrador garantiza tasas de reduccin de datos de 20% en base instalada.

3.3 Tome precauciones.


3.3.1 Proteja sus respaldos fuera del sitio principal.
Con la finalidad de estar mejor preparado para una situacin de desastre obtenga copias de los datos relevantes y envelas fuera del sitio principal. Para el envo manual de informacin fuera del sitio hay compaas especializadas en resguardo de medios fsicos que dan este servicio en lugares ambientalmente apropiados. Existen mtodos automticos tambin. Recuerde que el respaldo es solo una parte de la estrategia global de proteccin de datos y debe complementarse con copias adicionales a distancia. Las cintas son el ltimo lugar donde van a parar sus datos y usted espera que al menos estn en buen estado.

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

3.3.2 Cifrado de datos.


Agregue seguridad a los datos respaldados. Hay documentado un caso en los Estados Unidos de extravo de medios fsicos durante un traslado en vehculo en donde las cintas no estaban encriptadas. Una situacin como esta deja a la compaa altamente expuesta al uso malicioso de dicha informacin. No existe forma de dimensionar el perjuicio que el uso malintencionado puede generar. La mayora de las aplicaciones de respaldo ya cuentan con mtodos de cifrado de datos por software y por hardware. Hay disponibles tambin equipos capaces de cifrar los datos que van hacia las cintas y que se integran al sistema de respaldo. No pierda de vista que si bien el cifrado de datos ofrece invulnerabilidad de los datos, esta accin de resguardo exige la ms cuidadosa administracin de las claves utilizadas para esto. Si se pierde la llave de acceso al dato cifrado dicho dato no ser recuperado jams.

3.3.3 Respalde su configuracin.


Recuerde que el respaldo de los datos no resuelve el problema presentado al momento de sufrir la prdida total de un sistema computacional. Como se ejemplific con el caso de Estes Express Lines los servidores y sistemas de almacenamiento no quedaron en condiciones de recuperar los datos respaldados en ellos sino que se requiri el total reemplazo del hardware. Reemplazar un switch no es lo mismo que reemplazar un servidor. Este ltimo tiene un nivel de personalizacin compleja que hasta en el mejor de los casos el promedio de tiempo requerido para dejarlo en condiciones de recibir de regreso los datos respaldados puede tardar varias horas. En vista de este escenario la mejor alternativa es tener un sistema de respaldo de configuraciones que se complemente con el actual sistema de respaldo de datos y lo ms importante que sea capaz de abstraerse de la configuracin fsica del sistema que resguarda. El respaldo de configuraciones debe ser capaz de seguir el rastro a todos y cada uno de los cambios hechos al sistema. Por ejemplo, para el recurso tarjeta de red este sistema debe ser capaz de conservar las direcciones IP que se han aplicado a estas, las mscaras de red y los niveles de servicio TCP que se hayan configurado a fin de poder volver a una configuracin determinada en cualquier momento del tiempo. De esta manera, al momento de recuperar la configuracin de red, este sistema de respaldo podr poner sobre cualquier otro hardware - con el mismo sistema operativo - la configuracin ya conocida por l.

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Desde este punto de vista la recuperacin de configuracin de un sistema llega a hacerse independiente del hardware del cual originalmente fue tomado y por lo mismo el tiempo de recuperacin de una configuracin vlida y confiable donde recuperar los datos de produccin se reduce en forma notoria.

3.3.4 Minimice los riesgos


Haga lo posible por no intervenir los sistemas hacia el fin de semana. Si tras la intervencin se presenta una falla que no se logre resolver a tiempo se encontrar con que ha cado la noche y todo el personal a quien acudir se encuentra fuera de la ciudad. Los desastres producidos por error humano son infinitamente ms frecuentes que los naturales.

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

3.4 Elabore un plan de recuperacin ante desastres.


Mientras ms seguido pruebe su plan antes desastres mejor estar preparado para responder en forma efectiva ante un caso real. Efecte todos los simulacros planificados y compruebe que puede seguir operando en un sitio remoto. Defina qu servicios y qu datos requerirn estos a fin de completar la simulacin en forma exitosa. Mientras ms probado est el plan ms fcil ser tomar decisiones que seran prcticamente imposibles de tomar si las pruebas han sido insuficientes. Los indicadores de rendimiento proporcionan el mecanismo por el cual se puede medir el xito de su proceso de recuperacin ante desastres. Estos indicadores (KPI) son un tanto diferentes de los utilizados para medir el rendimiento de la red, porque son una combinacin del estado del proyecto y las pruebas de funcionamiento de infraestructura. Los indicadores de xito contemplan: Informes peridicos de la planificacin del grupo a la alta gerencia. Representacin de la malla del equipo de diseo de recuperacin de desastres en el equipo de planificacin. Las pruebas peridicas para verificar la efectividad del plan de recuperacin de desastres y los informes sobre las deficiencias detectadas y los riesgos que estas representan. Un proceso de revisin que incluya el despliegue de nuevas soluciones. Anlisis cmo se manej la recuperacin de desastres, la eficacia, y su impacto en la compaa (despus que un desastre ocurra).

3.4.1 Las personas.


El recurso Humano era uno de los elementos fundamentales mencionados al principio de este artculo. Verifique y repase los roles y nombres de los participantes de su plan ante desastres. Tenga a mano los nmeros telefnicos de ellos y de sus reemplazantes.

3.4.2 Su proveedor de servicio.


Hgalo parte de su plan ante desastres. Infrmele los procedimientos diseados en base a un protocolo definido a fin de entender en qu momento intervendr cada uno y haga que se conozcan las derivaciones que pudiese tener el plan dependiendo de la gravedad de los daos. Considere seriamente poner a su proveedor de servicio en el primer lugar de su listado de llamados de emergencia.

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

3 Conclusiones
Habiendo contemplado un plan de recuperacin ante desastres est usted preparado para una real catstrofe? Lecciones aprendidas de Katrina y 9/11: 1.- Planee un sitio de respaldo de antemano. Considere que las cintas puedan ser ledas en los sistemas de contingencia. Pero est el sitio de contingencia libre de los fallos de energa que afectaron al sitio principal? 2.- Tome control de sus telecomunicaciones. Asegure que los llamados de sus clientes sean recibidos en su compaa de forma ininterrumpida. 3.- Preprese para cortes de energa extensos. Contemple buen aprovisionamiento de combustible para los sistemas electrgenos y bateras extra para los telfonos celulares de su personal. 4.- Escoja un centro de datos de bajo riesgo/amenaza. Contemple la energa necesaria, el clima cambiante, la infraestructura para el personal en caso de tener que trasladarse por un tiempo prolongado. 5.- Aumente la velocidad en la replicacin de datos en sus servidores. Recuperar de cinta puede tomar hasta 36 horas dependiendo del sistema. Un diseo de excelencia puede volver los sistemas principales a produccin en 45 minutos. 6.- Use mtodos de comunicacin en capas. Para las comunicaciones de su personal considere tener una combinacin de telfonos celulares convencionales y dispositivos Smart Phones con ms de un proveedor de seal mvil. 7.- Cree una infraestructura espejada. Replique los sistemas ms crticos desde el punto de vista del negocio y de sus clientes.

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

4 Fuentes documentales
Iron Mountain, Inc. o Best Practice Knowledge Center IBM Corp. o IBM Systems Magazine, August 2007, Stormy Weather by Jim Utsler EMC Corp. o NetWorker Disaster Recovery Guide Sungard, Inc. o Key Considerations for Disaster Recovery Planning, SG-BRO-0177/06 Cisco Systems, Inc. o Disaster Recovery: Best Practices White Paper, Document ID: 15118 Sun Microsystems. o Partner Sales Accreditation Presentations, 2007

Best Practice White Paper Autor: Andrs Rojas M. Dec 2011, v1.2

También podría gustarte