Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2022-01-01
Lista de distribución
De Fecha Teléfono/Fax/Email
* Acciones: Aprobar, Revisar, Informar, Archivar, Acción Requerida, Atendido Reunión, Otro
(por favor especifique)
DESARROLLO
Arquitectura de recuperación ante desastres (DR) en AWS, parte II: copia de seguridad y
restauración con recuperación rápida
Como se muestra en la Figura 1, la copia de seguridad y la restauración están asociadas con un RTO (objetivo
de tiempo de recuperación) y un RPO (objetivo de punto de recuperación) más altos. Esto da como resultado
tiempos de inactividad más prolongados y una mayor pérdida de datos entre el momento en que ocurre el
evento de desastre y la recuperación. Sin embargo, la copia de seguridad y la restauración aún pueden ser la
estrategia adecuada para su carga de trabajo porque es la estrategia más fácil y menos costosa de implementar.
Además, no todas las cargas de trabajo requieren RTO y RPO en minutos o menos.
Se agregan instancias: Una instancia es un servidor virtual en la nube de AWS. Con Amazon
EC2, puede instalar y configurar el sistema operativo y las aplicaciones que se ejecutan en la
instancia. Cuando se registra en AWS, puede comenzar a usar Amazon EC2 mediante el nivel
gratuito de AWS
Se agrga aws s3: Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento en la
nube escalable, de alta velocidad y basado en la web. El servicio está diseñado para realizar copias de
seguridad y archivar en línea datos y aplicaciones en Amazon Web Services (AWS).
Se agrega aws snapshot: Los aws snapshot son copias en el tiempo de los volúmenes, es decir un
aws snapshot backup. Los aws snapshot son incrementales, solo representan los cambios
realizados. Si es el primer snapshot creado puede tomar algún tiempo. Podemos hacer un aws
snapshot restore para regresar a cualquier punto en el tiempo.
Cada región de AWS consta de varias zonas de disponibilidad (AZ). Es necesaria una estrategia Multi-AZ, que
replique los recursos en todas las AZ, para proporcionar alta disponibilidad (HA).
La estrategia HA proporciona gran parte de lo que su carga de trabajo necesita para DR dentro de una sola
región. Sin embargo, los eventos de desastre incluyen acciones humanas y errores de software que pueden
borrar o dañar sus datos. Si esto sucede, las estrategias de HA replicarán este tipo de errores de datos. Por lo
tanto, para DR debe realizar una copia de seguridad adicional de sus almacenes de datos dentro de la región
(Figura 2). Usar copias de seguridad que ofrecen recuperación de un momento dado (como la recuperación de
un momento dado para Amazon DynamoDB y la restauración de una instancia de base de datos a un tiempo
específico para RDS) o habilitar el control de versiones (usando el control de versiones en Amazon Simple
Storage Service (Amazon S3) cubetas), le permitirá "rebobinar" hasta el último estado bueno conocido.
Cuando ocurra un desastre, llevará a cabo su estrategia de recuperación ante desastres siguiendo estos pasos:
2. Restaure la infraestructura, los datos y vuelva a integrarlos para permitir que su carga de trabajo funcione
1. Detectar
El tiempo de recuperación (y, por lo tanto, el RTO) a menudo se considera como el tiempo que lleva restaurar
la carga de trabajo y la conmutación por error. Pero como se muestra en la Figura 4, el tiempo de detección y
el tiempo para decidir la conmutación por error son contribuyentes adicionales (y potencialmente
significativos) al tiempo de recuperación.
Para reducir el tiempo de recuperación, la detección debe automatizarse. No espere hasta que sus operadores
noten el problema, y nunca espere hasta que sus clientes lo noten.
En la Figura 5, mostramos una posible arquitectura para detectar y responder a eventos que afectan la
disponibilidad de su carga de trabajo.
Amazon CloudWatch cuenta con alarmas de CloudWatch que se activan a partir de métricas basadas
en una configuración que defina. Esto puede ser de varias métricas usando expresiones matemáticas
o basado en muchas otras alarmas. El resultado es que puede configurar comprobaciones de estado
sofisticadas basadas en el comportamiento de su carga de trabajo. Además, con la detección de
anomalías de CloudWatch, puede detectar si la interacción con el sitio, los pedidos u otros
indicadores clave de rendimiento han disminuido. Este es un fuerte indicador de que su carga de
trabajo se ve afectada por un evento.
Personal Health Dashboard lo alerta cuando AWS está experimentando eventos que pueden
afectarlo. Puede ver el panel en la Consola de administración de AWS y configurar
2. Restaurar
La restauración de datos desde una copia de seguridad crea recursos para esos datos, como volúmenes de EBS,
instancias de base de datos de RDS y tablas de DynamoDB. La Figura 6 muestra que puede usar AWS Backup
para restaurar datos en la región de recuperación (en este caso, para un volumen de EBS). La reconstrucción de
la infraestructura incluye la creación de recursos como instancias EC2 además de Amazon Virtual Private
Cloud (Amazon VPC), las subredes y los grupos de seguridad necesarios..
Para restaurar la infraestructura en la región de recuperación, debe usar Infraestructura como código
(IaC). Esto incluye el uso de CloudFormation y el kit de desarrollo de la nube de AWS (AWS CDK) para crear
una infraestructura uniforme en todas las regiones. Para crear las instancias EC2 que necesita su carga de
trabajo, utilice imágenes de máquina de Amazon (AMI) para incorporar el sistema operativo y los paquetes
necesarios. Dado que estas AMI contienen exactamente lo que necesita para mantener servidores consistentes,
nos referimos a ellas como "AMI doradas". Amazon EC2 Image Builder se puede utilizar para crear AMI
doradas y copiarlas en su región de recuperación.
En algunos casos, deberá reintegrar su infraestructura y datos. Por ejemplo, en la Figura 6 hemos recuperado datos
con estado en un volumen de EBS. Queremos volver a adjuntar ese volumen a
Usando EventBridge, implementamos una solución sin servidor. AWS Backup emite un evento después de
completar la restauración de datos de un recurso. Como reacción a esto, EventBridge inicia dos acciones: 3A)
crea un elemento en OpsCenter para el seguimiento y 3B) invoca una función Lambda. Del evento, Lambda
obtiene la ID del nuevo recurso que se creó en la región de recuperación, así como la ID de la copia de
seguridad utilizada para la recuperación (punto de recuperación). El código Lambda realiza una llamada a la
API para obtener etiquetas que estaban en el recurso original (en la región principal), lo que puede guiarlo en
la configuración de la integración. AWS Backup copiará automáticamente las etiquetas de un recurso a las
copias de seguridad que realiza. Con otra llamada de API a CloudFormation, Lambda puede conocer el ID de
la instancia EC2. Luego puede llamar a las API en Amazon EC2 para adjuntarle el volumen de EBS.
La Figura 7 le muestra cómo adjuntar un volumen de EBS a una instancia de EC2, pero hay otras integraciones
que quizás desee automatizar. Por ejemplo, en lugar de una función de Lambda, el evento de restauración de
datos podría activar un runbook en Systems Manager. Esto montará automáticamente un sistema de archivos
EFS o Amazon FSx restaurado en una o más instancias EC2.
Para una automatización más completa, puede usar AWS Step Functions para orquestar todo. Esto incluye la
implementación de la infraestructura con CloudFormation, la restauración de datos con AWS Backup y los
pasos de integración. Con Step Functions, configura una máquina de estado que realiza funciones Lambda para
iniciar y monitorear cada actividad en el orden requerido con las dependencias requeridas.
La conmutación por error redirige el tráfico de producción desde la región principal (donde ha
determinado que la carga de trabajo ya no puede ejecutarse) a la región de recuperación.
Conclusión
A medida que los equipos comerciales y de ingeniería colaboran en los objetivos y la implementación de DR,
se debe considerar usar la estrategia de copia de seguridad y restauración para satisfacer las necesidades de DR
para su carga de trabajo. Con la automatización, puede minimizar el RTO y, por lo tanto, disminuir los
impactos del tiempo de inactividad en caso de desastre. El menor costo de esta estrategia y su relativa
facilidad de implementación la convierten en una buena opción para muchas cargas de trabajo de AWS.