Está en la página 1de 26

Capítulo 6: El reino de los cinco nueves

Las organizaciones que desean maximizar la disponibilidad de sus sistemas y datos pueden adoptar medidas
extraordinarias para minimizar o eliminar la pérdida de datos. El objetivo es minimizar el tiempo de inactividad
de los procesos críticos. Si los empleados no pueden realizar sus tareas regulares, la organización está en
riesgo de perder ingresos.

Las organizaciones miden la disponibilidad conforme al porcentaje de tiempo de actividad. Este capítulo
comienza explicando el concepto de los cinco nueves. Muchos sectores deben mantener los mayores
estándares de disponibilidad dado que el tiempo de inactividad puede significar literalmente una diferencia
entre la vida y la muerte.

Este capítulo analiza diversos enfoques que las organizaciones pueden adoptar para cumplir sus objetivos de
disponibilidad. La redundancia brinda respaldo e incluye componentes adicionales para las computadoras o
los sistemas de red a fin de garantizar la disponibilidad de los sistemas. Los componentes redundantes
pueden incluir hardware, como unidades de disco, servidores, switches y routers, o software, como sistemas
operativos, aplicaciones y bases de datos. El capítulo también analiza la recuperabilidad y la capacidad de un
servidor, una red o un centro de datos para recuperarse rápidamente y continuar con la operación.

Las organizaciones deben prepararse para responder ante un incidente estableciendo procedimientos que
deben seguirse después de que ocurre un evento. El capítulo finaliza con un debate sobre la recuperación
tras un desastre y la planificación de la continuidad de los negocios, fundamentales para el mantenimiento de
la disponibilidad de los recursos de una organización.

¿Qué son los cinco nueves?

Los cinco nueves significan que los sistemas y servicios están disponibles el 99,999% del tiempo. Esto quiere
decir que tanto el tiempo de inactividad planificado como no planificado es menor que 5,26 minutos por año.
El gráfico en la figura ofrece una comparación del tiempo de inactividad para varios porcentajes de
disponibilidad.

La alta disponibilidad hace referencia a un sistema o componente continuamente operativo durante un


espacio dado de tiempo. Para garantizar la alta disponibilidad:

 Elimine los puntos de falla únicos.

 Diseñe para la confiabilidad.

 Detecte fallas cuando ocurren.

Sostener una alta disponibilidad como estándar de los cinco nueves puede incrementar los costos y requerir
muchos recursos. El incremento de los costos se debe a la adquisición de hardware adicional, como
servidores y componentes. A medida que una organización agrega componentes, el resultado es un
incremento en la complejidad de la configuración. Desafortunadamente, la complejidad incrementada de la
configuración aumenta los factores de riesgo. Cuantas más partes móviles se involucran, mayor es la
probabilidad de componentes defectuosos.

Entornos que requieren los cinco nueves

Aunque el costo de sostener la alta disponibilidad pueda ser muy elevado para algunos sectores, muchos
entornos requieren cinco nueves.
 El sector financiero debe mantener una alta disponibilidad para un comercio, un cumplimiento y una
confianza del cliente continuos. Haga clic aquí para leer sobre la interrupción de cuatro horas en la
Bolsa de Valores de Nueva York en 2015.

 Las instalaciones de servicios de salud requieren alta disponibilidad para brindar atención a los
pacientes en todo momento. Haga clic aquí para leer sobre los costos promedio incurridos para el
tiempo de inactividad del centro de datos en el sector de servicios de salud.

 La industria de la seguridad pública incluye agencias que brindan seguridad y servicios a la


comunidad, el estado o la nación. Haga clic aquí para leer sobre una interrupción de la red en la
Agencia de Policía del Pentágono de los EE. UU.

 La industria minorista depende de cadenas de abastecimiento eficientes y de la entrega de productos


a los clientes. Una interrupción puede ser devastadora, especialmente durante los tiempos de demanda,
como las fiestas.

 El público espera que el sector de los medios de comunicación comunique información sobre los
eventos a medida que ocurren. El ciclo de comunicación ahora está disponible las 24 horas, los 7 días
de la semana.

Amenazas a la disponibilidad

Las siguientes amenazas representan un alto riesgo para la disponibilidad de los datos y la información:

 Un usuario no autorizado penetra exitosamente y compromete la base de datos principal de una


organización.

 Un ataque de denegación de servicio exitoso afecta significativamente las operaciones.

 Una organización sufre una importante pérdida de datos confidenciales.

 Una aplicación crítica se desconecta.

 Ocurre un problema del administrador o usuario raíz.

 Se comparte la detección de un script entre sitios o un servidor de archivos ilegal.

 La degradación del sitio web de una organización afecta las relaciones públicas.

 Una fuerte tormenta, como un huracán o un tornado.

 Un evento catastrófico, como un ataque terrorista, el bombardeo de una construcción o el incendio de


un edificio.

 La interrupción del proveedor de servicios o la utilidad a largo plazo.

 Daños por agua como resultado de una inundación o una falla de aspersión.

Clasificar el nivel de impacto de cada amenaza ayuda a una organización a dilucidar el impacto en dólares de
las amenazas. Haga clic en las categorías de amenazas en la figura para ver un ejemplo de cada una.
Diseño del sistema de alta disponibilidad

La alta disponibilidad incorpora tres principios fundamentales para lograr el objetivo de un acceso
ininterrumpido a los datos y servicios:

1. Eliminación o reducción de puntos de falla únicos.

2. Recuperabilidad del sistema.

3. Tolerancia a fallas.

Haga clic en cada principio en la figura para ver una breve descripción.

Es importante comprender las formas de abordar el punto de falla único. El punto de falla único puede incluir
routers o switches centrales, servicios de red e incluso personal de TI altamente calificado. La clave es que
una pérdida de un sistema, un proceso o una persona puede tener un impacto muy negativo en todo el
sistema. La clave es contar con procesos, recursos y componentes que reduzcan los puntos de falla únicos.
Los clústeres de alta disponibilidad son una manera de proporcionar redundancia. Estos clústeres constan de
un grupo de computadoras que tienen acceso al mismo almacenamiento compartido y configuraciones de red
idénticas. Todos los servidores participan en el proceso de un servicio simultáneamente. Desde el exterior, el
grupo de servidores parece un dispositivo. Si un servidor dentro del clúster falla, los otros servidores continúan
procesando el mismo servicio que el dispositivo defectuoso.

La recuperabilidad de los sistemas se refiere a la capacidad para mantener la disponibilidad de los datos y el
proceso operativo a pesar de eventos de interrupción o ataques. Por lo general, esto requiere sistemas
redundantes en términos de potencia y procesamiento de manera tal que, en caso de que falle un sistema, el
otro pueda tomar el control de las operaciones sin ninguna interrupción del servicio. La recuperabilidad del
sistema es más que la protección de los dispositivos; requiere que tanto los datos como los servicios estén
disponibles incluso durante un ataque.

La tolerancia a fallas permite que un sistema siga operando si uno o más componentes fallan. La replicación
de puertos es un ejemplo de tolerancia a fallas. Si se produce una "falla" que provoca la interrupción de un
dispositivo, como un controlador de disco, el sistema replicado proporciona los datos solicitados sin
interrupciones aparentes en el servicio al usuario.

Identificación de activos

Una organización debe conocer qué hardware y software tiene como requisito previo a saber qué parámetros
de configuración necesita. La administración de activos incluye un inventario completo del hardware y
software.

Esto quiere decir que una organización debe conocer todos los componentes que pueden estar sujetos a
riesgos de seguridad, entre ellos:

 Cada sistema de hardware.

 Cada sistema operativo.

 Cada dispositivo de red del hardware.

 Cada sistema operativo del dispositivo de red.

 Cada aplicación de software.

 Todo el firmware.
 Todos los entornos de tiempo de ejecución del lenguaje.

 Todas las bibliotecas individuales.

Una organización puede elegir una solución automatizada para seguir sus activos. Un administrador debe
investigar cualquier configuración modificada dado que puede significar que la configuración no está
actualizada. También puede significar que ocurren cambios no autorizados.

Clasificación de activos

La clasificación de activos asigna todos los recursos de la organización a un grupo según las características
comunes. Una organización debe aplicar un sistema de clasificación de activos a los documentos, los
registros de datos, los archivos de datos y los discos. La información más importante debe recibir el mayor
nivel de protección e incluso puede requerir un manejo especial.

Una organización puede adoptar un sistema de etiquetado según cuán valiosa, confidencial y crítica sea la
información. Complete los pasos siguientes para identificar y clasificar los activos de una organización:

1. Determine la categoría de identificación de activos correcta.

2. Establezca la auditoría de activos mediante la identificación del propietario de todos los recursos de
información y software de aplicaciones.

3. Determine los criterios de clasificación.

4. Implemente un esquema de clasificación.

La figura proporciona más detalles para estos pasos.

Por ejemplo, el gobierno estadounidense se basa en la confidencialidad para clasificar los datos de la
siguiente manera: secretos, absolutamente secretos, confidenciales, de confianza pública o sin clasificar.

Estandarización de activos
La administración de activos administra el ciclo de vida y el inventario de los activos tecnológicos, incluidos los
dispositivos y el software. Como parte del sistema de administración de activos de TI, una organización
especifica los activos de TI aceptables que cumplen los objetivos. Esta práctica reduce eficazmente los
diferentes tipos de activos. Por ejemplo, una organización instalará únicamente aplicaciones que cumplan con
las pautas. Cuando los administradores eliminen las aplicaciones que no cumplan con las pautas,
incrementarán la seguridad con eficacia.

Los estándares de activos identifican los productos de hardware y software específicos que la organización
usa y respalda. Cuando ocurre una falla, actuar inmediatamente ayuda a mantener tanto el acceso como la
seguridad. Si una organización no estandariza su selección de hardware, el personal deberá esforzarse por
encontrar los componentes de repuesto. Los entornos no estandarizados requieren más experiencia para su
administración y aumentan el costo de los contratos de mantenimiento e inventario. Haga clic aquí para leer
sobre cómo los militares pasaron al hardware basado en estándares para sus comunicaciones militares.

Identificación de amenazas

El equipo de Respuesta ante Emergencias Informáticas de los Estados Unidos (US-CERT) y el Departamento
de Seguridad Nacional de los EE. UU. patrocinan un diccionario de vulnerabilidades y exposiciones comunes
(CVE). Las CVE contienen un número de identificación estándar con una descripción breve y referencias a
informes de vulnerabilidades y avisos relacionados. The Mitre Corporation mantiene una lista de CVE y su
sitio web público.

La identificación de amenazas comienza con el proceso de creación de un identificador de CVE para las
vulnerabilidades de ciberseguridad conocidas públicamente. Cada identificador de CVE incluye lo siguiente:

 El número de identificador de CVE.

 Una breve descripción de la vulnerabilidad en la seguridad.

 Cualquier referencia importante.

Haga clic aquí para obtener más información sobre el identificador de CVE.

Análisis de riesgos

El análisis de riesgos es el proceso de analizar los peligros que plantean los eventos de causa natural y
humana a los activos de una organización.

Un usuario debe realizar una identificación de activos para determinar qué activos proteger. El análisis de
riesgos tiene cuatro objetivos:

 Identificar los activos y su valor.

 Identificar las vulnerabilidades y las amenazas.

 Cuantificar la probabilidad y el impacto de las amenazas identificadas.

 Equilibrar el impacto de las amenazas con el costo de las contramedidas.

Hay dos enfoques para el análisis de riesgos.

Análisis de riesgos cuantitativo


Un análisis cuantitativo asigna números al proceso de análisis de riesgos (Figura 1). El valor de un activo es el
costo de reemplazo del activo. El valor de un activo también puede medirse por los ingresos obtenidos del uso
del activo. El factor de exposición (EF) es un valor subjetivo expresado como porcentaje de las pérdidas de
activos debidas a una amenaza particular. Si se produce una pérdida total, el EF equivale a 1,0 (100%). En el
ejemplo cuantitativo, el servidor tiene un valor de activo de USD 15 000. Cuando el servidor falla, ocurre una
pérdida total (el EF equivale a 1,0). El valor de activo de USD 15 000 multiplicado por el factor de exposición 1
da como resultado una única expectativa de pérdida de USD 15 000.

La tasa de frecuencia anual (ARO) es la probabilidad de que una pérdida ocurra durante el año (también
expresada como porcentaje). La ARO puede ser mayor que 100% si una pérdida ocurre más de una vez al
año.

El cálculo de la expectativa de pérdida anual (ALE) brinda a la gerencia cierta orientación sobre lo que debe
gastar para proteger los activos.

Análisis de riesgos cualitativo

El análisis de riesgos cualitativo utiliza opiniones y situaciones. En la Figura 2 se presenta un ejemplo de la


tabla que se usa en el análisis de riesgos cualitativo, que compara la probabilidad de una amenaza con su
impacto. Por ejemplo, la amenaza de una falla del servidor puede ser probable, pero su impacto será mínimo.

Un equipo evalúa cada amenaza a un activo y la compara con la tabla. El equipo clasifica los resultados y los
utiliza como guía. Puede determinar la adopción de medidas solo para las amenazas de la zona roja.

Los números utilizados en la tabla no se relacionan directamente con ningún aspecto del análisis. Por
ejemplo, un impacto catastrófico de 4 no es mucho peor que un impacto marginal de 2. Este método es
subjetivo por naturaleza.
Mitigación

La mitigación implica la reducción de la gravedad de la pérdida o de la probabilidad de ocurrencia de la


pérdida. Muchos controles técnicos mitigan el riesgo, incluidos los sistemas de autenticación, los permisos de
archivos y los firewalls. La organización y los profesionales de seguridad deben comprender que la mitigación
de riesgos puede tener tanto un impacto positivo como negativo en la organización. La buena mitigación de
riesgos encuentra un equilibrio entre el impacto negativo de las contramedidas y los controles y el beneficio de
la reducción del riesgo. Existen cuatro maneras comunes de reducir el riesgo:

 Aceptar el riesgo y reevaluarlo periódicamente.

 Reducir el riesgo mediante la implementación de controles.

 Evitar el riesgo modificando completamente el enfoque.

 Transferir el riesgo a terceros.


Una estrategia a corto plazo es aceptar el riesgo que necesita la creación de planes de contingencia para
dicho riesgo. Las personas y las organizaciones deben aceptar el riesgo diariamente. Las metodologías
modernas reducen el riesgo mediante el desarrollo incremental de software y la provisión de parches y
actualizaciones periódicas para abordar las vulnerabilidades y los errores de configuración.

Los servicios de subcontratación y la adquisición de seguros o contratos de mantenimiento son ejemplos de


transferencia del riesgo. Contratar especialistas para realizar las tareas fundamentales a fin de reducir el
riesgo puede ser una buena opción y producir mejores resultados con una menor inversión a largo plazo. Un
buen plan de mitigación de riesgos puede incluir dos o más estrategias.

Estratificación / Superposicion

La defensa en profundidad no proporcionará un blindaje cibernético impenetrable, pero ayudará a una


organización a minimizar el riesgo manteniéndose un paso adelante de los ciberdelincuentes.

Si hay únicamente una defensa vigente para proteger los datos y la información, los ciberdelincuentes solo
deben sortear esa única defensa. Para garantizar la disponibilidad de los datos y la información, una
organización debe elaborar distintos niveles de protección.

Un enfoque estratificado proporciona la protección más integral. Si los ciberdelincuentes penetran un nivel,
aún deben lidiar con varios niveles más, cada uno más complejo que el anterior.

La estratificación es la creación de una barrera de múltiples defensas coordinadas para prevenir ataques. Por
ejemplo, una organización puede almacenar sus documentos confidenciales en un servidor en un edificio
rodeado por una cerca electrónica.

Restricción / Limitación

Limitar el acceso a los datos y la información reduce la posibilidad de una amenaza. Una organización debe
restringir el acceso para que los usuarios solo tengan el nivel de acceso requerido para realizar su trabajo. Por
ejemplo, las personas en el departamento de marketing no necesitan acceder a los registros de nómina para
realizar sus tareas.

Las soluciones basadas en la tecnología, como el uso de permisos de archivos, son una manera de limitar el
acceso; una organización también debe implementar medidas procedimentales. Debe haber un procedimiento
vigente que prohíba a un empleado eliminar los documentos confidenciales de las instalaciones.
Diversidad

Si todos los niveles protegidos fueran iguales, no sería muy difícil que los ciberdelincuentes realicen un ataque
exitoso. Por lo tanto, los niveles deben ser diferentes. Si los ciberdelincuentes penetran un nivel, la misma
técnica no funcionará en los demás niveles. Infringir un nivel de seguridad no compromete todo el sistema.
Una organización puede usar diferentes algoritmos de encriptación o sistemas de autenticación para proteger
los datos en distintos estados.

Para alcanzar el objetivo de la diversidad, las organizaciones pueden utilizar productos de seguridad
fabricados por empresas diferentes para la autenticación de varios factores. Por ejemplo, el servidor que
contiene los documentos confidenciales se encuentra en una sala cerrada que requiere una tarjeta magnética
de una empresa y la autenticación biométrica de otra empresa.

Ocultamiento

El ocultamiento de información también puede proteger los datos y la información. Una organización no debe
revelar ninguna información que los ciberdelincuentes puedan usar para descubrir qué versión de sistema
operativo ejecuta un servidor o el tipo de equipos que usa. Por ejemplo, los mensajes de error no deben
contener detalles que los ciberdelincuentes puedan usar para determinar qué vulnerabilidades están
presentes. Ocultar ciertos tipos de información hace más difícil que los ciberdelincuentes ataquen un sistema.

Simplicidad

La complejidad no necesariamente garantiza la seguridad. Si una organización implementa sistemas


complejos difíciles de comprender y solucionar, pueden resultar contraproducentes. Si los empleados no
comprenden cómo configurar correctamente una solución compleja, puede resultarles fácil a los
ciberdelincuentes comprometer dichos sistemas. Para mantener la disponibilidad, una solución de seguridad
debe ser simple internamente, pero compleja externamente.

Puntos de falla únicos


Un punto de falla único es una operación crítica dentro de una organización. Otras operaciones pueden
depender de éste y las fallas interrumpen su operación fundamental. Un punto de falla único puede ser una
pieza especial de hardware, un proceso, una sección de datos específica o incluso una utilidad esencial. Los
puntos de falla únicos son los enlaces débiles en la cadena que pueden causar una interrupción en las
operaciones de la organización. Generalmente, la solución para un punto de falla único es modificar la
operación crítica a fin de que no dependa de un solo elemento. La organización también puede desarrollar
componentes redundantes en la operación crítica para controlar el proceso si uno de estos puntos falla.

Redundancia N+1

La redundancia N+1 garantiza la disponibilidad del sistema en caso de una falla de componentes. Los
componentes (N) deben tener al menos un componente de respaldo (+1). Por ejemplo, un automóvil tiene
cuatro neumáticos (N) y un neumático de repuesto en el baúl en caso de un reventón (+1).

En un centro de datos, la redundancia N+1 significa que el diseño del sistema puede soportar la pérdida de un
componente. La N se refiere a diferentes componentes que conforman el centro de datos, incluidos
servidores, fuentes de alimentación, switches y routers. El +1 es el componente o sistema adicional en espera
listo para utilizar si es necesario.

Un ejemplo de redundancia N+1 en un centro de datos es un generador de energía que se conecta cuando
ocurre algo con la fuente de alimentación principal. Aunque un sistema N+1 contenga equipos redundantes,
no es un sistema totalmente redundante.

RAID

Una matriz redundante de discos independientes (RAID) combina múltiples unidades de disco duro físicas en
una única unidad lógica para proporcionar redundancia de datos y mejorar el rendimiento. La matriz
redundante de discos independientes (RAID) toma datos normalmente almacenados en un disco duro y los
extiende por varios discos. Si se pierde un disco, el usuario puede recuperar los datos de otros discos donde
residen los datos.

La RAID además puede incrementar la velocidad de la recuperación de datos. El uso de varias unidades
permite la rápida recuperación de datos solicitados en lugar de depender de un solo disco para realizar el
trabajo.

Una solución de RAID puede estar basada en hardware o software. Una solución basada en hardware
requiere un controlador de hardware especializado en el sistema que contiene las unidades de RAID. Los
siguientes términos describen cómo la RAID almacena los datos en los distintos discos:

 Paridad: Detecta errores de datos.

 Creación de bandas de datos: Escribe datos en varios discos.

 Replicación de disco: Almacena los datos duplicados en una segunda unidad.

Hay varios niveles de RAID disponibles, como se muestra en la figura.

Haga clic aquí para ver un tutorial del nivel de RAID que explica la tecnología de RAID.

Árbol de expansión

La redundancia aumenta la disponibilidad de la infraestructura protegiendo la red de un punto de falla único,


como un cable de red o un switch defectuosos. Cuando los diseñadores incorporan la redundancia física en
una red, se producen bucles y tramas duplicadas. Esto trae consecuencias graves para las redes
conmutadas.

El protocolo de árbol de expansión (STP) resuelve estos problemas. La función básica del STP es evitar
bucles en la red cuando los switches se interconectan a través de varias rutas. El STP garantiza que los
enlaces físicos redundantes estén libres de bucles. Garantiza que solo haya una ruta lógica entre todos los
destinos en la red. El STP bloquea intencionalmente las rutas redundantes que pueden generar un bucle.

El bloqueo de las rutas redundantes es fundamental para evitar bucles en la red. Las rutas físicas aún existen
para proporcionar redundancia, pero el STP deshabilita estas rutas para evitar que se generen bucles. Si un
switch o cable de red falla, el STP recalcula las rutas y desbloquea los puertos necesarios para permitir que la
ruta redundante se active.

Haga clic en Reproducir en la figura para ver el STP cuando ocurre una falla:

 La PC1 envía una transmisión a la red.

 El enlace troncal entre el S2 y el S1 falla, lo que da como resultado una interrupción en la ruta
original.

 El S2 desbloquea el puerto que se había bloqueado anteriormente para Trunk2 y permite que el
tráfico de difusión atraviese la ruta alternativa alrededor de la red, lo que permite que continúe la
comunicación.

 Si el enlace entre el S2 y el S1 tiene copia de respaldo, el STP bloquea el enlace entre el S2 y el S3.

Redundancia del router

El gateway predeterminado generalmente es el router que proporciona acceso a los dispositivos al resto de la
red o Internet. Si solo hay un router como gateway predeterminado, hay un punto de falla único. La
organización puede elegir instalar un router de suspensión adicional.

En la Figura 1, el router de transmisión y el router de suspensión utilizan un protocolo de redundancia para


determinar qué router debe tener un rol activo en el reenvío de tráfico. Cada router está configurado con una
dirección IP física y una dirección IP de router virtual. Los terminales usan la dirección IP virtual como gateway
predeterminado. El router de transmisión escucha el tráfico que se dirige a 192.0.2.100. El router de
transmisión y el router de suspensión utilizan sus direcciones IP físicas para enviar mensajes periódicos. El
objetivo de estos mensajes es asegurarse de que ambos sigan en línea y disponibles. Si el router de
suspensión no recibe más estos mensajes periódicos del router de transmisión, el router de suspensión
asume el rol de transmisión, como se muestra en la Figura 2.

La capacidad que tiene una red para recuperarse dinámicamente de la falla de un dispositivo que funciona
como gateway predeterminado se conoce como “redundancia de primer salto”.
Opciones de redundancia de router

La siguiente lista define las opciones disponibles para la redundancia de router según el protocolo que define
la comunicación entre los dispositivos de red:

 Protocolo de router de reserva activa (HSRP): el HSRP proporciona alta disponibilidad de red
mediante una redundancia de routing de primer salto. Un grupo de routers utiliza el HSRP para
seleccionar un dispositivo activo y un dispositivo en espera. En un grupo de interfaces de dispositivos, el
dispositivo activo es el dispositivo que enruta los paquetes; el dispositivo en espera es el dispositivo que
toma el control cuando falla el dispositivo activo. La función del router de suspensión del HSRP es
controlar el estado operativo del grupo de HSRP y asumir rápidamente la responsabilidad de reenvío de
paquetes si falla el router activo.

 Protocolo de redundancia de router virtual (VRRP): el router de VRRP ejecuta el VRRP junto con
uno o más routers conectados a la LAN. En la configuración del VRRP, el router elegido es el router
virtual maestro y los otros routers actúan como respaldo en caso de que falle el router virtual maestro.

 Protocolo de equilibrio de carga de gateway (GLBP): el GLBP protege el tráfico de datos contra
fallas del router o el circuito, como HSRP y VRRP, y permite el equilibrio de carga (también denominado
uso compartido de carga) entre un grupo de routers redundantes.

Redundancia de la ubicación

Una organización debe considerar la redundancia de la ubicación según sus necesidades. A continuación se
describen tres formas de redundancia de la ubicación.

Sincrónica

 Sincroniza ambas ubicaciones en tiempo real.

 Requiere el uso intensivo de ancho de banda.

 Las ubicaciones deben estar juntas para reducir la latencia.

Replicación asíncrona

 Sincronizada en tiempo casi real.

 Requiere menos ancho de banda.

 Los sitios pueden estar separados porque la latencia no representa un problema.

Replicación en un punto determinado

 Actualiza la ubicación de los datos de copia de respaldo periódicamente.

 La mayor parte del ancho de banda es conservadora porque no requiere una conexión constante.

El equilibrio correcto entre el costo y la disponibilidad determinará la opción adecuada para una organización.

Diseño de recuperabilidad

La recuperabilidad son los métodos y las configuraciones utilizados para hacer que un sistema o una red sean
tolerantes a las fallas. Por ejemplo, una red puede tener enlaces redundantes entre los switches que ejecutan
el STP. Si bien el STP ofrece una ruta alternativa a través de la red en caso de que falle un enlace, es posible
que el intercambio no sea inmediato si la configuración no es óptima.

Los protocolos de routing también ofrecen recuperabilidad, pero el ajuste puede mejorar el intercambio de
manera tal que los usuarios de la red no lo notarán. Los administradores deben investigar las configuraciones
no predeterminadas en una red de prueba para ver si pueden mejorar los tiempos de recuperación de la red.
El diseño robusto es más que solo añadir redundancia. Es fundamental comprender las necesidades
empresariales de la organización e incorporar la redundancia para crear una red recuperable.

Recuperabilidad de la aplicación

La recuperabilidad de la aplicación es la capacidad de la aplicación para reaccionar ante los problemas en


uno de sus componentes mientras aún funcionan. El tiempo de inactividad se debe a las fallas ocasionadas
por los errores de aplicación o a las fallas de la infraestructura. Un administrador eventualmente deberá cerrar
las aplicaciones para colocar parches, actualizar las versiones o implementar nuevas características. El
tiempo de inactividad también puede ser el resultado de la corrupción de los datos, las fallas de los equipos,
los errores de las aplicaciones y los errores humanos.

Muchas organizaciones intentan equilibrar el costo de lograr la recuperabilidad de la infraestructura de las


aplicaciones con el costo de perder clientes o negocios debido a una falla de las aplicaciones. La alta
disponibilidad de las aplicaciones es compleja y costosa. La figura muestra tres soluciones disponibles para
abordar la recuperabilidad de las aplicaciones. A medida que aumenta el factor de disponibilidad de cada
solución, también aumentan la complejidad y el costo.
Recuperabilidad del IOS

El sistema operativo interfuncional (IOS) para los routers y switches de Cisco incluye una función de
configuración de recuperabilidad. Permite una recuperación más rápida si alguien maliciosa o
inintencionadamente reformatea la memoria flash o borra el archivo de configuración de inicio. La función
mantiene una copia de funcionamiento segura del archivo de imagen del IOS del router y una copia del
archivo de configuración en ejecución. El usuario no puede eliminar estos archivos seguros también
conocidos como bootset primario.
Los comandos que se muestran en la figura protegen el archivo de configuración en ejecución e imagen del
IOS

Preparación

La respuesta ante los incidentes es el procedimiento que una organización sigue después de que ocurre un
evento fuera del rango normal. Una violación de datos divulga información a un entorno poco confiable. Una
violación de datos puede ocurrir como resultado de un acto accidental o intencional. Una violación de datos se
produce cada vez que una persona no autorizada copia, transmite, mira, roba o accede a información
confidencial.

Cuando ocurre un incidente, la organización debe saber cómo responder. Una organización debe desarrollar
un plan de respuesta ante los incidentes y constituir un equipo de respuesta ante los incidentes de seguridad
informática (CSIRT) para administrar la respuesta. El equipo lleva a cabo las siguientes funciones:

 Mantiene el plan de respuesta ante los incidentes.

 Garantiza que sus miembros conozcan el plan.

 Prueba el plan.

 Obtiene la aprobación del plan por parte de la gerencia.

El CSIRT puede ser un grupo establecido dentro de la organización o uno ad hoc. El equipo sigue un conjunto
de pasos predeterminados para asegurarse de que el enfoque sea uniforme y no saltearse ningún paso. Los
CSIRT nacionales supervisan el manejo de incidentes de un país.

Detección y análisis

La detección comienza cuando alguien detecta un incidente. Las organizaciones pueden adquirir los sistemas
de detección más sofisticados; sin embargo, si los administradores no revisan los registros ni supervisan las
alertas, los sistemas son inútiles. La detección adecuada incluye la forma en que se produce el incidente, los
datos involucrados y los sistemas implicados. La notificación de una violación se envía a la alta gerencia y los
gerentes encargados de los datos y sistemas para que participen en la corrección y reparación. La detección y
el análisis incluyen lo siguiente:

 Alertas y notificaciones

 Supervisión y seguimiento

El análisis de incidentes ayuda a identificar el origen, la medida, el impacto y los detalles de una violación de
datos. Es posible que la organización deba decidir si debe convocar un equipo de expertos para realizar la
investigación de informática forense.

Contención, erradicación y recuperación

Los esfuerzos de contención incluyen las acciones inmediatas realizadas, por ejemplo, la desconexión de un
sistema de la red para evitar una filtración de la información.

Después de identificar la amenaza, la organización debe contenerla y erradicarla. Esto puede requerir tiempo
de inactividad adicional para los sistemas. La etapa de recuperación incluye las acciones que una
organización debe llevar a cabo para resolver la violación y restaurar los sistemas involucrados. Después de
la corrección, la organización debe restaurar todos los sistemas a su estado original antes de la violación.
Seguimiento posterior a los incidentes

Después de restablecer todas las operaciones al estado normal, la organización debe buscar la causa del
incidente y responder las siguientes preguntas:

 ¿Qué acciones evitarán que vuelva a ocurrir el incidente?

 ¿Qué medidas preventivas deben reforzarse?

 ¿Cómo puede mejorar el control del sistema?

 ¿Cómo puede minimizar el tiempo de inactividad durante las fases de contención, erradicación y
recuperación?

 ¿Cómo puede la administración minimizar el impacto en el negocio?

Revisar las lecciones aprendidas ayuda a la organización a prepararse mejor optimizando el plan de
respuesta ante los incidentes.

Control de admisión de redes

El propósito del control de admisión de redes (NAC) es permitir que los usuarios autorizados con sistemas
compatibles accedan a la red. Un sistema compatible cumple todos los requisitos de las políticas de la
organización. Por ejemplo, una PC portátil que forma parte de una red inalámbrica doméstica no puede
conectarse remotamente a la red corporativa. El NAC evalúa un dispositivo entrante frente a las políticas de la
red. El NAC también coloca en cuarentena los sistemas que no cumplen y administra su corrección.

Un marco de trabajo del NAC puede utilizar la infraestructura de red existente y software de terceros para
imponer el cumplimiento de las políticas de seguridad para todos los terminales. Alternativamente, un
dispositivo de NAC controla el acceso a la red, evalúa el cumplimiento y aplica la política de seguridad. Las
comprobaciones de los sistemas de NAC comunes incluyen:

1. Detección actualizada de virus.

2. Actualizaciones y parches de los sistemas operativos.

3. Aplicación de contraseñas complejas.

Sistemas de detección de intrusiones

Los sistemas de detección de intrusiones (IDS) supervisan de forma pasiva el tráfico en la red. La figura
muestra que un dispositivo habilitado para el IDS copia el flujo de tráfico y analiza el tráfico copiado en lugar
de los paquetes realmente reenviados. Al trabajar sin conexión, se compara el flujo de tráfico capturado con
firmas maliciosas conocidas de manera similar al software que verifica la existencia de un virus. Trabajar sin
conexión significa varias cosas:

 Los IDS trabajan pasivamente.

 El dispositivo del IDS se encuentra físicamente en la red, por lo que el tráfico debe replicarse.

 El tráfico de red no pasa por los IDS, a menos que esté replicado.

Pasivamente significa que los IDS supervisan e informan el tráfico. No adoptan ninguna medida. Esta es la
definición de operar en modo promiscuo.

La ventaja de operar con una copia del tráfico es que el IDS no afecta negativamente el flujo de paquetes del
tráfico reenviado. La desventaja de operar con una copia del tráfico es que el IDS no puede evitar que los
ataques maliciosos a un único paquete alcancen el objetivo antes de responder al ataque. Un IDS a menudo
requiere la asistencia de otros dispositivos de red, como routers y firewalls, para responder a un ataque.
Una mejor solución es utilizar un dispositivo que pueda detectar y detener inmediatamente un ataque. Un
sistema de prevención de intrusiones (IPS) realiza esta función.

Sistemas de prevención de intrusiones

Un IPS se basa en la tecnología del IDS. Sin embargo, un dispositivo del IPS opera en el modo en línea. Esto
significa que todo el tráfico entrante y saliente debe pasar por éste para su procesamiento. Como se muestra
en la figura, el IPS no permite que los paquetes ingresen en el lado confiable de la red, a menos que haya
analizado los paquetes. Puede detectar y abordar inmediatamente un problema de red.

Un IPS supervisa el tráfico de red. Analiza el contenido y la carga útil de los paquetes en busca de ataques
integrados más sofisticados que puedan incluir datos maliciosos. Algunos sistemas utilizan una combinación
de tecnologías de detección, entre ellas, detección de intrusiones basada en análisis de protocolos, firmas y
perfiles. Este análisis más exhaustivo permite al IPS identificar, detener y bloquear ataques que pasarían a
través de un dispositivo tradicional de firewall. Cuando un paquete ingresa a través de una interfaz en un IPS,
la interfaz saliente o de confianza no recibe el paquete hasta que el IPS lo analiza.

La ventaja de operar en el modo en línea es que el IPS puede evitar que los ataques a un único paquete
alcancen el sistema objetivo. La desventaja es que un IPS mal configurado puede afectar negativamente el
flujo de paquetes del tráfico reenviado.

La diferencia más importante entre el IDS y el IPS es que el IPS responde inmediatamente y no permite el
paso del tráfico malicioso, mientras que el IDS permite que el tráfico malicioso pase antes de abordar el
problema.
NetFlow e IPFIX

NetFlow es una tecnología de Cisco IOS que proporciona estadísticas sobre los paquetes que atraviesan un
router o switch multicapa de Cisco. NetFlow es el estándar para recopilar datos operativos de las redes. El
grupo de trabajo de ingeniería de Internet (IETF) usa NetFlow (versión 9) de Cisco como base para la
exportación de datos de flujo de IP (IPFIX).

La IPFIX es un formato estándar de exportación de la información basada en routers sobre flujos de tráfico de
red a los dispositivos de recopilación de datos. La IPFIX funciona en los routers y las aplicaciones de
administración que admiten el protocolo. Los administradores de red pueden exportar la información de tráfico
de red de un router y utilizar esta información para optimizar el rendimiento de la red.

Las aplicaciones que admiten la IPFIX pueden mostrar estadísticas de los routers que admiten el estándar. La
recopilación, el almacenamiento, el análisis y la información agregada proporcionada por los dispositivos que
admiten la IPFIX ofrecen los siguientes beneficios:

 Protegen la red de amenazas internas y externas.

 Solucionan fallas en la red de manera rápida y precisa.

 Analizan los flujos de red para planificar la capacidad.

Inteligencia de amenazas avanzada

La inteligencia de amenazas avanzada puede ayudar a las organizaciones a detectar ataques antes o durante
una de las etapas de ciberataque con la información correcta.

Las organizaciones pueden detectar los indicadores de ataque en los informes de los sistemas y registros
para las siguientes alertas:
 Bloqueos de cuentas

 Todos los eventos de la base de datos

 Creación y eliminación de activos

 Modificación de la configuración de los sistemas

La inteligencia de amenazas avanzada es un tipo de evento o dato de perfil que puede contribuir al monitoreo
y la respuesta de la seguridad. A medida que los ciberdelincuentes se vuelven más sofisticados, es importante
comprender las maniobras de malware. Con una visibilidad mejorada de las metodologías de ataque, una
organización puede responder más rápidamente a los incidentes.

Inteligencia de amenazas avanzada

La inteligencia de amenazas avanzada puede ayudar a las organizaciones a detectar ataques antes o durante
una de las etapas de ciberataque con la información correcta.

Las organizaciones pueden detectar los indicadores de ataque en los informes de los sistemas y registros
para las siguientes alertas:

 Bloqueos de cuentas

 Todos los eventos de la base de datos

 Creación y eliminación de activos

 Modificación de la configuración de los sistemas

La inteligencia de amenazas avanzada es un tipo de evento o dato de perfil que puede contribuir al monitoreo
y la respuesta de la seguridad. A medida que los ciberdelincuentes se vuelven más sofisticados, es importante
comprender las maniobras de malware. Con una visibilidad mejorada de las metodologías de ataque, una
organización puede responder más rápidamente a los incidentes.

Tipos de desastres

Es fundamental mantener la organización en funcionamiento cuando se produce un desastre. Un desastre


incluye cualquier evento de causa natural o humana que daña los activos o la propiedad y perjudica la
capacidad de la organización para seguir operando.

Desastres naturales

Los desastres naturales varían según la ubicación. Algunos de estos eventos son difíciles de predecir. Los
desastres naturales se dividen en las siguientes categorías:

 Los desastres geológicos incluyen terremotos, derrumbamientos, erupciones volcánicas y tsunamis.

 Los desastres meteorológicos incluyen huracanes, tornados, tormentas de nieve, rayos y granizo.

 Los desastres sanitarios incluyen enfermedades generalizadas, cuarentenas y pandemias.

 Los desastres variados incluyen incendios, inundaciones, tormentas solares y avalanchas.

Desastres provocados por el hombre

Los desastres provocados por el hombre implican personas u organizaciones y se dividen en las siguientes
categorías:

 Los eventos laborales incluyen huelgas, paros y recesiones.

 Los eventos políticos incluyen vandalismo, bloqueos, protestas, sabotaje, terrorismo y guerra.
 Los eventos materiales incluyen derrames e incendios peligrosos.

 Las interrupciones de los servicios incluyen cortes de electricidad, interrupciones en las


comunicaciones, escasez de combustible y lluvia radiactiva.

Haga clic aquí para ver fotos satelitales de Japón antes y después del terremoto y tsunami de 2011.

Plan de recuperación tras un desastre

Una organización pone su plan de recuperación tras un desastre (DRP) en acción mientras el desastre está
en curso y los empleados intentan proteger los sistemas críticos en línea. El DRP incluye actividades que la
organización lleva a cabo para evaluar, recuperar, reparar y restaurar las instalaciones y los activos dañados.

Para crear el DRP, responda las siguientes preguntas:

 ¿Quién es responsable de este proceso?

 ¿Qué necesita la persona para realizar el proceso?

 ¿Dónde realiza la persona el proceso?

 ¿Cuál es el proceso?

 ¿Por qué es importante el proceso?

Un DRP debe identificar qué procesos de la organización son más importantes. Durante el proceso de
recuperación, la organización restaura primero sus sistemas críticos.

Implementación de controles de recuperación tras un desastre

Los controles de recuperación tras un desastre minimizan los efectos de un desastre para garantizar que los
recursos y procesos empresariales puedan reanudar la operación.

Existen tres tipos de controles de recuperación tras un desastre de TI:

 Las medidas preventivas incluyen controles que impiden que ocurra un desastre. Estas medidas
buscan identificar los riesgos.

 Las medidas de detección incluyen controles que detectan eventos no deseados. Estas medidas
descubren nuevas posibles amenazas.

 Las medidas correctivas incluyen controles que restauran el sistema después de un evento o
desastre.

Haga clic en los controles en la figura para ver ejemplos de cada uno.
Necesidad de la continuidad de los negocios

La continuidad de los negocios es uno de los conceptos más importantes de la seguridad informática. Por más
que las empresas hagan lo que esté a su alcance para evitar desastres y pérdidas de datos, es imposible
predecir cada escenario posible. Es importante para las empresas tener planes vigentes que garanticen la
continuidad de los negocios independientemente de lo que pueda ocurrir. Un plan de continuidad empresarial
es un plan más amplio que el DRP, dado que incluye el envío de sistemas críticos a otra ubicación mientras la
reparación de la instalación original está en curso. El personal continúa realizando todos los procesos
empresariales de manera alternativa hasta que se reanudan las operaciones normales.

La disponibilidad garantiza que los recursos necesarios para mantener vigente una organización sigan
estando disponibles para el personal y los sistemas que dependen de ellos.

Consideraciones de la continuidad de los negocios

Los controles de continuidad de los negocios son mucho más que una simple copia de respaldo de los datos y
redundancia del hardware. Las organizaciones necesitan empleados para configurar y operar correctamente
los sistemas. Los datos pueden ser irrelevantes hasta que proporcionan información. Una organización debe
tener en cuenta lo siguiente:

 La colocación de las personas adecuadas en los lugares correctos.

 La configuración de la documentación.

 El establecimiento de canales de comunicación alternativos de voz y datos.

 El suministro eléctrico.

 La identificación de todas las dependencias para las aplicaciones y los procesos para su correcta
comprensión.
 La comprensión de cómo realizar las tareas automatizadas manualmente.

Mejores prácticas de la continuidad de los negocios

Como se muestra en la figura, el Instituto Nacional de Normas y Tecnología (NIST) desarrolló las siguientes
mejores prácticas:

1. Escribir una política que brinde orientación para desarrollar un plan de continuidad empresarial y asigne
roles para realizar las tareas.

2. Identificar los procesos y sistemas críticos y darles prioridad según sea necesario.

3. Identificar vulnerabilidades, amenazas y calcular riesgos.

4. Identificar e implementar controles y contramedidas para reducir el riesgo.

5. Elaborar métodos para recuperar rápidamente los sistemas críticos.

6. Escribir procedimientos para mantener la organización en funcionamiento durante un estado caótico.

7. Probar el plan.

8. Actualizar el plan regularmente.

Capítulo 6: El reino de los cinco nueves

Este capítulo comienza explicando el concepto de los cinco nueves, un estándar de alta disponibilidad que
permite 5,26 minutos de tiempo de inactividad anuales. El capítulo analiza los diferentes enfoques que las
organizaciones adoptan para garantizar la disponibilidad del sistema. Un diseño sólido del sistema incluye la
incorporación de medidas que proporcionan redundancia y recuperabilidad para que una organización pueda
recuperarse rápidamente y continuar operando.

El capítulo además analiza cómo una organización responde a un incidente estableciendo los procedimientos
para seguir tras la ocurrencia de un evento. El capítulo concluye con un análisis de la recuperación tras un
desastre y la planificación de la continuidad de los negocios.

También podría gustarte