Está en la página 1de 11

PROCEDIMIENTO DE OPERACIÓN EJECUCIÓN PLAN

DE CONTINUIDAD MANTENIMIENTO PREVENTIVO


DATACENTER ORIÓN PISO 4

2022
1. Desarrollo

A continuación, se describirán los procedimientos de operación en el plan de


continuidad de mantenimiento preventivo, que le permite seguir operando ante la
eventualidad de una falla de los equipos y/o servicios que componen el área blanca
del piso 4 Orion - Toberin.

P.O MANTENIMIENTO PREVENTIVO UNIDADES MANEJADORAS


DATACENTER ORIÓN

A continuación, se describen las actividades de mantenimiento preventivo y la periodicidad


de ejecución para las UMA’s del Datacenter Orión, de acuerdo con recomendaciones del
fabricante:

PERIODICIDAD
DE ACTIVIDAD
EJECUCIÓN
Medición de parámetros de humedad y temperatura de retorno y
suministro del equipo.
Medición de tensión de fases de la fuente de alimentación y
registro de desequilibrio en los valores de referencia.
Validación de presencia de alarmas activas y validación de log
de eventos a través de display del equipo.
Verificación de lecturas de sensores de temperatura y humedad,
con respecto a equipo patrón de medición. En caso de detectar
errores o desvíos en las lecturas, ajustar offset de medidas a
través del sistema de control del equipo.
Verificación del correcto funcionamiento de los controles
locales/remotos del equipo; así como el funcionamiento correcto
TRIMESTRAL
del sistema de visualización y control del equipo.
Revisión de filtros de aire del equipo; deben ser lavados en
cada rutina de mantenimiento trimestral; de ser necesario deben
ser emplazados.
Verificación del correcto funcionamiento del sistema de drenaje
de condensado. Realizar lavado de este. Corregir cualquier
obstrucción en el sistema.
Verificación de limpieza del cilindro de vapor; debe
reemplazarse si es necesario.
Verificación del estado de los ventiladores interiores y exteriores
del equipo, con el fin de detectar ruidos anormales y posibles
fallas en los rodamientos.
Lavado de serpentín y limpieza de los elementos internos del
equipo.
Limpieza de elementos externos del equipo.
Validación de Torque a la tornillería del sistema eléctrico del
equipo.
Revisión de serpentín de enfriamiento, realizar limpieza de ser
necesario.
Comprobación de funcionamiento del sistema humidificador.
Validación del funcionamiento de las válvulas de control de agua
helada.
SEMESTRAL Validación de presión y temperatura de agua de entrada y salida del
equipo.
Verificación del funcionamiento de las válvulas de expansión y las
válvulas de control de presión principal.
Verificación del funcionamiento de los controles del ventilador del
intercambiador de calor exterior, los puntos de ajuste del controlador
del ventilador, sensores y funcionamiento de la bomba de fluido.
Verificación presencia de corrosión en las diferentes tarjetas
electrónicas, partes metálicas y el serpentín.
Revisión de todas las bisagras y juntas.

Revisión del estado del cableado eléctrico.

Ajuste de los bloques de terminales.


Verificación de los ajustes de los dispositivos de seguridad
ANUAL
(presostatos y dispositivos de protección) y reinicio si es necesario.
Verificación de las conexiones, el funcionamiento y el consumo del
motor de los ventiladores.
Verificación del ajuste de los dispositivos de regulación y reinicio si es
necesario.
Comprobación del sello del circuito de agua fría (resellar de ser
necesario), apretar los acoplamientos de la unidad.
Verificación del ajuste de la(s) válvula(s) de regulación de agua y
reinicio si es necesario.

P.O EVENTO DE FALLA SISTEMA AA DATACENTER ORIÓN

A continuación, se describen las acciones a realizar ante un evento de falla parcial o total
del Sistema de Aire acondicionado del Datacenter Orión.
En el área blanca 1 del Datacenter Orión, se encuentran alojados los equipos de TI de la
operación de Telefónica, esta sala cuenta con 6 unidades manejadoras de Aire
acondicionado enfriado por Agua Helada a través de 2 equipos Chiller, donde, uno trabaja
y el otro se encuentra en Standby, pero que también pueden trabajar de forma simultánea.

Las unidades manejadoras de AA (UMA’s) son de 40 TR cada una para una capacidad
total de refrigeración de 240 TR, estando normalmente una UMA en modo Standby
constante. Dependiendo de la carga térmica alojada en la sala Área Blanca 1 es posible
que la demanda de refrigeración pueda ser soportada en su totalidad por hasta 4
manejadoras.

Los posibles eventos de falla en sistema de AA Datacenter Orión:

Falla de 1-2 UMAs:

1. Detección de falla en UMA.


2. Activación de UMA que se encuentra en modo Standby.
3. Validación de posibles fallas en otras UMA.
4. Verificación de alarma presente en UMA en falla. Realizar reset de alarma a través
de control del equipo y validar posible solución.
5. Escalamiento de falla con proveedor, a través de comunicación telefónica y por
correo electrónico.
6. Seguimiento a estabilidad térmica en pasillos fríos y calientes, por medio de
termómetros y pistola termográfica.
7. Acompañamiento a proveedor durante revisión y solución de falla.
8. Tras solución de falla normalizar equipo y retornar equipo de respaldo a modo
Standby.
9. Seguimiento a funcionamiento del equipo para validar solución definitiva.

Falla 3 – 4 UMAs:

1. Detección de falla en UMAs.


2. Activación de UMA que se encuentra en modo Standby.
3. Verificación de alarmas presentes en UMAs en falla. Realizar reset de alarmas a
través de control del equipo y validar posible solución.
4. Escalamiento de fallas con proveedor, a través de comunicación telefónica y por
correo electrónico.
5. Instalación estratégica de equipos de contingencia (Movincool), en zonas
térmicamente críticas del área blanca.
6. Seguimiento a estabilidad térmica en pasillos fríos y calientes, por medio de
termómetros y pistola termográfica.
7. Acompañamiento a proveedor durante revisión y solución de fallas.
8. Tras solución de falla normalizar equipo y retornar equipo de respaldo a modo
Standby.
9. Seguimiento a funcionamiento de equipos para validar solución definitiva de fallas.
Falla del sistema Chiller:

Ante una falla del sistema Chiller activo, automáticamente, el sistema habilitaría el
Chiller de contingencia, con lo que se solucionaría la falla. Una falla total del sistema
Chiller generaría el incremento del a temperatura del Área Blanca debido a que las
UMAs no tendrían suministro de agua helada, por tanto, no se cumpliría el ciclo de
refrigeración y las UMAs recircularían el aire caliente que llega a ellas a través del
retorno.

Al detectar falla en Chiller:

1. Detectar falla.
2. Validar activación automática del Chiller de contingencia.
3. Validar funcionamiento de bombas constante y variable en las tuberías de
suministro y retorno de agua helada.
4. Escalamiento de fallas con proveedor, a través de comunicación telefónica y por
correo electrónico.
5. En caso de no ingresar de forma automática el Chiller de contingencia, instalar de
forma estratégica equipos de contingencia (Movincool), para atenuar el incremento
de la temperatura del Área Blanca. Solicitar celeridad al proveedor para atención
de la emergencia.
6. Seguimiento a estabilidad térmica en pasillos fríos y calientes, por medio de
termómetros y pistola termográfica.
7. Acompañamiento a proveedor durante revisión y solución de fallas.
Seguimiento a funcionamiento de equipos para validar solución definitiva de fallas.

P.O EVENTO DE FALLA UPS’S DATACENTER ORIÓN

A continuación, se describen las acciones a realizar ante un evento de falla parcial o total
de las UPS del Datacenter Orión.

La energía regulada con la cual se energizan los equipos de TI del área blanca 1 en
Datacenter Orión, es suministrada por 2 UPS modulares de 500 KW, completamente
aisladas la una de la otra. Estas UPS a pesar de ser de 500 KW, teniendo en cuenta la
redundancia, solo pueden ser cargadas hasta los 250 KW puesto que, en caso de falla de
una de las dos, la otra UPS asumirá la carga crítica.

Procedimiento de funcionamiento ante falla de solo una de la dos UPS:

1. Identificación de falla en UPS’s.


2. Validación de criticidad de falla mediante panel de visualización de UPS’s.
3. Validación de parámetros de entrada y salida de UPS, determinar si los parámetros
de salida son correctos.
4. Realizar escalamiento de falla a personal de Telefónica y a proveedor mediante
llamada telefónica y correo electrónico.
5. Si los parámetros de entrada en la UPS no son correctos (no hay tensiones o
corrientes en la entrada), validar correcto funcionamiento de UPS en Baterías por
medio de verificación de parámetros de salida correctos.
6. Validar correcto funcionamiento de UPS de redundancia.
7. Verificar correcto funcionamiento de equipos de TI en área blanca 1.
8. Realizar acompañamiento a personal contratista durante verificación y corrección
de falla.
9. Realizar seguimiento a funcionamiento a UPS que presento falla.

Procedimiento ante falla simultanea de las UPS de Datacenter Orión:

1. Identificación de falla simultánea en UPS.


2. Validación de estado operativo de cada UPS, (Normal, Baterías, Bypass, OFF).
3. Verificación de parámetros de entrada y salida de UPS’s.
4. Realizar escalamiento de falla, con carácter urgente, a personal de Telefónica y a
proveedor mediante llamada telefónica y correo electrónico.
5. Realizar acompañamiento a personal de proveedor durante corrección de falla, en
el menor tiempo posible.

6. Realizar seguimiento a funcionamiento de UPS’s luego de corrección de falla.

P.O. EVENTO DE FALLA SDEI DATACENTER ORIÓN

A continuación, se describen las acciones a realizar ante un evento de falla del SDEI del
Datacenter Orión.

El sistema de detección y extinción de incendios (SDEI), es un sistema de detección


temprana por aspiración de partículas, adicionalmente cuenta con un sistema de extinción
con agente limpio NOVEC y una serie de elementos que anuncian posibles eventos
presentados en el Datacenter.
La operación actualmente cuenta con un panel inteligente NFS 320 diseñado con
modularidad para facilitar la planificación del sistema, puede configurarse agregando
equipos periféricos, adicionalmente cuenta con otro panel llamado VESDA, donde la
función de este equipo es la detección de humo por aspiración temprana de partículas.

Los eventos más comunes que se pueden presentar son los posibles sobrecalentamientos
en los equipos, esto en consecuencia podría presentar un fallo aún más crítico en la
infraestructura.

Las fuentes de iniciación de estos fallos pueden ser:

 Altas temperaturas en equipos.


 Sobre carga eléctrica en sistema de potencia.
 Corto circuito debido a fallas en equipos.
 Conexiones eléctricas deficientes.
 Puesta atierra defectuosas que pueden llegar a sobrecalentar las líneas sin que actúen
prontamente las protecciones.

Dependiendo la alarma, el sistema SDEI tiene unos indicadores por colores donde nos va
a manifestar su estado:

- Color Rojo:

Pre-descarga: se activa cuando una zona entra en alerta, pero aún no dispara el
agente.
Descarga: Se activa cuando el agente está en proceso de descarga
Alarma contra incendios: Se enciende de manera intermitente cuando hay una
alarma contra incendios no confirmada y cuando se enciende de manera continua
cuando la alarma está confirmada
Pre-Alarma: Se enciende de manera intermitente cuando hay una prealarma no
confirmada y cuando se enciende de manera continua cuando la prealarma está
confirmada

- Color Amarillo

Suspensión activa: Se enciende cuando el sistema está suspendido.


Supervisión: Se enciende de manera intermitente cuando hay una condición de
supervisión no confirmada, se enciende de manera continua cuando el evento se
confirma.
Problema del sistema: Se enciende de manera intermitente cuando hay un
problema en el sistema no confirmado, se enciende de manera continua cuando se
confirma el problema en el sistema.
Señales Silenciadas: se enciende de manera continua después de producirse una
condición de alarma contra incendios y ejecutar en el panel el botón silenciar.

- Color Verde

Controles Activos: Se enciende cuando la operación local a sume el control del


panel como primario.

- Color Azul
Seguridad: Se enciende intermitentemente cuando hay una alarma por confirmar
de seguridad, se enciende continuamente cuando una alarma de seguridad fue
confirmada por la operación del sistema.

Se debe tener claridad que algunos tipos de alarmas se desactivan manualmente, el


mismo sistema desactiva automáticamente otras, su funcionalidad principalmente siempre
será prever cualquier evento en el área blanca, adicionalmente el sistema de detección
debe de tener un adecuado mantenimiento de filtros de aire para minimizar alarmas críticas
en el data center y provocar disparos innecesarios de agente limpio, es necesaria la
realización de seguimiento a cada alarma presentada en el panel y manipulación
adecuada por parte del personal en sitio.

Contamos con un sistema de extinción con agente limpio NOVEC 1230 marca Kidde de 2
cilindros principales, cada cilindro requiere de 332 KG (731L) de agente limpio, la actuación
es automática o manual por personal en sitio, cuenta con dos cabezas de disparo
conectadas en conjunto al sistema Vesda NFS320 con control de sistema de armado y
desarmado (interruptor de mantenimiento – Maintenance Switch) para supervisión o
monitoreo de elementos principales de cabezas de disparo.
Procedimiento de funcionamiento ante falla de SDEI:

1. Identificación de falla en paneles de control de NFS 320 y VESDA.


2. Identificación de la falla en el sistema de monitoreo BMS.
3. Validación de criticidad de falla mediante panel de visualización de NFS 320 y
VESDA para observar tipo de evento presentado.
4. Realizar escalamiento de falla a personal de Telefónica y a proveedor mediante
llamada telefónica y correo electrónico.
5. Abrir caso en la herramienta de gestión Remedy.
6. Verificar correcto funcionamiento de sensores de humo.
7. Realizar acompañamiento a personal contratista durante verificación y corrección
de falla.
8. Realizar seguimiento a funcionamiento a SDEI que presento la falla.
9. Realización de mantenimiento preventivo y correctivo de filtros de aire de sistema
VESDA para evitar fallas en sensores

P.O EVENTO DE FALLA CCTV DATACENTER ORIÓN

A continuación, se describen las acciones a realizar ante un evento de falla del CCTV del
Datacenter Orión.

Circuito Cerrado de Televisión (CCTV), actualmente contamos con 22 cámaras de


televisión en Datacenter Orión piso 4, estos dispositivos pueden llegar a presentar posibles
fallas de conexión en sistema de redes de telefónica, podemos evidenciar fallas comunes
como el polvo en los domos de las cámaras para la preservación de lentes otras posibles
fallas que se pueden presentar en Orio piso 4 es pérdida total de imagen en cámara o
perdidas parciales en algunos horarios de una o varias cámaras por constantes
fluctuaciones de energía comercial.
Procedimiento de funcionamiento ante falla de las CCTV:

1. Identificación de falla en CCTV.


2. Identificación de la falla en rack de MAPS.
3. Validación de criticidad de falla en Switch Cisco en rack de MAPS para validación
de conexiones o desconexiones presentado.
4. Realizar escalamiento de falla a personal de Seguridad de Telefónica y a proveedor
mediante llamada telefónica y correo electrónico.
5. Abrir caso en la herramienta de gestión Remedy.
6. Verificar correcto funcionamiento de cámaras en área blanca 1, zonas comunes y
MAPS.
7. Realizar acompañamiento a personal contratista durante verificación y corrección
de falla.
8. Realizar seguimiento a domos de cámaras de CCTV que presenta fallas por
humedad o polvo.
9. Realización de mantenimiento preventivo y correctivo por parte de contratista para
el debido funcionamiento de centro CCTV

También podría gustarte