Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GBM1
GBM1
Control IT
GBM 2019
Contenido
INTRODUCCIÓN ............................................................................................................................. 3
HERRAMIENTAS ............................................................................................................................. 4
CLIENTES........................................................................................................................................ 4
TIPOS DE MONITOREO ................................................................................................................... 4
Nagios........................................................................................................................................ 4
Tivoli (TEP) ................................................................................................................................. 5
BAC ............................................................................................................................................ 5
Emergencias 911 ........................................................................................................................ 5
Banesco ..................................................................................................................................... 5
ICE Core ..................................................................................................................................... 5
GESTIÓN DE ALERTAS ..................................................................................................................... 6
GESTIÓN DE ALERTAS#1 NAGIOS & TIVOLI ................................................................................. 6
Paso #1: Identificar................................................................................................................. 6
Paso #2: Validar...................................................................................................................... 6
Paso #3: Cerrar Ticket............................................................................................................. 7
Excepciones ........................................................................................................................... 9
GESTIÓN DE ALERTAS #2 EMERGENCIAS 911 ............................................................................ 10
Paso #1: Identificar Alerta .................................................................................................... 10
Paso #2: Validar.................................................................................................................... 10
Paso #3: Cerrar Ticket........................................................................................................... 10
Datos Importantes ............................................................................................................... 11
GESTIÓN DE ALERTAS #3 BAC CREDOMATIC ............................................................................. 11
Paso #1: Identificar Alerta .................................................................................................... 11
Paso #2: Validar.................................................................................................................... 11
Paso #3: Cerrar Ticket........................................................................................................... 11
Datos importantes ............................................................................................................... 12
GESTIÓN DE ALERTAS #4 BANESCO .......................................................................................... 13
GESTIÓN DE ALERTAS #5 ICE Core ............................................................................................ 13
Paso #1: Validar.................................................................................................................... 13
Paso #2: Cerrar Ticket........................................................................................................... 13
GESTIÓN DE ALERTAS #6 Caja de Ande ..................................................................................... 14
Paso #1: Validar.................................................................................................................... 14
1
Paso #2: Cerrar Ticket........................................................................................................... 15
Datos importantes ............................................................................................................... 15
CONCLUSIÓN ............................................................................................................................... 16
2
INTRODUCCIÓN
En el podrán encontrar todos los temas relacionados a las operaciones diarias de monitoreo tales
como: herramientas, tipos de clientes, procesos, tareas, etc.
Cada uno de los aspectos anteriormente citados, serán explicados a detalle, tomando en cuenta
cada uno de los aspectos necesarios para cumplir de la mejor manera con las tareas a realizar.
Dicha información estará sujeta a cambios constantes, esto debido a que la naturaleza del trabajo
obliga a un constante proceso de actualización y modificación.
3
HERRAMIENTAS
• OTRS
• Nagios
• Tivoli (TEP´s)
• Solar Winds (Ufinet)
• APM (Caja de Ande)
• Data Center Network Manager (ICE Core)
• Cisco Prime (Emegencias 911)
CLIENTES
Data Center Regional NOC cuenta con una amplia cantidad de clientes a nivel regional, sin embargo,
por temas de confidencialidad y cantidad de estos, no se detallarán en este documento.
TIPOS DE MONITOREO
Nagios
• Nagios es actualmente el sistema de monitorización que mayor se utiliza en el NOC.
• Existe un Nagios Central, encargado de centralizar las funciones de todos los otros
monitoreos. Además, existen Nagios secundarios (Gateway) en cada DC de GBM y en los
clientes que cuenten con esta funcionalidad.
• Capaz de monitorear servers con la mayoría de los sistemas operativos, equipos de redes,
enlaces de internet, etc.
• En Nagios existen 2 tipos de monitoreo:
o Activo: cuando el Nagios consulta la información a monitorear al equipo.
o Pasivo: cuando el Nagios espera que el equipo envíe la información a monitorear
4
Tivoli (TEP)
• Después de Nagios, Tivoli es la tecnología mas utilizada para el monitoreo del NOC
• Tivoli utiliza TEP´s para el monitoreo, que es la herramienta mediante la cual se valida la
operatividad de cada equipo en monitoreo
• Existe un TEP para los clientes ICE, CIBAO y un TEP de capacidad de procesamiento, donde
se encuentran otros clientes como Bancolombia, COPA, BNP, BHD, etc.
BAC
Emergencias 911
Banesco
ICE Core
5
GESTIÓN DE ALERTAS
La gestión de alertas que debe realizar el operador de NOC se basa en la gestión de tickets que
ingresan al OTRS.
Cada ticket debe ser gestionado de la manera correcta, tomando en cuenta que la alerta deberá ser
atendida por el personal correcto.
Dichos tickets deben ser cerrados, sea por su notificación correspondiente, o por otro motivo
claramente expresado por el contacto de verificación.
6
Otro método de validación se realiza con las herramientas de monitoreo, la alerta se debe buscar
en el dashboard correspondiente y si la misma no se encuentra activa, se procede a cerrar la misma
con una captura de la evidencia:
3.1: Notificación
• Una vez realizada la validación, si la alerta persiste de acuerdo con la herramienta de
monitoreo, o el contacto de verificación indica que se envíe la alerta, se procede a realizar
la misma.
• Un aspecto muy importante para tomar en cuenta es colocar una nota de todo aquello que
se considera relevante durante el proceso de validación. Tómese esto como conversaciones,
capturas, comentarios, etc.
7
3.2: Cerrar ticket por inexistencia de la alerta
• Si de acuerdo con la herramienta de monitoreo, la alerta ya no se encuentra activa, se
procede a cerrar la misma con la evidencia de lo que se está validando.
• Si la validación se realiza con un contacto de verificación, y el mismo indica que no es
necesario notificar, se realiza lo anterior con nota de lo que se nos indicó.
8
Excepciones
Existen casos en los cuales los tickets que se reciben no deben ser gestionados por varias razones:
Alertas no reales
Existen tickets que, debido a diversas circunstancias, no representan una alerta real, por ejemplo,
cuando la comunicación entre los equipos y el Gateway de monitoreo sufren inconvenientes
(lentitud. Latencia, pequeñas perdidas de comunicación) que afectan el intercambio de información.
• Punto para recalcar, aunque un ticket como los anteriores no representa mayor afectación,
Todo un equipo alertado con estos tipos de descripción, significa Perdida de Comunicación.
• Por lo que se recomienda siempre validar el estado de un equipo cuando observamos tickets
de este tipo:
Alertas Omitidas
Otro tipo de tickets que se pueden omitir son aquellos que por su criticidad no se gestionan:
• Warning
• Yellow
• Minor
9
GESTIÓN DE ALERTAS #2 EMERGENCIAS 911
3.1: Notificación
• Si la alerta corresponde a Link Down, y persiste en la herramienta de monitoreo, se debe
realizar la respectiva notificación
• Si la alerta corresponde a Router Unrecheable, persiste en la herramienta y el contacto de
verificación indica que enviamos la notificación, se procede con la misma.
10
Datos Importantes
• El monitoreo express de emergencias 911 no es válido para gestionar, únicamente se toma
como referencia.
11
Datos importantes
• El cliente BAC Credomatic, es todos sus países, realiza durante las noches un proceso
conocido como “Cierres”. En el cual, las réplicas de la mayoría de los equipos se detienen
por un periodo de varias horas. De igual forma, cada noche se deberá validar esto con los
operadores correspondientes.
• Las alertas por latencia en réplicas, en los equipos de DICA, tienen un comportamiento
normal en un rango de 0-20000.
• Los fines de semana, el cliente usualmente realiza mantenimiento en sus equipos. De igual
forma se debe validar dicha información con los operadores.
12
GESTIÓN DE ALERTAS #4 BANESCO
13
2.2: Cerrar ticket por inexistencia de la alerta
• Si la validación con el Data Center Network Manager muestra que la alerta ya no existe, se
cierra el ticket con la evidencia de lo anterior.
• Finalmente, si el contacto de verificación indica que se puede omitir la alerta porque es
controlada, se procede con lo indicado.
14
Paso #2: Cerrar Ticket
2.1: Notificación
• Si al momento de validar la alerta con los contactos de verificación, los mismo indican enviar
la alerta, se procede con la misma y se cierra el ticket. (Sígase el procedimiento de la CMDB)
Datos importantes
• El cliente Caja de Ande, realiza durante las noches un proceso conocido como “Flashcopy”.
Este proceso curre entre la media noche hasta las 6am, en los servidores db2. Durante este
periodo de tiempo y en estos servidores se recibirán alertas de CPU y agentes
desconectados. Los mismos se pueden omitir.
15
CONCLUSIÓN
El mismo queda abierto ante cualquier cambio que ocurra en el proceso o los clientes, por lo que
se invita a colaborar a todos los miembros del departamento a la mejora continua del proceso.
16