Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Barcelona,
Las fuentes de datos proviene de los logs generados por los Firewalls, los cuales son
almacenados en un sistema de archivos HDFS. Esta información se extrae con Pig,
modelando y transformando los datos con la información neccesaria para calcular los
indicadores de análisis y agregándola en un Data Warehouse Hive.
Una vez se dispone de los datos convertidos en información de análisis, se diseña una
capa semántica siguiendo un esquema en estrella, para agilizar y mejorar la eficiencia
de las consultas de análisis, y diseño de cuadros de mando en Qlik Sense con la ayuda
de extensiones y mashups, para dar al usuario unos resultados que den respuesta a
sus consultas.
Summary
Actually there is an increase in security threats. The damage caused to information
systems is critical. Therefore, traffic and threats information in the network of Agbar must
also be collected and analyzed.
The project consists of integrate the information generated by different and several
physical security devices, processing and analyzing it.
The data source come from logs generated by the Firewalls, which are stored in an HDFS
file system. This information is extracted with Pig, modeling and transforming the data
with the necessary information to calculate the indicators of analysis and adding it in a
Data Warehouse in Hive.
Once the data are converted in analysis information, a semantic layer is designed
following a star schema, to streamline the process and improve the efficiency of analysis
queries and design of scorecards in Qlik Sense with the help of extensions and mashups,
to give the user results that will answer your questions.
The information processed and available in the new Data Warehouse is an open door to
the user for the discovery, exploration and analysis of the data.
1
Business Intelligence & Visualization
Contenido
1 Introducción .......................................................................................................................... 9
1.1. La seguridad .................................................................................................................. 9
1.2. Grupo Agbar ................................................................................................................ 10
2. Objetivos ............................................................................................................................. 11
2.1. Objetivo General ......................................................................................................... 11
2.2. Objetivos específicos ................................................................................................... 11
2.3. Alcance ........................................................................................................................ 11
3. Fases y etapas del proyecto ................................................................................................ 12
4. Fundamentos teóricos ........................................................................................................ 13
4.1. Business Intelligence ................................................................................................... 13
4.1.1. Definición ............................................................................................................ 13
4.1.2. Beneficios ............................................................................................................ 14
4.1.3. Herramientas y Técnicas ..................................................................................... 15
4.1.3.1. Base de Datos OLTP (On-line Transaction Processing).................................... 15
4.1.3.2. Base de Datos OLAP (On-line Analitycal Processing) ...................................... 16
4.1.3.3. Modelo Dimensional ....................................................................................... 18
4.1.3.3.1. Esquema estrella ............................................................................................. 18
4.1.3.3.2. Esquema copo de nieve .................................................................................. 18
4.1.3.3.3. Cubo OLAP ....................................................................................................... 19
4.1.3.4. Query y Reporting ........................................................................................... 19
4.1.3.5. Cuadro de Mando Integral .............................................................................. 19
4.1.3.6. KPI (Key Performance Indicator) ..................................................................... 20
4.1.3.7. Data Warehouse (DW) .................................................................................... 20
4.1.3.8. Data Mart (DM) ............................................................................................... 20
4.1.3.9. Procesos ETL (Extract, Transform and Load) ................................................... 21
4.1.3.10. Staging Area .................................................................................................... 21
4.1.3.11. Cuadrante Mágico de Gartner......................................................................... 22
4.1.3.11.1. MICROSOFT ................................................................................................. 24
4.1.3.11.2. QLIK ............................................................................................................. 24
4.1.3.11.3. TABLEAU ...................................................................................................... 26
4.1.3.11.4. Comparativa entre herramientas ................................................................ 29
4.1.3.11.5. Selección herramienta de BI ....................................................................... 31
2
4.2. BIG DATA ..................................................................................................................... 33
4.2.1. Introducción ........................................................................................................ 33
4.2.2. Herramientas y Técnicas ..................................................................................... 34
4.2.2.1. Hadoop ........................................................................................................ 34
4.2.2.2. MapReduce ................................................................................................. 35
4.2.2.3. Hortonworks................................................................................................ 36
4.2.2.4. Ambari ......................................................................................................... 37
4.2.2.5. Pig ................................................................................................................ 38
4.2.2.6. Hive.............................................................................................................. 39
5. Solución del proyecto BI & Visualization............................................................................. 40
5.1. Introducción ................................................................................................................ 40
5.2. Requerimientos ........................................................................................................... 41
5.3. Instalación de la plataforma Hadoop .......................................................................... 46
5.3.1. Selección plataforma ........................................................................................... 46
5.3.2. Instalando Hortonworks 2.5.1.0.......................................................................... 49
5.3.3. Importando Logs ................................................................................................. 54
5.3.4. MapReduce con Pig ............................................................................................. 55
5.3.5. Hive & Qlik Sense ................................................................................................ 57
5.4. Análisis y Diseño .......................................................................................................... 61
5.4.1. Fuentes de datos ................................................................................................. 61
5.4.1.1. Ficheros de Log................................................................................................ 62
5.4.1.1.1. Traffic Logs ...................................................................................................... 62
5.4.1.1.2. Threat Logs ...................................................................................................... 67
5.4.1.1.3. Config Logs ...................................................................................................... 73
5.4.1.1.4. System Logs ..................................................................................................... 75
5.4.1.2. Datos maestros................................................................................................ 77
5.4.1.2.1. Calendario ....................................................................................................... 77
5.4.1.2.2. Applications ..................................................................................................... 78
5.4.1.2.3. Threats............................................................................................................. 79
5.4.1.2.4. Países ............................................................................................................... 79
5.4.1.2.5. Coordenadas ................................................................................................... 79
5.4.1.2.6. Direcciones IP .................................................................................................. 80
5.4.2. Capa de datos ...................................................................................................... 80
5.4.2.1. Flujo de la información.................................................................................... 81
3
Business Intelligence & Visualization
4
Tablas
Tabla 1: Comparativa entre herramientas BI .............................................................................. 30
Tabla 2: CiberAmenazas Externas ............................................................................................... 42
Tabla 3: CiberAmenazas Internas ............................................................................................ 43
Tabla 4: Ataque al corazón .......................................................................................................... 44
Tabla 5: CiberAmenazas de Alertas ............................................................................................. 45
Tabla 6: Traffic Logs..................................................................................................................... 66
Tabla 7: Threat Logs .................................................................................................................... 72
Tabla 8: Config Logs..................................................................................................................... 74
Tabla 9: Niveles de gravedad ...................................................................................................... 75
Tabla 10: System Logs ................................................................................................................. 76
Tabla 11: Calendario.................................................................................................................... 77
Tabla 12: Aplicaciones ................................................................................................................. 78
Tabla 13: Threats ......................................................................................................................... 79
Tabla 14: Identificadores de Amenazas ...................................................................................... 79
Tabla 15: Países ........................................................................................................................... 79
Tabla 16: Coordenadas................................................................................................................ 79
Tabla 17: Direcciones IP .............................................................................................................. 80
Tabla 18: Staging Area ................................................................................................................. 83
Tabla 19: Summary Data ............................................................................................................. 84
Tabla 20: Planificación del proyecto ......................................................................................... 101
Tabla 21: Estudio económico .................................................................................................... 103
5
Business Intelligence & Visualization
Ilustraciones
Ilustración 1: Grupo Agbar ......................................................................................................... 10
Ilustración 2: Fases y etapas del proyecto .................................................................................. 12
Ilustración 3: Esquema clásico de BI ........................................................................................... 14
Ilustración 4: Esquema en estrella .............................................................................................. 17
Ilustración 5: Ejemplo de análisis OLAP ...................................................................................... 17
Ilustración 6: Cuadrante mágico de Gartner BI 2017 .................................................................. 22
Ilustración 7: Cuadrante mágico de Gartner BI 2016 .................................................................. 23
Ilustración 8: Qlik y Big Data ....................................................................................................... 25
Ilustración 9: Ecosistema de aplicaciones ................................................................................... 33
Ilustración 10: Hadoop Distribuited File System (HDFS) ............................................................. 34
Ilustración 11: MapReduce ......................................................................................................... 35
Ilustración 12: Ecosistema HortonWorks .................................................................................... 36
Ilustración 13: Plataforma HortonWorks .................................................................................... 36
Ilustración 14: Ambari ................................................................................................................. 37
Ilustración 15: Pig ........................................................................................................................ 38
Ilustración 16: Hive...................................................................................................................... 39
Ilustración 17: Análisis de la información ................................................................................... 40
Ilustración 18: Estudio comparativo distribuciones .................................................................... 46
Ilustración 19: Inicio instalación Cloudera .................................................................................. 47
Ilustración 20: Instalación CDH 5 on a Single Linux Node ........................................................... 47
Ilustración 21: HortonWorks Data Platform ............................................................................... 48
Ilustración 22: Descargar Ambari ................................................................................................ 49
Ilustración 23: Arrancar servicio de Ambari server ..................................................................... 49
Ilustración 24: Instalación Postgresql ......................................................................................... 49
Ilustración 25: Instalación Oracle JDK ......................................................................................... 50
Ilustración 26: Inicio servicio Ambari .......................................................................................... 50
Ilustración 27: Web IU de Ambari ............................................................................................... 50
Ilustración 28: Asistente Ambari ................................................................................................. 51
Ilustración 29: Dependencias de los servicios............................................................................. 51
Ilustración 30: Selección de Hosts............................................................................................... 52
Ilustración 31: Servicios por Host ................................................................................................ 52
Ilustración 32: Chequeo plataforma ........................................................................................... 53
Ilustración 33: Ficheros Log......................................................................................................... 54
Ilustración 34: Estructura directorios de los ficheros ................................................................. 54
Ilustración 35: Fichero de configuración pig-env.sh con parámetros Hive ................................. 55
Ilustración 36: Entorno ejecución Pig con soporte MapReduce(Tez)+Hive ................................ 55
Ilustración 37: Plantilla definición flujos de trabajo para Oozie ................................................. 56
Ilustración 38: Interfaz para consultar parámetros Oozie .......................................................... 56
Ilustración 39: Interfaz Ambari para ejecutar scripts Pig ............................................................ 57
Ilustración 40: Interfaz Hive de Ambari utilizada para cargas parciales ..................................... 57
Ilustración 41: Registro trabajos MapReduce ejecutados de Hive ............................................. 58
Ilustración 42: Segundo añadido temporalmente para uso CPU en Pig ..................................... 58
Ilustración 43: Microsoft Hive ODBC Driver ................................................................................ 59
6
Ilustración 44: Conexión (ODBC) Qlik Sense hacia Hive .............................................................. 59
Ilustración 45: Dashboard status plataforma Agbar ejecutándose desde el ordenador personal
..................................................................................................................................................... 60
Ilustración 46: Capas y pasos en el proceso................................................................................ 80
Ilustración 47: Flujo de la información........................................................................................ 81
Ilustración 48: Esquema en estrella ............................................................................................ 85
Ilustración 49: Menú Principal del Dashboard ............................................................................ 89
Ilustración 50: Opción Resumen por Tecnología y Dispositivo ................................................... 90
Ilustración 51: Hoja Resumen por Tecnología y Dispositivo ....................................................... 90
Ilustración 52: Opción Tráfico CEC .............................................................................................. 91
Ilustración 53: Hoja Tráfico CEC .................................................................................................. 91
Ilustración 54: Opción Vulnerabilidades Alert por IP destino .................................................... 92
Ilustración 55: Hoja Vulnerabilidades Alert por IP destino ......................................................... 92
Ilustración 56: Opción Flujo temporal de CE ............................................................................... 93
Ilustración 57: Hoja Flujo temporal de CE ................................................................................... 93
Ilustración 58: Opción Categoría y Aplicación por CI .................................................................. 94
Ilustración 59: Hoja Categoría y Aplicación por CI ...................................................................... 94
Ilustración 60: Opción Análisis vulnerabilidades......................................................................... 95
Ilustración 61: Hoja Análisis vulnerabilidades ............................................................................. 95
Ilustración 62: Mashup................................................................................................................ 96
Ilustración 63: Vista Resumen informe SAP Crystal Reports ...................................................... 97
Ilustración 64: Vista Detalle informe SAP Crystal Reports .......................................................... 97
Ilustración 65: Planificación del proyecto ................................................................................. 101
Ilustración 66: Tiempo en horas................................................................................................ 102
Ilustración 67: Ciclo del proyecto .............................................................................................. 102
Ilustración 68: Modelo abierto.................................................................................................. 105
Ilustración 69: Modelo preparado para el diseño de mapas .................................................... 105
Ilustración 70: Modelo abierto para el diseño de Mashups ..................................................... 106
Ilustración 71: Modelo abierto para el tratamiento de ficheros perimetrales ......................... 107
Ilustración 72: Conectividad SAP Crystal Reports a Hive .......................................................... 107
Ilustración 73: Web oficial D3.js con un amplio muestrario gráfico ......................................... 108
Ilustración 74: Grafico d3.js seleccionado como base para nuestro mapa............................... 109
Ilustración 75: Extracto del fichero CSV que utiliza nativamente el mapa ............................... 110
Ilustración 76: Resultado final teórico del nuevo Mashup geolocalizado ................................ 111
7
Business Intelligence & Visualization
Scripts
Script 1: Cálculo días del Calendario ........................................................................................... 77
Script 2: Tabla de Hechos ............................................................................................................ 86
Script 3: Calendario ..................................................................................................................... 86
Script 4: Threat ............................................................................................................................ 87
Script 5: Aplicación ...................................................................................................................... 87
Script 6: Países y rangos de direcciones IP .................................................................................. 88
Script 7: Coordenadas ................................................................................................................. 88
Script 8: Tabla Staging Area......................................................................................................... 98
Script 9: Tabla Cubo .................................................................................................................... 98
Script 10: Ruta lectura ficheros ................................................................................................... 98
Script 11: Filtro Traffic ................................................................................................................. 98
Script 12: Estructura fichero Traffic ............................................................................................ 98
Script 13: Desglose fecha Traffic ................................................................................................. 98
Script 14: Cálculo indicadores de análisis Traffic ........................................................................ 99
Script 15: Selección campos Traffic ............................................................................................. 99
Script 16: Almacenamiento Traffic en Hive ................................................................................. 99
Script 17: Filtro Threat ................................................................................................................ 99
Script 18: Estructura fichero Threat ............................................................................................ 99
Script 19: Desglose fecha Threat ................................................................................................. 99
Script 20: Cálculo indicadores de análisis Threat ........................................................................ 99
Script 21: Tratamiento identificador Threat ............................................................................. 100
Script 22: Almacenamiento Threat en Hive .............................................................................. 100
Script 24: Carga datos de Staging Area a Summary Data.......................................................... 100
Script 25: Código fuente javascript donde se carga el fichero de posiciones ........................... 110
8
1 Introducción
1.1. La seguridad
En el mundo actual, con el incremento de datos, dispositivos y conexiones,
aumentan las amenazas de seguridad, tanto en número como en alcance. Se ha
puesto de manifiesto un aumento constante en actividades delictivas en el
ciberespacio, proliferación de vulneraciones en la seguridad que afectan a
empresas de numerosos sectores.
Estos fallos en la seguridad no solo han supuesto un importante gasto para las
empresas afectadas, sino que han dañado de forma significativa la confianza de los
clientes y la reputación de las empresas.
Así pues, es cada vez más importante, aunque más difícil, proteger y garantizar la
seguridad de información importante y los activos relacionados.
Es por ello, se deben adoptar importantes medidas para crear seguridad y adoptar
enfoques que permitan evaluar riesgos para las empresas y TI. Buscar anticiparse,
utilizando herramientas analíticas que permitan detectar e identificar los riesgos de
forma activa, controlando y abordando las amenazas a tiempo.
9
Business Intelligence & Visualization
10
2. Objetivos
2.1. Objetivo General
Como objetivo general del proyecto se desea implementar un sistema de Business
Intelligence integrado a una plataforma de Big data que permita informar y analizar
sobre los eventos de seguridad acontecidos en los sistemas del Grupo Agbar de
Barcelona.
2.3. Alcance
Lo que está dentro del alcance:
11
Business Intelligence & Visualization
12
4. Fundamentos teóricos
4.1. Business Intelligence
4.1.1. Definición
La inteligencia de Negocios o Business Intelligence (BI) se puede definir como el
proceso de extraer datos de cualquier fuente: archivos o base de datos, con el
objetivo de convertir los datos de una organización en información útil y crear
conocimiento. Integra y estructura los datos dispersos en la empresa para
generar información relevante y ayudar en el proceso de toma de decisiones.
13
Business Intelligence & Visualization
4.1.2. Beneficios
A lo largo de los años, el Business Intelligence ha evolucionado para dotar a sus
usuarios con una mayor capacidad de análisis sobre información estratégica y
garantizando mejor toma de decisiones.
14
• Control de estrategia empresarial: Permite definir indicadores que miden
el desempeño del negocio, obteniendo información de calidad en todo
momento. Análisis de un cierto campo desde diferentes puntos de vista
(Dashboards o Balanced ScoreCards).
• Análisis de ciertos indicadores clave a través de ciertas herramientas que,
junto con alertas, indiquen el impacto a futuro de éstos (Análisis what-if).
• Eliminación del error humano: Todos los informes se realizan a través de
la plataforma evitando la generación de costosos documentos en Excel de
forma manual.
• Sistemas de estructura escalable: Esto hace posible que los sistemas
crezcan de forma regulada.
• Organización de gran cantidad de información: Gracias a herramientas
como el Data Mining y la utilización de Data marts.
• Ahorro de tiempo y dinero: Permite que cada sujeto cumpla su función y
dedique tiempo para tareas más importantes aumentando de esta forma la
productividad.
15
Business Intelligence & Visualization
• Dimensiones: Estas variables indican los diferentes puntos de vista con los
que se puede analizar la información, representa una perspectiva de los
datos. Forman parte de la Tabla de Dimensiones. Las dimensiones son
usadas para seleccionar y agregar datos a un cierto nivel deseado de
detalle. Las dimensiones se relacionan en jerarquías o niveles. Permiten
analizar la información de forma agrupada.
• Indicadores o Métricas: Dato cuantificable que será analizado, suele ser un
valor numérico. Están contenidos en la Fact Table o Tabla de Hechos, base
del modelo dimensional, la cual se ubica en el centro y alrededor se
encuentran las Tablas de Dimensiones, formando un esquema en estrella.
Todo objeto de análisis es un hecho y por tanto, éstos contienen las
métricas, y las dimensiones contienen los diferentes niveles que componen
las jerarquías.
16
Ilustración 4: Esquema en estrella
La forma de exploración de los datos en análisis OLAP suele ser en forma de matriz,
donde sobre cada uno de los ejes se sitúa una dimensión y sobre las celdas se
sitúan las métricas, conteniendo el valor en función de las dimensiones escogidas.
A partir de estas matrices de datos es posible generar distintos tipos de gráficas
asociadas a las mismas.
17
Business Intelligence & Visualization
• Drill Down: Descomponer de manera visual algún dato en detalle según una
cierta jerarquía de una dimensión.
• Drill Up: Añadir un dato concreto según una cierta jerarquía de una
dimensión.
• Drill Through: Obtener una vista detallada de un elemento concreto.
• Rotación: Intercambiar las dimensiones de ejes.
• Filtro: Seleccionar cierta información según un criterio de filtrado.
Las tablas de dimensiones contienen las dimensiones del negocio (por ejemplo:
clientes, productos, oficinas y períodos de tiempo.). Las dimensiones tienen
atributos que son usados para agrupar y analizar la información.
Las jerarquías dentro de cada tabla de dimensión son usadas para navegar entre
los distintos niveles de datos.
18
4.1.3.3.3. Cubo OLAP
• Un cubo OLAP pude tener más de tres dimensiones y por esta razón
también se denomina hipercubo.
• Un cubo OLAP está constituido por los datos de una o más tablas de hechos
y presenta la información a los usuarios en la forma de medidas y
dimensiones.
• Permite realizar un análisis multidimensional de los datos en base a las
dimensiones del cubo.
• Los cubos OLAP almacenan sumas precalculadas de los datos
denominadas “agregados”.
• En función de dónde y cómo se almacenan los datos agregados y detallados
se distinguen tres tipos de OLAP:
MOLAP: Utiliza BD multidimensionales.
ROLAP: Utiliza BD relacionales.
HOLAP: Solución híbrida.
Los informes tienen una alta calidad de edición y se pueden generar en varios
formatos: MS Office, PDF, HTML, etc.
19
Business Intelligence & Visualization
• Specific (Específicos)
• Measurable (Medibles)
• Achievable (Alcanzables)
• Realistic (Realistas)
• Timely (A tiempo) [13]
• Orientado al negocio: Los datos están organizados por temas del negocio
(ventas, finanzas, etc) para facilitar su acceso y entendimiento por los
usuarios.
• Integrado: El DW agrupa y estructura los datos procedentes de los sistemas
operacionales y elimina las posibles inconsistencias que hubiera en los
mismos.
• Variante en el tiempo: El DW contiene el valor de los datos a lo largo del
tiempo, lo cual permite analizar lo ocurrido en un determinado período y
también realizar análisis de tendencias.
• No volátil: Los datos cargados en el DW se leen pero no se modifican ni se
eliminan. La actualización del DW significa la incorporación de nuevos
valores correspondientes a otra fecha de referencia.
20
El contenido de Business Intelligence con el que se puede trabajar todos los días
desde el escritorio, se procesa y optimiza automáticamente para utilizarlo en
dispositivos móviles. Los usuarios pueden interactuar con tablas y gráficos,
actualizarlos y especificar parámetros para filtrar, accediendo a un mayor grado de
detalle de la información.
En este paso del proceso se carga el DW con los datos procedentes de la fase de
transformación.
21
Business Intelligence & Visualization
En esta edición las plataformas analíticas clasificadas como líderes son: Tableau,
Qlik y Microsoft donde Qlik se posiciona por séptima vez consecutiva en el
cuadrante de líderes demostrando su alto nivel de innovación y satisfacción del
cliente. A diferencia del año anterior (2016) se destaca que Power BI (Microsoft) y
TABLEAU han tomado mucha ventaja sobre QLIK, su más cercano rival.
22
En el caso de Tableau, éste ofrece una experiencia de exploración visual altamente
interactiva e intuitiva para que los usuarios de negocios puedan acceder, preparar
y analizar fácilmente sus datos. Tableau se ha centrado de manera decisiva en
facilitar la experiencia analítica del flujo de trabajo para los usuarios, pero al mismo
tiempo les da mayor poder para explorar y encontrar información sobre sus datos.
Las desventajas de esta plataforma son: Exploración de datos basada en objetos
visuales, precios y empaquetamiento y falta de soporte de modelos de datos
complejos.
A partir del 2016, Tableau, Microsoft y Qlik son los tres únicos líderes restantes en
el Cuadrante. Los tres proveedores se agrupan bastante bien, con Tableau
liderando el paquete en capacidad de ejecutar por segundo año consecutivo en los
talones de su última actualización de producto.
23
Business Intelligence & Visualization
4.1.3.11.1. MICROSOFT
Microsoft ofrece una amplia gama de capacidades de BI y análisis, tanto en locales
como en la nube Microsoft Azure. Su producto Microsoft Power BI es la herramienta
principal por la cual lidera en el Cuadrante Mágico y se encuentra en su segunda
versión, que ofrece una BI basada en la nube con un nuevo interfaz de escritorio.
4.1.3.11.2. QLIK
Las calificaciones de referencia de clientes de Qlik la sitúan en el cuadrante superior
por su capacidad de respuesta en el mercado, basada en una combinación de cómo
el producto se despliega en las organizaciones y su fuerte impulso.
Con la incorporación de Nprinting en Qlik Sense, Qlik soporta tanto las capacidades
de BI tradicionales para programar informes, así como el descubrimiento ágil
(gobernado de datos y exploración visual). Entre las capacidades del producto que
contribuyen a su posición en el cuadrante de los líderes: despliegue rápido,
activación del usuario, nuevos tipos de formación y red de socios.
24
Ilustración 8: Qlik y Big Data
Qlik Sense es una nueva versión limitada funcionalmente respecto a Qlik View,
dirigida para visualiarse por dispositivos móviles, porque los gráficos se adaptan a
la resolución de la pantalla.
Un Script escrito en Qlik View puede migrarse a Qlik Sense, cuidando los objetos
que Qlik View pudiera tener y no Qlik Sense.
Qlik Sense permite aprovechar océanos de datos, siguiendo los siguientes pasos:
25
Business Intelligence & Visualization
4.1.3.11.3. TABLEAU
Esta herramienta se presenta en el cuadrante de líderes de Gartner desde hace 5
años. Algunas de las características más significativas que han hecho esto posible
son las siguientes:
Contar con un entorno de autoservicio en el que todos puedan acceder a los datos
es magnífico. Sin embargo, es imprescindible poder determinar cuándo usar esos
datos y qué fuentes son confiables para una tarea específica.
26
Preparación de autoservicio que permite transformar los datos rápidamente
para su análisis
27
Business Intelligence & Visualization
Con Tableau, es cada vez más fácil responder preguntas más complejas. Podremos
responder sus nuevas preguntas de manera automática, ayudar a interpretar lo que
ve o sugerir los pasos siguientes. Se agregarán eficaces algoritmos de aprendizaje
automático directamente en Tableau. Estos recomendarán las vistas, las tablas, las
uniones y los campos apropiados para ayudarlo a responder sus preguntas con más
rapidez.
28
4.1.3.11.4. Comparativa entre herramientas
Actualmente, estas herramientas ofrecen unas capacidades por encima del resto
en manipulación de datos y análisis interactivo, lo que las convierte en líderes
indiscutibles del mercado. El Power BI de Microsoft, Qlik Sense y Tableau Software
ofrecen características y funcionalidades que los colocan por delante de la
competencia en una serie de áreas clave. Pero, en comparación, estos tres
vendedores ofrecen ventajas y desventajas muy diferentes. Mientras que estos
vendedores lideran el paquete en el mercado de BI de autoservicio lleno de gente,
cada empresa tendrá que decidir qué oferta es mejor para ellos, ya que no son
intercambiables.
29
Business Intelligence & Visualization
Puntos Fuertes:
QlikView:
Tableau:
Microsoft:
30
• Sistema de relación fuerte, que permite resolver incluso muchas a muchas
relaciones.
• Calidad de los mapas. PowerBi es absolutamente mucho mejor
• Lenguaje DAX para cálculos complejos
31
Business Intelligence & Visualization
Para el caso específico del proyecto, se decidió trabajar con Qlik y la herramienta
Qlik Sense dado que la compañía ya contaba con las licencias y se encontraban
trabajando con la herramienta. Adicionalmente, los requisitos solicitados fueron la
implementación de mejoras gráficas visuales con el uso de extensiones y mashups
para visualizaciones por web.
32
4.2. BIG DATA
4.2.1. Introducción
Bajo el término de Big Data se engloba todo conjunto de datos cuya magnitud
impide que las aplicaciones tradicionales de datos puedan capturar, manejar y
analizar dicha información [8].
Por lo tanto, para la gestión de este volumen de datos es necesario recurrir a nuevas
plataformas de software, que permitan crear entornos de trabajo distribuidos para
facilitar la segmentación de dicha información.
33
Business Intelligence & Visualization
34
4.2.2.2. MapReduce
Es un proceso batch creado para el proceso distribuido de los datos, permitiendo el
procesado de los datos en paralelo y abstrayendo la complejidad del modelo
distribuido existente en Hadoop [8].
Se compone de dos funciones Map y Reduce. Mediante la función Map los datos
se transforman en un conjunto de datos pares clave/valor, para posteriormente la
función Reduce combine los valores de las diferentes funciones Map que han sido
agrupadas por el valor clave de las mismas.
35
Business Intelligence & Visualization
4.2.2.3. Hortonworks
Es una plataforma Hadoop para la gestión de Big Data, que es capaz de integrar de
forma coordinada las diferentes aplicaciones del ecosistema que la componen [4].
36
4.2.2.4. Ambari
Hortonworks utiliza Apache Ambari como aplicación central para la gestión de las
diferentes aplicaciones del ecosistema Hadoop a través de una amigable interfaz
web UI. Además de centralizar la gestión, proporciona herramientas agiles para la
configuración de Hadoop [4].
• Monitorización del estado de los servicios de cada nodo, así como datos
métricos del conjunto del sistema donde se visualizan datos como la
memoria disponible, nodos activos, carga de YARN….
37
Business Intelligence & Visualization
4.2.2.5. Pig
Apache Pig es una plataforma creada inicialmente por Yahoo! con el objetivo de
simplificar la implementación de los algoritmos MapReduce, mediante una sintaxis
parecida a SQL denominada Pig Latin. Tras su fuerte aceptación por la comunidad
paso a formar parte de la Apache Software Foundation [5].
38
4.2.2.6. Hive
Apache Hive es una plataforma de almacenamiento creada inicialmente por
Facebook con el objetivo de proporcionar un lenguaje lo más parecido a SQL con
el que programar algoritmos MapReduce. Para ello utiliza un lenguaje de consultas
SQL (HiveQL). Tras su fuerte aceptación por la comunidad paso a formar parte de
la Apache Software Foundation [6].
Esta sencillez de uso para usuarios no afines a este tipo de algoritmos es su mejor
baza, ya que en contra tiene que actualmente todos los trabajos suministrados a
MapReduce se realizan mediante interpretación Java de las secuencias SQL, lo
que produce unas latencias en las respuestas altas para sistemas críticos pero ideal
para procesos orientados a BI, o batch.
39
Business Intelligence & Visualization
Se presenta una solución a la carta del cliente. Diseño de un Data Mart a medida
de acuerdo a sus objetivos. Una vez la información se procesa por un ETL, y
almacenada en un Data Mart, se han diseñado informes, analizado la información,
diseñado cuadros de mando, explorado los datos, y ofrecer al usuario acceso a la
información desde cualquier aplicación móvil:
40
5.2. Requerimientos
Agbar solicita lo siguiente:
41
Business Intelligence & Visualization
42
2.- CiberAmenazas Internas
43
Business Intelligence & Visualization
44
Adicionalmente hemos definido el siguiente indicador:
45
Business Intelligence & Visualization
Bajo este contexto actualmente hay dos plataformas que destacan sobre el resto:
Cloudera, Hadoop, y MapR. Esta última la descartamos al ser una solución no
hadoop standard, que se salía del contexto tratado durante todo el curso [9].
46
Finalmente atendiendo a la cuota de mercado existente y las recomendaciones de
Agbar, nos decantamos por una solución Cloudera. Con la solución software
definida, solo nos quedaba casarla con la plataforma hardware, y para este fin
contábamos con un portátil de 12Gb de memoria y unos 80Gb de disco para
albergar toda la plataforma.
47
Business Intelligence & Visualization
48
5.3.2. Instalando Hortonworks 2.5.1.0
Para albergar la plataforma, seleccionamos la distribución Linux Centos 7 por su
reconocida robustez, además de poseer la mayor cuota de servidores actualmente
en internet [4].
49
Business Intelligence & Visualization
Una vez hemos acabado el asistente de instalación solo queda iniciar el servicio de
Ambari, que realizará un chequeo la primera vez para validar la instalación de toda
la plataforma.
Tras arrancar el servicio de Ambari con éxito, esta será la última vez que utilicemos
la línea de comandos de nuestra distribución Linux. El resto de pasos para instalar
el ecosistema de Hadoop, o realizar la configuración del mismo se realizará
mediante la Web IU de Ambari, accesible desde cualquier navegador en el puerto
8080 de nuestra distribución Linux.
50
Desde Ambari, después de registrarnos en el sistema se nos abre un asistente sin
opciones para la configuración de todo el ecosistema. En el mismo tenemos dos
opciones, la configuración de usuarios y la creación de un cluster Hadoop.
51
Business Intelligence & Visualization
La siguiente pantalla del asistente nos permite añadir los ‘hosts’ que queramos para
el ecosistema Hadoop, que en nuestro caso será una única máquina. Punto que en
la distribución Cloudera no fue posible esta selección, como comentábamos al inicio
del apartado.
Tras determinar los nodos que integraran la plataforma, Ambari nos cuestiona sobre
los diferentes servicios que queremos iniciar en cada uno ellos. Así como el rol
‘Maestro-Esclavo’ que queremos desempeñe dentro de cada servicio, cada uno de
los nodos.
52
Para el ecosistema de Agbar que queremos implementar, seleccionamos el core de
Hadoop en su versión 2.0, Pig, Hive, Oozie y Zookeeper.
53
Business Intelligence & Visualization
Hadoop cuenta con una utilidad llamada ‘distcp’ diseñada como no podía ser de
otra forma para la copia de grandes volúmenes de datos, incluso de varios sistemas
de fichero en paralelo.
Como las versiones entre la plataforma que hemos diseñado y la de Agbar no tienen
por qué ser la misma versión de Hadoop, es interesante utilizar el sistema de lectura
de HDFS via HFTP.
Agbar tiene 4 carpetas raíz con los diferentes ficheros, en especial para nuestra
plataforma nos interesa la carpeta ‘Threat’ y ‘Traffic’. Por lo que para realizar la
importación de los datos de Traffic utilizaríamos la siguiente sintaxis:
Estos trabajos ser pueden incluir como tareas diarias de repetición horaria en
nuestra distribución Linux, para asegurar la actualización continua de los datos en
nuestra plataforma.
54
5.3.4. MapReduce con Pig
Los datasets de ‘Threat’ y ‘Traffic’ son los seleccionados que cargara el script de
Pig. Este script se ejecutará cada hora mediante Oozie, monitorizándose durante la
duración del mismo.
Pig utilizará MapReduce tanto para la selección de los campos que hemos valorado
como necesarios, como para con el análisis de los mismos generar indicadores. El
elevado número de registros repartidos en ficheros de texto de 128M, hacen que
este algoritmo sea idóneo para recorrer el conjunto de ficheros.
Como nos interesa que todos estos datos se inserten en Hive para su posterior
carga en Qlik y nuevas agrupaciones ETL. Es importante configurar e iniciar la
sesión de Pig con soporte Hive.
Para ello editaremos el script de entorno de Pig, con las rutas de configuración de
Hive en nuestra plataforma Hortonworks.
Hecho esto tenemos simplemente que en nuestra línea de comandos del script Pig,
cargarlo con el argumento ‘-useHCatalog’ para crear la conectividad.
55
Business Intelligence & Visualization
Del lado de Apache Oozie, con el fin de poder lanzar el script tenemos que crear un
flujo de trabajo y las propiedades de dicho trabajo. Oozie trabaja con ficheros de
parametrización xml para configurar dichas acciones. El esquema a seguir para
ellos es el siguiente [12]:
56
Igualmente, durante el test de los scripts, utilizamos la interfaz de Ambari para la
validación de los scripts en Pig. Que es justamente una de las ventajas para no
realizar una instalación nativa.
Para el test del funcionamiento del cubo y su perfecta integración con Qlik Sense,
tuvimos que realizar cargas parciales de los datos de Agbar. De nuevo Ambari
presenta una plataforma excelente para la gestión de consultas de pruebas.
57
Business Intelligence & Visualization
Con Hive, es cuando entendemos que la plataforma Ambari sin duda es un valor
añadido para el administrador de sistemas. Primero por el dato analítico de todos
los datos almacenados, para determinar volúmenes de datos. Y segundo porque
cada consulta es trazada por el sistema para que tengamos datos como su correcta
ejecución, tiempo invertido, etc.
58
La conexión entre Hive y Qlik se realiza por ODBC instalando previamente el
driver ODBC Hive:
59
Business Intelligence & Visualization
Ilustración 45: Dashboard status plataforma Agbar ejecutándose desde el ordenador personal
60
5.4. Análisis y Diseño
5.4.1. Fuentes de datos
La fuente de información almacenada en el HDFS son ficheros de log generados
por los distintos dispositivos de seguridad de Agbar, clasificados por Tráfico,
Amenazas, Configuración y Sistema:
Los ficheros de Log (Traffic, Threat, Config y System), datos transaccionales, son
extraídos del Sistema HDFS, y aplicando transformaciones los modelamos con Pig,
para almacenarlos en un Data Warehouse de Apache Hive.
Una vez diseñada la tabla de hechos, se conecta vía ODBC Apache Hive con Qlik
Sense. Y en Qlik se diseña el esquema en estrella junto al resto de información
complementaria (datos maestros): Application (XML), Threat (XML),
Direccionamiento IP (XLS), Coordenadas (XLS), y Países (XLS).
61
Business Intelligence & Visualization
62
Destination to Zone the session was destined to
Zone
Ingress inbound_if Interface that the session was sourced
Interface form
Egress outbound_if Interface that the session was destined to
Interface
Log logset Log Forwarding Profile that was applied
Forwarding to the session
Profile
FUTURE_USE
Session ID sessionid An internal numerical identifier applied to
each session
Repeat Count repeatcnt Number of sessions with same Source
IP, Destination IP, Application, and
Subtype seen within 5 seconds; used for
ICMP only
Source Port sport Source port utilized by the session
Destination dport Destination port utilized by the session
Port
NAT Source natsport Post-NAT source port
Port
NAT natdport Post-NAT destination port
Destination
Port
Flags flags 32-bit field that provides details on
session; this field can be decoded by
AND-ing the values with the logged
value:
• 0x80000000—session has a packet
capture (PCAP)
• 0x02000000—IPv6 session
• 0x01000000—SSL session was
decrypted (SSL Proxy)
• 0x00800000—session was denied via
URL filtering
• 0x00400000—session has a NAT
translation performed (NAT)
• 0x00200000—user information for the
session was captured via the captive
portal (Captive Portal)
• 0x00080000—X-Forwarded-For value
from a proxy is in the source user field
• 0x00040000—log corresponds to a
transaction within a http proxy session
(Proxy Transaction)
• 0x00008000—session is a container
page access (Container Page)
• 0x00002000—session has a temporary
match on a rule for implicit application
dependency handling. Available in PAN-
OS 5.0.0 and above.
• 0x00000800—symmetric return was
used to forward traffic for this session
Protocol proto IP protocol associated with the session
63
Business Intelligence & Visualization
64
Session End session_end_reason The reason a session terminated. If the
Reason termination had multiple causes, this field
displays only the highest priority reason.
The possible session end reason values
are as follows, in order of priority (where
the first is highest):
• threat—The firewall detected a threat
associated with a reset, drop, or block
(IP address) action.
• policy-deny—The session matched a
security rule with a deny or drop action.
• tcp-rst-from-client—The client sent a
TCP reset to the server.
• tcp-rst-from-server—The server sent a
TCP reset to the client.
• resources-unavailable—The session
dropped because of a system resource
limitation. For example, the session could
have exceeded the number of
out-of-order packets allowed per flow or
the global out-of-order packet queue.
• tcp-fin—One host or both hosts in the
connection sent a TCP FIN message
to close the session.
• tcp-reuse—A session is reused and the
firewall closes the previous session.
• decoder—The decoder detects a new
connection within the protocol (such as
HTTP-Proxy) and ends the previous
connection.
• aged-out—The session aged out.
• unknown—This value applies in the
following situations:
• Session terminations that the preceding
reasons do not cover (for
example, a clear session all command).
• For logs generated in a PAN-OS
release that does not support the session
end reason field (releases older than
PAN-OS 6.1), the value will be
unknown after an upgrade to the current
PAN-OS release or after the logs
are loaded onto the firewall.
• In Panorama, logs received from
firewalls for which the PAN-OS version
does not support session end reasons
will have a value of unknown.
• n/a—This value applies when the traffic
log type is not end.
Device Group dg_hier_level_1 A sequence of identification numbers that
Hierarchy indicate the device group’s location
dg_hier_level_2 within a device group hierarchy. The
firewall (or virtual system) generating the
65
Business Intelligence & Visualization
66
5.4.1.1.2. Threat Logs
Threat logs registra las entradas del tráfico cumplen con uno de los perfiles de
seguridad según una regla de seguridad de un firewall. Cada entrada incluye la
siguiente información: fecha y hora; tipo de amenaza (tales como virus o spyware);
descripción de la amenaza o URL (nombre de la columna); las zonas de origen y de
destino, direcciones y puertos; nombre de la aplicación; acción de alarma (por
ejemplo, permitir o bloquear); y nivel de gravedad.
67
Business Intelligence & Visualization
68
• 0x00040000—log corresponds to a transaction
within a http proxy session
(Proxy Transaction)
• 0x00008000—session is a container page
access (Container Page)
• 0x00002000—session has a temporary match
on a rule for implicit application
dependency handling. Available in PAN-OS 5.0.0
and above.
• 0x00000800—symmetric return was used to
forward traffic for this session
Protocol proto IP protocol associated with the session
Action action Action taken for the session; values are alert,
allow, deny, drop, drop-all-packets,
reset-client, reset-server, reset-both, block-url.
• Alert—threat or URL detected but not blocked
• Allow—flood detection alert
• Deny—flood detection mechanism activated
and deny traffic based on
configuration
• Drop—threat detected and associated session
was dropped
• Drop-all-packets—threat detected and session
remains, but drops all packets
• Reset-client—threat detected and a TCP RST
is sent to the client
• Reset-server—threat detected and a TCP RST
is sent to the server
• Reset-both—threat detected and a TCP RST is
sent to both the client and the server
• Block-url—URL request was blocked because it
matched a URL category that was
set to be blocked
Miscellaneous misc Field with variable length with a maximum of
1023 characters
The actual URI when the subtype is URL
File name or file type when the subtype is file
File name when the subtype is virus
File name when the subtype is WildFire
Threat ID threatid Palo Alto Networks identifier for the threat. It is a
description string followed by a
64-bit numerical identifier in parentheses for
some Subtypes:
• 8000 – 8099—scan detection
• 8500 – 8599—flood detection
• 9999—URL filtering log
• 10000 – 19999—sypware phone home
detection
• 20000 – 29999—spyware download detection
• 30000 – 44999—vulnerability exploit detection
• 52000 – 52999—filetype detection
• 60000 – 69999—data filtering detection
• 100000 – 2999999—virus detection
69
Business Intelligence & Visualization
70
URL Index url_idx Used in URL Filtering and WildFire subtypes.
When an application uses TCP keepalives to
keep a connection open for a length of
time, all the log entries for that session have a
single session ID. In such cases, when
you have a single threat log (and session ID) that
includes multiple URL entries, the
url_idx is a counter that allows you to correlate
the order of each log entry within the
single session.
For example, to learn the URL of a file that the
firewall forwarded to WildFire for
analysis, locate the session ID and the url_idx
from the WildFire Submissions log and
search for the same session ID and url_idx in
your URL filtering logs. The log entry
that matches the session ID and url_idx will
contain the URL of the file that was
forwarded to WildFire.
User Agent user_agent Only for the URL Filtering subtype; all other
types do not use this field.
The User Agent field specifies the web browser
that the user used to access the URL,
for example Internet Explorer. This information is
sent in the HTTP request to the
server.
File Type filetype Only for WildFire subtype; all other types do not
use this field.
Specifies the type of file that the firewall
forwarded for WildFire analysis.
X-Forwarded- xff Only for the URL Filtering subtype; all other
For types do not use this field.
The X-Forwarded-For field in the HTTP header
contains the IP address of the user
who requested the web page. It allows you to
identify the IP address of the user, which
is useful particularly if you have a proxy server
on your network that replaces the user
IP address with its own address in the source IP
address field of the packet header.
Referer referer Only for the URL Filtering subtype; all other
types do not use this field.
The Referer field in the HTTP header contains
the URL of the web page that linked
the user to another web page; it is the source
that redirected (referred) the user to the
web page that is being requested.
Sender sender Only for WildFire subtype; all other types do not
use this field.
Specifies the name of the sender of an email that
WildFire determined to be malicious
when analyzing an email link forwarded by the
firewall.
71
Business Intelligence & Visualization
Subject subject Only for WildFire subtype; all other types do not
use this field.
Specifies the subject of an email that WildFire
determined to be malicious when
analyzing an email link forwarded by the firewall.
Recipient recipient Only for WildFire subtype; all other types do not
use this field.
Specifies the name of the receiver of an email
that WildFire determined to be malicious
when analyzing an email link forwarded by the
firewall.
Report ID reportid Only for WildFire subtype; all other types do not
use this field.
Identifies the analysis request on the WildFire
cloud or the WildFire appliance.
Device Group dg_hier_level_1 A sequence of identification numbers that
Hierarchy indicate the device group’s location
within a device group hierarchy. The firewall (or
dg_hier_level_2 virtual system) generating the
log includes the identification number of each
ancestor in its device group
dg_hier_level_3 hierarchy. The shared device group (level 0) is
not included in this structure.
If the log values are 12, 34, 45, 0, it means that
the log was generated by a firewall
dg_hier_level_4
(or virtual system) that belongs to device group
45, and its ancestors are 34, and
12. To view the device group names that
correspond to the value 12, 34 or 45,
use one of the following methods:
CLI command in configure mode: show readonly
dg-meta-data
API query:
/api/?type=op&cmd=<show><dg-hierarchy></dg-
hierarch
y></show>
Virtual vsys_name The name of the virtual system associated with
System Name the session; only valid on firewalls
enabled for multiple virtual systems.
Device Name device_name The hostname of the firewall on which the
session was logged.
FUTURE_USE
Tabla 7: Threat Logs
72
5.4.1.1.3. Config Logs
Los registros de configuración guardan las entradas que producen cambios en la
configuración del firewall. Cada entrada incluye la fecha y la hora, el nombre del
usuario administrador, la dirección IP desde la que el administrador ha realizado el
cambio, el tipo de cliente (Web, CLI, o Panorama), el tipo de comando que se
ejecuta, el estado de los controles (éxito o error), la ruta de configuración y los
valores de antes y después del cambio.
73
Business Intelligence & Visualization
74
5.4.1.1.4. System Logs
Registra las entradas de cada evento del sistema que se produce en el firewall.
Cada entrada incluye la fecha y la hora, la gravedad del suceso, y la descripción del
evento. A continuación se muestra una tabla de los mensajes de registro del sistema
y sus correspondientes niveles de gravedad:
75
Business Intelligence & Visualization
76
5.4.1.2. Datos maestros
El modelo relacional requiere de unas tablas de datos maestros, que complementan
el esquema aportando un valor adicional para representar la información
visualmente en el cuadro de mando.
5.4.1.2.1. Calendario
La tabla Calendario se rellena desde el día y hora más antigua hasta la más actual
que contiene la tabla de hechos:
77
Business Intelligence & Visualization
5.4.1.2.2. Applications
Fichero en formato XML incluido en Qlik parar complementar la información de
Aplicación.
78
5.4.1.2.3. Threats
Fichero en formato XML incluido en Qlik parar complementar la información de
Amenazas y vulnerabilidades. La estructura de la tabla es la siguiente:
5.4.1.2.4. Países
Fichero Excel que contiene los paises definido en dos, tres siglas y con el nombre
completo.
5.4.1.2.5. Coordenadas
Fichero Excel que contiene las coordenades, latitud y longitud, de los paises.
79
Business Intelligence & Visualization
5.4.1.2.6. Direcciones IP
Fichero Excel que contiene el rango de direcciones IP de los paises.
Los ficheros de texto son procesados con PIG, almacenandolos en Apache Hive en
una primera capa temporal, Staging Area, agregándose en una segunda tabla como
Summary Data, diseñándose una capa semántica con el esquema en estrella de
Qlik, y por último realizándose el análisis en la capa de presentación por Cuadros
de mando e informes.
80
5.4.2.1. Flujo de la información
La información se procesa en una capa de datos, en la cual se extrae de un servidor Hortonworks utilizando Pig, almacenándose en la
Staging Area, una primera cada temporal de limpieza de datos. Y se agrega en una segunda capa de datos de un Entorno Datawarehouse
en Apache Hive.
En la capa de presentación se diseña el esquema en estrella con la tabla de hechos agregada en el centro, y a su alrededor las tablas de
dimensión.
Por último la información se analiza por cuadros de mando diseñados en Qlik Sense e informes, y compartidos con los usuarios.
81
5.4.2.2. Staging Area
Información en bruto de los datos recibidos de los sistemas origen. Esta tabla se
carga en modo “Full”. Área temporal y de limpieza de datos donde se unifica y
homogeneiza la información guardándola temporalmente como una primera
validación. Pueden existir datos redundantes, campos nulos o que no contengan el
formato correcto, inseguridad de la calidad de los datos y disponer de información
errónea sin una previa validación de los datos.
83
Business Intelligence & Visualization
84
5.4.3. Capa Semántica
La capa semántica separa la capa de datos (Data Warehouse) de la capa de
presentación (informes y cuadros de mando). En ella se traducen los datos en
conceptos de negocio para ser identificados en el diseño de los informes y cuadros
de mando al ser consultados por los usuarios.
5.4.3.2. Script
En Qlik el diseño del esquema en estrella se define en un Script que permite
modelar las tablas y los datos.
85
Business Intelligence & Visualization
5.4.3.2.2. Calendar
En esta sección se define la carga de la tabla de calendario:
Script 3: Calendario
86
5.4.3.2.3. Threat
En esta sección se define la carga de la tabla de Threat:
Script 4: Threat
5.4.3.2.4. Application
En esta sección se define la carga de la tabla de Application:
Script 5: Aplicación
87
Business Intelligence & Visualization
5.4.3.2.6. Coordenadas
En esta sección se define la carga de los campos “Latitud” y “Longitud” en la tabla
Country:
Script 7: Coordenadas
88
5.4.4. Capa de Presentación
Diseño de los cuadros de mando e informes, compartirlos con los usuarios, y facilitar
su toma de decisiones según los objetivos y análisis de los indicadores definidos.
89
Business Intelligence & Visualization
90
5.4.4.2. Tráfico CEC
En esta hoja se muestra el flujo de los datos por SubCategoría, Tecnología,
Aplicación y Puerto destino, según las CiberAmenazas al corazón:
91
Business Intelligence & Visualization
• Objeto KPI: Objeto de texto que muestra el total del indicador Alert según
la selección.
• Tabla: Objeto de texto que muestra la IP destino, el Threat y el valor del
indicador Alert.
• Dependency Wheel Chart: Objeto gráfico que muestra la IP destino y el
Threat según el indicador de análisis Alert.
92
5.4.4.4. Flujo temporal de CE
En esta hoja se muestra la evolución por tiempo (semana, día y hora), de las
CiberAmenazas Externas:
93
Business Intelligence & Visualization
94
5.4.4.6. Análisis vulnerabilidades
En esta hoja se muestra el análisis de las vulnerabilidades.
• Heatmap: Objeto gráfico que muestra las dimensiones del día de la semana
y hora según el indicador CiberAmenazas Internas, coloreando las casillas
de acuerdo a un mapa de calor de menor a mayor valor del indicador.
• Radar Chart: Objeto gráfico que muestra las dimensiones Día y Hora según
el indicador CiberAmenazas Internas.
• Multi-Series-Line Chart: Objeto gráfico que muestra las dimensiones Día y
Hora según el indicador CiberAmenazas Internas.
95
Business Intelligence & Visualization
5.4.4.7. Mashup
En el cuadro de mando se ha diseñado un Mashup que integra objetos de
visualización en una página HTML [7]:
96
5.4.4.8. Informe SAP Crystal Reports
La información almacenada en el DataWarehouse también es accesible desde un
informe SAP Crystal Reports utilizando un conector ODBC Hive.
Vista Resumen:
Vista Detalle:
97
Business Intelligence & Visualization
98
c. Cálculo de los indicadores de análisis:
99
Business Intelligence & Visualization
100
6. Planificación y costes del proyecto
6.1. Planificación del proyecto
En el diagrama se muestra el tiempo real de dedicación a cada una de las fases del
proyecto. Las fechas de comienzo y fin del proyecto han sido las siguientes:
Comienzo: 11.03.2017
Fin: 30.06.2017
Fase Nº Horas
Requerimientos 15
Análisis 40
Diseño 75
Infraestructura 30
Implementación 60
Refinamiento 30
Documentación 50
Total 300
Tabla 20: Planificación del proyecto
101
Business Intelligence & Visualization
Se puede observar que la fase más extensa del proyecto ha sido la de Diseño con
un 25% del tiempo total invertido en el mismo.
Tiempo en horas
5%
17%
13%
Requerimientos
Análisis
10% Diseño
Infraestructura
Implementación
25% Refinamiento
Documentación
20%
10%
102
6.3. Estudio económico
El coste total del proyecto suma 33.825 euros, se desglosa por fases y perfiles de
acuerdo a la tabla siguiente:
103
Business Intelligence & Visualization
104
7.2. Líneas de futuro
Las líneas de futuro que parten de la plataforma implantada son las siguientes.
105
Business Intelligence & Visualization
Diseño de un Mashup que puede integrar nuevos objetos de diseño junto a los
actuales.
106
Modelo adaptado para recibir información de datos ficheros perimetrales.
Modelo que permite la extracción de datos utilizando el mismo conector que Qlik
para el diseño de informes en Crystal Reports.
107
Business Intelligence & Visualization
Para aportarlo hasta ahora la forma más sencilla pero efectiva, era acompañar al
mapa con gráficos adicionales formando una aplicación web híbrida (mashup). Sin
embargo, con la llegada de la versión HTML5 junto con el enriquecimiento javascript
estos factores pueden ser representados con un único gráfico.
Nuestro objetivo era una vez tuviéramos la secuencia de los logs perimetrales de la
red de Agbar, representar los indicadores generados aportando el geo
posicionamiento del mismo. La repetición de datos sobre una misma geo posición,
se conseguiría añadiendo al mapa un efecto memoria.
En el momento de realizar el trabajo para el Master, sin duda la mejor librería gráfica
para HTML es Data-Driven Documents (D3.js). Con prácticamente un número
ilimitado de posibilidades [11].
108
Esta librería se define en su página oficial con un objetivo de manipular conjuntos
de datos para darles vida en entornos web. Abstrayendo el versionado de los
navegadores o la necesidad de crear un entorno de desarrollo propio, con el
gestionar los objetos DOM existentes en los navegadores.
Ilustración 74: Grafico d3.js seleccionado como base para nuestro mapa
109
Business Intelligence & Visualization
Para la carga inicial de los valores sin la necesidad de reprogramar parte del código
realizado, el mapa utiliza un javascript que carga ficheros CSV y JSON con los datos
a mostrar por año.
Así en el caso del año 2003, el fichero se llamaría 2003.csv y tiene todas estas
columnas documentadas en el propio CSV.
Ilustración 75: Extracto del fichero CSV que utiliza nativamente el mapa
110
Si se realiza una ETL para generar dinámicamente este fichero podemos utilizar su
propia estructura, para dar valor añadido a la representación de Agbar. Por ejemplo,
el tipo de gobierno puede ser el puerto utilizado, etc…
111
Business Intelligence & Visualization
8. Bibliografía
[1] SOCIEDAD GENERAL DE AGUAS DE BARCELONA. Disponible en internet:
https://www.agbar.es
[2] LOG TYPES. Disponible en internet:
https://www.paloaltonetworks.es/documentation/71/pan-os/pan-
os/monitoring/log-types-and-severity-levels.html#93788
[3] SYSLOG FIELD DESCRIPTIONS. Disponible en internet:
https://www.paloaltonetworks.es/documentation/71/pan-os/pan-
os/monitoring/syslog-field-descriptions.html#66501
http://www.ticout.com
http://data-magnum.com
http://www.cloudera.com
112
[11] DATA-DRIVEN DOCUMENTS. Disponible en internet:
https://d3js.org/
http://oozie.apache.org
https://sergioalmacellas.wordpress.com/
https://gartner.com/technology/home.jsp
https://powerbi.microsoft.com/es-es/
https://www.tableau.com/es-es
http://searchbusinessanalytics.techtarget.com/feature/Self-service-BI-software-
comparison-Tableau-vs-Power-BI-Qlik-Sense
https://selecthub.com/business-intelligence/tableau-vs-qlikview-vs-microsoft-
power-bi/
113