Está en la página 1de 21

“BIG DATA:

UN NUEVO PARADIGMA PARA LA AUDITORIA”

Mg. CPC. JOSÉ GABRIEL VALLADARES ZÚÑIGA


ii

ÍNDICE

RESUMEN........................................................................................................................ iii
INTRODUCCIÓN ............................................................................................................ 5

1. Conceptualización, definición y dimensiones del Big Data. ................................. 13


2. Tendencias respecto a la tecnología para la administración de datos ................ 14
3. Ventajas .................................................................................................................... 16

CONCLUSIÓN ............................................................................................................... 19
E-grafía ............................................................................................................................ 20
iii

RESUMEN

Este artículo tiene como objetivo automatizar la auditoría a través del Big Data y el Machine

Learning, ¿Cómo?, obteniendo una gran cantidad de datos abiertos (open source) de las

entidades públicas que serán auditadas, para utilizarlos en tiempo real y en forma automatizada

en el hallazgo de patrones a seguir; y a partir de ello, determinar que eventos se apartan de

dichos patrones, a lo que denominamos “desviaciones” que se enviaran como alertas a los

órganos de control.

Se aborda una explicación sobre el concepto del Big Data, mostrando las principales

herramientas para la extracción de datos en tiempo real, para lo cual, las bases de datos de

donde se extraera la información debe ser conocida por el órgano de control, lo cual facilitará

al auditor en la elección de la herramienta adecuada a aplicar.

Una vez extraída la información de la base de datos auditada, pasa a ser clasificada por un

ingeniero de sistemas con algo de experiencia en auditoria, quien la distribuirá a los equipos

de auditores. “Big Data” ofrece un sin número de herramientas para ser aplicadas a los

procedimientos de auditoría. En un sistema de gestión DB2 en el que los documentos se

almacenan en formato XML de forma nativa en la entidad auditada, se torna favorable para el

auditor que no conoce de programación para su extracción íntegra.

La gestión de la información extraida puede ser con la herramienta Spark o con Hadoop. Spark

corre (funciona) en ecosistema Hadoop en Plataforma Cloudera o Hoortonworks. Hay algunas

Tendencias para la administración de datos en tiempo real entre Apache Spark y Apache Flink.

Flink se proyecta como la mejor tecnología.


iv

Los riesgos del uso de Big Data esta en el tiempo real que se monitorea. Se debe establecer

muestras considerando las Bases de Datos de donde se extraerá la información y el tiempo de

monitoreo en tiempo real; en lugar del convencional muestreo por cantidades de operaciones.

La automatización es heuristica supervisada, que significa preveer una solución o ruta para los

posibles desvios y en caso no se haya previsto la solución, entra la supervisión del ingeniero y

del experto para lograr se encamine por buena ruta el proceso.


5

INTRODUCCIÓN

El concepto Big Data para la auditoría, muestra sus diversas herramientas técnológicas para

extraer los datos de la entidad auditada, transformar esos datos en información y conocimiento

y cargarla para ser analizada en el entorno de las actividades de la entidad auditada.

El concepto de Big Data toma un poco de ciertas materias del saber: visión holística del

conocimiento, visión cliente 360°, entre otras. Cuando los datos se multiplican en el tiempo,

llega un momento en que rebalsa la capacidad del harware para su administración, allí es donde

se nacen las herramientas (software) que en forma desarticulada dan solución a su gestión, y a

la vez la infraestructura (hardware) evoluciona para su administración distribuida en esclavos

y maestros.

La técnología se ha desarrollado aceleradamente, y los dispositivos se multiplicaron; a la vez,

las puertas de enlace a internet se han sofisticado, emergiendo herramientas de software de Big

Data para el análisis en tiempo real, que logran el saber como se resuelve el problema en menor

tiempo. Si la humanidad sigue en exponencial desarrollo tecnológico, es necesario tener un

conjunto de herramientas para lograr el objetivo esperado.

¿Qué es la inteligencia de negocios en “tiempo real” y su procesamiento con Big Data?

(Power Data, 2017) señala:

La llamada "inteligencia de negocios en tiempo real" (RTBI) es el proceso de usar y analizar

esos datos en tiempo real y entregar información sobre lo que ocurre a medida que ocurre.

Cuando hablamos de "tiempo real" nos estamos refiriendo a tener una latencia cercana a cero.

En términos prácticos, la frase significa que la información estará disponible entre unos pocos

milisegundos y hasta cinco segundos después del hecho.


6

Las ventajas de procesar Big Data en tiempo real son muchas:

1. Los errores de la organización se conocen al instante. La comprensión en tiempo real

de los errores ayuda a las empresas a reaccionar rápidamente para mitigar los efectos de un

problema operacional. Esto puede evitar que las operaciones se retrasen o fallen o puede

evitar que los clientes dejen de usar sus productos.

2. Las nuevas estrategias de la competencia se notan inmediatamente. Procesando el Big

Data podemos mantenernos un paso por delante de la competencia o recibir notificaciones

en el momento en que el competidor directo está cambiando su estrategia o bajando sus

precios, por ejemplo.

3. El servicio mejora drásticamente. Esto puede generar una mayor tasa de conversión e

ingresos adicionales. Cuando las organizaciones monitorizan los productos que usan sus

clientes, pueden responder proactivamente a fallos futuros. Por ejemplo, los automóviles

con sensores en tiempo real pueden notificar antes de que algo salga mal y que el conductor

sepa que el automóvil necesita mantenimiento.

4. El fraude se puede detectar en el momento en que ocurre y se pueden tomar las

medidas adecuadas para limitar el daño. El mundo financiero es muy atractivo para los

delincuentes. Con un sistema de protección en tiempo real, los intentos de hackear a la

organización son notificados al instante. El departamento de seguridad de TI puede tomar

medidas apropiadas de inmediato.

5. Ahorro de costos. La implementación de herramientas para el procesamiento de Big Data

en tiempo real puede ser costosa, pero con el tiempo se ahorra mucho dinero.

6. Mejores ideas para ventas, lo que puede generar ingresos adicionales. El

procesamiento en tiempo real indica exactamente cómo están las ventas y, en caso de que
7

un minorista de Internet vea que un producto está funcionando muy bien, puede tomar

medidas para no ingresos.

7. Mantenerse al día de las tendencias de los clientes. La comprensión de las ofertas de la

competencia, las promociones o los movimientos de sus clientes proporcionan información

valiosa sobre las tendencias de los clientes, procesando el Big Data en tiempo real se

pueden tomar decisiones más rápidas y que se adapten mejor al cliente.

Si la organización normalmente solo recibe información una vez a la semana, lo cual es

muy común en muchas organizaciones, recibir estas cada segundo requerirá un enfoque y

una forma de trabajar diferente.

Spark vs Hadoop, ¿quién saldrá vencedor?

(Power Data, 2017) señala:

Apache Spark vs Hadoop son dos de los productos más importantes y conocidos de la familia

del Big Data.

Aunque hay quienes ven estos dos frameworks como competidores en el espacio del Big Data,

no es tan fácil hacer una comparación Spark vs Hadoop. Hacen muchas cosas iguales, pero

hay algunas áreas donde ambos no se superponen. Por ejemplo, Apache Spark no tiene

sistema de archivos y, por tanto, depende del sistema de archivos distribuido de Hadoop.

a) En Usabilidad. Una de las cuestiones más habituales al contrastar ambos frameworks está

relacionada con su facilidad de uso. En este caso Apache Spark superaría a su

contrincante puesto que viene equipado con APIs realmente sencillas para Scala,

Python, Java y Spark SQL. Por su parte, si bien es verdad que MapReduce tiene

complementos como Pig y Hive que lo hacen algo más fácil de usar, al final lo que sucede

es que necesita más programación (los programas deben estar escritos en Java).
8

b) Rendimiento. Este punto quizás sea el más complicado de resolver en cualquier

comparativo entre Spark vs Hadoop. La cuestión es que, como ambos procesan los datos

de manera diferente, no es nada fácil determinar quién logra un mayor desempeño. Para

tomar una decisión habría que tener en cuenta que:

En lo que respecta a Spark:

 Trabaja in memory, y por lo tanto, todos los procesos se aceleran.

 Necesita mayor memoria para el almacenamiento.

 El rendimiento puede verse mermado debido a la necesidad de utilizar aplicaciones

pesadas.

En el caso de Hadoop:

 Los datos están en disco y eso hace que todo resulte más lento.

 La ventaja es que, en comparación con la otra alternativa, las necesidades de

almacenamiento son inferiores.

 Se ocupa de eliminar los datos cuando ya no son necesarios, por lo que no produce

pérdidas de rendimiento significativas para aplicaciones pesadas.

c) Seguridad. Si en usabilidad Spark vencía a Hadoop, en este caso no tiene nada que

hacer. Hadoop no tiene rivales ya que:

 Proporciona a los usuarios todos los beneficios de los avances obtenidos en los

proyectos de seguridad de Hadoop (Knox Gateway o Sentry son algunos ejemplos).

 HDFS admite la autorización de nivel de servicio, que garantiza los permisos adecuados

para los clientes a nivel de archivo.

 Y, además.... tiene Hadoop YARN.


9

Por su parte, Spark necesita ejecutarse en HDFS para acceder a permisos de clientes a

nivel de archivo y, además, para obtener beneficios de seguridad debe recurrir a Hadoop

YARN.

(…) Hadoop sería la elección acertada cuando el tamaño de la memoria es

significativamente menor que el tamaño de los datos; pero, si se busca rapidez, no cabría

plantearse otra opción que Spark. ¿Spark podría terminar sustituyendo a MapReduce?

(Deusto Data, 2016) señala:

A la hora de procesar grandes volúmenes de datos existen dos principales enfoques: procesar

una gran cantidad de datos por lotes, o bien hacerlo en pequeños fragmentos y en tiempo real.

Este enfoque de procesamiento y análisis de datos se asienta sobre la idea de implementar un

modelo de flujo de datos en el que los datos fluyen constantemente a través de una serie de

componentes que integran el sistema de Big Data que se esté implantando. Por ello, se le

conoce como procesamiento “streaming” o de flujo, es decir, en tiempos muy pequeños,

procesamos de manera analítica parte de la totalidad de los datos; y con estas

características se superan muchas de las limitaciones del modelo batch.

Por estas características, es importante que no entendamos este paradigma como la solución

para analizar un conjunto de grandes datos. Por ello, no presentan esa capacidad, salvo

excepciones. Por otro lado, una cosa es denominarlo “tiempo real” y otra es realmente pensar

que esto se va a producir en verdadero tiempo real. Las limitaciones aparecen por:
10

 La disponibilidad de memoria para almacenar entradas de datos en cola. Fíjense en la

diferencia con el paradigma batch, donde los procesos de Map y Reduce podrían ser algo

lentos, dado que escribían en disco entre las diferentes fases.

 La tasa de productividad del sistema debería ser igual o más rápida a la tasa de entrada de

datos. Es decir, que la capacidad de procesamiento del sistema sea más ágil y eficiente que

la propia ingesta de datos. Esto, de nuevo, limita bastante la capacidad de dotar de

“instantaneidad al sistema”.

(Fuente: https://infocus.emc.com/wp-content/uploads/2013/02/Real-time-Analytic-Platforms-Enable-New-

Value-Creation-Opportunities.png)

Figura 5. Plataforma de analítica Big Data en tiempo real

Uno de los principales objetivos de esta nueva arquitectura es desacoplar el uso que se hacía

de Hadoop MapReduce para dar cabida a otros modelos de computación en paralelo como

pueden ser:

 MPI (Message Passing Interface): Estándar empleado en la programación concurrente

para la sincronización de procesos ante la existencia de múltiples procesadores.


11

 Spark: Plataforma desarrollada en Scala para el análisis avanzado y eficiente frente a las

limitaciones de Hadoop. Tiene la habilidad de mantener todo en memoria, lo que le da ratios

de hasta 100 veces mayor rapidez frente a MapReduce. Tiene un framework integrado para

implementar análisis avanzados.

Y, con estos nuevos modelos (…), aparecen una serie de tecnologías y herramientas que

permiten implementar y dar sentido a todo este funcionamiento:

 Flume: Herramienta para la ingesta de datos en entornos de tiempo real. Tiene tres

componentes principales: Source (fuente de datos), Channel (el canal por el que se tratarán

los datos) y Sink (persistencia de los datos). Para entornos de exigencias en términos de

velocidad de respuesta, es una muy buena alternativa a herramientas ETL tradicionales.

(Fuente: http://blog.cloudera.com/wp-content/uploads/2012/10/fig.png)
Figura 6. Herramienta para la ingesta de datos en tiempo real Flume

 Kafka: Sistema de almacenamiento distribuido y replicado. Muy rápido y ágil en lecturas

y escrituras. Funciona como un servicio de mensajería y fue creado por Linkedin para

responder a sus necesidades (…). Unifica procesamiento OFF y ON, por lo que suma las

ventajas de ambos sistemas (batch y real time). Funciona como si fuera un cluster.
12

(Fuente: https://unpocodejava.files.wordpress.com/2012/12/image0019.jpg?w=780)
Figura 7. Sistema de almacenamiento distribuido y replicado Kafka.

 Storm: Sistema de computación distribuido, por lo que se emplea en la etapa de análisis de

datos (de la cadena de valor de un proyecto de Big Data). Se define como un sistema de

procesamiento de eventos complejos (Complex Event Processing, CEP), lo que le hace ideal

para responder a sistemas en el que los datos llegan de manera repentina pero continua. Por

ejemplo, en herramientas tan habituales para nosotros como WhatsApp, Facebook o Twitter,

así como herramientas como los sensores (ante la ocurrencia de un evento) o un

servicio financiero que podamos ejecutar en cualquier momento.

Vistas estas tres tecnologías, queda claro que la arquitectura resultante de un proyecto de

tiempo real quedaría compuesto por Flume (ingesta de datos de diversas fuentes) > Kafka

(encolamos y almacenamos) > Storm (analizamos).

Fuente: http://www.slideshare.net/Datadopter/the-three-generations-of-big-data-processing
13

Figura 5. Arquitectura resultante de un proyecto Big Data en tiempo real

Vistas todas estas características, podemos concluir que para proyectos donde el “tamaño”

sea el “verdadero” problema, el enfoque Batch será el bueno. Cuando el “problema” sea

la velocidad, el enfoque en tiempo real será la solución a adoptar.

1. Conceptualización y definición del Big Data.

Podemos conceptualizar a Big Data como la gran variedad de datos que son ordenados y

enfocados para crear información, que trasformada con nuevas tecnologías y análisis,

generan conocimiento, los cuales son aplicados a la resolución de un problema específico o

a tomar decisiones que redunden en beneficios futuros. Dentro del concepto de Big Data, se

encuentran los siguientes elementos:

 Hadoop.- Es un sistema de archivos distribuidos de fuentes abiertas HDFS (Hadoop

Distribuited File System), que tiene aproximadamente una década operando, y permite a las

aplicaciones ejecutarse en varios servidores, tiene bastante tolerancia a los fallos y su

hardware es económico.

 Bloques.- Es la parte donde se almacenan los datos, y se van alojando en forma distribuida

en un clúster.

 Clúster.- Son racimos o miembros de un sistema de archivos HDFS que contienen

DataNodes y que dan soporte al Name Node.

 Name Node.- Regula el acceso a los archivos de los usuarios, rastrea todos los archivos de

datos en HDFS, determina la correlación de bloques con Data Nodes, gestiona operaciones

como abrir, cerrar y renombrar archivos y directorios, y todo ello se almacena en la

memoria, al funcionar como repositorio de los metadatos de HDFS.

 Data Nodes.- Son los que gestionan el almacenamiento adjunto a los Nodes en los que se

ejecutan los datos. La distribución es la siguiente:


14

Figura 9. Sistema de archivos distribuidos de fuente abierta HDFS

Definición del Big Data

IBM: Es aquella información que no puede ser procesada o analizada utilizando procesos o

herramientas tradicionales.

Google: Los datos grandes se refieren a datos que, por lo general, serían demasiado caros de

almacenar, gestionar y analizar utilizando sistemas de bases de datos tradicionales (relacionales

y/o monolíticos), porque son ineficientes en función de sus costos debido a su inflexibilidad

para almacenar datos no estructurados (como imágenes, texto y video), acomodar datos de "alta

velocidad" (en tiempo real) o escalar a soporte muy grande (escala de petabytes) volúmenes de

datos.

Gartner: Son activos de información de gran volumen, alta velocidad y/o gran variedad que

demandan formas rentables e innovadoras de procesamiento de la información y que permiten

un mejor conocimiento, toma de decisiones y automatización de procesos.

2. Tendencias respecto a la tecnología para la administración de datos

La tendencia es analizar en tiempo real, una cantidad cada vez mayor de datos. Las consultas

(en SQL u otro programa) quedarán relegadas.


15

Las tecnologías para ello serían:

Procesamiento de eventos complejos (CEP) o Complex Event Processing con Apache Flink.-

con esta herramienta de software se ejecuta datos en una consulta almacenada, esa consulta

almacenada está en la Base de Datos (no es necesario “consultar” en el momento que el evento

o hecho es ingresado a la BD); tampoco se requiere ser un buen conocedor del negocio, o

experto humano en alguna actividad, en el momento que el hecho es ingresado a la BD;

mientras que en los DBMS tradicionales se ejecutan una consulta en datos almacenados (la

consulta generalmente es en SQL, efectuada por un programador).

En concordancia con (Mushketyk, 2017) los motivos para usar CEP con Apache Flink son:

 Implementación del procesamiento de transmisión real: Cuando procesa una secuencia

en Apache Spark, la trata del mismo modo problemático de micro lotes, y hace que la

transmisión sea un caso especial. Apache Flink, por el contrario, procesa una secuencia de

lotes como especial sin utilizar micro lotes.

 Mejor soporte para el procesamiento cíclico e iterativo: Apache Flink proporciona

algunas operaciones adicionales que permiten la implementación de ciclos en su aplicación

de transmisión y algoritmos que necesitan realizar varias iteraciones en los datos del lote.

 Administración de memoria personalizada: Apache Flink es una aplicación Java, pero

no depende completamente del recolector de basura JVM. Implementa un administrador de

memoria personalizado que almacena datos para procesarlos en matrices de bytes. Esto

permite reducir la carga en un colector de basura y un mayor rendimiento.

 Menor latencia y mayor rendimiento: Múltiples pruebas realizadas por

terceros sugieren que Apache Flink tiene una latencia menor y un rendimiento mayor que

sus competidores.
16

 Potentes operadores de Windows: Cuando se necesita procesar una secuencia de datos

en la mayoría de los casos, se necesita aplicar una función a un grupo finito de elementos

en una secuencia. Por ejemplo, puede necesitar contar cuántos clics ha recibido su

aplicación en cada intervalo de cinco minutos, o puede querer saber cuál fue el tweet más

popular en Twitter en cada intervalo de diez minutos. Si bien Spark admite algunos de estos

casos de uso, Apache Flink ofrece un conjunto de operadores mucho más poderoso para el

procesamiento de flujo.

 Implementa instantáneas distribuidas livianas: Esto permite a Apache Flink

proporcionar una baja sobrecarga y garantías de procesamiento de una sola vez en el

procesamiento de flujo, sin utilizar el microchip como lo hace Spark.

3. Ventajas

 No habrá más dilapidación, ni desvío de dinero, al estar toda actividad sujeta a

visualización ciudadana; y los órganos de control ingresarán en tiempo real para

revisar la situación y sustento de los procesos operativos.

 No se incurrirá en gastos de viáticos, transporte, ni bolsa de viaje, debido a que las

herramientas de software, aplicaciones y dispositivos con sus sensores, alertarán a la

Entidad Fiscalizadora Superior (sin estar físicamente presentes en la entidad

auditada) cualquier actuación irregular de las personas sujetas a control.

 El sistema de archivos de datos distribuido Hadoop (HDFS) replica la información

de la entidad auditada y así queda protegida frente a fallos. Así, si un Nodo tuviera

problemas y no permitiese el acceso del auditor a los datos contenidos en sus

segmentos, el procesamiento de la auditoría no se detendrá, ya que continuará al

recurrirse a otro Nodo donde se replicó los datos.


17

 En el procesamiento de eventos complejos (CEP) con Apache Flink las consultas

sobre la prevención de riesgos de una entidad sujeta a control se aplican

automáticamente a un flujo de datos (hechos) casi infinito. Cuando un trabajador

guarda su tarea en la base de datos de hechos, con CEP se procesa de inmediato.

 Spark al no tener sistema de archivos distribuidos, puede ejecutarse en HDFS para

acceder a permisos de nivel de archivo y para la seguridad del modelo, puede recurrir

a Hadoop YARN; con lo cual, no tendría las limitaciones de acceso en tiempo real

que Hadoop tiene.

 Spark permite el ingreso de algoritmos iterativos, al conjunto de datos en forma

repetitiva en un mismo bucle, así como permite el análisis de datos

interactivo/exploratorio.

 Spark tiene un sistema de procesamiento y memorias distribuidas en paralelo (no

tiene sistema de archivos distribuidos Hadoop -HDFS1), tal como se aprecia en la

siguiente figura.

Figura 10. Sistema de procesamiento y memorias distribuidas en paralelo.

 Spark escala aumentando el número de procesadores (CPU), en lugar de aumentar

el número de Nodos, y cada CPU accede rápidamente a su memoria principal sin

1
Spark puede acoplar HDFS.
18

interferencias y sin quedar suspendido (paralizado) la auditoria en tiempo real. Con

Spark todos los eventos (hechos) quedan guardados en las memorias principales.

 Tiene que ser clara la supuesta irregularidad que se busca en la auditoría a tiempo

real, a fin que se utilicen las herramientas de software Flume que extrae, luego

Kafka que lo pone en cola y almacena y Storm que la analiza.


19

CONCLUSIÓN

1. El Big Data apoya a la auditoría en la extracción de fuentes externas (Entidades sujetas a

control) utilizando la herramienta Flume, Kafka y luego Storm para que el auditor

monitoree las alertas, luego oriente a la persona sujeta a control, a fin que no impacte

negativamente la irregularidad en los resultados de la entidad.


20

E-grafía

Bit Computer Training. (17 de junio de 2016). Tipos de datos en Big Data: clasificación por
categoría y por origen. Obtenido de ARTÍCULO | BIG DATA FUNDATIONS:
https://www.bit.es/knowledge-center/tipos-de-datos-en-big-data/
Deusto Data. (12 de setiembre de 2016). apache Archivos - Deusto Data . Obtenido de
PARADIGMA TIEMPO REAL PARA SISTEMAS BIG DATA (II):
https://blogs.deusto.es/bigdata/tag/apache/
IBM. (18 de junio de 2012). ¿Qué es Big Data? Obtenido de
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html
IBM. (30 de junio de 2014). Caracteristicas y tipos de bases de datos. Obtenido de
https://www.ibm.com/developerworks/ssa/data/library/tipos_bases_de_datos/index.ht
ml
Mayer-Schönberger, V. K. (2013). Big Data. La Revolución de los Datos Masivos. Madrid:
Houghton Mifflin Harcourt.
Monleón-Getino, A. (25 de noviembre de 2015). El impacto del Big-data en la Sociedad de la
Información. Significado y utilidad. (U. C. Madrid, Ed.) Historia y Comunicación
Social, Vol. 20(2), 427-445.
Mushketyk, I. (26 de setiembre de 2017). Apache Flink vs. Apache Spark - Dzone Big Data.
(I. M.-I. software, Productor) Obtenido de https://dzone.com/articles/apache-flink-vs-
apache-spark-brewing-codes
Power Data. (2 de diciembre de 2017). 7 Ventajas de procesar Big data en tiempo real.
Obtenido de El valor de la gestión de datos: https://blog.powerdata.es/el-valor-de-la-
gestion-de-datos/7-ventajas-de-procesar-big-data-en-tiempo-real
Power Data. (17 de enero de 2017). Spark vs Hadoop, ¿quién saldrá vencedor? Obtenido de
El valor de la gestión de datos: https://blog.powerdata.es/el-valor-de-la-gestion-de-
datos/spark-vs-hadoop-quien-saldra-vencedor
21

ANEXO

Arquitectura Big Data (de aplicación no tradicional)


Eventos en
Ingesta desde la Distribución Análisis en la
las Municipa- Colección en la CGR ú CGR ú OCI
lidadades
CGR u OCI OCI

FLUME KAFKA STORM

Gateways
(puertas de
enlace en Cloud
Aplica-ciones (APIs Web)
u otros, como
BPM (Bizagi
Modeler)

También podría gustarte