Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
ÍNDICE
RESUMEN........................................................................................................................ iii
INTRODUCCIÓN ............................................................................................................ 5
CONCLUSIÓN ............................................................................................................... 19
E-grafía ............................................................................................................................ 20
iii
RESUMEN
Este artículo tiene como objetivo automatizar la auditoría a través del Big Data y el Machine
Learning, ¿Cómo?, obteniendo una gran cantidad de datos abiertos (open source) de las
entidades públicas que serán auditadas, para utilizarlos en tiempo real y en forma automatizada
dichos patrones, a lo que denominamos “desviaciones” que se enviaran como alertas a los
órganos de control.
Se aborda una explicación sobre el concepto del Big Data, mostrando las principales
herramientas para la extracción de datos en tiempo real, para lo cual, las bases de datos de
donde se extraera la información debe ser conocida por el órgano de control, lo cual facilitará
Una vez extraída la información de la base de datos auditada, pasa a ser clasificada por un
ingeniero de sistemas con algo de experiencia en auditoria, quien la distribuirá a los equipos
de auditores. “Big Data” ofrece un sin número de herramientas para ser aplicadas a los
almacenan en formato XML de forma nativa en la entidad auditada, se torna favorable para el
La gestión de la información extraida puede ser con la herramienta Spark o con Hadoop. Spark
Tendencias para la administración de datos en tiempo real entre Apache Spark y Apache Flink.
Los riesgos del uso de Big Data esta en el tiempo real que se monitorea. Se debe establecer
monitoreo en tiempo real; en lugar del convencional muestreo por cantidades de operaciones.
La automatización es heuristica supervisada, que significa preveer una solución o ruta para los
posibles desvios y en caso no se haya previsto la solución, entra la supervisión del ingeniero y
INTRODUCCIÓN
El concepto Big Data para la auditoría, muestra sus diversas herramientas técnológicas para
extraer los datos de la entidad auditada, transformar esos datos en información y conocimiento
El concepto de Big Data toma un poco de ciertas materias del saber: visión holística del
conocimiento, visión cliente 360°, entre otras. Cuando los datos se multiplican en el tiempo,
llega un momento en que rebalsa la capacidad del harware para su administración, allí es donde
se nacen las herramientas (software) que en forma desarticulada dan solución a su gestión, y a
y maestros.
las puertas de enlace a internet se han sofisticado, emergiendo herramientas de software de Big
Data para el análisis en tiempo real, que logran el saber como se resuelve el problema en menor
esos datos en tiempo real y entregar información sobre lo que ocurre a medida que ocurre.
Cuando hablamos de "tiempo real" nos estamos refiriendo a tener una latencia cercana a cero.
En términos prácticos, la frase significa que la información estará disponible entre unos pocos
de los errores ayuda a las empresas a reaccionar rápidamente para mitigar los efectos de un
problema operacional. Esto puede evitar que las operaciones se retrasen o fallen o puede
3. El servicio mejora drásticamente. Esto puede generar una mayor tasa de conversión e
ingresos adicionales. Cuando las organizaciones monitorizan los productos que usan sus
clientes, pueden responder proactivamente a fallos futuros. Por ejemplo, los automóviles
con sensores en tiempo real pueden notificar antes de que algo salga mal y que el conductor
medidas adecuadas para limitar el daño. El mundo financiero es muy atractivo para los
en tiempo real puede ser costosa, pero con el tiempo se ahorra mucho dinero.
procesamiento en tiempo real indica exactamente cómo están las ventas y, en caso de que
7
un minorista de Internet vea que un producto está funcionando muy bien, puede tomar
valiosa sobre las tendencias de los clientes, procesando el Big Data en tiempo real se
muy común en muchas organizaciones, recibir estas cada segundo requerirá un enfoque y
Apache Spark vs Hadoop son dos de los productos más importantes y conocidos de la familia
Aunque hay quienes ven estos dos frameworks como competidores en el espacio del Big Data,
no es tan fácil hacer una comparación Spark vs Hadoop. Hacen muchas cosas iguales, pero
hay algunas áreas donde ambos no se superponen. Por ejemplo, Apache Spark no tiene
sistema de archivos y, por tanto, depende del sistema de archivos distribuido de Hadoop.
a) En Usabilidad. Una de las cuestiones más habituales al contrastar ambos frameworks está
contrincante puesto que viene equipado con APIs realmente sencillas para Scala,
Python, Java y Spark SQL. Por su parte, si bien es verdad que MapReduce tiene
complementos como Pig y Hive que lo hacen algo más fácil de usar, al final lo que sucede
es que necesita más programación (los programas deben estar escritos en Java).
8
comparativo entre Spark vs Hadoop. La cuestión es que, como ambos procesan los datos
de manera diferente, no es nada fácil determinar quién logra un mayor desempeño. Para
pesadas.
En el caso de Hadoop:
Los datos están en disco y eso hace que todo resulte más lento.
Se ocupa de eliminar los datos cuando ya no son necesarios, por lo que no produce
c) Seguridad. Si en usabilidad Spark vencía a Hadoop, en este caso no tiene nada que
Proporciona a los usuarios todos los beneficios de los avances obtenidos en los
HDFS admite la autorización de nivel de servicio, que garantiza los permisos adecuados
Por su parte, Spark necesita ejecutarse en HDFS para acceder a permisos de clientes a
nivel de archivo y, además, para obtener beneficios de seguridad debe recurrir a Hadoop
YARN.
significativamente menor que el tamaño de los datos; pero, si se busca rapidez, no cabría
plantearse otra opción que Spark. ¿Spark podría terminar sustituyendo a MapReduce?
A la hora de procesar grandes volúmenes de datos existen dos principales enfoques: procesar
una gran cantidad de datos por lotes, o bien hacerlo en pequeños fragmentos y en tiempo real.
modelo de flujo de datos en el que los datos fluyen constantemente a través de una serie de
componentes que integran el sistema de Big Data que se esté implantando. Por ello, se le
Por estas características, es importante que no entendamos este paradigma como la solución
para analizar un conjunto de grandes datos. Por ello, no presentan esa capacidad, salvo
excepciones. Por otro lado, una cosa es denominarlo “tiempo real” y otra es realmente pensar
que esto se va a producir en verdadero tiempo real. Las limitaciones aparecen por:
10
diferencia con el paradigma batch, donde los procesos de Map y Reduce podrían ser algo
La tasa de productividad del sistema debería ser igual o más rápida a la tasa de entrada de
datos. Es decir, que la capacidad de procesamiento del sistema sea más ágil y eficiente que
“instantaneidad al sistema”.
(Fuente: https://infocus.emc.com/wp-content/uploads/2013/02/Real-time-Analytic-Platforms-Enable-New-
Value-Creation-Opportunities.png)
Uno de los principales objetivos de esta nueva arquitectura es desacoplar el uso que se hacía
de Hadoop MapReduce para dar cabida a otros modelos de computación en paralelo como
pueden ser:
Spark: Plataforma desarrollada en Scala para el análisis avanzado y eficiente frente a las
de hasta 100 veces mayor rapidez frente a MapReduce. Tiene un framework integrado para
Y, con estos nuevos modelos (…), aparecen una serie de tecnologías y herramientas que
Flume: Herramienta para la ingesta de datos en entornos de tiempo real. Tiene tres
componentes principales: Source (fuente de datos), Channel (el canal por el que se tratarán
los datos) y Sink (persistencia de los datos). Para entornos de exigencias en términos de
(Fuente: http://blog.cloudera.com/wp-content/uploads/2012/10/fig.png)
Figura 6. Herramienta para la ingesta de datos en tiempo real Flume
y escrituras. Funciona como un servicio de mensajería y fue creado por Linkedin para
responder a sus necesidades (…). Unifica procesamiento OFF y ON, por lo que suma las
ventajas de ambos sistemas (batch y real time). Funciona como si fuera un cluster.
12
(Fuente: https://unpocodejava.files.wordpress.com/2012/12/image0019.jpg?w=780)
Figura 7. Sistema de almacenamiento distribuido y replicado Kafka.
datos (de la cadena de valor de un proyecto de Big Data). Se define como un sistema de
procesamiento de eventos complejos (Complex Event Processing, CEP), lo que le hace ideal
para responder a sistemas en el que los datos llegan de manera repentina pero continua. Por
ejemplo, en herramientas tan habituales para nosotros como WhatsApp, Facebook o Twitter,
Vistas estas tres tecnologías, queda claro que la arquitectura resultante de un proyecto de
tiempo real quedaría compuesto por Flume (ingesta de datos de diversas fuentes) > Kafka
Fuente: http://www.slideshare.net/Datadopter/the-three-generations-of-big-data-processing
13
Vistas todas estas características, podemos concluir que para proyectos donde el “tamaño”
sea el “verdadero” problema, el enfoque Batch será el bueno. Cuando el “problema” sea
Podemos conceptualizar a Big Data como la gran variedad de datos que son ordenados y
enfocados para crear información, que trasformada con nuevas tecnologías y análisis,
a tomar decisiones que redunden en beneficios futuros. Dentro del concepto de Big Data, se
Distribuited File System), que tiene aproximadamente una década operando, y permite a las
hardware es económico.
Bloques.- Es la parte donde se almacenan los datos, y se van alojando en forma distribuida
en un clúster.
Name Node.- Regula el acceso a los archivos de los usuarios, rastrea todos los archivos de
datos en HDFS, determina la correlación de bloques con Data Nodes, gestiona operaciones
Data Nodes.- Son los que gestionan el almacenamiento adjunto a los Nodes en los que se
IBM: Es aquella información que no puede ser procesada o analizada utilizando procesos o
herramientas tradicionales.
Google: Los datos grandes se refieren a datos que, por lo general, serían demasiado caros de
y/o monolíticos), porque son ineficientes en función de sus costos debido a su inflexibilidad
para almacenar datos no estructurados (como imágenes, texto y video), acomodar datos de "alta
velocidad" (en tiempo real) o escalar a soporte muy grande (escala de petabytes) volúmenes de
datos.
Gartner: Son activos de información de gran volumen, alta velocidad y/o gran variedad que
La tendencia es analizar en tiempo real, una cantidad cada vez mayor de datos. Las consultas
Procesamiento de eventos complejos (CEP) o Complex Event Processing con Apache Flink.-
con esta herramienta de software se ejecuta datos en una consulta almacenada, esa consulta
almacenada está en la Base de Datos (no es necesario “consultar” en el momento que el evento
o hecho es ingresado a la BD); tampoco se requiere ser un buen conocedor del negocio, o
mientras que en los DBMS tradicionales se ejecutan una consulta en datos almacenados (la
En concordancia con (Mushketyk, 2017) los motivos para usar CEP con Apache Flink son:
en Apache Spark, la trata del mismo modo problemático de micro lotes, y hace que la
transmisión sea un caso especial. Apache Flink, por el contrario, procesa una secuencia de
de transmisión y algoritmos que necesitan realizar varias iteraciones en los datos del lote.
memoria personalizado que almacena datos para procesarlos en matrices de bytes. Esto
terceros sugieren que Apache Flink tiene una latencia menor y un rendimiento mayor que
sus competidores.
16
en la mayoría de los casos, se necesita aplicar una función a un grupo finito de elementos
en una secuencia. Por ejemplo, puede necesitar contar cuántos clics ha recibido su
aplicación en cada intervalo de cinco minutos, o puede querer saber cuál fue el tweet más
popular en Twitter en cada intervalo de diez minutos. Si bien Spark admite algunos de estos
casos de uso, Apache Flink ofrece un conjunto de operadores mucho más poderoso para el
procesamiento de flujo.
3. Ventajas
de la entidad auditada y así queda protegida frente a fallos. Así, si un Nodo tuviera
acceder a permisos de nivel de archivo y para la seguridad del modelo, puede recurrir
a Hadoop YARN; con lo cual, no tendría las limitaciones de acceso en tiempo real
interactivo/exploratorio.
siguiente figura.
1
Spark puede acoplar HDFS.
18
Spark todos los eventos (hechos) quedan guardados en las memorias principales.
Tiene que ser clara la supuesta irregularidad que se busca en la auditoría a tiempo
real, a fin que se utilicen las herramientas de software Flume que extrae, luego
CONCLUSIÓN
control) utilizando la herramienta Flume, Kafka y luego Storm para que el auditor
monitoree las alertas, luego oriente a la persona sujeta a control, a fin que no impacte
E-grafía
Bit Computer Training. (17 de junio de 2016). Tipos de datos en Big Data: clasificación por
categoría y por origen. Obtenido de ARTÍCULO | BIG DATA FUNDATIONS:
https://www.bit.es/knowledge-center/tipos-de-datos-en-big-data/
Deusto Data. (12 de setiembre de 2016). apache Archivos - Deusto Data . Obtenido de
PARADIGMA TIEMPO REAL PARA SISTEMAS BIG DATA (II):
https://blogs.deusto.es/bigdata/tag/apache/
IBM. (18 de junio de 2012). ¿Qué es Big Data? Obtenido de
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html
IBM. (30 de junio de 2014). Caracteristicas y tipos de bases de datos. Obtenido de
https://www.ibm.com/developerworks/ssa/data/library/tipos_bases_de_datos/index.ht
ml
Mayer-Schönberger, V. K. (2013). Big Data. La Revolución de los Datos Masivos. Madrid:
Houghton Mifflin Harcourt.
Monleón-Getino, A. (25 de noviembre de 2015). El impacto del Big-data en la Sociedad de la
Información. Significado y utilidad. (U. C. Madrid, Ed.) Historia y Comunicación
Social, Vol. 20(2), 427-445.
Mushketyk, I. (26 de setiembre de 2017). Apache Flink vs. Apache Spark - Dzone Big Data.
(I. M.-I. software, Productor) Obtenido de https://dzone.com/articles/apache-flink-vs-
apache-spark-brewing-codes
Power Data. (2 de diciembre de 2017). 7 Ventajas de procesar Big data en tiempo real.
Obtenido de El valor de la gestión de datos: https://blog.powerdata.es/el-valor-de-la-
gestion-de-datos/7-ventajas-de-procesar-big-data-en-tiempo-real
Power Data. (17 de enero de 2017). Spark vs Hadoop, ¿quién saldrá vencedor? Obtenido de
El valor de la gestión de datos: https://blog.powerdata.es/el-valor-de-la-gestion-de-
datos/spark-vs-hadoop-quien-saldra-vencedor
21
ANEXO
Gateways
(puertas de
enlace en Cloud
Aplica-ciones (APIs Web)
u otros, como
BPM (Bizagi
Modeler)