Big Data TFI

1
Historia, Evolución
y Casos de Uso de Big Data
Sergio Muzzupappa
Profesor: Ana Darcacha
Fecha Presentación: 18/06/2014
Abstract--Big Data es un área de la informática III. MARCO TEÓRICO

relativamente novedosa que proporciona una nueva manera de
trabajar con enormes cantidades de datos haciendo uso efectivo A. Data Science
de la computación paralela, que de otra forma los tiempos y
recursos se multiplicarían en forma exponencial. Se presenta
una reseña histórica del tema, su infraestructura computacional
La ciencia de los datos [1] es el estudio de la extracción
actual, además de casos de uso concretos, y por último se del conocimiento generalizable a partir de datos. Incorpora
pretende dar un panorama abierto sobre la evolución y el diversos elementos y se basa en las técnicas y teorías de
futuro del área. muchos campos, incluyendo procesamiento de señales,
matemáticas, modelos de probabilidad, aprendizaje
Index Terms—Bases de Datos, Arquitecturas Paralelas, automático, la programación informática, estadística,
Procesamiento multinúcleo, Métodos de Clustering, ingeniería de datos, reconocimiento de patrones y
Aprendizaje de Máquina, Sistemas de Almacenamieno, Data aprendizaje, la visualización, la modelación de la
warehouses, Sistemas de Archivos, Computación de Alta incertidumbre, almacenamiento de datos y la computación de
Velocidad. alto rendimiento con el objetivo de extraer el significado de
los datos y la creación de productos de datos.
I. INTRODUCCIÓN
La ciencia de los datos es una frase de moda, que se
L a era del Big Data ha venido para quedarse. Es un

término que denota cargas de trabajo y soluciones de
manejo de datos que no podrían haberse soportado
utiliza a menudo de manera intercambiable con analítica o
Big Data [2]. En muchos casos se abusa de la
comercialización de cualquier cosa que implica el
previamente por limitaciones tecnológicas y de costos. La procesamiento de datos, en particular para dotar a la marca
cantidad de datos y la tasa de aumento se acelera de inteligencia y analítica empresarial en ambientes
diariamente, y los sets de datos que un número creciente de competitivos.
empresas necesitan analizar, deben tener en cuenta esta
explosión de datos, tomando en cuenta su gran cantidad y B. Big Data
complejidad, su variedad de fuentes y la demanda de rapidez
de procesamiento para la toma de decisiones, por supuesto, al Una definición aceptada de Big Data habla de las 3 Vs:
menor costo posible. Cuando se habla de Big Data se tienen volumen, velocidad y variedad, y de conjuntos de datos que
en cuenta sets de datos, por lo general de decenas, hasta superan la capacidad de procesamiento del software habitual
cientos de terabytes o más. para ser capturados, gestionados y procesados en tiempos
razonables [3].
II. JUSTIFICACIÓN Los sets de datos de Big Data son difíciles de trabajar con
el uso de sistemas de gestión de base de datos relacionales y
Hoy en día Big Data es un tema en boga del mundo estadísticas de escritorio y paquetes de visualización, lo que
informático ya que su infraestructura provee una forma de requiere en su lugar un software masivamente paralelo que se
procesar grandes cantidades de datos en conjuntos enormes ejecuta en decenas, cientos o incluso miles de servidores, de
de servidores con hardware barato, utilizar todos los recursos tal modo de procesar eficientemente los datos en un tiempo
de hardware eficientemente y poder rápidamente obtener razonable.
respuestas a interrogantes antes imposibles. Aunque los casos
de uso no son todos, es importante delimitar cuál es el Big Data hoy en día no se compone únicamente del
alcance de ésta tecnología y prever su evolución. El objetivo framework de Hadoop, sino que también se considera otras
del presente trabajo es delimitar el alcance de la tecnología arquitecturas NoSQL como MongoDB, HBase o Cassandra,
de Big Data, proveyendo información sobre el trabajo con la los cuales pueden ser integrados a Hadoop, por otro lado la
misma en casos del mundo real, y brindar una perspectiva gran mayoría de éstos forman parte de su ecosistema, por lo
sobre su evolución y su lugar en el mundo de las Bases de que en el presente trabajo nos centraremos en éste.
Datos.
2
C. Hadoop empresas existe una explosión de datos, ya que se tiende a

consumir datos llamados no estructurados de diversas fuentes
Hadoop es un framework de procesamiento de Big Data de datos fuera de los firewalls de la misma, por ejemplo de la
que ejecuta aplicaciones en grandes clusters de hardware web y combinarlos con los de la empresa.
barato dedicado. El framework proporciona a las aplicaciones
de forma transparente fiabilidad y movilidad de datos. Con La tendencia es que la huella de los datos de todas las
Mapreduce la aplicación se divide en muchos pequeños personas siga creciendo, pero tal vez más importante, la
fragmentos de trabajo, cada uno de los cuales se pueden cantidad de datos generados por máquinas será aún mayor
ejecutar o volver a ejecutar en cualquier nodo del clúster. que el generado por personas. Logs de máquinas, lectores
RFID, redes de sensores, los rastros de vehículo GPS, todos
Además, proporciona un sistema de archivos distribuido estos contribuyen a la creciente montaña de datos.
que almacena los datos en los nodos de cómputo,
produciendo un alto ancho de banda agregado en todo el F. Terminología para Uso y Análisis de Datos en el tiempo
clúster. Ambos, Mapreduce y el sistema de archivos
distribuidos HDFS, están diseñados de manera que las fallas Según Thomas Davenport en su libro “Big Data at Work:
de nodo se gestionan automáticamente mediante el Dispelling the Myths, Uncovering the Opportunities”, el
framework [4]. análisis de datos por computadora no es nuevo, y ha
cambiado su terminología a lo largo de los años, como
ejemplo cita 6 términos clave[6]:
D. Datos Estructurados vs No Estructurados
I. Soporte a las decisiones (1970-1985): uso de análisis de
Los datos que residen en un campo fijo dentro de un datos para soportar la toma de decisiones.
registro o archivo se llaman datos estructurados. Esto incluye
los datos contenidos en las bases de datos relacionales y II. Soporte ejecutivo (1980-1990): Foco en el análisis de
hojas de cálculo. datos para decisiones tomadas por altos ejecutivos.
Los mismos dependen en primer lugar la creación de un III. Procesamiento analítico en línea u OLAP (1990-2000):
modelo de datos - un modelo de los tipos de datos de Software para analizar tablas multidimensionales de datos.
negocios que se grabarán y cómo van a ser almacenados,
procesados y accedidos. Esto incluye definir qué campos de IV. Inteligencia de Negocio o BI (1989-2005): Herramientas
datos se almacenan y cómo se almacenarán los datos: tipo de para soportar decisiones guiadas por los datos, con énfasis en
datos y las restricciones a la entrada de datos. los reportes.
Los datos no estructurados por lo general se refieren a la V. Analítica (2005-2010): Foco en análisis estadístico y
información que no reside en una base de datos de fila- matemático para la toma de decisiones.
columna tradicional.
VI. Big Data (2010-presente): Foco en grandes cantidades de
datos no estructurados que cambian rápidamente.
Los archivos de datos no estructurados a menudo incluyen
texto y contenido multimedia. Los ejemplos incluyen
mensajes de correo electrónico, documentos de G. Diferencias de Tratamiento de Datos
procesamiento de textos, vídeos, fotos, archivos de audio,
presentaciones, páginas Web y muchos otros tipos de Las tradicionales RDBMS son usadas tanto para los
documentos de negocios. Si bien este tipo de archivos pueden sistemas transaccionales, informes y archivado. Algunas de
tener una estructura interna, que todavía se consideran "no las cuales son SQL Server, MySQL y Oracle. Éstas leen y
estructurado", porque los datos que contienen no encaja en escriben conjuntos de datos "razonables" por lo general
una base de datos [5]. menores a 1 Terabyte. Aunque no son buenas para volúmenes
masivos de datos, datos no estructurados y semi-
E. Orígenes del Big Data estructurados. Por otro lado, es complicado escalar la
infraestructura.
Los hombres hemos venido generando datos desde hace
NoSql está diseñado para un rápido acceso a las
miles de años, los últimos tiempos la progresión de
combinaciones de pares "clave-valor". Es útil para productos
crecimiento en cantidad de datos ha aumentado
como Facebook / Twitter donde más información gira en
considerablemente. Al principio se usaban datos
torno a una pieza "clave" de los datos. Algunos ejemplos son
estandarizados y estructurados, con cantidades de datos desde
las bases de datos MongoDB y Cassandra. Éste tipo es bueno
gigabytes hasta algunos terabytes.
para almacenamiento de la información de un tipo
determinado, gran velocidad de recuperación basado claves y
Hoy en día, con el avance de las tecnologías, en las
3
buen rendimiento de escritura, aunque no se utiliza para Hadoop se crea como un proyecto Open Source de alto
agrupar información a través de valores clave (por ejemplo, nivel de la fundación Apache, siendo construido y usado por
para la presentación de informes). El mismo permite mejor una comunidad global de contribuidores, mediante el
productividad al crear aplicaciones basadas en datos, ya que lenguaje de programación Java. Yahoo! ha sido el mayor
el trabajo de diseño al inicio es menor[7]. contribuyente al proyecto, usándolo extensivamente en su
negocio.[8]
Hadoop viene de un enfoque de código abierto para
almacenamiento de datos en un sistema de archivos a través
J. Google Mapreduce
de una gama de productos relativamente baratos de hardware,
y su procesamiento, utilizando un paralelismo eficiente de
servidores y su hardware. Algunas implementaciones son de Mapreduce es un framework para escribir fácilmente
las empresas Cloudera, Intel, Amazon y Hortonworks. Provee aplicaciones que procesan grandes cantidades de datos
un almacenamiento barato de gran cantidad de datos, (varios terabytes) en paralelo, en grupos grandes (miles de
estructurados y semi-estructurados. No es un reemplazo para nodos) de hardware de consumo de una manera fiable, en alta
las RDBMS tradicionales sino un complemento, no funciona disponibilidad.
bien con procesamiento de muchos archivos pequeños. Posee
un fuerte sesgo a la comunidad de código abierto y Java. El cálculo toma un conjunto de pares clave / valor de
entrada, y produce un conjunto de pares clave / valor de
salida. El usuario de la biblioteca de MapReduce expresa la
H. Iniciativa de Google computación como dos funciones: Mapear y Reducir. Según
Jeffrey Dean, en su trabajo sobre Mapreduce para Google,
En el año 2003 Google presenta un escrito en el cual muchas tareas del mundo real pueden ser expresadas en ese
describe una forma pragmática, escalable y distribuida un modelo.
sistema de archivos optimizado para guardar enormes sets de
datos llamado Google Filesystem, el cual estaba hecho para El Mapeo, escrito por el usuario, toma un par de entradas
soportar aplicaciones de procesamiento distribuido intensivo y produce un conjunto de pares clave / valor intermedios. La
de datos a larga escala. biblioteca MapReduce junta todos los valores intermedios
En Diciembre de 2004 muestran otro texto definiendo asociados con la misma clave intermedia I y se los pasa a la
Mapreduce, un modelo de programación y acompañándolo función Reducir. Esta última, también escrita por el usuario,
de un framework que provee paralelización automática, acepta una clave intermedia I y un conjunto de valores para
tolerancia a fallas, y la escala para procesar cientos de esa clave. Se fusiona estos valores para formar un conjunto
terabytes de datos en un único trabajo sobre miles de posiblemente más pequeño de los valores. Normalmente solo
máquinas. ninguno o un valor de salida se produce por invocación de la
función Reducir. Los valores intermedios se suministran a la
Al unirlos, estos dos sistemas podrían ser usados para función de usuario Reducir a través de un iterador. Esto
crear clusters de procesamiento de grandes cantidades de permite manejar las listas de valores que son demasiado
datos en servidores relativamente baratos y de consumo grandes para caber en la memoria.
masivo.
Como ejemplo se podría citar dos conjuntos de datos, la
información del usuario (id, correo electrónico, idioma,
I. Doug Cutting, Nutch y Hadoop
ubicación), y la información de la transacción (transaction-id,
product-id, id-usuario, la compra-cantidad, descripción).
Ni bien fue publicado el papel sobre el algoritmo Teniendo en cuenta estos datos, se quisiera encontrar el
Mapreduce, un impulsor de las tecnologías Open Source, número de lugares únicos en los que cada producto ha sido
llamado Douglass Read Cutting, se encontraba trabajando en vendido.
un buscador de web alternativo basado en Lucene y Java para
la búsqueda e indexado de contenido. Primero se mapean las transacciones en conjuntos de
clave-valor mediante la función Map, siendo C= userId y V=
Para demostrar el poderío de procesamiento del nuevo productId; luego se hace lo mismo con la tabla de usuarios,
software Doug y Mike Cafarella en el año 2005 implementan siendo C=userId y V= lugar; por último la función Reduce
su propia versión de Mapreduce y un nuevo sistema de toma los lugars e ID de productos y los brinda como datos de
archivos distribuido, HDFS, tomando como base los trabajos salida en forma de clave-valor, siendo C=productId y
de Google. Éstos se desprenden más tarde del proyecto V=location.[9]
Nutch, mientras él trabajaba para la empresa Yahoo,
obteniendo su propio nombre: “Hadoop”, palabra tomada de
un neologismo creado por el hijo de Doug para nombrar un
elefante de juguete que luego pasa a ser su símbolo.
4
los trabajadores secundarios (esclavos), programando sus

tareas y proporcionando seguimiento, además de brindar
información de estado y diagnóstico al cliente de trabajo.[10]
L. Ecosistema de Hadoop
En Hadoop se tiene ecosistema muy diverso que crece día

tras día, por lo que es difícil saber de todos los proyectos que
interactúan con Hadoop de alguna forma. Mostraremos los
más comunes a continuación.
Fig. 1. Ejemplo de uso de algoritmo Mapreduce, ingresan compras por
usuario, y datos de usuario y salen productos con país de compra.
Chukwa es un sistema de captura de datos y framework de
análisis que trabaja con Hadoop para procesar y analizar
K. Implementación de Mapreduce por Hadoop
grandes volúmenes de logs. Incluye herramientas para
mostrar y monitorizar los datos capturados.
Un trabajo MapReduce por lo general divide la entrada de Apache Flume es un sistema distribuido para capturar de
sets de datos en trozos independientes que son procesados por forma eficiente, agregar y mover grandes cuantidades de
las tareas de mapeo, de una manera completamente paralela. datos log de diferentes orígenes (diferentes servidores) a un
El framework clasifica los resultados de los mapas, que son repositorio central, simplificando el proceso de recolectar
luego ingresados como tareas a reducir. Por lo general, tanto estos datos para almacenarlos en Hadoop y poder analizarlos.
la entrada como la salida del trabajo se almacenan en un Flume y Chukwa son proyectos parecidos, la principal
sistema de archivos. El marco se hace cargo de la diferencia es que Chukwa está pensado para ser usado en
planificación de tareas y su seguimiento y vuelve a ejecutar Batch.
las tareas fallidas.
Hive es un sistema de Data Warehouse para Hadoop que
Posee un sistema de archivos distribuido basado en el facilita el uso de la agregación de los datos, consultas ad-hoc,
Google File System (GFS) llamado HDFS que permite y el análisis de grandes datasets almacenados en Hadoop.
replicación en n nodos del clúster, aunque por lo general cada Hive proporciona métodos de consulta de los datos usando
bloque de 64mb está replicado en 3 nodos, pero esto es un lenguaje parecido al SQL, llamado HiveQL. Además
configurable. Aquí se guardan los sets de datos a procesar. permite de usar los tradicionales Map/Reduce cuando el
rendimiento no es el correcto. Tiene interfaces JDBC/ODBC,
Normalmente los nodos de cómputo y los nodos de por lo que empieza a funcionar su integración con
almacenamiento son los mismos, es decir, el marco herramientas de BI.
MapReduce y el Sistema de archivos HDFS se están
ejecutando en el mismo conjunto de nodos. Esta HBase, se trata de la base de datos de Hadoop. HBase es
configuración permite al framework planificar eficazmente el componente de Hadoop a usar, cuando se requiere
las tareas en los nodos donde los datos ya están presentes, lo escrituras/lecturas en tiempo real y acceso aleatorio para
que resulta en un muy alto ancho de banda total a nivel grandes conjuntos de datos. Es una base de datos orientada a
clúster. la columna, eso quiere decir que no sigue el esquema
relacional. No admite SQL.
El marco MapReduce consta de un sólo JobTracker
maestro y un esclavo TaskTracker por clúster del nodo. El Apache Mahout, es un proyecto para crear aprendizaje
maestro es el responsable de la programación de tareas que lo automático y data mining usando Hadoop. Es decir, Mahout
componen los puestos de trabajo en los esclavos, el nos puede ayudar a descubrir patrones en grandes datasets.
seguimiento de ellos y de volver a ejecutar las tareas fallidas. Tiene algoritmos de recomendación, clustering y
Los esclavos se ejecutan las tareas según las instrucciones del clasificación.
maestro.
Apache Sqoop (“Sql-to-Hadoop”), es una herramienta
Mínimamente, las aplicaciones especifican la localización diseñada para transferir de forma eficiente bulk data entre
de las entradas y salidas y proveen las funciones de mapeo y Hadoop y sistemas de almacenamiento con datos
reducción mediante implementaciones apropiadas de estructurados, como bases de datos relacionales. Algunas de
interfaces o clases abstractas. Estos, y otros parámetros de sus características son que permite importar tablas
trabajo, comprenden la configuración de la misma. El cliente individuales o bases de datos enteras a HDFS. Genera clases
de trabajo de Hadoop luego envía el trabajo ejecutable y la Java que permiten interactuar con los datos importados.
configuración hasta el servicio JobTracker que asume la Además, permite importar de las bases de datos SQL a Hive.
responsabilidad de distribuir el software y la configuración a
5
IV. DESARROLLO
Zookeeper es un proyecto de Apache que proporciona una
infraestructura centralizada y de servicios que permiten la En este trabajo se van a analizar algunos de los casos de
sincronización del cluster. ZooKeeper mantiene objetos uso del concepto de Big Data más utilizados en el presente
comunes que se necesiten en grandes entornos de cluster. para dar un panorama de cuál será el futuro del análisis de
Algunos ejemplos de estos objetos son información de la datos a gran escala. Por otro lado se presentará un caso
configuración, jerarquía de nombres. concreto tomado de la experiencia del autor en una empresa
que realiza detección de fraudes mediante herramientas de
Lucene, se trata de una librería escrita en Java, para Big Data, a petición de otras.
buscar textos. Lucene permite indexar cualquier texto que
deseemos, permitiéndonos después encontrarlos basados en
cualquier criterio de búsqueda. Aunque Lucene sólo funciona
en texto plano, hay plugins que permite la indexación y
búsqueda de contenido en documentos Word, Pdf, XML o
páginas HTML.
Apache Pig, inicialmente desarrollado por Yahoo, permite

a los usuarios de Hadoop centrarse más en el análisis de los
datos y menos en la creación de programas MapReduce. Para
simplificar el análisis proporciona un lenguaje procedural de
alto nivel. Su nombre viene de la siguiente analogía, al igual
que los cerdos comen de todo, el lenguaje de programación
Pig está pensado para poder trabajar en cualquier tipo de
datos. Pig consta de dos componentes, El lenguaje en sí,
llamado PigLatin y el entorno de ejecución, donde los Fig. 2. Algunas de las fuentes de datos más utilizadas para procesamiento con
programas PigLatin se ejecutan. herramientas de Big Data.
Jaql es un lenguaje de consulta funcional y declarativo que

A. Sentimiento Social
facilita la explotación de información organizada en formato
JSON (JavaScript Object Notation), e incluso en archivos
semi-estructurados de texto plano. Diseñado inicialmente por Se analiza la afectividad de frases para saber la
IBM. Jaql permite hacer select, join, group y filtrar datos disposición subjetiva de la gente sobre un objeto en
almacenados en HDFS. El objetivo de Jaql es que el particular. El mismo puede ser desde un producto y su
desarrollador de aplicaciones de Hadoop pueda concentrarse competencia, una película, predicciones de bolsa, hasta un
en qué quiere obtener, y no en cómo lo tenga que obtener. candidato a la presidencia.
Jaql analiza la lógica y la distribuye en Map y Reduce según
sea necesario. Primero se toman datos de fuentes relevantes mediante
“minería de datos”. Hoy en día se utilizan mucho las redes
Avro, es un sistema de serialización de datos. En los sociales, aunque las fuentes pueden ser muy variadas.
proyectos en Hadoop, suele haber grandes cuantidades de
datos, la serialización se usa para procesarlos y almacenar Más adelante se realiza una clasificación de elementos
estos datos, de forma que el rendimiento en tiempo sea sobre los que se desea obtener información relevante al caso,
efectivo. Esta serialización puede ser en texto en plano, como por ejemplo en el caso de una impresora podría ser
JSON, en formato binario. Con Avro podemos almacenar y “facilidad de uso”, “tamaño”, “instalación” o “servicio al
leer los datos fácilmente desde diferentes lenguajes de cliente”.
programación. Está optimizado para minimizar el espacio en
disco necesario para nuestros datos. Luego, sobre la base del análisis de frases, en este caso
reseñas de clientes o usuarios, se trata de identificar
UIMA (Unstructured Information Management conjuntos de palabras que indiquen un sentimiento, mediante
Applications) es un framework para analizar grandes el llamado “Procesamiento de Lenguaje Natural”. Este utiliza
volúmenes de datos no estructurados, como texto, video, modelos estadísticos, tomando decisiones probabilísticas
datos de audio, etc… y obtener conocimiento que sea basadas en aplicar un peso y polaridad a los mismos.
relevante para el usuario final. Por ejemplo a partir de un Por último se combinan para crear un indicador global
fichero plano, poder descubrir que entidades son personas, sobre ese término.[12]
lugares y organizaciones.[10][11]
6
Fig. 3. Ejemplo de uso de análisis de sentimiento con respecto a términos Fig. 4. Ejemplo de preguntas sobre el visitante web y fuentes usadas para
relacionados a un producto por Google Product Search. tomar datos para buscar información con respecto a su comportamiento.
B. Comportamiento del visitante Web C. Análisis Forense de Registros del Servidor
Se analiza el tráfico de una página para tomar información El caso de análisis forense de los llamados “logs” de
relevante a un usuario web y así entender su comportamiento. servidores sirve para obtener información relevante al
comportamiento de los servicios que se proveen. Cada
Deben tomarse datos desde fuentes como clics en páginas servicio registra sus eventos en líneas de archivos de
web en particular (clickstream) y datos de “cookies” que se computadora, guardados en un formato persistente, que lo
han instalado como consecuencia de ingresar a la página que identifican unívocamente.
recogen todo tipo de comportamiento web, como qué páginas
se navega, por cuánto tiempo, cuántas veces se revisita el Estos datos son luego utilizados mayormente para analizar
sitio, desde qué país, tipo de conexión de internet, y en qué tráfico en un servidor web, estadísticas sobre performance,
punto lo abandonan. Además se pueden utilizar registros de picos de transacciones y caídas de servicios, análisis de
aplicaciones móviles, emails, tweets, sistemas de bases de cumplimiento de acuerdos de servicios, problemas de
datos múltiples, para realizar análisis de datos offline si se los seguridad, entre muchos otros.
posee.
En el caso de grandes empresas o programas con un muy
Se realiza para ofrecer un servicio personalizado, entender alto nivel de transacciones, la variedad de fuentes de datos, la
patrones de conducta de un consumidor para venderle un velocidad con la que hay que tomar decisiones para evitar
producto acorde a sus preferencias, o entender la forma de problemas en los servicios, y sobre todo el enorme volumen
venderle uno en particular, aunque también se analizan de transacciones, hacen que éste caso sea un gran candidato
ciertos comportamientos para saber si un usuario puede ser para la utilización de herramientas de Big Data como
un potencial delincuente, como por ejemplo en sitios de Hadoop.[14]
bancos.
Por último se trata de formar una imagen del visitante web
en base a modelos estadísticos para poder predecir su
comportamiento y tomar acciones acordes, como
personalizar su experiencia web y la de usuarios como él, o
también podría ser para bloquear cierto comportamiento
malicioso.[13]
Fig. 5 Ejemplo de utilización del ecosistema de Hadoop por la empresa

Hortonworks para parsear logs de servidor y obtener información en Excel.
7
D. Datos de máquinas y sensores
Un sensor es un conversor que mide una cantidad sobre un

elemento físico y la transforma en una señal digital. Los
mismos se usan para monitorear máquinas, infraestructura y
fenómenos naturales entre otros, para detectar eventos
relevantes o como también predecir su funcionamiento, y
actuar en forma acorde.
Algunas fuentes muy usadas son registros de sensores de

infraestructura como equipos de ventilación, puentes,
medidores de energía y temperatura, motores de aviones, clic
de páginas web, GPS, transacciones financieras, logs de red, Fig. 7. Ejemplo de eventos de transporte de camiones listos para ser
procesados, tomando datos como velocidad, riesgo, y localización.
detalles de llamadas, entre otros.
Todo esto se puede usar para ser procesado para analizar F. Inteligencia en Análisis de Crimen
el comportamiento de personas y máquinas y tomar
decisiones en base a ello, ya sea en forma manual o Las fuerzas de seguridad generan y manejan una enorme
automática. cantidad de información para investigación y predicción del
crimen. Un departamento puede llegar a tener millones de
Una de las aplicaciones podría ser las llamadas Casas o llamadas de servicio al año, crear miles de informes de la
Ciudades Inteligentes, las cuales brindan a las personas y los policía, y examinar meses de vídeo y audio. Cuando se
gobiernos la posibilidad de usar la tecnología para analiza la información, los datos pueden crecer de forma
comprender y transformar en forma benéfica el quehacer exponencial.
diario.[15]
A nivel nacional, los organismos y departamentos tienen
que reducir sus recursos y mano de obra, además de
continuar la tendencia de una disminución de la tasa de
criminalidad. Para ello se requiere un mejor servicio con
menos recursos. Soluciones no tan caras como Hadoop, que
es código abierto, se han utilizado para almacenar y analizar
delincuencia, investigando tendencias criminales y cambios
en la demografía, para así predecir crimen y actuar en
consecuencia.
También está siendo utilizado por los gobiernos en

Fig. 6. Representación del ser humano conectado mediante múltiples
dispositivos, tomados luego como fuentes de datos para análisis de Big Data. software como Palantir Gotham, que utiliza Hadoop para
tomar datos de múltiples fuentes como llamados telefónicos,
transacciones financieras, medios de transporte, conexiones a
E. Datos de Geolocalización internet, y cualquier otro que brinde información sobre
potenciales ataques terroristas. Este caso en particular abre el
Los mismos identifican el lugar en el que se encuentra un debate sobre el derecho a la confidencialidad de los datos
objeto o individuo en un momento en el tiempo, estos datos personales, pero algunos gobiernos sopesan la seguridad por
pueden tomar la forma de coordenadas o hasta calles sobre la misma, afrontando los costos políticos. [17][18]
específicas. Los datos son utilizados para localizar personas o
activos, para las primeras, las empresas pueden saber cuándo
y dónde se mueven las personas, para activos, las empresas
de transporte y logística pueden mantener mejor sus
vehículos y controlar el riesgo.
Esto puede ser usado por ejemplo por aviones o camiones,

para saber la velocidad, altitud, latitud y longitud, eventos
peligrosos y demás datos relevantes. De esta forma se pueden
medir tiempos y gestionar eficiencia, realizar estadísticas, o
saber cuando hubo alguna transgresión, y tomar medidas en
base a ello.[16]
8
identificación de patrones en textos.
Por ejemplo en una investigación se tuvo que trabajar con

una empresa global establecida en 16 países usando 70
diferentes lenguajes. Se analizan millones de comunicaciones
de diversas fuentes de datos, entre ellas emails, mensajes de
texto y datos sobre pagos, lo cual genera demandas enormes
de IT.
En el mundo del análisis de datos en bases de datos

tradicionales estructuradas y relacionales surgen rápidamente
restricciones y cuellos de botella en la ingesta de datos, en el
tipo de algoritmos que se pueden usar y en la velocidad de
Fig. 8. Ejemplo de Fuentes de datos diversas tomadas por la aplicación análisis. Por otro lado, la velocidad de procesamiento de
Palantir Gotham para luchar contra el crimen. datos en éstas genera enormes diferencias.
G. Detección de Fraudes. Donde un set de datos puede ser analizado en el orden un

par de minutos con herramientas de Big Data, en las
tradicionales bases de datos se tardan varias horas, lo cual
Para explicarla tomaremos como ejemplo la empresa
permite trabajar con la totalidad de los datos en vez de lo
donde actualmente trabaja el autor del presente trabajo, ya
usual que es tomar muestras, esto cambia totalmente los
que es un caso representativo y relevante para el estudio del
resultados obtenidos en búsqueda de fraudes porque se
uso de tecnologías de Big Data en el área.
incrementa mucho el error al utilizar sólo una pequeña
porción de los datos, recayendo en que la muestra sea
Ernst & Young, ahora mundialmente conocida como EY
realmente representativa.
es una de las mayores firmas de servicios profesionales del
mundo, que incluyen auditoría, impuestos, finanzas,
contabilidad, servicios de cálculos y estudios actuariales y
asesoramiento en la gestión de la empresa. EY es una de las
llamadas cuatro grandes, junto con PricewaterhouseCoopers,
Deloitte y KPMG. Según la revista Forbes, a finales del año
2013, por su tamaño es la décima mayor empresa privada de
los Estados Unidos.
La misma proporciona servicios para que las empresas

desarrollen y mantengan una sólida reputación por actuar con
ética al encontrar formas para administrar los riesgos,
investigar supuestas conductas inapropiadas y medir las Fig. 9. Muestra de diferencias entre procesamiento de cierto tipo de
transacciones, comparando SQL Server con Hadoop.
implicaciones financieras de los litigios.
Por lo tanto es necesaria la utilización de herramientas que
Cuando existe alguna sospecha de que se están llevando a
permitan analizar grandes volúmenes de datos con velocidad
cabo actividades financieras inusuales, se investiga
tomados de una variedad de fuentes de datos distintas desde
confidencialmente para descubrir evidencia electrónica y
datos estructurados y no estructurados. En este marco viene a
revisar los informes financieros.
ayudar el framework de Hadoop, que permite realizar
preguntas como buscar registros complejos duplicados y
Un área importante de la empresa es la llamada Servicios
buscar palabras sospechosas y correrlas en paralelo, para
de Investigación de Fraudes y Asistencia en Litigios dentro
múltiples sets de datos a la vez en vez de esperar por un
del sector de Auditoría, cuyo enfoque es justamente
SQL.
investigar y actuar en contra del fraude, brindar asistencia en
litigios, y brindar servicios de tecnología y descubrimiento
forense.
Se trabaja muchas veces con herramientas como el

procesamiento de lenguaje natural y minería de datos en
diferentes idiomas. Mientras el procesamiento del lenguaje
natural se dedica a entender el lenguaje humano para poder
explotar el conocimiento lingüístico de los textos, la Minería
de textos se enfoca en la extracción de información e
9
Fig. 10. Características de la analítica usada en EY para trabajar Big Data

mediante Hadoop. Fig. 12. Tendencias en tipos de analítica usada en la información de acuerdo
a Gartner Research.
Durante una investigación de fraude uno de los tipos de
análisis no estructurados que se realizan es el de mensajes de Otras veces se analizan directamente los ERPs de la
texto e emails empresariales, el llamado "análisis de empresa, que por lo general no están conectados, para buscar
sentimiento", donde se evalúa si la persona estaba triste, y rastrear transacciones riesgosas buscando potencial fraude.
enojada, con miedo, alegría, afecto, o si usó malas palabras, Éstos análisis se realizan aplicando modelos de fraude como
entre otros. También se evalúan los llamados Heatmaps, o el del caso Enron y otros, en plataformas con Hadoop como
mapas de calor, donde se evalúa visualmente riesgo en IBM Biginsights.
distintas zonas como ciudades o países.
Hoy en día existe la demanda de, además de actuar
reactivamente contra el fraude y corrupción, ser proactivo,
con lo cual los clientes requieren aparatos que se instalen en
su datacenter, se los instala con la finalidad de que los datos
se analicen y monitoreen en tiempo real. Además, otro de los
avances es que se está empezando a investigar en las redes
sociales, tomando la mayor cantidad de fuentes de datos
posibles, y realizando nuevas preguntas con las mismas.
Fig. 11. Tipos de preguntas que pueden ser preguntadas con respecto a
corrupción con el procesamiento de Hadoop en EY.
Se busca muchas veces información sobre corrupción

como sobornos, pagos y transferencias inusuales, sobrepaso
de aprobaciones y protocolos, y se trata de reconstruir el flujo
de fondos.
Fig. 13. El uso de herramientas de Big Data permite tomar el 100% de los
datos para analizar y se está trabajando para una auditoría proactiva.
Gran parte de los datos se toman de la extracción de datos
de computadoras tomadas por el equipo de EY, de las cuales
Ejemplos de uso de Big Data en EY:
se extraen los datos en crudo de los discos rígidos, se mapean
los datos necesarios, se preparan los datos, se conectan las
Marco 1: Investigación global financiera de una institución
distintas fuentes de datos, se indexa y por último se
de un potencial y repentino colapso financiero.
determina si los datos son relevantes a la investigación. Todo
Tiempo: 60 días.
esto tendiente a reconstruir las historias de fraude a lo largo
Implicados: 500 personas.
de uno o dos meses muchas veces.
Acciones: Asegurar y mapear más de mil transacciones
únicas de diferentes sistemas de ventas y contabilidad.
Datos: 3 Terabytes cargados para revisión. Múltiples partes
en litigio y distintas investigaciones sobre regulaciones
simultáneas.
Dificultad: Desplegar un acercamiento teniendo en cuenta los
costos para recolectar y analizar emails, datos de ventas de
multiples transacciones y obtener pistas y rastrar los fondos
perdidos de cuentas de clientes y reportarlas a reguladores en
10
los tiempos requeridos. rendimiento y comprensión en las organizaciones, entender

mejor a los clientes y al público, implementar mejores
Marco 2: Una empresa multinacional listada entre las estrategias de negocio, automatizar el proceso de toma de
Fortune 100 conduce una revisión global anti corrupción. decisiones y hacerlo más simple, entre otros.
Tiempo: 120 días.
Datos: 310 discos rígidos recolectados en forma forense. 20 VI. BIBLIOGRAFÍA
Países. 2 Terabytes de datos cargados. Más de 25 millones de
documentos, 1,3 millones de ellos revisados. Más de 2000 [1] Wikipedia, http://en.wikipedia.org/wiki/Data_science. Recuperado el 24
millones de transacciones financieras revisadas. 20 diferentes de Mayo del 2014.
[2] F. Provost, T. Fawcett, "Data Science for Business, What you need to
sistemas financieros representando 37 unidades de negocios know about data mining and data-analytic thinking", Ed. O'Reilly
separadas. Media, 2013, pp. 4-14.
Dificultad : Integrar las comunicaciones por mail individuales [3] Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman, “Big Data
for Dummies”, Ed.Wiley, 2013, pp. 10-11.
y patrones para cruzar con transacciones financieras para [4] Wikipedia, http://es.wikipedia.org/wiki/Hadoop. Recuperado el 24 de
identificar potenciales pagos impropios, además de Mayo del 2014.
proveedores y empleados de alto riesgo. [19] [5] Wikipedia, http://en.wikipedia.org/wiki/Unstructured_data. Recuperado
el 24 de Mayo del 2014.
[6] Thomas Davenport, “Big Data at Work: Dispelling the Myths,
Uncovering the Opportunities”, Harvard Business Review Press, 2014,
pp. 10.
[7] MongoDB, http://www.mongodb.com/nosql-explained, Recuperado el
V. CONCLUSIONES 24 de Mayo del 2014.
[8] Tom White, “Hadoop, The definitive Guide”, Ed O’Reilly, 2011, pp 9-
El mundo de los datos está creciendo a pasos agigantados, 12.
[9] Google,http://static.googleusercontent.com/media/
comunicaciones telefónicas, por mensajes de texto, por research.google.com/en//archive/mapreduce-osdi04.pdf, Recuperado el
Twitter, Youtube o Facebook, sensores, GPSs, además de las 24 de Mayo del 2014.
[10] Apache Hadoop, http://hadoop.apache.org/docs/r1.2.1/
millones de transacciones personales de todo tipo, se mapred_tutorial.html, Recuperado el 24 de Mayo del 2014.
encuentran mundialmente en el orden de los zetabytes de [11] Ticout, http://www.ticout.com/blog/2013/04/02/introduccion-a-hadoop-
datos, pasando a formar cantidades inimaginables y-su-ecosistema/, Recuperado el 24 de Mayo del 2014.
[12] D. Jurafsky, http://www.stanford.edu/class/cs124/lec/sentiment.pdf,
distribuidas a lo largo del planeta, que crecen en forma Recuperado el 24 de Mayo del 2014.
exponencial. [13] Wikipedia, http://es.wikipedia.org/wiki/An%C3%A1lisis_web,
Recuperado el 24 de Mayo del 2014.
[14] Hortonworks, http://hortonworks.com/hadoop-tutorial/how-to-refine-
Los mismos brindan una fuente de conocimiento and-visualize-server-log-data, Recuperado el 24 de Mayo del 2014.
valiosísima para las empresas, además de un creciente [15] Hortonworks, http://hortonworks.com/hadoop-tutorial/how-to-analyze-
número de fuentes de trabajo para los científicos de datos. machine-and-sensor-data, Recuperado el 24 de Mayo del 2014.
[16] Hortonworks, http://hortonworks.com/use-cases/analyze-geolocation-
Siendo estos últimos, profesionales con habilidades a medio data-hadoop/, Recuperado el 24 de Mayo del 2014.
camino entre las matemáticas, análisis de inteligencia [17] Hortonworks, http://hortonworks.com/blog/hadoop-your-partner-in-
crime, Recuperado el 24 de Mayo del 2014.
artificial y un alto conocimiento del contexto en que se [18] Palantir Software, http://www.palantir.com , Recuperado el 24 de Mayo
realiza el análisis de datos. del 2014.
[19] EY, http://www.ey.com/US/en/Services/Assurance/Fraud-
Investigation---Dispute-Services, , Recuperado el 24 de Mayo del 2014.
Aunque esta nueva era posa varias dificultades técnicas
para la toma de decisiones, que antes se realizaba mediante
análisis de muestras de datos, y hoy, por la creciente
competencia y necesidad de brindar más valor al cliente, se VII. BIOGRAFÍA
intenta realizar en la totalidad de los datos, y en un tiempo
récord. Sergio Muzzupappa nació en Buenos Aires,
Argentina, el 14 de Marzo de 1983. Es un
profesional de la tecnología, que toda su vida se ha
Para esto se han creado nuevas tecnologías que no dedicado a la computación, estando a su vez
reemplazan las bases de datos relacionales tradicionales, sino finalizando la última materia de la carrera de
Ingeniería en Informática en la Universidad de
que las complementan, y permiten obtener una mirada crítica Palermo, por otro lado, teniendo como hobby la
y más transparente sobre grandes cantidades de datos no psicología y habiendo realizado la carrera de
Licenciatura en la misma además de un postgrado
estructurados, permitiendo así encontrar los “tesoros” en Psicoterapia Cognitiva. Hoy en día trabaja en
escondidos y enterrados bajo esta masa de información EY, en el área de IT para la sección de Fraudes y
desordenada. Disputas, soportando plataformas y aplicaciones
diversas, entre ellas varias ligadas al manejo de grandes cantidades de datos.
El futuro del Big Data proporciona muchas interrogantes,

pero eso sí, sabemos que no hay vuelta atrás, y que es una
consecuencia lógica de la explosión de las tecnologías
baratas y al alcance de los consumidores, que va a permitir
una mejor utilización de la información, mejorar el

Big Data TFI

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data TFI

Cargado por

Copyright:

Formatos disponibles

1

Abstract--Big Data es un área de la informática III. MARCO TEÓRICO

L a era del Big Data ha venido para quedarse. Es un

C. Hadoop empresas existe una explosión de datos, ya que se tiende a

los trabajadores secundarios (esclavos), programando sus

En Hadoop se tiene ecosistema muy diverso que crece día

Apache Pig, inicialmente desarrollado por Yahoo, permite

Jaql es un lenguaje de consulta funcional y declarativo que

B. Comportamiento del visitante Web C. Análisis Forense de Registros del Servidor

Fig. 5 Ejemplo de utilización del ecosistema de Hadoop por la empresa

D. Datos de máquinas y sensores

Un sensor es un conversor que mide una cantidad sobre un

Algunas fuentes muy usadas son registros de sensores de

También está siendo utilizado por los gobiernos en

Esto puede ser usado por ejemplo por aviones o camiones,

identificación de patrones en textos.

Por ejemplo en una investigación se tuvo que trabajar con

En el mundo del análisis de datos en bases de datos

G. Detección de Fraudes. Donde un set de datos puede ser analizado en el orden un

La misma proporciona servicios para que las empresas

Se trabaja muchas veces con herramientas como el

Fig. 10. Características de la analítica usada en EY para trabajar Big Data

Se busca muchas veces información sobre corrupción

los tiempos requeridos. rendimiento y comprensión en las organizaciones, entender

El futuro del Big Data proporciona muchas interrogantes,

También podría gustarte