Big Data

Tatiana Mendoza Durán
ID: 279665
BIG DATA
 ¿Qué es la Big Data?
Conjuntos de datos o combinaciones de conjuntos de datos cuyo tamaño, complejidad y

velocidad de crecimiento dificultan su captura, gestión, procesamiento o análisis mediante
tecnologías y herramientas convencionales, tales como bases de datos relacionales y
estadísticas convencionales o paquetes de visualización
El tamaño utilizado no está firmemente definido y sigue cambiando con el tiempo, la

mayoría de los analistas y profesionales actualmente se refieren a conjuntos de datos que
van desde 30-50 Terabytes a varios Petabytes.
La naturaleza compleja del Big Data se debe principalmente a la naturaleza no estructurada

de gran parte de los datos generados por las tecnologías modernas, como los web logs, la
identificación por radiofrecuencia (RFID), los sensores incorporados en dispositivos, la
maquinaria, los vehículos, las búsquedas en Internet, las redes sociales como Facebook,
computadoras portátiles, teléfonos inteligentes y otros teléfonos móviles, dispositivos GPS
y registros de centros de llamadas.
En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse
con datos estructurados (normalmente de una base de datos relacional) de una aplicación
comercial más convencional, como un ERP (Enterprise Resource Planning) o un CRM
(Customer Relationship Management).
 ¿Por qué es importante la Big Data?

Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que Con una
cantidad tan grande de información, los datos pueden ser moldeados o probados de
cualquier manera que la empresa considere adecuada. Al hacerlo, las organizaciones son
capaces de identificar los problemas de una forma más comprensible, lo que hace que las
empresas se muevan mucho más rápidamente, sin problemas y de manera eficiente.
El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para
identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos de negocios más
inteligentes, operaciones más eficientes, mayores ganancias y clientes más felices. Las
empresas con más éxito con Big Data consiguen valor de las siguientes formas:
Reducción de coste. Las grandes tecnologías de datos, como Hadoop y el análisis basado en
la nube, aportan importantes ventajas en términos de costes cuando se trata de almacenar
grandes cantidades de datos, además de identificar maneras más eficientes de hacer
negocios.
Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica en
memoria, combinada con la capacidad de analizar nuevas fuentes de datos, las empresas
pueden analizar la información inmediatamente y tomar
Nuevos productos y servicios. Con la capacidad de medir las necesidades de los clientes y
la satisfacción a través de análisis viene el poder de dar a los clientes lo que quieren
Por ejemplo:
o Uso de la voluminosa información histórica de un Call Center de forma rápida, con
el fin de mejorar la interacción con el cliente y aumentar su satisfacción.
o Detección y prevención de fraudes en cualquier industria que procese transacciones
financieras online, tales como compras, actividades bancarias, inversiones, seguros
y atención médica.
o Uso de información de transacciones de mercados financieros para evaluar más
rápidamente el riesgo y tomar medidas correctivas.
 ¿De dónde proviene toda esa información?

Los seres humanos estamos creando y almacenando información constantemente y cada
vez más en cantidades astronómicas. Esta contribución a la acumulación masiva de datos la
podemos encontrar en diversas industrias, las compañías mantienen grandes cantidades de
datos transaccionales, reuniendo información acerca de sus clientes, proveedores,
operaciones, etc.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de información, existe también la comunicación denominada máquina a máquina
(M2M machine-to-machine) cuyo valor en la creación de grandes cantidades de datos
también es muy importante. Sensores digitales instalados en contenedores para determinar
la ruta generada durante una entrega de algún paquete y que esta información sea enviada a
las compañías de transportación, sensores en medidores eléctricos para determinar el
consumo de energía a intervalos regulares para que sea enviada esta información a las
compañías del sector energético. Se estima que hay más de 30 millones de sensores
interconectados en distintos sectores como automotrices, transportación, industrial,
servicios, comercial.
 Componentes de una plataforma Big Data
Las organizaciones han atacado esta problemática desde diferentes ángulos. Todas esas
montañas de información han generado un costo potencial al no descubrir el gran valor
asociado. Desde luego, el ángulo correcto que actualmente tiene el liderazgo en términos de
popularidad para analizar enormes cantidades de información es la plataforma de código
abierto Hadoop.
Hadoop está inspirado en el proyecto de Google File System(GFS) y en el paradigma de
programación MapReduce, el cual consiste en dividir en dos tareas (mapper – reducer) para
manipular los datos distribuidos a nodos de un clúster logrando un alto paralelismo en el
procesamiento. Hadoop está compuesto de tres piezas:
1. Hadoop Distributed File System(HDFS)
Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y
distribuidas a través del clúster; de esta manera, las funciones map y reduce pueden ser
ejecutadas en pequeños subconjuntos y esto provee de la escalabilidad necesaria para el
procesamiento de grandes volúmenes. Ejemplo:
Ilustración 1. Ejemplo Hadoop Distributed File System(HDFS)

2. Hadoop MapReduce
Es el núcleo de Hadoop. El término MapReduce en realidad se refiere a dos procesos
separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de
datos y lo convierte en otro conjunto, donde los elementos individuales son separados
en tuplas (pares de llave/valor). El proceso reduce obtiene la salida de map como datos
de entrada y combina las tuplas en un conjunto más pequeño de las mismas. Una fase
intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y
determina que nodo procesará estos datos dirigiendo la salida a una tarea reduce en
específico. Ejemplo:
Ilustración 2. Ejemplo Hadoop MapReduce

3. Hadoop Common
Hadoop Common Components son un conjunto de librerías que soportan varios
subproyectos de Hadoop.
Además de estos tres componentes principales de Hadoop, existen otros proyectos
relacionados los cuales son definidos a continuación:
 Avro: Es un proyecto de Apache que provee servicios de serialización. Cuando se
guardan datos en un archivo, el esquema que define ese archivo es guardado dentro
del mismo
 Cassandra: Es una base de datos no relacional distribuida y basada en un modelo
de almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes
volúmenes de datos en forma distribuida.
 Chukwa: Diseñado para la colección y análisis a gran escala de "logs". Incluye un
toolkit para desplegar los resultados del análisis y monitoreo.
 Flume: Su tarea principal es dirigir los datos de una fuente hacia alguna otra
localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades
principales: sources, decorators y sinks. Un source es básicamente cualquier fuente
de datos, sink es el destino de una operación en específico y un decorator es una
operación dentro del flujo de datos que transforma esa información de alguna
manera
 HBase: Es una base de datos columnar (column-oriented database) que se ejecuta
en HDFS. HBase no soporta SQL, de hecho, HBase no es una base de datos
relacional. Cada tabla contiene filas y columnas como una base de datos relacional.
HBase permite que muchos atributos sean agrupados llamándolos familias de
columnas, de tal manera que los elementos de una familia de columnas son
almacenados en un solo conjunto.
 Hive:Es una infraestructura de data warehouse que facilita administrar grandes
conjuntos de datos que se encuentran almacenados en un ambiente distribuido.
 Jaql: Fue donado por IBM a la comunidad de software libre. Query Language for
Javascript Object Notation (JSON) es un lenguaje funcional y declarativo que
permite la explotación de datos en formato JSON diseñado para procesar grandes
volúmenes de información.
 Lucene: Es un proyecto de Apache bastante popular para realizar búsquedas sobre
textos. Lucene provee de librerías para indexación y búsqueda de texto. Ha sido
principalmente utilizado en la implementación de motores de búsqueda (aunque hay
que considerar que no tiene funciones de "crawling" ni análisis de documentos
HTML ya incorporadas).
 Oozie: Es un proyecto de código abierto que simplifica los flujos de trabajo y la
coordinación entre cada uno de los procesos. Permite que el usuario pueda definir
acciones y las dependencias entre dichas acciones.Un flujo de trabajo en Oozie es
definido mediante un grafo acíclico llamado Directed Acyclical Graph (DAG), y es
acíclico puesto que no permite ciclos en el grafo; es decir, solo hay un punto de
entrada y de salida y todas las tareas y dependencias parten del punto inicial al
punto final sin puntos de retorno
 Pig: Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop
enfocarse más en analizar todos los conjuntos de datos y dedicar menos tiempo en
construir los programas MapReduce. Tal como su nombre lo indica al igual que
cualquier cerdo que come cualquier cosa, el lenguaje PigLatinfue diseñado para
manejar cualquier tipo de dato y Pig es el ambiente de ejecución donde estos
programas son ejecutados, de manera muy similar a la relación entre la máquina
virtual de Java (JVM) y una aplicación Java.
 ZooKeeper: Es otro proyecto de código abierto de Apache que provee de una
infraestructura centralizada y de servicios que pueden ser utilizados por aplicaciones
para asegurarse de que los procesos a través de un cluster sean serializados o
sincronizados.
 Desafíos de la calidad de datos en Big Data

Las especiales características del Big Data hacen que su calidad de datos se enfrente a
múltiples desafíos. Se trata de las conocidas como 5 Vs: Volumen, Velocidad, Variedad,
Veracidad y Valor, que definen la problemática del Big Data.
Estas 5 características del big data provocan que las empresas tengan problemas para
extraer datos reales y de alta calidad, de conjuntos de datos tan masivos, cambiantes y
complicados.
 Volumen: La cantidad de datos. Si bien más volumen indica más datos, lo que es
único es la naturaleza granular de los datos. Big data requiere el procesamiento de
altos volúmenes de baja densidad, datos de Hadoop no estructurados, es decir, datos
de valores desconocidos.
 Velocidad: El ritmo al que los datos se reciben y, posiblemente, con el que se
aplica alguna acción. La mayor velocidad de los datos normalmente se transmite
directamente a la memoria, en vez de escribirse en un disco. Algunas aplicaciones
de Internet de las cosas (IoT, por sus siglas en inglés) tienen ramificaciones de
estado y seguridad que requieren acciones y evaluaciones en tiempo real.
 Variedad: Nuevos tipos de datos no estructurados. Los tipos de datos no
estructurados o semiestructurados, como el texto, audio o vídeo, requieren
procesamiento adicional para obtener significado y metadatos de apoyo. Una vez
que se comprenden, los datos no estructurados tienen los mismos requisitos que los
datos estructurados, como el resumen, el alineamiento, la trazabilidad para
auditorías y privacidad. Hay una mayor complejidad cuando los datos de un origen
conocido cambian sin previo aviso. Los cambios de esquema en tiempo real o
frecuente son un lastre muy pesado para los entornos analíticos y de transacciones.
 Valor: Los datos tienen un valor intrínseco que debe descubrirse. Hay una amplia
gama de técnicas cuantitativas y de investigación para extraer valor de los datos,
como el descubrimiento de una preferencia o sentimiento de los clientes, la
aplicación de una oferta relevante por ubicación, o la identificación de una parte del
equipo que esté a punto de fallar.
 Veracidad: se refiere a la incertidumbre de los datos, es decir, al grado de fiabilidad
de la información recibida. Es necesario invertir tiempo para conseguir datos de
calidad, aplicando soluciones y métodos que puedan eliminar datos imprevisibles
que puedan surgir como datos económicos, comportamientos de los consumidores
que puedan influir en las decisiones de compra.
 Big Data y el campo de investigación

Los científicos e investigadores han analizado datos desde ya hace mucho tiempo, lo que
ahora representa el gran reto es la escala en la que estos son generados.
Esta explosión de "grandes datos" está transformando la manera en que se conduce una
investigación adquiriendo habilidades en el uso de Big Data para resolver problemas
complejos relacionados con el descubrimiento científico, investigación ambiental y
biomédica, educación, salud, seguridad nacional, entre otros.
De entre los proyectos que se pueden mencionar algunos donde se ha llevado a cabo el uso
de una solución de Big Data entre ellos se encuentran:
 Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y

HBase para analizar datos producidos por los investigadores de The Cancer
Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el cáncer..
 La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop para apoyar su
proyecto de investigación relacionado con el sistema de inteligencia territorial de la
ciudad de Bogotá.
 La Universidad de Maryland es una de las seis universidades que colaboran en la
iniciativa académica de cómputo en la nube de IBM/Google. Sus investigaciones
incluyen proyectos en la lingüistica computacional (machine translation), modelado
del lenguaje, bioinformática, análisis de correo electrónico y procesamiento de
imágenes.
 Los laboratorios Pacific Northwest National Labs(PNNL) utilizan de igual manera
IBM InfoSphere Streams para analizar eventos de medidores de su red eléctrica y en
tiempo real verificar aquellas excepciones o fallas en los componentes de la red,
logrando comunicar casi de manera inmediata a los consumidores sobre el problema
para ayudarlos en administrar su consumo de energía eléctrica.
Bibliografía
 https://www.oracle.com/es/big-data/index.html
 https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
 http://www.powerdata.es/big-data

Big Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data

Cargado por

Copyright:

Formatos disponibles

Tatiana Mendoza Durán

 ¿Qué es la Big Data?

Conjuntos de datos o combinaciones de conjuntos de datos cuyo tamaño, complejidad y

El tamaño utilizado no está firmemente definido y sigue cambiando con el tiempo, la

La naturaleza compleja del Big Data se debe principalmente a la naturaleza no estructurada

 ¿Por qué es importante la Big Data?

 ¿De dónde proviene toda esa información?

Ilustración 1. Ejemplo Hadoop Distributed File System(HDFS)

Ilustración 2. Ejemplo Hadoop MapReduce

 Desafíos de la calidad de datos en Big Data

 Big Data y el campo de investigación

 Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y

También podría gustarte