Big Data: qué es y para qué sirve

¿Qué es Big Data y para qué sirve?
En definitiva, cuando hablamos de Big Data no nos referimos únicamente a los datos, sino sobre todo
a la capacidad de poderlos explotar para extraer información y conocimiento de valor para
nuestro negocio. La finalidad del Big Data es poder diseñar nuevos productos y servicios basándose
en los nuevos insights que adquirimos sobre nuestros clientes, sobre nuestra competencia o el mercado
en general.
Una vez recogida y almacenada la información, se deben extraer indicadores que puedan ser útiles
para tomar decisiones, incluso en tiempo real. Por lo tanto, la verdad sobre qué es Big Data y para
qué sirve va mucho más allá de solo pensar en «datos masivos».
Las cinco “Vs” del Big Data

La primera pregunta que nos viene a la mente al considerar qué es Big Data y para qué sirve,
está relacionada con cuánto de “grande” tienen que ser los datos para ser considerados “Big”.
Finalmente, el enfoque correcto está en no establecer un tamaño en absoluto, sino relativo. Lo
que ahora puede parecernos un gran tamaño de datos, en dos o tres años puede ser normal o hasta
irrelevante. La mayoría de los expertos definen el Big Data en términos de las cinco “Vs”:
 Volumen: como hemos visto, la cantidad de datos se define “Big” no cuando supera un tamaño
definido, sino cuando su almacenamiento, procesamiento y explotación empieza a ser un reto
para una organización.
 Velocidad: la segunda característica del Big Data está relacionada con el ritmo a los cuales los
datos se están generando, que suele aumentar constantemente y que necesita una respuesta
en tiempo real por parte de las empresas.
 Variedad: sin embargo, el reto principal del Big Data reside en la gran diferencia de formatos
distintos en los cuales encontramos los datos y que pueden ir desde texto sencillo, a imágenes,
videos, hojas de cálculos y enteras bases de datos.
 Veracidad: además, los datos tienen que ser confiables y han que ser mantenidos limpios. Una
gran cantidad de datos no tiene valor si son incorrectos y puede ser altamente perjudicial, sobre
todo en la toma de decisión automatizada.
 Valor: finalmente, los datos y su análisis tienen que generar un beneficio para las empresas.
Tipos de Big Data

Para profundizar en qué es Big Data y para qué sirve, es necesario saber también que existen
distintos tipos de datos asociados a esta técnica.
A la hora de clasificar los “grandes datos” podemos hacerlo según dos criterios: procedencia y
estructura. Así, según su procedencia, los datos pueden llegar desde distintas fuentes, entre otras:
1
 Web y Redes Sociales: información disponible en Internet como contenido Web, generada por
los usuarios en su actividad en las redes sociales o información de búsquedas en buscadores.
 Machine-to-Machine (M2M): datos generados a partir de la comunicación entre sensores
inteligentes integrados en objetos de uso cotidiano.
 Transacciones: incluye registros de facturación, llamadas o transacciones entre cuentas.
 Biométricos: datos generados por tecnología de identificación de personas mediante
reconocimiento facial, de huellas dactilares o mediante información genética.
 Generados por personas: a través de correos electrónicos, servicios de mensajería o
grabaciones de llamadas.
 Generados por organizaciones tanto públicas como privadas: datos relacionados con el
medioambiente, estadísticas gubernamentales sobre población y economía, historiales clínicos
electrónicos, etc.
Por otro lado, según su estructura, los datos pueden ser:
 Estructurados: datos que tienen definidos su formato, tamaño y longitud, como las bases de
datos relacionales o Data Warehouse.
 Semiestructurados: datos almacenados según una cierta estructura flexible y con metadatos
definidos, como XML y HTML, JSON, y las hojas de cálculo (CSV, Excel).
 No estructurados: datos sin formato específico, como ficheros de texto (Word, PDF, correos
electrónicos) o contenido multimedia (audio, vídeo, o imágenes).
Para qué sirve el Big Data en las empresas

Una vez hayamos aceptado que los datos han venido para quedarse, la siguiente pregunta es sobre las
ventajas que pueden representar para nuestra organización. En este sentido, un estudio llevado a cabo
por Bain & Company demuestra de forma clara las ventajas competitivas que pueden obtener las
empresas early adopter del Big Data. Estas empresas que han entendido qué es Big Data y para
qué sirve tienen:
 Dos veces más probabilidades de obtener un rendimiento financiero superior que la media
de sus industrias.
 Cinco veces más probabilidades de tomar decisiones mucho más rápido que sus
competidores.
 Tres veces más probabilidades de ejecutar las decisiones según lo previsto.
 El doble de probabilidades de tomar decisiones basadas en datos.
Ejemplos reales de qué es Big Data y para qué sirve

Para entender de modo práctico qué es Big Data y para qué sirve, veamos algunos ejemplos
reales de su uso:
2
1. Marketing: segmentación de clientes. Muchas empresas usan datos masivos para adaptar
sus productos y servicios a las necesidades de sus clientes, optimizar operaciones e
infraestructuras, y encontrar nuevos campos de negocio.
2. Deportes: optimización del rendimiento. Dispositivos como los smart watches registran
automáticamente datos como el consumo de calorías o los niveles de acondicionamiento físico.
3. Salud pública: codificación de material genético. Por ejemplo, existen plataformas de
análisis del Big Data que se dedican a descodificar cadenas de ADN para comprender mejor las
enfermedades y encontrar nuevos tratamientos.
4. Nuevas tecnologías: desarrollo de dispositivos autónomos. El análisis de datos
masivos puede contribuir a mejorar máquinas y dispositivos, y hacerlos más autónomos. Un
ejemplo son los coches inteligentes.
5. Seguridad: detección y prevención de crímenes. Los cuerpos de seguridad usan el Big Data
para localizar a criminales o prevenir actividades delictivas como los ataques cibernéticos.
Herramientas para poner en práctica lo que es Big Data y para qué

sirve en las empresas
Big Data necesita nuevas herramientas y tecnologías que puedan abarcar la complejidad de datos no
estructurados y en continua expansión. Para ello, las tecnologías tradicionales de base de datos
relacionales o RDBMS, no son adecuadas. Además, se necesitan aplicaciones avanzadas de análisis y
visualización, para poder extraer todo el potencial de los datos y explotarlo para nuestros objetivos de
negocio.
Así, luego de entender qué es Big Data y para qué sirve, veamos algunas de sus principales
herramientas:
 Hadoop: es una herramienta de código abierto que nos permite tanto gestionar los grandes
volúmenes de datos, como analizarlos y procesarlos. Hadoop implementa MapReduce, un
modelo de programación que da soporte a la computación paralela sobre grandes colecciones
de datos.
 NoSQL: se trata de sistemas que no utilizan SQL como lenguaje de consultas, lo que, a pesar
de no poder garantizar la integridad de los datos (principios ACID: atomicidad, consistencia,
integridad y durabilidad), les permite obtener ganancias significativas en escalabilidad y
rendimiento a la hora de trabajar con Big Data. Una de las bases de datos NoSQL más populares
es MongoDB.
 Spark: es un framework de computación en clúster de código abierto que permite procesar los
datos de forma rápida. Permite escribir aplicaciones en Java, Scala, Python, R y SQL y funciona
tanto sobre Hadoop, Apache Mesos, Kubernetes, como de forma independiente o en la nube.
Puede acceder a centenares de fuentes de datos.
3
 Storm: es un sistema de computación en tiempo real distribuido de código libre. Storm permite
procesar flujos ilimitados de datos en tiempo real de manera sencilla, pudiendo usarse con
cualquier lenguaje de programación.
 Hive: es una infraestructura de Data Warehouse construida sobre Hadoop. Facilita la lectura,
escritura y administración de grandes conjuntos de datos que residen en almacenamiento
distribuido mediante SQL.
 R: es uno de los lenguajes de programación más utilizados en análisis estadísticos y en minería
de datos. Puede integrarse con distintas bases de datos y permite generar gráficos con alta
calidad.
 D3.js: es una biblioteca de JavaScript para producir visualizaciones dinámicas e interactivas de
datos en navegadores web, usando HTML, SVG y CSS.
4 pasos clave para subirse al Big Data

Para poder comenzar a disfrutar de los beneficios de esta tecnologúa luego de conocer qué es
Big Data y para qué sirve, cualquier organización necesita disponer de cuatros activos clave:
 En primer lugar, los datos. En un entorno donde los datos están explosionando, su
disponibilidad no parece ser el problema. Lo que debería preocuparnos es más bien ser capaces
de mantener su calidad, y saber manejarlos y explotarlos de forma correcta.
 Para ello, se necesitan las herramientas analíticas adecuadas, lo que tampoco representa
una barrera para las empresas al día de hoy, debido a la gran disponibilidad en el mercado de
herramientas y plataformas tanto propietarias como de código abierto.
 Lo que nos lleva de lleno al tercer activo fundamental, que es el factor humano. Disponer en
nuestra organización de los profesionales adecuados, como científicos de datos, pero
también de expertos en las implicaciones legales de la gestión de los datos y de su privacidad,
se perfila como el desafío más importante.
 Sin embargo, dotarse de estos tres activos y ponerlos a trabajar tampoco nos asegurará el éxito
con el Big Data. Para ser verdaderas empresas data driven, necesitaremos llevar a cabo
una transformación radical de nuestros procesos y cultura empresarial, para hacer que los
datos estén verdaderamente al centro de nuestra compañía, y conseguir que todos los
departamentos, desde TI hasta la alta dirección, asuman este nuevo enfoque.
Los retos del Big Data

Hoy en día, ninguna empresa puede ignorar el tema de qué es Big Data y para qué sirve, pues
las implicaciones que esta tecnología puede tener sobre los negocios son muchas. Sin embargo, se
trata de un concepto relativamente nuevo y en continua evolución, y no son pocos los retos a los cuales
se enfrentan las organizaciones a la hora de relacionarse con los grandes datos. Entre ellos:
4
 La tecnología: las herramientas Big Data cono Hadoop no son tan fáciles de administrar y
requieren profesionales de datos especializados además de importantes recursos para el
mantenimiento.
 La escalabilidad: un proyecto de Big Data puede crecer con grande velocidad, por lo cual una
empresa tiene que tenerlo en cuenta a la hora de asignar los recursos para que el proyecto no
sufra interrupciones y el análisis sea continuo.
 El talento: los perfiles necesarios para el Big Data escasean y las empresas se encuentran
frente al reto de encontrar a los profesionales adecuados y, al mismo tiempo, de formar a sus
empleados sobre este nuevo paradigma.
 Los actionable insights: frente a la cantidad de datos, el reto para una empresa es identificar
objetivos de negocio claros y analizar los datos apropiados para alcanzarlos.
 La calidad de datos: como hemos visto anteriormente es necesario mantener a los datos
limpios para que la toma de decisión se base en datos de calidad.
 Los costes: los datos seguirán creciendo, por lo cual es importante dimensionar correctamente
los costes de un proyecto de Big Data, teniendo en cuenta tanto las instalaciones y personal
propio como la contratación de proveedores.
 La seguridad: finalmente, es necesario mantener seguro el acceso a los datos, lo que se
consigue con autenticación de usuarios, restricciones de acceso, cifrado de datos en tránsito o
almacenados y cumpliendo las principales normativas de protección de datos.
Big Data: Oracle & Hadoop

Estamos viviendo el boom más grande del Big Data desde que el concepto salió al mercado hace ya
varios años, el dato puro se ha convertido en parte esencial para que los negocios puedan hacer
estimaciones y cálculos para la toma de decisiones. Atrás quedaron los años en que hablar de Gigabytes
era hablar de mucha información, ahora la tendencia es hablar de “Terabytes”, “Peta bytes” y más.
Para entrar un poco más en contexto veamos que es Big Data como concepto y porqué es una palabra
que aparece en casi todos los textos de tecnología en la actualidad.
“Big Data”: es un conjunto de técnicas informáticas que nos van a servir para almacenar, procesar y
gestionar grandes volúmenes de información, un Sistema Big Data debe ser veloz, capaz de manejar
grandes tamaños de información (“Peta bytes” y más allá), tener variedad en los datos que almacena,
es decir, debe ser capaz de guardar cualquier tipo de dato. El concepto fue introducido por primera vez
en 1997 por los científicos de la NASA Michael Cox y David Elisworth quienes manifestaron su
consternación acerca del ritmo acelerado de crecimiento de los datos y a su vez que los sistemas
informáticos usuales eran insuficientes para tratarlos, de forma segura tenían razón ya que se asegura
que en 2020 habrá 50 mil millones de conexiones entre personas, procesos, datos y objetos a través
5
de internet ¿Cómo se va a manejar toda esa información? Big Data es la respuesta. Un estudio de
Oracle estima que si las empresas de “retail” emplearan técnicas de Big Data sus márgenes de utilidad
aumentarían hasta en un 60%, lo cual nos habla de la importancia de este concepto en la actualidad y
como el mismo transformara nuestro modo de vida, trabajo y manera de analizar la data.
Para algunos puede resultar confuso la relación que existe entre Hadoop y Oracle. Veamos primero el
concepto breve de estos dos jugadores:
¿Qué es Hadoop?
Hadoop es un sistema distribuido open source que pertenece a Apache Foundation diseñado
enteramente en Java para almacenar y procesar grandes volúmenes de información, fue diseñado por
Google donde Doug Cutting pude considerarse el padre de Hadoop. Hadoop posee dos componentes:
HDFS y MapReduce además de varios “frameworks” y “apps” que giran alrededor de ellos para
complementarlo y reforzarlo. A continuación, vamos a explicar un poco más al respecto.
HDFS o Hadoop File System es la forma en que Hadoop almacena la información, recordando que
estamos hablando de grandes cantidades de archivos no estructurados, ejemplos de ello: Documentos
Json, Videos, SMS, Logs de cualquier tamaño, etc. HDFS se compone de Name-Nodes que es el nodo
maestro del cluster Hadoop y Data-Nodes que son servidores commodity donde los archivos se van a
distribuir. HDFS divide al archivo en 3 partes de 64MB o 128MB dependiendo de la configuración que
escojamos y distribuye los bloques entre los Data-Nodes que el Name-Node elija. El Name-Node guarda
los metadatos y los Data-Node guardan los bloques físicos. Si perdemos al Name-Node, perdemos
nuestro clúster Hadoop.
MapReduce es la forma en que Hadoop procesa los archivos almacenados en HDFS y consiste en un
algoritmo que sirve para procesar grandes volúmenes de información a través de procesos “batch”
donde la información que está distribuida en los Data-Nodes se mapea (función map), entra en proceso
de ordenamiento para que al final sea organizada y presentada al cliente (función reduce). MapReduce
puede ser escrito en Java, Python, R o Pig.
A su vez Hadoop tiene varios frameworks o app satélites que sirven para mejorar su funcionalidad y
llevar un mejor control. No vamos a entrar en detalle para no perder el tema principal, pero podemos
hablar de Pig, Hive, Oozie, HBase, Mahout, Impala, Spark, etc con mayor profundidad en otra ocasión.
Ahora bien, la pregunta que muchos de nosotros como Oracle DBAs o incluso cualquier tecnólogo
familiarizado con productos Oracle nos hacemos es que relación posee Oracle & Hadoop y sobre todo
cual es el futuro del Administrador de Bases de Datos clásico. Para empezar, tienen que saber que
MapReduce es un proceso que aunque es muy poderoso, no es tan rápido como deseáramos, es decir,
no es lo más adecuado para aplicaciones que sean muy transaccionales, requieran Alta Disponibilidad
6
y Consistencia al mismo tiempo, por lo que en éste aspecto la Base de Datos Oracle sigue siendo la
mejor opción.
Si quisiéramos comparar a Hadoop con Oracle podríamos decir que Hadoop ocupa hardware más
barato, el lenguaje SQL estándar y PL/SQL de Oracle es mucho más sencillo que las rutinas de
MapReduce.
Oracle está orientado a transacciones (lectura y escritura en tiempo real) mientras que Hadoop está
orientado a Big Data (una sola escritura, muchas lecturas).
Ya con esto como preámbulo podemos concluir que Hadoop y Oracle no son mutuamente excluyentes.
Pueden convivir en sistemas especialmente diseñados para ofrecer soluciones Big
Data/Transaccionales. Los arquitectos de soluciones deben comprender qué es lo que verdaderamente
requiere el negocio y así decidirse por una solución pura inclinada hacia ambos bandos o como
mayormente podemos encontrar en el mercado, una solución híbrida.
Ahora mismo Oracle ofrece un producto llamado “Big Data Appliance” reforzado con una distribución
Hadoop y todas las especificaciones necesarias para que una Base de Datos Oracle pueda trabajar con
Hadoop.
Soluciones ORacle & Hadoop
Listemos acá soluciones y productos que integran a Oracle & Hadoop:
Oracle Big Data Appliance
Oracle NoSQL Database
Oracle Data Integrator Enterprise Edition
Oracle Loader for Hadoop
Oracle R Enterprise
“Oracle Big Data Spatial and Graph” es un ejemplo de cómo estos 2 colosos pueden trabajar juntos.
“Oracle Big Data Spatial and Graph” nuevo producto de software Oracle que está diseñado para las
demandas grandes datos. Este producto proporciona nuevas capacidades analíticas para Hadoop y
NoSQL.
Los usuarios de la base de datos Oracle durante mucho tiempo han tenido acceso a herramientas
gráficas y espacio analítico, que se han utilizado para descubrir relaciones y analizar conjuntos de datos
respecto a su ubicación. Con la intención de cumplir con diversos conjuntos de datos y minimizar la
necesidad de movimiento de datos, Oracle creó el producto para que se puedan procesar datos de
forma nativa en “Hadoop” y de forma paralela con “MapReduce” usando estructuras en memoria. Este
es uno de los tantos ejemplos en los cuales podemos visualizar la integración de Oracle & Hadoop.
7
Con todo esto en el horizonte de seguro el nivel de destrezas de un DBA clásico, deberá extenderse
para ser competitivo con estas nuevas tendencias de integraciones.
Oracle Big Data Discovery: Análisis exploratorio y descubrimiento de

información.
Big Data está revolucionando la manera en cómo las instituciones almacenan, organizan y analizan los
datos. Los sistemas tradicionales de BI y los modelos de datos no son suficientes ante la generación
sin precedentes de datos que hoy en día se generan dentro y fuera de las instituciones. Los datos se
están convirtiendo en capital y cada día emerge más el mercado de datos donde empresas e
instituciones que están haciendo Big Data están tomando ventaja de ello. La pregunta es, ¿de qué
manera puedo potencializar el uso de Big Data y asegurarme que un proyecto de esta magnitud sea
exitoso? Cómo buscar entre ese lago de datos; cómo explorar la información de una manera ágil y
entendible; cómo transformarla en tiempo récord; cómo detectar y encontrar hallazgos que generan
valor; cómo poder compartir todos los hallazgos con mis colegas.
Actualmente, aproximadamente el 80% de la información en el mundo es información no estructurada

(información que por su naturaleza no está almacenada en bases de datos o que está basada en texto:
nombres de personas, direcciones postales, narraciones, posts de redes sociales, información externa,
etc.). Incluso, ese 80% va en aumento con el auge del Internet de las Cosas (IoT). El 20% restante
es información que se analizada con soluciones tradiciones de Inteligencia de Negocios (BI), para tomas
de decisiones ejecutivas. Sin embargo, las instituciones requieren expandir su nivel de análisis
explorando la información semi y no estructurada que no está siendo explotada y que brinda un valor
agregado para las instituciones, ampliando hasta cuatro veces su nivel de análisis.
Uno de los grandes retos a los que se enfrentan las instituciones tiene que ver con la diversidad de la
información. Hoy en día, además de almacenar información en bases de datos, las instituciones están
almacenando y generando información en diferentes formatos, tales como archivos planos, redes
sociales, logs, archivos sin estructura, entre otros. Además, el poder tener una visión holística de la
diversidad de la información es un reto que se ha visto mermado con las tecnologías de Big Data.
Oracle Big Data Discovery (BDD) es una solución que permite analizar cualquier fuente de datos
(almacenada en un depósito de datos de hadoop), basada en texto para estructurarla, encontrar
patrones, análisis de sentimientos, búsquedas avanzadas y tener un punto único de la verdad para
temas exploratorios. A diferencia de un BI tradicional, BDD no requiere un modelo de datos ni está
basado en un esquema estrella, lo que minimiza el tiempo de estructuración y ayuda a agilizar los
tiempos de integración y explotación. La diferencia con un reporteador de datos es que BDD está
integrado y hace uso de una infraestructura de Big Data basada en Hadoop, sacando el mayor de los
8
beneficios de todas las herramientas de Big Data pero a través de una interfaz fácil, amigable y cien
por ciento pensada en usuarios de análisis no expertos en Big Data ni en ninguno de sus componentes.
BDD es la solución que hace accionable proyectos de Big Data para todas las áreas usuarias de las
instituciones. BDD es La Cara Visual de Hadoop.
Antes de BDD, los proyectos de Big Data tomaban meses o incluso años para poder obtener valor de
lainformación. Era complejo poder integrar la información y después procesarla para tener entregables
usables para los tomadores de decisión. Se necesitaba contar con personal especializado que era
escaso y costaba una fortuna. Era inimaginable que un usuario final pudiera trabajar en Big Data, pues
tenía que depender de un científico de datos el cual era experto en tecnología, pero no en los datos.
Esa brecha era un impedimento y los usuarios tenían que conformarse esperando a que los científicos
de datos les prepararan los informes que les pedían. Luego, los reporteadores comenzaron a tener
conectividad a Hadoop pero cuando un usuario requería hacer algún tratamiento de los datos o agregar
más información volvía a depender del tiempo del científico para llegar a su objetivo. Los reporteadores
apenas eran la punta del iceberg y se gastaban el 80% del tiempo en preparar e integrar y sólo el 20%
en analizar. Con BDD esa brecha se ha roto y los usuarios ya pueden hacer uso de las inversiones de
Big Data sin depender de personal especializado y gastando sólo el 20% del tiempo en preparar, cargar
y transformar, y el 80% del tiempo en analizar, permitiéndoles obtener mayores hallazgos y hablar
más de cerca con sus propios datos.
BDD está pensado para usuarios no expertos en tecnologías de Big Data. Existen cinco pasos principales
que se pueden ejecutar con BDD: buscar, explorar, transformar, analizar y compartir.
Buscar: en el mundo de Big Data existe una vasta cantidad de fuentes de información, conocidas en
BDD como Data Sets. Un Data Set puede ser una tabla de una base de datos, una vista, un archivo
plano, una red social o un file system. Cada una de estas fuentes se integran al depósito de Big Data
(HDFS: Hadoop Distributed File System), a través de diversos mecanismos (FTP, ETL, cargas con
herramientas nativas de Big Data o a través de un mecanismo de auto servicio que tiene BDD). Una
vez que la información está en el HDFS los Data Sets se indexan y en ese momento estarán disponibles
para utilizarse en BDD. Como en el HDFS se pueden tener cientos o miles de Data Sets, es necesario
un mecanismo para buscarlos rápidamente. Es ahí donde entra la Búsqueda, porque cada Data Set
tiene un nombre y unas etiquetas asociadas al mismo, lo que hace que el usuario o el personal de TI
pueda buscar fácilmente el Data Set con el que se quiera trabajar.
9
Explorar: típicamente en Big Data no se sabe qué información tienen los Data Sets. Es por eso que la
integración de los mismos no representa una tarea ardua como en caso de un BI tradicional. La idea
de Big Data es subir la fuente como viene, sin preocuparse de la cantidad de registros, columnas,
formatos, limpieza de datos. La parte de Explorar en BDD da una visión detallada de cada uno de los
atributos del Data Set para tener presente con qué tipo de información se cuenta y con cuáles atributos
se puede trabajar para sacar mayor jugo de la información no conocida. Es este paso donde empieza
la exploración de los datos permitiendo cruzar columnas para comenzar a tener respuestas de la
información.
Transformar: el 95% de los casos los Data Sets requieren ser transformados para tener la información
que realmente se requiere obtener. BDD cuenta con todo un apartado para poder manipular los datos.
Algunas de las tareas que se pueden hacer es: eliminar atributos; agregar atributos nuevos como
resultado de uno o varios atributos; cambiar tipos de datos; obtener temas de interés basados en
atributos de texto; análisis de sentimiento; generación de atributos geoespaciales; configuración de
atributos buscables; generar atributos basados en expresiones regulares; identificación de nombres de
personas; obtención de entidades basadas en fechas; operaciones aritméticas entre atributos;
transformaciones básicas de texto: split, concatenar, mayúsculas, minúsculas; obtención de entidades
10
configuradas por el usuario; más de 100 funciones disponibles para transformar, además, de poder
agregar programas en Python para transformaciones avanzadas. La ejecución de una o varias
transformaciones hace uso de la infraestructura completa de Big Data a través de Spark, minimizando
tiempos de ejecución y maximizando el uso del clúster de Big Data.
Descubrir/Detectar: el valor de la información siempre es más fácil de entenderse con componentes

visuales e interactivos. En este paso los usuarios pueden navegar los datos preparados previamente
para responder preguntas no planificadas atreves de clicks. Los datos comenzarán a darnos respuestas
a través de mapas, líneas de tiempo, gran diversidad de gráficas, nubes de etiquetas, histogramas,
tablas, métricas, entre otros objetos más. El usuario también tiene la capacidad de hacer búsquedas
de texto sobre los atributos buscables, potencializando la consulta de información no estructurada y
obteniendo datos escondidos entre los datos. Todos los componentes están entrelazados y la
navegación de los datos parte del universo completo hasta llegar a la causa-raíz de una posible
pregunta (navegación multifacética).
11
Compartir: BDD es conocido también como un Laboratorio de Datos de Big Data (Data Lab). El objetivo
de una Data Lab es encontrar hallazgos sobre el cúmulo de información de Big Data a través de
Samples. Un Sample es la mejor muestra posible de los Data Sets cuando estos tienen más de un
millón de registros. BDD se encarga de generar ese Sample de una manera inteligente, no sólo el
primer millón de registros. Se convierte en un tema estadístico, de tal forma que el Sample de 1M de
registros obtenido por BDD representa la misma tendencia si explotáramos 1,000M de registros. En la
parte de Compartir, el usuario basado en los hallazgos puede crear una historia o incuso puede regresar
al HDFS el conjunto de datos del cual haya hecho un hallazgo, o puede compartir hallazgos desde los
componentes visuales con sus colegas. Esto hace que el trabajo sea colaborativo y haya diversos
frentes explotando los mismos o diferentes data sets.
BDD se ha convertido en el componente con el que las áreas de negocio se sienten confortables para
trabajar proyectos de Big Data. Los científicos de datos pueden seguir trabajando sus algoritmos
avanzados en una infraestructura de Big Data y, al mismo tiempo, los usuarios pueden estar trabajando
con sus datos enfocándose en su operación y sacando el mayor provecho de los datos para beneficio
de las instituciones, para obtener hallazgos inimaginables, para poder compartir o vender información
basada en sus datos o incluso hacer alianzas con otras instituciones para cruzar y correlacionar todos
los datos posibles y generar inteligencia basada en exploración y descubrimiento. BDD se está
convirtiendo en el componente que da valor a un proyecto de Big Data, que hace tangible un proyecto
de Big Data y sobre todo hace que los proyectos de Big Data dejen de ser ficción y se conviertan en la
realidad que hoy en día nos acecha. Esto es Oracle Big Data Discovery.
12

Big Data: qué es y para qué sirve

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data: qué es y para qué sirve

Cargado por

Copyright:

Formatos disponibles

¿Qué es Big Data y para qué sirve?

Las cinco “Vs” del Big Data

Tipos de Big Data

Para qué sirve el Big Data en las empresas

Ejemplos reales de qué es Big Data y para qué sirve

Herramientas para poner en práctica lo que es Big Data y para qué

4 pasos clave para subirse al Big Data

Los retos del Big Data

Big Data: Oracle & Hadoop

Soluciones ORacle & Hadoop

Listemos acá soluciones y productos que integran a Oracle & Hadoop:

Oracle Big Data Appliance

Oracle NoSQL Database

Oracle Data Integrator Enterprise Edition

Oracle Loader for Hadoop

Oracle Big Data Discovery: Análisis exploratorio y descubrimiento de

Actualmente, aproximadamente el 80% de la información en el mundo es información no estructurada

Descubrir/Detectar: el valor de la información siempre es más fácil de entenderse con componentes

También podría gustarte