Big Data

Kathleen Agurto Nima
INTRODUCCIÓN
Todo quehacer humano está generando gran cantidad de datos: A través de

internet, redes de sensores, aplicaciones informáticas desde computadores y
dispositivos móviles, transacciones comerciales de cualquier tipo,
crowdsourcing. Este volumen de datos, creciente y variado, puede contener
información valiosa para otras personas y organizaciones, y aunque desde los
inicios mismos de la computación se ha lidiado con el descubrimiento y
aprovechamiento de esta información para la toma de decisiones, en la
actualidad las técnicas y tecnologías tradicionales ya no son suficientes para
este fin. Debido a las anteriores razones han surgido nuevas ciencias cuyo
objetivo son los datos, sus características y las formas de manipulación. El Big
Data o datos masivos es el concepto que se impone al hablar de esta gran y
creciente cantidad de datos; la literatura se refiere al big data en términos de
“Las tres V’s”: Volumen de datos, Variedad de tipos y Velocidad de crecimiento.
En el estudio de IDC (International Data Corporation) de 2013, se pronostica que
las tecnologías de Big Data y el mercado de los servicios asociados hacia el año
2017 habrá crecido a una tasa seis veces más grande que todo el mercado de
TIC, ofreciendo una gran cantidad de oportunidades para suplir esta gran
demanda. Las aplicaciones del análisis de Big Data son tan diversas como
inteligencia de negocios (Business Intelligence), internet de las cosas (Internet
of Things), ciudades inteligentes (Smart cities), Smart grids, Inteligencia
colectiva (Collective Intelligence), entre otras.
1
DATA SCIENCE Y BIG DATA

Data Science es un nuevo concepto, que en español podría ser traducido como
“Ciencia de los Datos”. El término Ciencia, según Heilbron, significa
conocimiento obtenido por medio de un estudio sistemático; implica que el
conocimiento se construye y organiza en forma de explicaciones comprobables
y permite hacer predicciones. Para el mismo autor, Data Science es el estudio
sistemático de los datos, que implica su organización, propiedades, su análisis
y su poder de inferencia; la existencia de Data Science se justifica en el hecho
de que los datos, su objeto de estudio, son cada vez más heterogéneos y no
estructurados, de tipos cada vez más complejos, como texto, imágenes, videos,
entre otros. Data Science se puede definir como un área de trabajo que se refiere
a la recolección, preparación, análisis, visualización, administración y
preservación de grandes cantidades de información y, a menudo, se confunde
con otros conceptos relacionados, como Big Data y Toma de Decisiones guiadas
por datos (Data-Driven Decision Making). Data Science brinda un marco de
referencia para la extracción de información útil de los datos, de forma
sistemática junto con una colección de herramientas y de principios que pueden
ser utilizados para extraer conocimiento de grandes volúmenes de datos y tomar
decisiones basadas en datos, con énfasis en predicciones, recomendaciones y
descubrimientos.
El crecimiento en cantidad y diversidad de los datos ha llevado a que los
conjuntos de datos sean tan grandes que se dificulta su manejo por medio de
herramientas convencionales; a estos conjuntos se les conoce como Big Data:
Gran cantidad de registros (Entradas), gran variedad de tipos de clases
(Salidas), alta dimensionalidad (Atributos). A partir de ello, se han desarrollado
nuevos métodos de data science y nuevas aplicaciones, como el análisis
predictivo; se denomina DPB a la confluencia de los conceptos Data Science,
Predictive Analytics y Big Data. También influye en la “revolución” del Big Data
el aumento significativo en la potencia de los computadores, la ubicuidad de
procesamiento y almacenamiento, el incremento en la producción de contenidos
digitales y la movilidad.
El analista de datos Doug Laney, considera tres características claves de los
datos hoy en día, es decir, del Big Data: Volumen, Velocidad y Variedad (Tres
V’s).
- Volumen se refiere a gran cantidad de datos.
- Velocidad por la rapidez con que llegan los datos y la rapidez con que
pierden vigencia y,
- Variedad porque hay muchos tipos de datos diferentes y cada vez más
complejos.
Se consideran dos características más: Complejidad y Valor.
- La Complejidad se debe a la correlación entre datos provenientes de
varias fuentes y
- El Valor hace referencia a la relevancia de los datos y la información
para el negocio.
Las Tecnologías de Big Data se definen como aquellas que describen una nueva
generación de tecnologías y arquitecturas diseñadas para extraer valor de
2
grandes volúmenes de datos de una amplia variedad, permitiendo alta velocidad

de captura y análisis
A. Arquitectura de Big Data
La definición dada por ANSI/IEEE 1471/2000 para el concepto de Arquitectura
es el siguiente: “Organización fundamental de un sistema, incorporado en sus
componentes, la relación entre ellos y su entorno, y los principios que gobiernan
su diseño y evolución”. Más allá de esta definición, una arquitectura debe guiar
la implementación, operación, administración y mantenimiento del sistema.
La construcción de una arquitectura requiere de un marco de trabajo o
framework diseñado para este fin, el cual especifica una taxonomía específica
para el dominio, métodos, guías y las mejores prácticas para que incorporen
aspectos relevantes, como regulación y estándares.
Una arquitectura de información provee un marco de trabajo para tratar de forma
consistente e integrada con la tecnología para garantizar información confiable
que un negocio requiere. Identifica los componentes de información del entorno
TI de una organización y define su relación con sus objetivos. También, una
arquitectura de información describe los principios de implementación de
soluciones de TI, cómo los datos y la información deben ser gobernados y
compartidos dentro de la empresa y que sea relevante para el negocio [12].
Una buena práctica para la organización que desea implementar Big Data es
adoptar un enfoque de arquitectura empresarial, que permita transformar estas
iniciativas para mantener la alineación con el negocio y maximizar el retorno de
la inversión que en ella se hace. A continuación, se plantean algunas
dimensiones claves para los proyectos de big data en las organizaciones, que
deben enfrentar los arquitectos empresariales:
TABLA 1 – DIMENSIONES CLAVES PARA LOS PROYECTOS DE BIG

DATA
AREA DIMENSIÓN
Intención del negocio: Cómo se utilizarán los
datos para mejorar el negocio.
Uso de los datos: Qué procesos del negocio se
Contexto del negocio
benefician
Propiedad de los datos: Necesidad de apropiarse
de los datos.
Alimentación de datos: Características de captura
de datos y respuesta del sistema.
Almacenamiento de datos: Tecnologías de
almacenamiento apropiadas para el reservorio de
datos.
Visión de la Procesamiento de datos: Estrategia práctica para
arquitectura las aplicaciones basadas en big data
Desempeño: Cómo maximizar la velocidad de las
consultas, las transformaciones de datos y el
modelamiento analítico
Latencia: Cómo minimizar la latencia entre los
componentes operacionales claves
3
Análisis y descubrimiento: Donde se requiere

llevar a cabo el análisis de datos
Seguridad: Donde se necesita asegurar los datos
Experiencia con datos no estructurados: Se está
haciendo algún tipo de procesamiento a los datos
no estructurados.
Consistencia: Se utilizan prácticas estandarizadas
de calidad y gobernanza de datos
Estado actual del Big
Experiencia con tecnologías y herramientas de big
Data en la
data:
organización
Nivel de conocimiento y aplicación de ellas
Habilidades en análisis de datos: Personal
científico de datos y analistas familiarizados con
técnicas y herramientas avanzadas para análisis
de datos.
Mejores prácticas: Los mejores recursos para
guiar la decisión de construir el estado futuro.
Tipos de datos: Cantidad de transformación
Estado futuro del Big requerida para los datos no estructurados en los
Data en la reservorios de datos.
organización Fuentes de datos: Frecuencia de cambio de las
fuentes o estructuras de datos
Calidad de datos: En qué momento aplicar las
transformaciones
Prueba de concepto
Adquisición de habilidades en tecnologías y
Mapa de ruta
herramientas
Adquisición de habilidades en análisis de datos
Fuentes de datos en la nube: Garantizar la
confiabilidad de estas fuentes de datos.
Calidad de datos: Depuración y enriquecimiento
de datos no estructurados y frecuencia de revisión
Gobernanza
y actualización de las estructuras de datos.
Políticas de seguridad: Adaptación de las políticas
de seguridad a los nuevos requerimientos de big
data.
B. Modelado de Big Data

Como consecuencia del crecimiento en el volumen de datos que implica Big
Data, los modelos tradicionales de bases de datos relacionales tienen el reto de
capturar, almacenar, buscar, compartir, analizar y visualizar los datos. La
tendencia actual para muchas empresas de tecnología informática es utilizar
bases de datos NoSQL (Not Only SQL), las cuales permiten manipular datos que
no tienen una estructura definida (Es decir, datos no estructurados).
Las bases de datos no relacionales o NoSQL pueden ser clasificadas según la
forma como organizan los datos:
 Clave-Valor (Key-Value): Almacena una clave o identificador y el objeto
(De cualquier tipo, simple o complejo) o valor asociado a ella. No requiere
un esquema de almacenamiento fijo.
 Documentales: Permiten un tipo de almacenamiento más complejo que
4
los clave-valor, el uso de índices secundarios y objetos en varios niveles.

Soporta datos sin esquema y semi-estructurados.
 Grafos (Graph Store): La base de datos se representa con un grafo,
dirigido y etiquetado, donde los nodos hoja representan datos y los nodos
internos representan la conexión entre ellos. Se utilizan cuando es tanto
o más importante mostrar la interconectividad que los datos en si.
 Bases de datos en columna (Column-oriented data base): Los datos se
almacenan en orden de columnas, no en orden de filas como en las bases
de datos tradicionales.
Se considera que el modelo de big data es una capa abstracta que se utiliza
para gestionar los datos almacenados en dispositivos físicos; provee una forma
visual de manejar los recursos de datos y permite crear una arquitectura de
datos que permita reducir costos computacionales y reusar dichos datos. La
capa de modelo de big data se encuentra entre la capa física (Donde están
almacenados los datos) y la capa de aplicaciones (Donde se hace uso de los
datos). La propuesta de es construir modelos híbridos, integrando submodelos
NoSQL dentro de modelos relacionales.
METODOLOGÍAS EXISTENTES PARA EL DESARROLLO DE

APLICACIONES CON BIG DATA
La combinación de las tecnologías de Big Data, el análisis predictivo y Open
Data se han convertido en la evolución de la Inteligencia de Negocios. Han
surgido productos y metodologías y marcos de trabajo (frameworks) para big
data, tanto de código abierto como comerciales, así como plataformas de
análisis de datos como servicio; las organizaciones deben elegir componentes
de entre esta oferta para ajustarlos a sus proyectos de big data.
Big data es un movimiento tecnológico cuya adopción por parte de las empresas
u organizaciones requiere especial atención debido a su importancia estratégica
para el negocio. La tecnología que soporta Big Data evoluciona rápidamente y
toma tiempo su maduración; además, el uso efectivo de Big Data requiere que
se comprenda que, a diferencia de otras tecnologías que ayudan a resolver
problemas, ésta ayuda a encontrar los problemas; el análisis de Big Data es
mucho más complejo que el análisis tradicional de datos. El diseño de sistemas
de análisis de Big Data requiere atender ciertos principios:
 Se requieren arquitecturas de alto nivel y frameworks apropiados.
 Las aplicaciones de big data deben soportar una variedad de métodos
analíticos.
 No existen soluciones que se ajusten a todos los problemas.
 El análisis de datos debe estar donde están los datos (En big data, el
almacenamiento de datos debe ser distribuido).
 El procesamiento de análisis debe llevarse a cabo en memoria (In-memory
analytics).
 La coordinación entre las unidades de almacenamiento y las unidades de
datos es necesaria para que el sistema sea eficiente y con alta tolerancia
a las fallas.
Se propone que una empresa comience con proyectos de big data de pequeña
escala, para entender la tecnología y las áreas del negocio que pueden
5
beneficiarse; sin embargo, proyectos mayores requieren un marco de trabajo

estructurado.
Un proceso y marco de trabajo diferente para la adopción de Big Data y su
alineación con el negocio consiste en la construcción de un documento, tan
conciso que ocupa una sola página, pero donde se consigna la estrategia de
negocio que se pretende abordar con Big Data y debe contener los siguientes
puntos: Estrategia de negocio (Business Strategy), Iniciativas de negocio
(Business Initiatives), Resultados esperados (Outcomes) y Factores críticos de
éxito, Tareas (Tasks) y Fuentes de datos (Data sources)
Un “mapa de ruta” para proyectos de Big Data consta de tres grandes fases:
Elaboración de la estrategia global, Implementación del proyecto y Post-
implementación.
Una metodología diseñada para que las organizaciones estructuren la
introducción del Big data a sus procesos, la cual consta de tres etapas
generales:
- Desarrollar ideas para el uso de Big Data, desde alguna de estas dos
perspectivas: Cómo la tecnología puede apoyar el negocio existente y
cubrir sus necesidades (Enfoque “Business First – BF”), o como la
tecnología puede abrir nuevas oportunidades de negocio (Enfoque “Data
First – DF”);
- Evaluar estas ideas con respecto a su valor potencial, así como los
cambios necesarios en la arquitectura empresarial de las
organizaciones;
- Implementarlas coherentemente en el negocio.
Los esfuerzos en investigación en temáticas de Big Data se centran mayormente
en infraestructura y analíticas, subestimando el desarrollo de software para este
tipo de aplicaciones.
Se puede observar que las diversas propuestas hacen énfasis en varios
aspectos que se deben tener en cuenta en proyectos de Big Data, pero ninguna
los abarca a todos: Aspectos gerenciales, donde se identifican las necesidades
y disposición organizacionales respecto al uso y beneficios del big data;
aspectos arquitectónicos, donde se establecen los componentes de hardware y
software necesarios para la gestión integral de los datos y las analíticas;
aspectos relativos a la integración con los diversos sistemas de información de
la organización y la seguridad de los datos; aspectos relacionados con la
ingeniería del software, de tal forma que el desarrollo de aplicaciones basadas
en big data tenga en cuenta sus particulares características y saque su mayor
provecho.
6
METODOLOGÍA PROPUESTA PARA LA ADOPCIÓN DEL BIG

DATA EN UNA ORGANIZACIÓN
La metodología para desarrollo de aplicaciones basadas en Big Data pretende
integrar una metodología integral, que abarque aspectos de planeación de la
adopción de Big Data en la organización, una visión arquitectónica del negocio,
una arquitectura tecnológica que involucre los aspectos técnicos de Big Data y
del desarrollo de software y un modelo de madurez.
La metodología propuesta consta de las fases que se muestran en la figura 1,
dispuestas de forma cíclica, pues es su naturaleza ser un proceso iterativo e
incremental.
Para cada fase, se explica a continuación su definición y los productos que se

deben generar:
1. Gestión de Requisitos: Identificación y especificación de los requisitos que
deben ser implementados en una aplicación basada en Big Data. Es la fase
central del modelo, dado que el proceso total es cíclico: en cada nueva
iteración se deben analizar los requisitos: Productos: Historias de Usuario,
Requerimientos funcionales, Requerimientos no funcionales.
2. Planeación Preliminar: Identificación de necesidades, beneficios y
capacidades para adoptar big data. Productos: Diagnóstico organizacional,
Alcance del Proyecto de Big Data, Identificación de activos de datos.
3. Contexto del Negocio: Definición de los procesos del negocio y la
estrategia de big data apropiada para ellos. Productos: Estrategia del
Negocio, Identificación y especificación de procesos del negocio,
Especificación de uso de datos para apoyar la estrategia del negocio.
4. Arquitectura del Negocio: Modelamiento del negocio. Producto:
Arquitectura del negocio
5. Arquitectura Tecnológica de Big Data: Identificación de las necesidades
tecnológicas de Big Data y diseño de los componentes de la arquitectura
tecnológica. Productos: Especificación de tipo y frecuencia de registro de
datos, Diseño de los repositorios de datos, Estrategia de integración de
datos, Especificación de requerimientos de analíticas, Identificación de
riesgos sobre los datos.
6. Alternativas de solución: Se identifican y analizan las diversas alternativas
de solución. Productos: Descripción de alternativas de solución, Evaluación
de las alternativas propuestas.
7. Hoja de Ruta: Plan de acción definitivo para la implementación de Big Data.
Producto: Hoja de Ruta.
8. Gobierno de Big Data: Se definen las políticas de gestión y gobierno de Big
Data. Producto: Lineamientos de gobierno de Big Data.
9. Gestión de cambios: Define el proceso de gestión de cambios de
cualquiera de los componentes del sistema de Big Data. Producto:
Proceso de Gestión de cambios.
7
Figura 1 - Fases de la metodología propuesta para desarrollo de

aplicaciones basadas en Big Data
La Arquitectura de Big Data se diseña basada en capas, de la siguiente forma:

 Infraestructura: Componentes de hardware y soporte para bases de datos
(Estructuradas o no) y de big data (Tecnologías basadas en Hadoop, por
ejemplo).
 Data: Obtención, depuración, integración y transformación de datos
provenientes de múltiples fuentes.
 Big data y Data Warehouse: Almacenamiento especializado de los datos
integrados, transformados y sumarizados, aptos para someterlos a procesos de
análisis de diversos tipos.
 Analíticas de Big Data: Componentes para el análisis de datos.
 Arquitectura del negocio: Capa de integración entre el sistema de Big Data
y los usuarios finales.
Sobre la anterior arquitectura se establece una metodología de desarrollo de
software (Basada en metodologías ágiles) para la construcción de aplicaciones
que exploten los recursos de big data y sus analíticas; transversalmente, se
contemplan los aspectos de Gestión y Gobierno de datos y Seguridad, de tal
forma que se garantice la calidad y confiabilidad de los mismos.
El modelo de madurez es un instrumento que permite valorar el estado actual
de la Arquitectura de Información como resultado previo y posterior de la
aplicación sistemática de la metodología, de alguna manera intenta establecer
el AS- IS (Estado actual) y el TO-BE (Estado deseado) de una manera
cuantitativa, así como también definir las estrategias para ascender dentro del
mismo modelo.
El modelo de madurez de capacidad MM4BG está inspirado en el modelo ISO
15504.
8
Tabla 2- NIVELES DEL MODELO DE MADUREZ
Descripción
No se lleva a cabo (0 - 15%) Parcialmente se hace
NIVEL (>15% - 50%)
Lleva a cabo (>50%- 85%)
Completamente (>85% - 100%).
Los datos, la información y el conocimiento están
dispersos, Se gestionan silo de información, no hay
0. Incompleto integración de datos, alto nivel de dispersión,
esfuerzos heroicos individuales, No hay procesos
documentados, ni se repiten.
Los datos, la información y el conocimiento soportan
el nivel operacional de los sistemas de información
Hay bajo desarrollo de las capas de procesos,
1. Ejecutado. aplicaciones información e infraestructura dentro de
la arquitectura Información
Algunos de los procesos de datos son documentados
y repetibles.
el nivel de gestión del negocio y soportan el nivel
operacional de los sistemas de información.
2. Gestionado. Están desarrolladas las capas de procesos,
aplicaciones información e infraestructura dentro de
la arquitectura. Los procesos de datos son
documentados y repetibles
el nivel de gestión del negocio, el nivel estratégico y
el nivel operacional del negocio.
Existe un conjunto de procesos establecidos,
3. Establecido.
desplegados y comunicados.
Los procesos de datos son documentados y
repetibles y
continuamente mejorados ya que se pueden medir
Los datos, la información y el conocimiento como
activo de innovación:
Los procesos de datos son documentados y
4. Predictible repetibles y continuamente mejorados. Hay una
consistencia entre la gestión de los datos, las LOB,
las estrategias y los
objetivos del negocio
Los datos, la información y el conocimiento como un
elemento diferenciador
La organización continuamente redefine sus
5. Optimizado capacidades, se cuentan con sistemas de BI,
Ontologías, Repositorios, Mashup y soportan
ampliamente las LOB.
Todo enmarcado dentro de una AIE consistente.

Big Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data

Cargado por

Copyright:

Formatos disponibles

Kathleen Agurto Nima

Todo quehacer humano está generando gran cantidad de datos: A través de

DATA SCIENCE Y BIG DATA

grandes volúmenes de datos de una amplia variedad, permitiendo alta velocidad

TABLA 1 – DIMENSIONES CLAVES PARA LOS PROYECTOS DE BIG

Análisis y descubrimiento: Donde se requiere

B. Modelado de Big Data

los clave-valor, el uso de índices secundarios y objetos en varios niveles.

METODOLOGÍAS EXISTENTES PARA EL DESARROLLO DE

beneficiarse; sin embargo, proyectos mayores requieren un marco de trabajo

METODOLOGÍA PROPUESTA PARA LA ADOPCIÓN DEL BIG

Para cada fase, se explica a continuación su definición y los productos que se

Figura 1 - Fases de la metodología propuesta para desarrollo de

La Arquitectura de Big Data se diseña basada en capas, de la siguiente forma:

Tabla 2- NIVELES DEL MODELO DE MADUREZ

También podría gustarte