Está en la página 1de 8

The Big Data

José Adrián Castillo Sierra

1. Introducción un problema de Big Data; las soluciones que se crearon


y diseñaron para poder procesar y tratar un análisis
A dı́a de hoy las decisiones basadas en la información computacional, estadı́stico o matemático sentaron las bases
están cambiando la forma en la que se solı́a operar para poder lidiar con los petabytes de información que son
una organización tradicionalmente. Ya sea una empresa, el problema actual de Big Data.
institución gubernamental o grupo religioso; diariamente
se recaudan grandes cantidades de información, obtenidas Obviamente el beneficio obtenido por el procesamiento,
de fuentes distintas y almacenadas en distintas maneras, estudio y transformación de estas cantidades de datos son
lugares y formatos. enormes; desde su uso para optimización de tiempos en
operaciones, brindar mayor inteligencia de negocio, encon-
Si tratáramos de procesar de la misma manera todos trar nuevos mercados, búsqueda de patrones y tendencias, y
los datos ignorando sus formatos, volúmenes y calidad, finalmente la que provoco el inicio de esta tendencia, tomar
obtendrı́amos solo resultados negativos, en cuanto a la mejores y más informadas decisiones.
veracidad del conocimiento que podrı́amos obtener de ella.
2.1. Caracterı́sticas del Big Data
A este conjunto de información almacenada en distintas
maneras, lugares y formatos es a lo que coloquialmente se Para que un conjunto de datos se considere Big Data,
le conoce como Big Data. debe poseer una o más caracterı́sticas que requieran
adaptaciones en el diseño de la arquitectura del entorno
2. ¿Qué es el Big Data? analı́tico. La mayorı́a de estas caracterı́sticas de datos
fueron identificadas Doug Laney a principios de 2001
El Big Data es un campo dedicado al análisis, cuando publicó un artı́culo que describı́a el impacto del
procesamiento y almacenamiento de grandes volúmenes de volumen, la velocidad y la variedad de datos de comercio
datos que con frecuencia se originan en fuentes distintas. electrónico en los centros de datos empresariales.
El uso de soluciones y prácticas de Big Data generalmente
se requieren cuando las tecnologı́as y técnicas tradicionales
de análisis, procesamiento y almacenamiento de datos son 2.1.1. Volumen. Una solucion de Big Data debe de anticipar
insuficientes. Especı́ficamente, Big Data aborda distintos procesar grandes cantidades de datos que solo se continuen
requisitos, como la combinación de múltiples conjuntos acumulando. Debido al alto volumen, se deben de utilizar
de datos no relacionados, el procesamiento de grandes formas distintas de almacenamiento y procesamiento, ası́
cantidades de datos no estructurados y la recolección de como formas distintas de preparar y manejar estos procesos.
información oculta de manera sensible al tiempo.
Este volumen de datos puede ser generado de distintas
Aunque parezca que el Big Data es una nueva disciplina, maneras, como pueden ser:
esta lleva en desarrollo muchos años. El procesamiento • Transacciones de ERP’s, puntos de venta y transac-
y análisis de grandes cantidades de fuentes de datos ha ciones bancarias.
sido un gran problema desde hace muchos años. Desde • Experimentos de investigación cientı́fica.
problemas para el calculo de las hipotecas y rendimientos • Sensores, gps y sistemas del internet de las cosas.
en fondos de retiros hasta el procesamiento y análisis de • Redes sociales como Facebook y Twitter.
los censos.
2.1.2. Velocidad. La información puede ser producida a
El análisis del Big Data es un campo multidisciplinario altas velocidades, y los datasets pueden crecer en pocos
en el cual se combinan las matemáticas, la estadı́stica, las periodos de tiempo. La velocidad en que los datos se
ciencias de la computación y la algoritmia. Las fronteras generan se traduce en la cantidad de tiempo que toma en
de que es y que forma parte del Big Data cambian ser procesada una vez entra al almacenamiento.
constantemente debido a la evolución tanto de software
como de hardware que ha existido en los últimos años. Copiar, procesar y limpiar la información a una buena
Hace diez años un gigabyte de información era considerado velocidad requiere de procesos y técnicas modernas de
consulta y replica. Tales pueden ser como streaming de en respuesta a eventos del mundo real. Por ejemplo, un
datos utilizando Kafka, replica binaria de bases de datos sistema de punto de venta genera una transacción contra
y herramientas de consulta como elastic search o Redshift. el inventario para reflejar los artı́culos comprados por un
cliente. Desde una perspectiva de hardware, un ejemplo
2.1.3. Variedad. La variedad de los datos se refiere a los de datos generados por máquinas serı́a la información
múltiples formatos y tipos que una solución de Big Data transmitida desde los numerosos sensores en un teléfono
debe de procesar. Esto suele ser un gran reto para la mayorı́a celular incluida la posición y los pasos que su usuario ha
de equipos de BI debido a los procesos de transformación, dado en el transcurso del dı́a.
procesamiento y almacenamiento.
Los datos generados por humanos y generados por
2.1.4. Veracidad. La veracidad se refiere a la calidad o máquinas pueden provenir de una variedad de fuentes y
fidelidad de los datos. Es necesario evaluar la calidad de representarse en varios formatos o tipos, los principales tipos
los datos que ingresan a los entornos de Big Data, lo que de datos son:
puede conducir a actividades de procesamiento de datos
para resolver los datos no válidos y eliminar el ruido. En • Estructurada.
relación con la veracidad, los datos pueden ser parte de la • Sin Estructura.
señal o del ruido de un conjunto de datos. El ruido son • Semi Estructurada.
datos que no se pueden convertir en información y, por lo
tanto, no tienen valor, mientras que las señales tienen valor 2.2.1. Estructurada. Los datos estructurados se ajustan a
y conducen a información significativa. Los datos con una un modelo o esquema de datos y, normalmente, se alma-
alta relación señal-ruido tienen más veracidad que los datos cenan en forma tabular. Se utiliza para capturar relaciones
con una relación más baja. Los datos que se adquieren de entre diferentes entidades y se almacena con mayor frecuen-
manera controlada, por ejemplo, a través de registros de cia en una base de datos relacional. Los datos estructurados
clientes en lı́nea, generalmente contienen menos ruido que son generados con frecuencia por aplicaciones empresariales
los datos adquiridos a través de fuentes no controladas, como y sistemas de información como los sistemas ERP y CRM.
publicaciones en redes sociales. Por lo tanto, la relación Debido a la gran cantidad de herramientas y bases de datos
señal-ruido de los datos depende de la fuente de los datos que aceptan datos estructurados, rara vez requieren una
y de su tipo. consideración especial en lo que respecta al procesamiento
o almacenamiento.
2.1.5. Valor. El valor se define como la utilidad de los
datos para una empresa. La caracterı́stica de valor está 2.2.2. Sin Estructurada. Los datos que no se ajustan a
intuitivamente relacionada con la caracterı́stica de veracidad un modelo de datos o esquema de datos se conocen como
en el sentido de que cuanto mayor sea la fidelidad de los datos no estructurados. Los datos no estructurados tienden
datos, más valor tiene para el negocio. El valor también a crecer más rápido que los datos estructurados. Esta forma
depende de cuánto tiempo lleve el procesamiento de datos de datos es textual o binaria y, a menudo, se transmite a
porque los resultados analı́ticos tienen una vida útil; por través de archivos que son autónomos y no relacionales.
ejemplo, una cotización de acciones con un retraso de Un archivo de texto puede contener el contenido de varios
20 minutos tiene poco o ningún valor para realizar una tweets o publicaciones de blog. Los archivos binarios
operación en comparación con una cotización que tiene 20 suelen ser archivos multimedia que contienen datos de
milisegundos de antigüedad. Como se demostró, el valor y el imagen, audio o vı́deo. Técnicamente, tanto los archivos de
tiempo están inversamente relacionados. Cuanto más tarden texto como los binarios tienen una estructura definida por
los datos en convertirse en información significativa, menos el propio formato del archivo, pero este aspecto se pasa por
valor tendrán para una empresa. Los resultados obsoletos alto y la noción de no estar estructurados está relacionada
inhiben la calidad y la velocidad de la toma de decisiones con el formato de los datos contenidos en el propio archivo.
informada.
Por lo general, se requiere proceso único para
2.2. Tipos de Datos procesar y almacenar datos no estructurados. Los datos
no estructurados no se pueden procesar ni consultar
Los datos procesados por las soluciones de Big Data directamente mediante SQL. Si se requiere que se almacene
pueden ser generados por humanos o por máquinas, dentro de una base de datos relacional, se almacena
aunque, para estos últimos es responsabilidad de las en una tabla como un objeto binario grande mejor
máquinas generar los resultados analı́ticos. Los datos conocidos como BLOB’s, pero esto es muy raro que
generados por humanos son el resultado de la interacción se realice en la práctica. Alternativamente, una base de
humana con sistemas, como servicios en lı́nea y dispositivos datos NoSQL es una base de datos no relacional que
digitales. se puede usar para almacenar datos no estructurados
junto con datos estructurados. Un ejemplo de una Base de
Los datos generados por máquinas son generados Datos NoSQL puede ser MongoDb, DynamoDB o Firebase.
por programas de software y dispositivos de hardware
2.2.3. Semi Estructurada. Los datos semi estructurados en un datamart como una tienda de agua embotellada,
tienen un nivel definido de estructura y consistencia, limpia, empaquetada y estructurada para un consumo fácil,
pero no son de naturaleza relacional. Los datos semi el lago de datos es un gran cuerpo de agua en un estado
estructurados son jerárquicos o basados en gráficos. Este más natural. El contenido del lago de datos fluye desde
tipo de datos se almacena comúnmente en archivos que una fuente para llenar el lago, y varios usuarios del lago
contienen texto. Debido a la naturaleza textual de estos pueden venir a examinar, sumergirse o tomar muestras”.
datos y su conformidad con algún nivel de estructura, se
procesan más fácilmente que los datos no estructurados. La razón para poner los datos sin procesar a disposición
de los analistas es para que puedan realizar análisis
Los ejemplos de fuentes comunes de datos semi es- automático. El autoservicio ha sido una tendencia
tructurados incluyen hojas de cálculo y datos de sensores. importante hacia la democratización de los datos. Comenzó
Los datos semi estructurados a menudo tienen requisitos en el punto de uso con herramientas de visualización
especiales de preprocesamiento y almacenamiento, especial- como Tableau que permiten a los analistas analizar datos
mente si el formato subyacente no está basado en texto. Un sin tener que obtener ayuda de TI. La tendencia continúa
ejemplo de preprocesamiento de datos semi estructurados con herramientas de preparación de datos que ayudan
serı́a la validación de un archivo XML de una factura a los analistas a dar forma a los datos para análisis y
electrónica para garantizar que se ajusta a su definición de herramientas de catálogo que ayudan a los analistas a
esquema. encontrar los datos que necesitan y herramientas de ciencia
de datos que ayudan a realizar análisis avanzados. Para
3. Data Lakes análisis aún más avanzados, generalmente denominados
ciencia de datos, los cientı́ficos de datos también suelen
Con tanta variedad, volumen y velocidad, los antiguos hacer de un lago de datos su fuente de datos principal.
sistemas y procesos ya no pueden soportar las necesidades
de datos de la empresa. La veracidad es un problema aún Por supuesto, un gran desafı́o es el gobierno y la seguri-
mayor para el análisis avanzado y la inteligencia artificial, dad de los datos. Todos están de acuerdo en que los datos
donde el principio de ”basura que entra, basura que sale” deben mantenerse seguros. Existen polı́ticas de seguridad de
es aún más crı́tico porque es prácticamente imposible datos prescritas que deben implementarse y es ilegal dar a
saber si los datos eran malos y causaron malas decisiones los analistas acceso a todos los datos. Incluso en algunas
en estadı́sticas y modelos de aprendizaje automático o el industrias no reguladas, se considera una mala idea.
modelo era malo.
3.1. Madurez de un Data Lake
Para respaldar estos esfuerzos y abordar estos desafı́os,
se está produciendo una revolución en la gestión de datos Un Data Lake es un concepto nuevo, y normalmente
en torno a cómo se almacenan, procesan, gestionan y dependiendo del estado en el que se encuentra se definen
proporcionan los datos a los responsables de la toma de distintas etapas de vida de un Data Lake.
decisiones. La tecnologı́a de Big Data está permitiendo
una escalabilidad y una rentabilidad de órdenes de una • Data Puddle, charco de datos: es básicamente
magnitud mayor que la que es posible con la infraestructura un data mart de un solo propósito o de un solo
tradicional de gestión de datos. Procesos automáticos están proyecto creado con tecnologı́a de big data. Por
tomando el relevo de los enfoques laboriosos del pasado, en lo general, es el primer paso en la adopción de
los que ejércitos de profesionales de TI creaban almacenes la tecnologı́a de big data. Los datos en un charco
de datos y data marts bien administrados, pero tardaban de datos se cargan con el propósito de un solo
meses en realizar cualquier cambio. proyecto o equipo. Por lo general, es bien conocido
y entendido, y la razón por la que se utiliza la
Un Data Lake es un enfoque nuevo que aprovecha tecnologı́a de big data en lugar del almacenamiento
el poder de la tecnologı́a de Big Data y la combina con de datos tradicional es para reducir los costos y
la agilidad de procesos automáticos. La mayorı́a de las brindar un mejor rendimiento.
grandes empresas de hoy en dı́a han implementado o están
en proceso de implementar lagos de datos. • Data Pond, estanque de datos: es una colección
de charcos de datos. Puede ser como un almacén
La toma de decisiones basada en datos es importante. de datos mal diseñado, que en realidad es una
Desde la ciencia de datos, el aprendizaje automático y los colección de data marts colocados, o puede ser
dashboards en tiempo real, los responsables de la toma de una descarga de un almacén de datos existente. Si
decisiones exigen datos que les ayuden a tomar decisiones. bien los costos de tecnologı́a más bajos y la mejor
Estos datos necesitan un hogar, y el lago de datos es la escalabilidad son beneficios claros y atractivos,
solución preferida para crear ese hogar. El término fue estas construcciones aún requieren un alto nivel de
inventado y descrito por primera vez por James Dixon, participación de TI. Además, los data ponds limitan
CTO de Pentaho, quien escribió en su blog: “Si piensa los datos solo a los que necesita el proyecto y usan
esos datos solo para el proyecto que los requiere. con las aplicaciones asociadas a ellos, reciben el nombre
Dados los altos costos de TI y la disponibilidad de sistema de bases de datos, abreviado normalmente a
limitada de datos, los conjuntos de datos realmente simplemente base de datos.
no nos ayudan con los objetivos de democratizar el
uso de datos o impulsar el autoservicio y la toma Los datos de los tipos más comunes de bases de datos
de decisiones basada en datos para los usuarios en funcionamiento actualmente se suelen utilizar como
comerciales. estructuras de registros y columnas en una serie de tablas
para aumentar la eficacia del procesamiento y la consulta de
• Data Lake, lago de datos: es diferente de un datos. Ası́, se puede acceder, modificar, actualizar, controlar
estanque de datos en dos formas importantes. En y organizar fácilmente los datos. La mayorı́a de las bases
primer lugar, admite el autoservicio, en el que los de datos utilizan un lenguaje de consulta estructurada,
usuarios empresariales pueden encontrar y utilizar mejor conocido como SQL para escribir y consultar datos.
los conjuntos de datos que desean utilizar sin tener
que depender de la ayuda del departamento de TI. Normalmente, una base de datos requiere un programa
En segundo lugar, su objetivo es contener datos de software de bases de datos completo, gestor de bases
que los usuarios comerciales posiblemente deseen de datos. Un gestor de bases de datos sirve como interfaz
incluso si no hay ningún proyecto que los requiera entre la base de datos y sus programas o usuarios finales, lo
en ese momento. que permite a los usuarios recuperar, actualizar y gestionar
cómo se organiza y se optimiza la información. También
• Data Ocean, océano de datos: expande los datos facilita la supervisión y el control de las bases de datos,
de autoservicio y la toma de decisiones basada en lo que permite una variedad de operaciones administrativas
datos a todos los datos empresariales, donde sea como la supervisión del rendimiento, el ajuste, la copia de
que estén, independientemente de si se cargaron en seguridad y la recuperación.
el lago de datos o no.
Las bases de datos han evolucionado desde su inicio
• Data Swamp, pantano de datos: Un pantano de a principios de la década de 1960. Las bases de datos de
datos es un estanque de datos que ha crecido hasta navegación, como la base de datos jerárquica y la base de
alcanzar el tamaño de un lago de datos pero que no datos de red eran los sistemas originales que se utilizaban
logró atraer a una amplia comunidad de analistas, para almacenar y manipular datos. En la década de 1980, se
generalmente debido a la falta de instalaciones de hicieron populares las bases de datos relacionales, seguidas
autoservicio y gobernanza. En el mejor de los casos, de las bases de datos orientadas a objetos en la década
el pantano de datos se utiliza como un estanque de de 1990. Más recientemente, las bases de datos NoSQL
datos y, en el peor de los casos, no se utiliza en surgieron como respuesta al crecimiento de Internet y la
absoluto. necesidad de acelerar la velocidad y el procesamiento de
los datos no estructurados.

4.1. Relacionales

Una base de datos relacional es una recopilación


de elementos de datos con relaciones entre ellos. Estos
elementos se organizan como un conjunto de tablas con
columnas y filas. Las tablas se utilizan para guardar
información sobre los objetos que se van a representar en
la base de datos. Cada columna de una tabla guarda un
determinado tipo de datos y un campo almacena el valor
real de un atributo. Las filas de la tabla representan una
recopilación de valores relacionados de un objeto o una
entidad. Cada fila de una tabla podrı́a marcarse con un
identificador único denominado clave principal, mientras
que filas de varias tablas pueden relacionarse con claves
foráneas.
4. Tipos de Bases de Datos
Una base de datos relacional contiene los siguientes
Una base de datos es un conjunto de información aspectos importantes:
o datos estructurados, que normalmente se almacena de
forma electrónica. Normalmente, una base de datos está
controlada por un sistema de gestión de bases de datos. • SQL: Es la interfaz principal utilizada para
En conjunto, los datos y el gestor de bases de datos, junto comunicarse con bases de datos relacionales. SQL
se utiliza para agregar, actualizar o eliminar filas de Un ejemplo de este tipo de base de datos es DynamoDb,
datos. la cual es una base de datos ofrecida como servicio por parte
de Amazon WebServices la cual permite gestionar grandes
• Integridad de los datos: La integridad de los datos cantidades con prácticamente nulo mantenimiento necesario,
es la totalidad, precisión y coherencia general de los ya que se puede asignar un tiempo de vida a cada registro,
datos. Las bases de datos relacionales utilizan un permitiendo ası́ eliminar los registros cuando su tiempo de
conjunto de restricciones para aplicar la integridad uso ya expiró.
de los datos en la base de datos. Estas restricciones
de integridad ayudan a aplicar reglas de negocio en 4.2.2. Documentos. :os datos se representan a menudo
datos de las tablas para garantizar la precisión y como un objeto o un documento de tipo JSON porque
fiabilidad de los datos. es un modelo de datos eficiente e intuitivo para los
desarrolladores. Las bases de datos de documentos facilitan
• Transacciones: Una transacción de base de datos a los desarrolladores el almacenamiento y la consulta de
es una o más instrucciones SQL que se ejecutan datos en una base de datos mediante el uso del mismo
como una secuencia de operaciones que forman formato de modelo de documento que emplean en el código
una sola unidad lógica de trabajo.Una transacción de aplicación. La naturaleza flexible, semiestructurada y
genera un COMMIT, hacer permanente los datos, o jerárquica de los documentos y las bases de datos de
un ROLLBACK, deshacer una modificación. Cada documentos permite que evolucionen según las necesidades
transacción se trata de forma coherente y fiable de las aplicaciones. El modelo de documentos funciona
independiente de otras transacciones. bien con catálogos, perfiles de usuario y sistemas de
administración de contenido en los que cada documento es
Los principales motores de bases de datos relacionales único y evoluciona con el tiempo.
son MySQL, Postgresql, MariaDb y Aurora. Estas bases de
datos son las más utilizadas debido a su gran escalabilidad Un ejemplo de una base de datos de documentos es
y gracias a que son de código abierta sus costos de licencia MongoDb, el cual es una base de datos de código abierto,
son nulos, a excepción de Aurora ya que esta es una ofrecida el cual permite el almacenamiento de datos en formato
por Amazon WebServices. Estos motores de base de datos JSON. Permitiendo modificar la estructura de los objetos
relacionales son los más utilizados a nivel mundial por almacenados previamente nos prevé para cambios en los
empresas como Facebook, Netflix, Uber y Disney. datos almacenados sin afectar la funcionalidad de los datos
almacenados previamente.
4.2. No SQL
4.2.3. Grafos. El propósito de una base de datos de gráficos
Las bases de datos NoSQL están diseñadas es facilitar la creación y la ejecución de aplicaciones que
especı́ficamente para modelos de datos especı́ficos y funcionan con conjuntos de datos altamente conectados.
tienen esquemas flexibles para crear aplicaciones modernas. Los casos de uso tı́picos para una base de datos de gráficos
Las bases de datos NoSQL son ampliamente reconocidas incluyen redes sociales, motores de recomendaciones,
porque son fáciles de desarrollar, por su funcionalidad y el detección de fraude y grafos de conocimiento.
rendimiento a escala.
Un ejemplo de una base de datos de grafos es Neo4j,
Las bases de datos NoSQL utilizan una variedad de la cual es una base de datos pensada para hacer consultas
modelos de datos para acceder y administrar datos. Estos donde las asociaciones entre los datos y campos son el
tipos de bases de datos están hechos especı́ficamente principal objetivo. Suelen escalar muy bien. Si se necesita
para aplicaciones que requieren grandes volúmenes de una versión pensada para escalar a mayor volumen de datos
datos, baja latencia y modelos de datos flexibles, lo y latencia siempre se puede utilizar Neptune de Amazon
que se logra mediante la flexibilización de algunas de las WebServices.
restricciones de coherencia de datos en otras bases de datos.

Las bases de datos NoSQL se clasifican de la siguiente 5. Herramientas para el Big Data
manera:
Los datos no tienen sentido hasta que se convierten
4.2.1. Clave-valor. Las bases de datos clave-valor son en información y conocimiento útiles que pueden ayudar
altamente divisibles y permiten escalado horizontal a escalas a los directivos en la toma de decisiones. Para este
que otros tipos de bases de datos no pueden alcanzar. Los propósito, tenemos varios de los mejores software de Big
casos de uso como juegos, tecnologı́a publicitaria e IoT Data disponibles en el mercado. Este software ayuda a
se prestan particularmente bien con el modelo de datos almacenar, analizar, informar y hacer mucho más con los
clave-valor. datos.
5.1. Apache Hadoop Big Data.

Apache Hadoop es un framework que permite el proce- Desde sus humildes comienzos en el AMPLab de la U.C.
samiento distribuido de grandes conjuntos de datos en gru- Berkeley en 2009, Apache Spark se ha convertido en uno de
pos de computadoras. Está diseñado para escalar desde los principales frameworks de procesamiento distribuido de
servidores individuales a miles de máquinas, cada una de las big data en el mundo. Spark se puede implementar de varias
cuales ofrece computación y almacenamiento local. En lugar maneras, proporciona enlaces nativos para los lenguajes de
de depender del hardware para brindar alta disponibilidad, la programación Java, Scala, Python y R, y es compatible con
biblioteca en sı́ está diseñada para detectar y manejar fallas SQL, transmisión de datos y aprendizaje automático. Es
en la capa de la aplicación, por lo que brinda un servicio de utilizado por bancos, empresas de telecomunicaciones, em-
alta disponibilidad sobre un grupo de computadoras, cada presas de juegos, gobiernos y todos los gigantes tecnológicos
una de las cuales puede ser propensa a fallas. más importantes, como Apple, Facebook, IBM y Microsoft.

5.2. Apache Hive 5.4. Apache Airflow

Apache Hive es una tecnologı́a distribuida diseñada Apache Airflow es una plataforma para crear, programar
y construida sobre Hadoop. Permite hacer consultas y y monitorear flujos de trabajo mediante programación. Es
analizar grandes cantidades de datos almacenados en el completamente de código abierto y es especialmente útil en
sistema de archivos de Hadoop, en la escala de petabytes. la arquitectura y orquestación de canalizaciones de datos
Tiene un lenguaje de consulta llamado HiveQL o HQL que complejas. Airflow se creó originalmente para resolver los
internamente transforma las consultas SQL en trabajos que problemas que surgen con las tareas cron de ejecución
ejecutan en Hadoop. El lenguaje de consulta HQL es un prolongada y los scripts pesados, pero desde entonces ha
dialecto de SQL, que no sigue el estándar ANSI SQL, sin crecido hasta convertirse en una de las plataformas de
embargo es muy similar. canalización de datos de código abierto más poderosas que
existen.
El proyecto comenzó en el 2008 y fue desarrollado
por Facebook para hacer que Hadoop se comportara de Airflow tiene un par de beneficios clave:
una manera más parecida a un data warehouse tradicional.
• Es dinámico: Cualquier cosa que se pueda hacer
La tecnologı́a Hadoop es altamente escalable, sin embargo
en Python, puede hacerlo en Airflow.
tiene dos problemas principales: La dificultad de uso y
• Es extensible: Airflow tiene complementos
orientado a operaciones Batch.
fácilmente disponibles para interactuar con los sis-
temas externos más comunes. También puede crear
Los datos gestionados por Hive son datos estructurados sus propios complementos según sea necesario.
almacenados en el sistema de archivos de Hadoop. Ası́, • Es escalable: Los equipos usan Airflow para ejecu-
optimiza de forma automática el plan de ejecución y usa tar miles de tareas diferentes por dı́a.
particionado de tablas en determinadas consultas..
Con Airflow, los flujos de trabajo se diseñan y expresan
Una consulta tı́pica en Hive ejecuta en varios data nodos como gráficos acı́clicos dirigidos (DAG), en los que cada
en paralelo, con trabajos asociados. Estas operaciones son nodo del DAG representa una tarea especı́fica. Airflow está
de tipo batch, por lo que la latencia es más alta que en diseñado con la creencia de que todas las canalizaciones
otros tipos de bases de datos. Además, hay que considerar de datos se expresan mejor como código y, como tal,
el retardo producido por la inicialización de los trabajos, es una plataforma de código primero donde puede iterar
sobre todo en el caso de consultar pequeños datasets. rápidamente en los flujos de trabajo. Esta filosofı́a de diseño
de código primero proporciona un grado de extensibilidad
5.3. Apache Spark que otras herramientas de canalización no pueden igualar.

Apache Spark es un framework de procesamiento Airflow se puede usar para prácticamente cualquier
de datos que puede realizar rápidamente tareas de canalización de datos por lotes, y hay muchos casos de uso
procesamiento en conjuntos de datos muy grandes y documentados en la comunidad. Debido a su extensibilidad,
también puede distribuir tareas de procesamiento de datos Airflow es particularmente poderoso para orquestar trabajos
en varias computadoras, ya sea solo o en conjunto con con dependencias complejas en múltiples sistemas externos.
otras herramientas informáticas distribuidas. Estas dos
cualidades son clave para los mundos de los grandes datos
y el aprendizaje automático, que requieren la organización 5.5. Apache Kafka
de una potencia informática masiva para procesar grandes
almacenes de datos. Spark abstrae gran parte del trabajo Apache Kafka es una plataforma de transmisión de
duro de la computación distribuida y el procesamiento de eventos distribuidos de código abierto utilizada por miles de
empresas para canalizaciones de datos de alto rendimiento, 5.7. Power Bi
análisis de transmisión, integración de datos y aplicaciones
de misión crı́tica. Power BI is a collection of software services, apps,
and connectors that work together to turn your unrelated
La transmisión de eventos es la práctica de capturar sources of data into coherent, visually immersive, and in-
datos en tiempo real de fuentes de eventos como bases de teractive insights. Your data may be an Excel spreadsheet,
datos, sensores, dispositivos móviles, servicios en la nube or a collection of cloud-based and on-premises hybrid data
y aplicaciones de software en forma de flujos de eventos; warehouses. Power BI lets you easily connect to your data
almacenar estos flujos de eventos de forma duradera para sources, visualize and discover what’s important, and share
su posterior recuperación; manipular, procesar y reaccionar that with anyone or everyone you want.
a los flujos de eventos en tiempo real y enrutar los flujos
de eventos a diferentes tecnologı́as de destino según sea 5.8. Quicksights
necesario. La transmisión de eventos garantiza un flujo
continuo y una interpretación de los datos para que la Amazon QuickSight permite que todos los miembros de
información correcta esté en el lugar correcto, en el su organización comprendan sus datos mediante preguntas
momento correcto. en lenguaje natural, la exploración a través de paneles
interactivos o la búsqueda automática de patrones y valores
La transmisión de eventos se aplica a una amplia var- atı́picos impulsada por machine learning.
iedad de casos de uso en una gran cantidad de industrias y
organizaciones. Sus muchos ejemplos incluyen: Los usuarios finales de las organizaciones pueden
realizar preguntas en lenguaje natural y recibir respuestas
• Para procesar pagos y transacciones financieras en con visualizaciones relevantes. QuickSight Q utiliza
tiempo real, como en bolsas de valores, bancos machine learning para interpretar la intención de una
y seguros. Para rastrear y monitorear automóviles, pregunta y analizar los datos para responder las preguntas
camiones, flotas y envı́os en tiempo real, como en empresariales de manera rápida.
logı́stica y la industria automotriz.
• Para capturar y analizar continuamente datos de Los analistas empresariales pueden crear paneles de
sensores de dispositivos IoT u otros equipos, como control de pı́xeles perfectos y sin servidor en minutos y
en fábricas y parques eólicos. sin problemas, mediante la conexión segura a petabytes de
• Para recopilar y reaccionar de inmediato a las in- datos en Amazon S3 y la realización de consultas a través
teracciones y pedidos de los clientes, como en el de Amazon Athena, mientras comparten con decenas de
comercio minorista, la industria hotelera y de viajes, miles de usuarios en Amazon QuickSight, todo sin software
y las aplicaciones móviles. cliente o infraestructura de servidor.
• Monitorear a los pacientes en atención hospitalaria
y predecir cambios de condición para asegurar un Los desarrolladores pueden implementar y escalar
tratamiento oportuno en emergencias. análisis integrados a cientos de miles de usuarios en
• Para conectar, almacenar y poner a disposición datos aplicaciones con API de AWS robustas. Comparta la
producidos por diferentes divisiones de una empresa. información y la visualización de datos con todos los
Servir como base para plataformas de datos, arqui- usuarios de la organización, ya sea a través de la Web, de
tecturas basadas en eventos y microservicios. dispositivos móviles, del email o de aplicaciones integradas.

Los administradores pueden proporcionar un


5.6. Tableau rendimiento constante, ya que QuickSight escala de forma
automática la carga de trabajo. QuickSight proporciona
Tableau es una herramienta de visualización de datos actualizaciones cada 2 semanas, lo que garantiza que todos
poderosa y de más rápido crecimiento que se utiliza en la los usuarios tengan las caracterı́sticas más recientes sin
industria de inteligencia empresarial. Ayuda a simplificar tiempo de inactividad, conflictos de versiones o problemas
los datos sin procesar en un formato muy fácil de entender. de compatibilidad observados con las soluciones de
Tableau ayuda a crear los datos que pueden entender inteligencia empresarial (BI) tradicionales. QuickSight
los profesionales de cualquier nivel en una organización. también es el primer servicio de inteligencia empresarial
También permite a los usuarios no técnicos crear paneles (BI) que ofrece precios de pago por sesión, lo que lo hace
personalizados. rentable para implementaciones a gran escala.

Lo bueno del software de Tableau es que no requiere 5.9. Jupyter


ninguna habilidad técnica ni de programación para fun-
cionar. La herramienta ha despertado el interés de personas La aplicación Jupyter Notebook es una aplicación
de todos los sectores, como empresas, investigadores, difer- servidor-cliente que permite editar y ejecutar documentos
entes industrias, etc. de notebook a través de un navegador web. La aplicación
Jupyter Notebook se puede ejecutar en un escritorio local
que no requiera acceso a Internet (como se describe en
este documento) o se puede instalar en un servidor remoto
y acceder a través de Internet.

Los documentos de notebook son documentos produci-


dos por la aplicación Jupyter Notebook, que contienen
código de computadora, python, R y Julia, y elementos de
texto enriquecido, párrafos, ecuaciones, figuras. Los doc-
umentos de cuaderno son tanto documentos legibles por
humanos que contienen la descripción del análisis y los
resultados como documentos ejecutables que se pueden
ejecutar para realizar análisis de datos.

6. Conclusión
Debido a las grandes cantidades de datos y a las
necesidades de obtener cada vez mejor calidad de
informacion y conocimiento de estos mismos, muchas
herramientas, procesos y conceptos se han desarrollado
para poder hacer frente a estos nuevos retos.

El procesamiento de Big Data va comenzando una


nueva etapa donde los datos son cada vez mas variables y
provienen de fuentes diferentes. Pero asi como han surgido
tecnologı́as y técnicas para afrontar los retos anteriores,
nuevas maneras y tecnologı́as surgirán para vencer los
próximos obstáculos.

References
[1] URL : https://kafka.apache.org/intro.
[2] ¿Qué es una base de datos relacional? URL: https :
//www.oracle.com/mx/database/what-is-a-relational-
database/.
[3] Apache airflow documentation¶. URL: https://airflow.
apache.org/docs/apache-airflow/stable/index.html.
[4] Apache Hive. URL: https://hive.apache.org/.
[5] Thomas Erl, Wajid Khattak, and Paul Buhler. Big Data
Fundamentals: Concepts, Drivers amp; Techniques.
Prentice Hall, 2016.
[6] Alex Gorelik. The Enterprise Big Data Lake: Deliver-
ing the promise of Big Data and data science. O’Reilly
Media, 2019.
[7] Markku Lahtela and Philip (Provenance) Kaplan. AWS
Quicksight. 1966. URL: https://aws.amazon.com/es/
quicksight/.
[8] Project jupyter. URL: https://jupyter.org/.

También podría gustarte