1.big Data

The Big Data
José Adrián Castillo Sierra
1. Introducción un problema de Big Data; las soluciones que se crearon

y diseñaron para poder procesar y tratar un análisis
A dı́a de hoy las decisiones basadas en la información computacional, estadı́stico o matemático sentaron las bases
están cambiando la forma en la que se solı́a operar para poder lidiar con los petabytes de información que son
una organización tradicionalmente. Ya sea una empresa, el problema actual de Big Data.
institución gubernamental o grupo religioso; diariamente
se recaudan grandes cantidades de información, obtenidas Obviamente el beneficio obtenido por el procesamiento,
de fuentes distintas y almacenadas en distintas maneras, estudio y transformación de estas cantidades de datos son
lugares y formatos. enormes; desde su uso para optimización de tiempos en
operaciones, brindar mayor inteligencia de negocio, encon-
Si tratáramos de procesar de la misma manera todos trar nuevos mercados, búsqueda de patrones y tendencias, y
los datos ignorando sus formatos, volúmenes y calidad, finalmente la que provoco el inicio de esta tendencia, tomar
obtendrı́amos solo resultados negativos, en cuanto a la mejores y más informadas decisiones.
veracidad del conocimiento que podrı́amos obtener de ella.
2.1. Caracterı́sticas del Big Data
A este conjunto de información almacenada en distintas
maneras, lugares y formatos es a lo que coloquialmente se Para que un conjunto de datos se considere Big Data,
le conoce como Big Data. debe poseer una o más caracterı́sticas que requieran
adaptaciones en el diseño de la arquitectura del entorno
2. ¿Qué es el Big Data? analı́tico. La mayorı́a de estas caracterı́sticas de datos
fueron identificadas Doug Laney a principios de 2001
El Big Data es un campo dedicado al análisis, cuando publicó un artı́culo que describı́a el impacto del
procesamiento y almacenamiento de grandes volúmenes de volumen, la velocidad y la variedad de datos de comercio
datos que con frecuencia se originan en fuentes distintas. electrónico en los centros de datos empresariales.
El uso de soluciones y prácticas de Big Data generalmente
se requieren cuando las tecnologı́as y técnicas tradicionales
de análisis, procesamiento y almacenamiento de datos son 2.1.1. Volumen. Una solucion de Big Data debe de anticipar
insuficientes. Especı́ficamente, Big Data aborda distintos procesar grandes cantidades de datos que solo se continuen
requisitos, como la combinación de múltiples conjuntos acumulando. Debido al alto volumen, se deben de utilizar
de datos no relacionados, el procesamiento de grandes formas distintas de almacenamiento y procesamiento, ası́
cantidades de datos no estructurados y la recolección de como formas distintas de preparar y manejar estos procesos.
información oculta de manera sensible al tiempo.
Este volumen de datos puede ser generado de distintas
Aunque parezca que el Big Data es una nueva disciplina, maneras, como pueden ser:
esta lleva en desarrollo muchos años. El procesamiento • Transacciones de ERP’s, puntos de venta y transac-
y análisis de grandes cantidades de fuentes de datos ha ciones bancarias.
sido un gran problema desde hace muchos años. Desde • Experimentos de investigación cientı́fica.
problemas para el calculo de las hipotecas y rendimientos • Sensores, gps y sistemas del internet de las cosas.
en fondos de retiros hasta el procesamiento y análisis de • Redes sociales como Facebook y Twitter.
los censos.
2.1.2. Velocidad. La información puede ser producida a
El análisis del Big Data es un campo multidisciplinario altas velocidades, y los datasets pueden crecer en pocos
en el cual se combinan las matemáticas, la estadı́stica, las periodos de tiempo. La velocidad en que los datos se
ciencias de la computación y la algoritmia. Las fronteras generan se traduce en la cantidad de tiempo que toma en
de que es y que forma parte del Big Data cambian ser procesada una vez entra al almacenamiento.
constantemente debido a la evolución tanto de software
como de hardware que ha existido en los últimos años. Copiar, procesar y limpiar la información a una buena
Hace diez años un gigabyte de información era considerado velocidad requiere de procesos y técnicas modernas de
consulta y replica. Tales pueden ser como streaming de en respuesta a eventos del mundo real. Por ejemplo, un
datos utilizando Kafka, replica binaria de bases de datos sistema de punto de venta genera una transacción contra
y herramientas de consulta como elastic search o Redshift. el inventario para reflejar los artı́culos comprados por un
cliente. Desde una perspectiva de hardware, un ejemplo
2.1.3. Variedad. La variedad de los datos se refiere a los de datos generados por máquinas serı́a la información
múltiples formatos y tipos que una solución de Big Data transmitida desde los numerosos sensores en un teléfono
debe de procesar. Esto suele ser un gran reto para la mayorı́a celular incluida la posición y los pasos que su usuario ha
de equipos de BI debido a los procesos de transformación, dado en el transcurso del dı́a.
procesamiento y almacenamiento.
Los datos generados por humanos y generados por
2.1.4. Veracidad. La veracidad se refiere a la calidad o máquinas pueden provenir de una variedad de fuentes y
fidelidad de los datos. Es necesario evaluar la calidad de representarse en varios formatos o tipos, los principales tipos
los datos que ingresan a los entornos de Big Data, lo que de datos son:
puede conducir a actividades de procesamiento de datos
para resolver los datos no válidos y eliminar el ruido. En • Estructurada.
relación con la veracidad, los datos pueden ser parte de la • Sin Estructura.
señal o del ruido de un conjunto de datos. El ruido son • Semi Estructurada.
datos que no se pueden convertir en información y, por lo
tanto, no tienen valor, mientras que las señales tienen valor 2.2.1. Estructurada. Los datos estructurados se ajustan a
y conducen a información significativa. Los datos con una un modelo o esquema de datos y, normalmente, se alma-
alta relación señal-ruido tienen más veracidad que los datos cenan en forma tabular. Se utiliza para capturar relaciones
con una relación más baja. Los datos que se adquieren de entre diferentes entidades y se almacena con mayor frecuen-
manera controlada, por ejemplo, a través de registros de cia en una base de datos relacional. Los datos estructurados
clientes en lı́nea, generalmente contienen menos ruido que son generados con frecuencia por aplicaciones empresariales
los datos adquiridos a través de fuentes no controladas, como y sistemas de información como los sistemas ERP y CRM.
publicaciones en redes sociales. Por lo tanto, la relación Debido a la gran cantidad de herramientas y bases de datos
señal-ruido de los datos depende de la fuente de los datos que aceptan datos estructurados, rara vez requieren una
y de su tipo. consideración especial en lo que respecta al procesamiento
o almacenamiento.
2.1.5. Valor. El valor se define como la utilidad de los
datos para una empresa. La caracterı́stica de valor está 2.2.2. Sin Estructurada. Los datos que no se ajustan a
intuitivamente relacionada con la caracterı́stica de veracidad un modelo de datos o esquema de datos se conocen como
en el sentido de que cuanto mayor sea la fidelidad de los datos no estructurados. Los datos no estructurados tienden
datos, más valor tiene para el negocio. El valor también a crecer más rápido que los datos estructurados. Esta forma
depende de cuánto tiempo lleve el procesamiento de datos de datos es textual o binaria y, a menudo, se transmite a
porque los resultados analı́ticos tienen una vida útil; por través de archivos que son autónomos y no relacionales.
ejemplo, una cotización de acciones con un retraso de Un archivo de texto puede contener el contenido de varios
20 minutos tiene poco o ningún valor para realizar una tweets o publicaciones de blog. Los archivos binarios
operación en comparación con una cotización que tiene 20 suelen ser archivos multimedia que contienen datos de
milisegundos de antigüedad. Como se demostró, el valor y el imagen, audio o vı́deo. Técnicamente, tanto los archivos de
tiempo están inversamente relacionados. Cuanto más tarden texto como los binarios tienen una estructura definida por
los datos en convertirse en información significativa, menos el propio formato del archivo, pero este aspecto se pasa por
valor tendrán para una empresa. Los resultados obsoletos alto y la noción de no estar estructurados está relacionada
inhiben la calidad y la velocidad de la toma de decisiones con el formato de los datos contenidos en el propio archivo.
informada.
Por lo general, se requiere proceso único para
2.2. Tipos de Datos procesar y almacenar datos no estructurados. Los datos
no estructurados no se pueden procesar ni consultar
Los datos procesados por las soluciones de Big Data directamente mediante SQL. Si se requiere que se almacene
pueden ser generados por humanos o por máquinas, dentro de una base de datos relacional, se almacena
aunque, para estos últimos es responsabilidad de las en una tabla como un objeto binario grande mejor
máquinas generar los resultados analı́ticos. Los datos conocidos como BLOB’s, pero esto es muy raro que
generados por humanos son el resultado de la interacción se realice en la práctica. Alternativamente, una base de
humana con sistemas, como servicios en lı́nea y dispositivos datos NoSQL es una base de datos no relacional que
digitales. se puede usar para almacenar datos no estructurados
junto con datos estructurados. Un ejemplo de una Base de
Los datos generados por máquinas son generados Datos NoSQL puede ser MongoDb, DynamoDB o Firebase.
por programas de software y dispositivos de hardware
2.2.3. Semi Estructurada. Los datos semi estructurados en un datamart como una tienda de agua embotellada,
tienen un nivel definido de estructura y consistencia, limpia, empaquetada y estructurada para un consumo fácil,
pero no son de naturaleza relacional. Los datos semi el lago de datos es un gran cuerpo de agua en un estado
estructurados son jerárquicos o basados en gráficos. Este más natural. El contenido del lago de datos fluye desde
tipo de datos se almacena comúnmente en archivos que una fuente para llenar el lago, y varios usuarios del lago
contienen texto. Debido a la naturaleza textual de estos pueden venir a examinar, sumergirse o tomar muestras”.
datos y su conformidad con algún nivel de estructura, se
procesan más fácilmente que los datos no estructurados. La razón para poner los datos sin procesar a disposición
de los analistas es para que puedan realizar análisis
Los ejemplos de fuentes comunes de datos semi es- automático. El autoservicio ha sido una tendencia
tructurados incluyen hojas de cálculo y datos de sensores. importante hacia la democratización de los datos. Comenzó
Los datos semi estructurados a menudo tienen requisitos en el punto de uso con herramientas de visualización
especiales de preprocesamiento y almacenamiento, especial- como Tableau que permiten a los analistas analizar datos
mente si el formato subyacente no está basado en texto. Un sin tener que obtener ayuda de TI. La tendencia continúa
ejemplo de preprocesamiento de datos semi estructurados con herramientas de preparación de datos que ayudan
serı́a la validación de un archivo XML de una factura a los analistas a dar forma a los datos para análisis y
electrónica para garantizar que se ajusta a su definición de herramientas de catálogo que ayudan a los analistas a
esquema. encontrar los datos que necesitan y herramientas de ciencia
de datos que ayudan a realizar análisis avanzados. Para
3. Data Lakes análisis aún más avanzados, generalmente denominados
ciencia de datos, los cientı́ficos de datos también suelen
Con tanta variedad, volumen y velocidad, los antiguos hacer de un lago de datos su fuente de datos principal.
sistemas y procesos ya no pueden soportar las necesidades
de datos de la empresa. La veracidad es un problema aún Por supuesto, un gran desafı́o es el gobierno y la seguri-
mayor para el análisis avanzado y la inteligencia artificial, dad de los datos. Todos están de acuerdo en que los datos
donde el principio de ”basura que entra, basura que sale” deben mantenerse seguros. Existen polı́ticas de seguridad de
es aún más crı́tico porque es prácticamente imposible datos prescritas que deben implementarse y es ilegal dar a
saber si los datos eran malos y causaron malas decisiones los analistas acceso a todos los datos. Incluso en algunas
en estadı́sticas y modelos de aprendizaje automático o el industrias no reguladas, se considera una mala idea.
modelo era malo.
3.1. Madurez de un Data Lake
Para respaldar estos esfuerzos y abordar estos desafı́os,
se está produciendo una revolución en la gestión de datos Un Data Lake es un concepto nuevo, y normalmente
en torno a cómo se almacenan, procesan, gestionan y dependiendo del estado en el que se encuentra se definen
proporcionan los datos a los responsables de la toma de distintas etapas de vida de un Data Lake.
decisiones. La tecnologı́a de Big Data está permitiendo
una escalabilidad y una rentabilidad de órdenes de una • Data Puddle, charco de datos: es básicamente
magnitud mayor que la que es posible con la infraestructura un data mart de un solo propósito o de un solo
tradicional de gestión de datos. Procesos automáticos están proyecto creado con tecnologı́a de big data. Por
tomando el relevo de los enfoques laboriosos del pasado, en lo general, es el primer paso en la adopción de
los que ejércitos de profesionales de TI creaban almacenes la tecnologı́a de big data. Los datos en un charco
de datos y data marts bien administrados, pero tardaban de datos se cargan con el propósito de un solo
meses en realizar cualquier cambio. proyecto o equipo. Por lo general, es bien conocido
y entendido, y la razón por la que se utiliza la
Un Data Lake es un enfoque nuevo que aprovecha tecnologı́a de big data en lugar del almacenamiento
el poder de la tecnologı́a de Big Data y la combina con de datos tradicional es para reducir los costos y
la agilidad de procesos automáticos. La mayorı́a de las brindar un mejor rendimiento.
grandes empresas de hoy en dı́a han implementado o están
en proceso de implementar lagos de datos. • Data Pond, estanque de datos: es una colección
de charcos de datos. Puede ser como un almacén
La toma de decisiones basada en datos es importante. de datos mal diseñado, que en realidad es una
Desde la ciencia de datos, el aprendizaje automático y los colección de data marts colocados, o puede ser
dashboards en tiempo real, los responsables de la toma de una descarga de un almacén de datos existente. Si
decisiones exigen datos que les ayuden a tomar decisiones. bien los costos de tecnologı́a más bajos y la mejor
Estos datos necesitan un hogar, y el lago de datos es la escalabilidad son beneficios claros y atractivos,
solución preferida para crear ese hogar. El término fue estas construcciones aún requieren un alto nivel de
inventado y descrito por primera vez por James Dixon, participación de TI. Además, los data ponds limitan
CTO de Pentaho, quien escribió en su blog: “Si piensa los datos solo a los que necesita el proyecto y usan
esos datos solo para el proyecto que los requiere. con las aplicaciones asociadas a ellos, reciben el nombre
Dados los altos costos de TI y la disponibilidad de sistema de bases de datos, abreviado normalmente a
limitada de datos, los conjuntos de datos realmente simplemente base de datos.
no nos ayudan con los objetivos de democratizar el
uso de datos o impulsar el autoservicio y la toma Los datos de los tipos más comunes de bases de datos
de decisiones basada en datos para los usuarios en funcionamiento actualmente se suelen utilizar como
comerciales. estructuras de registros y columnas en una serie de tablas
para aumentar la eficacia del procesamiento y la consulta de
• Data Lake, lago de datos: es diferente de un datos. Ası́, se puede acceder, modificar, actualizar, controlar
estanque de datos en dos formas importantes. En y organizar fácilmente los datos. La mayorı́a de las bases
primer lugar, admite el autoservicio, en el que los de datos utilizan un lenguaje de consulta estructurada,
usuarios empresariales pueden encontrar y utilizar mejor conocido como SQL para escribir y consultar datos.
los conjuntos de datos que desean utilizar sin tener
que depender de la ayuda del departamento de TI. Normalmente, una base de datos requiere un programa
En segundo lugar, su objetivo es contener datos de software de bases de datos completo, gestor de bases
que los usuarios comerciales posiblemente deseen de datos. Un gestor de bases de datos sirve como interfaz
incluso si no hay ningún proyecto que los requiera entre la base de datos y sus programas o usuarios finales, lo
en ese momento. que permite a los usuarios recuperar, actualizar y gestionar
cómo se organiza y se optimiza la información. También
• Data Ocean, océano de datos: expande los datos facilita la supervisión y el control de las bases de datos,
de autoservicio y la toma de decisiones basada en lo que permite una variedad de operaciones administrativas
datos a todos los datos empresariales, donde sea como la supervisión del rendimiento, el ajuste, la copia de
que estén, independientemente de si se cargaron en seguridad y la recuperación.
el lago de datos o no.
Las bases de datos han evolucionado desde su inicio
• Data Swamp, pantano de datos: Un pantano de a principios de la década de 1960. Las bases de datos de
datos es un estanque de datos que ha crecido hasta navegación, como la base de datos jerárquica y la base de
alcanzar el tamaño de un lago de datos pero que no datos de red eran los sistemas originales que se utilizaban
logró atraer a una amplia comunidad de analistas, para almacenar y manipular datos. En la década de 1980, se
generalmente debido a la falta de instalaciones de hicieron populares las bases de datos relacionales, seguidas
autoservicio y gobernanza. En el mejor de los casos, de las bases de datos orientadas a objetos en la década
el pantano de datos se utiliza como un estanque de de 1990. Más recientemente, las bases de datos NoSQL
datos y, en el peor de los casos, no se utiliza en surgieron como respuesta al crecimiento de Internet y la
absoluto. necesidad de acelerar la velocidad y el procesamiento de
los datos no estructurados.
4.1. Relacionales
Una base de datos relacional es una recopilación

de elementos de datos con relaciones entre ellos. Estos
elementos se organizan como un conjunto de tablas con
columnas y filas. Las tablas se utilizan para guardar
información sobre los objetos que se van a representar en
la base de datos. Cada columna de una tabla guarda un
determinado tipo de datos y un campo almacena el valor
real de un atributo. Las filas de la tabla representan una
recopilación de valores relacionados de un objeto o una
entidad. Cada fila de una tabla podrı́a marcarse con un
identificador único denominado clave principal, mientras
que filas de varias tablas pueden relacionarse con claves
foráneas.
4. Tipos de Bases de Datos
Una base de datos relacional contiene los siguientes
Una base de datos es un conjunto de información aspectos importantes:
o datos estructurados, que normalmente se almacena de
forma electrónica. Normalmente, una base de datos está
controlada por un sistema de gestión de bases de datos. • SQL: Es la interfaz principal utilizada para
En conjunto, los datos y el gestor de bases de datos, junto comunicarse con bases de datos relacionales. SQL
se utiliza para agregar, actualizar o eliminar filas de Un ejemplo de este tipo de base de datos es DynamoDb,
datos. la cual es una base de datos ofrecida como servicio por parte
de Amazon WebServices la cual permite gestionar grandes
• Integridad de los datos: La integridad de los datos cantidades con prácticamente nulo mantenimiento necesario,
es la totalidad, precisión y coherencia general de los ya que se puede asignar un tiempo de vida a cada registro,
datos. Las bases de datos relacionales utilizan un permitiendo ası́ eliminar los registros cuando su tiempo de
conjunto de restricciones para aplicar la integridad uso ya expiró.
de los datos en la base de datos. Estas restricciones
de integridad ayudan a aplicar reglas de negocio en 4.2.2. Documentos. :os datos se representan a menudo
datos de las tablas para garantizar la precisión y como un objeto o un documento de tipo JSON porque
fiabilidad de los datos. es un modelo de datos eficiente e intuitivo para los
desarrolladores. Las bases de datos de documentos facilitan
• Transacciones: Una transacción de base de datos a los desarrolladores el almacenamiento y la consulta de
es una o más instrucciones SQL que se ejecutan datos en una base de datos mediante el uso del mismo
como una secuencia de operaciones que forman formato de modelo de documento que emplean en el código
una sola unidad lógica de trabajo.Una transacción de aplicación. La naturaleza flexible, semiestructurada y
genera un COMMIT, hacer permanente los datos, o jerárquica de los documentos y las bases de datos de
un ROLLBACK, deshacer una modificación. Cada documentos permite que evolucionen según las necesidades
transacción se trata de forma coherente y fiable de las aplicaciones. El modelo de documentos funciona
independiente de otras transacciones. bien con catálogos, perfiles de usuario y sistemas de
administración de contenido en los que cada documento es
Los principales motores de bases de datos relacionales único y evoluciona con el tiempo.
son MySQL, Postgresql, MariaDb y Aurora. Estas bases de
datos son las más utilizadas debido a su gran escalabilidad Un ejemplo de una base de datos de documentos es
y gracias a que son de código abierta sus costos de licencia MongoDb, el cual es una base de datos de código abierto,
son nulos, a excepción de Aurora ya que esta es una ofrecida el cual permite el almacenamiento de datos en formato
por Amazon WebServices. Estos motores de base de datos JSON. Permitiendo modificar la estructura de los objetos
relacionales son los más utilizados a nivel mundial por almacenados previamente nos prevé para cambios en los
empresas como Facebook, Netflix, Uber y Disney. datos almacenados sin afectar la funcionalidad de los datos
almacenados previamente.
4.2. No SQL
4.2.3. Grafos. El propósito de una base de datos de gráficos
Las bases de datos NoSQL están diseñadas es facilitar la creación y la ejecución de aplicaciones que
especı́ficamente para modelos de datos especı́ficos y funcionan con conjuntos de datos altamente conectados.
tienen esquemas flexibles para crear aplicaciones modernas. Los casos de uso tı́picos para una base de datos de gráficos
Las bases de datos NoSQL son ampliamente reconocidas incluyen redes sociales, motores de recomendaciones,
porque son fáciles de desarrollar, por su funcionalidad y el detección de fraude y grafos de conocimiento.
rendimiento a escala.
Un ejemplo de una base de datos de grafos es Neo4j,
Las bases de datos NoSQL utilizan una variedad de la cual es una base de datos pensada para hacer consultas
modelos de datos para acceder y administrar datos. Estos donde las asociaciones entre los datos y campos son el
tipos de bases de datos están hechos especı́ficamente principal objetivo. Suelen escalar muy bien. Si se necesita
para aplicaciones que requieren grandes volúmenes de una versión pensada para escalar a mayor volumen de datos
datos, baja latencia y modelos de datos flexibles, lo y latencia siempre se puede utilizar Neptune de Amazon
que se logra mediante la flexibilización de algunas de las WebServices.
restricciones de coherencia de datos en otras bases de datos.
Las bases de datos NoSQL se clasifican de la siguiente 5. Herramientas para el Big Data
manera:
Los datos no tienen sentido hasta que se convierten
4.2.1. Clave-valor. Las bases de datos clave-valor son en información y conocimiento útiles que pueden ayudar
altamente divisibles y permiten escalado horizontal a escalas a los directivos en la toma de decisiones. Para este
que otros tipos de bases de datos no pueden alcanzar. Los propósito, tenemos varios de los mejores software de Big
casos de uso como juegos, tecnologı́a publicitaria e IoT Data disponibles en el mercado. Este software ayuda a
se prestan particularmente bien con el modelo de datos almacenar, analizar, informar y hacer mucho más con los
clave-valor. datos.
5.1. Apache Hadoop Big Data.
Apache Hadoop es un framework que permite el proce- Desde sus humildes comienzos en el AMPLab de la U.C.
samiento distribuido de grandes conjuntos de datos en gru- Berkeley en 2009, Apache Spark se ha convertido en uno de
pos de computadoras. Está diseñado para escalar desde los principales frameworks de procesamiento distribuido de
servidores individuales a miles de máquinas, cada una de las big data en el mundo. Spark se puede implementar de varias
cuales ofrece computación y almacenamiento local. En lugar maneras, proporciona enlaces nativos para los lenguajes de
de depender del hardware para brindar alta disponibilidad, la programación Java, Scala, Python y R, y es compatible con
biblioteca en sı́ está diseñada para detectar y manejar fallas SQL, transmisión de datos y aprendizaje automático. Es
en la capa de la aplicación, por lo que brinda un servicio de utilizado por bancos, empresas de telecomunicaciones, em-
alta disponibilidad sobre un grupo de computadoras, cada presas de juegos, gobiernos y todos los gigantes tecnológicos
una de las cuales puede ser propensa a fallas. más importantes, como Apple, Facebook, IBM y Microsoft.
5.2. Apache Hive 5.4. Apache Airflow
Apache Hive es una tecnologı́a distribuida diseñada Apache Airflow es una plataforma para crear, programar
y construida sobre Hadoop. Permite hacer consultas y y monitorear flujos de trabajo mediante programación. Es
analizar grandes cantidades de datos almacenados en el completamente de código abierto y es especialmente útil en
sistema de archivos de Hadoop, en la escala de petabytes. la arquitectura y orquestación de canalizaciones de datos
Tiene un lenguaje de consulta llamado HiveQL o HQL que complejas. Airflow se creó originalmente para resolver los
internamente transforma las consultas SQL en trabajos que problemas que surgen con las tareas cron de ejecución
ejecutan en Hadoop. El lenguaje de consulta HQL es un prolongada y los scripts pesados, pero desde entonces ha
dialecto de SQL, que no sigue el estándar ANSI SQL, sin crecido hasta convertirse en una de las plataformas de
embargo es muy similar. canalización de datos de código abierto más poderosas que
existen.
El proyecto comenzó en el 2008 y fue desarrollado
por Facebook para hacer que Hadoop se comportara de Airflow tiene un par de beneficios clave:
una manera más parecida a un data warehouse tradicional.
• Es dinámico: Cualquier cosa que se pueda hacer
La tecnologı́a Hadoop es altamente escalable, sin embargo
en Python, puede hacerlo en Airflow.
tiene dos problemas principales: La dificultad de uso y
• Es extensible: Airflow tiene complementos
orientado a operaciones Batch.
fácilmente disponibles para interactuar con los sis-
temas externos más comunes. También puede crear
Los datos gestionados por Hive son datos estructurados sus propios complementos según sea necesario.
almacenados en el sistema de archivos de Hadoop. Ası́, • Es escalable: Los equipos usan Airflow para ejecu-
optimiza de forma automática el plan de ejecución y usa tar miles de tareas diferentes por dı́a.
particionado de tablas en determinadas consultas..
Con Airflow, los flujos de trabajo se diseñan y expresan
Una consulta tı́pica en Hive ejecuta en varios data nodos como gráficos acı́clicos dirigidos (DAG), en los que cada
en paralelo, con trabajos asociados. Estas operaciones son nodo del DAG representa una tarea especı́fica. Airflow está
de tipo batch, por lo que la latencia es más alta que en diseñado con la creencia de que todas las canalizaciones
otros tipos de bases de datos. Además, hay que considerar de datos se expresan mejor como código y, como tal,
el retardo producido por la inicialización de los trabajos, es una plataforma de código primero donde puede iterar
sobre todo en el caso de consultar pequeños datasets. rápidamente en los flujos de trabajo. Esta filosofı́a de diseño
de código primero proporciona un grado de extensibilidad
5.3. Apache Spark que otras herramientas de canalización no pueden igualar.
Apache Spark es un framework de procesamiento Airflow se puede usar para prácticamente cualquier
de datos que puede realizar rápidamente tareas de canalización de datos por lotes, y hay muchos casos de uso
procesamiento en conjuntos de datos muy grandes y documentados en la comunidad. Debido a su extensibilidad,
también puede distribuir tareas de procesamiento de datos Airflow es particularmente poderoso para orquestar trabajos
en varias computadoras, ya sea solo o en conjunto con con dependencias complejas en múltiples sistemas externos.
otras herramientas informáticas distribuidas. Estas dos
cualidades son clave para los mundos de los grandes datos
y el aprendizaje automático, que requieren la organización 5.5. Apache Kafka
de una potencia informática masiva para procesar grandes
almacenes de datos. Spark abstrae gran parte del trabajo Apache Kafka es una plataforma de transmisión de
duro de la computación distribuida y el procesamiento de eventos distribuidos de código abierto utilizada por miles de
empresas para canalizaciones de datos de alto rendimiento, 5.7. Power Bi
análisis de transmisión, integración de datos y aplicaciones
de misión crı́tica. Power BI is a collection of software services, apps,
and connectors that work together to turn your unrelated
La transmisión de eventos es la práctica de capturar sources of data into coherent, visually immersive, and in-
datos en tiempo real de fuentes de eventos como bases de teractive insights. Your data may be an Excel spreadsheet,
datos, sensores, dispositivos móviles, servicios en la nube or a collection of cloud-based and on-premises hybrid data
y aplicaciones de software en forma de flujos de eventos; warehouses. Power BI lets you easily connect to your data
almacenar estos flujos de eventos de forma duradera para sources, visualize and discover what’s important, and share
su posterior recuperación; manipular, procesar y reaccionar that with anyone or everyone you want.
a los flujos de eventos en tiempo real y enrutar los flujos
de eventos a diferentes tecnologı́as de destino según sea 5.8. Quicksights
necesario. La transmisión de eventos garantiza un flujo
continuo y una interpretación de los datos para que la Amazon QuickSight permite que todos los miembros de
información correcta esté en el lugar correcto, en el su organización comprendan sus datos mediante preguntas
momento correcto. en lenguaje natural, la exploración a través de paneles
interactivos o la búsqueda automática de patrones y valores
La transmisión de eventos se aplica a una amplia var- atı́picos impulsada por machine learning.
iedad de casos de uso en una gran cantidad de industrias y
organizaciones. Sus muchos ejemplos incluyen: Los usuarios finales de las organizaciones pueden
realizar preguntas en lenguaje natural y recibir respuestas
• Para procesar pagos y transacciones financieras en con visualizaciones relevantes. QuickSight Q utiliza
tiempo real, como en bolsas de valores, bancos machine learning para interpretar la intención de una
y seguros. Para rastrear y monitorear automóviles, pregunta y analizar los datos para responder las preguntas
camiones, flotas y envı́os en tiempo real, como en empresariales de manera rápida.
logı́stica y la industria automotriz.
• Para capturar y analizar continuamente datos de Los analistas empresariales pueden crear paneles de
sensores de dispositivos IoT u otros equipos, como control de pı́xeles perfectos y sin servidor en minutos y
en fábricas y parques eólicos. sin problemas, mediante la conexión segura a petabytes de
• Para recopilar y reaccionar de inmediato a las in- datos en Amazon S3 y la realización de consultas a través
teracciones y pedidos de los clientes, como en el de Amazon Athena, mientras comparten con decenas de
comercio minorista, la industria hotelera y de viajes, miles de usuarios en Amazon QuickSight, todo sin software
y las aplicaciones móviles. cliente o infraestructura de servidor.
• Monitorear a los pacientes en atención hospitalaria
y predecir cambios de condición para asegurar un Los desarrolladores pueden implementar y escalar
tratamiento oportuno en emergencias. análisis integrados a cientos de miles de usuarios en
• Para conectar, almacenar y poner a disposición datos aplicaciones con API de AWS robustas. Comparta la
producidos por diferentes divisiones de una empresa. información y la visualización de datos con todos los
Servir como base para plataformas de datos, arqui- usuarios de la organización, ya sea a través de la Web, de
tecturas basadas en eventos y microservicios. dispositivos móviles, del email o de aplicaciones integradas.
Los administradores pueden proporcionar un

5.6. Tableau rendimiento constante, ya que QuickSight escala de forma
automática la carga de trabajo. QuickSight proporciona
Tableau es una herramienta de visualización de datos actualizaciones cada 2 semanas, lo que garantiza que todos
poderosa y de más rápido crecimiento que se utiliza en la los usuarios tengan las caracterı́sticas más recientes sin
industria de inteligencia empresarial. Ayuda a simplificar tiempo de inactividad, conflictos de versiones o problemas
los datos sin procesar en un formato muy fácil de entender. de compatibilidad observados con las soluciones de
Tableau ayuda a crear los datos que pueden entender inteligencia empresarial (BI) tradicionales. QuickSight
los profesionales de cualquier nivel en una organización. también es el primer servicio de inteligencia empresarial
También permite a los usuarios no técnicos crear paneles (BI) que ofrece precios de pago por sesión, lo que lo hace
personalizados. rentable para implementaciones a gran escala.
Lo bueno del software de Tableau es que no requiere 5.9. Jupyter

ninguna habilidad técnica ni de programación para fun-
cionar. La herramienta ha despertado el interés de personas La aplicación Jupyter Notebook es una aplicación
de todos los sectores, como empresas, investigadores, difer- servidor-cliente que permite editar y ejecutar documentos
entes industrias, etc. de notebook a través de un navegador web. La aplicación
Jupyter Notebook se puede ejecutar en un escritorio local
que no requiera acceso a Internet (como se describe en
este documento) o se puede instalar en un servidor remoto
y acceder a través de Internet.
Los documentos de notebook son documentos produci-

dos por la aplicación Jupyter Notebook, que contienen
código de computadora, python, R y Julia, y elementos de
texto enriquecido, párrafos, ecuaciones, figuras. Los doc-
umentos de cuaderno son tanto documentos legibles por
humanos que contienen la descripción del análisis y los
resultados como documentos ejecutables que se pueden
ejecutar para realizar análisis de datos.
6. Conclusión
Debido a las grandes cantidades de datos y a las
necesidades de obtener cada vez mejor calidad de
informacion y conocimiento de estos mismos, muchas
herramientas, procesos y conceptos se han desarrollado
para poder hacer frente a estos nuevos retos.
El procesamiento de Big Data va comenzando una

nueva etapa donde los datos son cada vez mas variables y
provienen de fuentes diferentes. Pero asi como han surgido
tecnologı́as y técnicas para afrontar los retos anteriores,
nuevas maneras y tecnologı́as surgirán para vencer los
próximos obstáculos.
References
[1] URL : https://kafka.apache.org/intro.
[2] ¿Qué es una base de datos relacional? URL: https :
//www.oracle.com/mx/database/what-is-a-relational-
database/.
[3] Apache airflow documentation¶. URL: https://airflow.
apache.org/docs/apache-airflow/stable/index.html.
[4] Apache Hive. URL: https://hive.apache.org/.
[5] Thomas Erl, Wajid Khattak, and Paul Buhler. Big Data
Fundamentals: Concepts, Drivers amp; Techniques.
Prentice Hall, 2016.
[6] Alex Gorelik. The Enterprise Big Data Lake: Deliver-
ing the promise of Big Data and data science. O’Reilly
Media, 2019.
[7] Markku Lahtela and Philip (Provenance) Kaplan. AWS
Quicksight. 1966. URL: https://aws.amazon.com/es/
quicksight/.
[8] Project jupyter. URL: https://jupyter.org/.

1.big Data

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1.big Data

Cargado por

Copyright:

Formatos disponibles

The Big Data

José Adrián Castillo Sierra

1. Introducción un problema de Big Data; las soluciones que se crearon

Una base de datos relacional es una recopilación

5.2. Apache Hive 5.4. Apache Airflow

Los administradores pueden proporcionar un

Lo bueno del software de Tableau es que no requiere 5.9. Jupyter

Los documentos de notebook son documentos produci-

El procesamiento de Big Data va comenzando una

También podría gustarte