0% encontró este documento útil (0 votos)
175 vistas19 páginas

Presentación Cloudera

El documento resume una presentación sobre ingesta y análisis de datos en tiempo real usando Kafka y Spark Streaming. Explica brevemente qué es Big Data y Hadoop, y describe las tecnologías Cloudera como HDFS, Hive y Spark. Luego, muestra una demostración de un caso de uso con Kafka y Spark Streaming para detectar usuarios inválidos. Finalmente, promueve el programa Cloudera Academy para capacitación en Hadoop, Spark y Big Data.

Cargado por

JOSE DELGADO
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
175 vistas19 páginas

Presentación Cloudera

El documento resume una presentación sobre ingesta y análisis de datos en tiempo real usando Kafka y Spark Streaming. Explica brevemente qué es Big Data y Hadoop, y describe las tecnologías Cloudera como HDFS, Hive y Spark. Luego, muestra una demostración de un caso de uso con Kafka y Spark Streaming para detectar usuarios inválidos. Finalmente, promueve el programa Cloudera Academy para capacitación en Hadoop, Spark y Big Data.

Cargado por

JOSE DELGADO
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Cloudera Academic

Cloudera Academic
13:05 a 14:05h

Cloudera Workshop: Ingesta y Análisis de Datos en


Tiempo Real mediante Kafka y Spark Streaming
Ramon de la Rosa | Big Data and Cloud Specialist at PUE
Cloudera Academic

Agenda
• Qué es Big Data
• Cloudera Hadoop
• Aplicaciones Big Data
• Demo caso de uso: PUEAcademyDay
Distributed fail to ban
• Cloudera Academy Program CAP
Cloudera Academic

¿Qué es Big Data?


Cloudera Academic

¿Qué es Big Data?


Big Data nació con el objetivo de cubrir unas necesidades no satisfechas
por las tecnologías existentes, como es el almacenamiento y tratamiento de
grandes volúmenes de datos que poseen unas características muy
concretas definidas como las tres V's (en la actualidad puede haber más).
Cloudera Academic

Cloudera Apache Hadoop


Apache Hadoop is an open-source software framework for distributed
storage and distributed processing of very large data

Cloudera was the first commercial software vendor to release a Hadoop


Distribution with enterprise features security and governance

Packages included are:


Apache Pig, Apache Hive, Apache HBase, Apache Spark, Apache
ZooKeeper, Cloudera Impala, Apache Flume, Apache Sqoop, Apache Oozie, Solr
Cloudera Academic

Aplicación Big Data


Cloudera Academic

Demo: Kafka Spark Stream


Cloudera Academic
Cloudera Academic

Spark
• Apache Spark es un framework open souce de
computación distribuida
• Componentes
• Spark Core (RDD)
• Spark SQL (Data Frames)
• Spark Streamming
• MLLib
• GrapX
• Se puede programar en
• Scala (*)
• Python (*)
• Java
• R
Cloudera Academic

Demo: Kafka Spark Stream

https://github.com/rdelaros/cap-puedacademyday19
Cloudera Academic

Lectura de topic
Cloudera Academic

Tabla de logs
Cloudera Academic

SSH Invalid users


Cloudera Academic

Windowing
Cloudera Academic

Demo: Kafka Spark Stream

https://github.com/rdelaros/cap-puedacademyday19
Cloudera Academic

Nuevas profesiones en
SQL Java Python
Arquitecto Big Data

Desarrollador Big Data Linux Scala Ansible

Data Analyst
Kudu Spark Hbase
Científico de datos

Administrador de Hive Impala Hadoop


Hadoop
Kafka NiFi
Cloudera Academic

Cloudera Academy Program CAP


• Cursos
• Introduction to Hadoop and Big Data

• Developer Training for Spark and Hadoop

• Máquinas virtuales
• 1 máquina virtual por curso simulando un cluster

• Cloudera Quick Start Virtual Machine

• Licencia Cloudera Enterprise

• Más información: www.pue.es/cloudera-academy


Cloudera Academic
Cloudera Academic

También podría gustarte