Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 Hadoop
Capa de gestión de recursos (YARN): YARN son las siglas de Yet Another
Resource Negotiator . Es la capa de gestión de recursos de Hadoop. Fue
introducido en Hadoop 2. YARN está diseñado con la idea de dividir las
funcionalidades de programación de trabajos y administración de recursos en
demonios separados. La idea básica es tener un ResourceManager global y un
maestro de aplicación por aplicación donde la aplicación puede ser un solo trabajo o
DAG de trabajos.
Figura 3 Apache Hadoop YARN arquitectura
2.3.4 Sqoop
El proceso de transferencia consiste leer fila por fila cada tabla de la base de datos e
importarlas a HDFS, la salida de estos es un conjunto de ficheros que puede estar
en formato CSV, Avro, binario o de secuencia.
Figura 6 Descripción general de la importación de Sqoop
2.3.5 Storm
2.3.7 Flink
2.3.8 Hive