Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Óscar García
► Características principales:
– Similares a las de otros sistemas de archivos distribuidos.
– Procesamiento cerca de los datos en lugar de mover los datos a la aplicación.
– Sólo una escritura a la vez en los datos.
– Almacenamiento de flujo de datos en el orden escrito.
– Tolerancia a fallos: detección y recuperación rápida y automática.
– Acceso a datos a través de MapReduce.
– Modelo de coherencia simple y robusto.
– Portabilidad a través de hardware y sistemas operativos heterogéneos.
– Escalabilidad para almacenar y procesar de manera fiable grandes cantidades de
datos.
– Procesamiento en clústeres de hardware de bajo coste.
– Distribución de datos lógica para procesarlos en paralelo en los nodos de ubicación.
– Backup y redistribución del procesamiento de los datos.
Fuente: https://www.ibm.com/developerworks/library/wa-introhdfs/index.html
Actualiza la imagen FS
con los Edit Logs
Imagen FS Imagen FS
Actualiza la imagen FS
en el NameNode
Dashboard de Ambari
► Orden aleatorio y ordenado: la tarea del Reducer comienza con el paso Shuffle and
Step. Se descargan los pares de clave-valor agrupados en la máquina local en la que se
está ejecutando el Reducer. Los pares clave-valor individuales se ordenan por clave en
una lista de datos más grande. La lista de datos agrupa las claves equivalentes para que
sus valores puedan ser iterados fácilmente en la tarea del Reducer.
► reduce(): el Reducer toma los datos agrupados de clave-valor agrupados como entrada
y ejecuta una función reduce() a cada uno de ellos. En esta fase los datos se pueden
agregar, filtrar y combinar de varias formas. Una vez que finaliza la ejecución, la salida
proporcionará cero o más pares clave-valor a la fase de salida.
► Fase de salida: en la fase de salida se traducen los pares clave-valor de la función
reduce() y se escriben en un fichero.
Fuente: https://www.oreilly.com/library/view/distributed-computing-in/9781787126992/5fef6ce5-20d7-4d7c-93eb-7e669d48c2b4.xhtml
► Puede trabajar con su propio sistema de gestión del clúster o con otros (YARN,
Kubernetes).
► Acepta múltiples sistemas de ficheros distribuidos: HDFS, MapR-FS, Amazon S3,
Cassandra, etc.
► Es compatible con un conjunto muy amplia de librerías, APIs, aplicaciones, etc.
Hadoop
Spark
Hadoop
Spark
► Logística
► Procesado de datos energéticos
► Business Intelligence
► Sistemas de localización
► Gestión de almacén robotizado
► Agricultura
► Detección de fallos en entornos de trabajo
Fuente: https://www.kai-waehner.de/blog/2020/09/17/apache-kafka-manufacturing-industry-4-0-rami-iot-iiot-automation-use-cases/
Fuente: https://community.cloudera.com/t5/Community-Articles/Edge-to-AI-IoT-Sensors-and-Images-Streaming-Ingest-and/ta-p/249474/
Fuente: https://community.cloudera.com/t5/Community-Articles/IoT-Edge-Use-Cases-with-Apache-Kafka-and-Apache-NiFi-MiniFi/ta-p/249232
Fuente: https://community.cloudera.com/t5/Community-Articles/IoT-Edge-Use-Cases-with-Apache-Kafka-and-Apache-NiFi-MiniFi/ta-p/249232