Está en la página 1de 3

ALMACENAMIENTO EN VALLE GONZÁLEZ

CRISTIAN EDUATO T51

HADOOP
BASE DE DATOS DISTRIBUIDA
Hadoop es un framework opensource para almacenar datos y ejecutar aplicaciones en clusters de hardware
básicos. Proporciona un almacenamiento masivo para cualquier tipo de datos, un enorme poder de
procesamiento y la capacidad de manejar tareas o trabajos prácticamente ilimitados. Esto básicamente y de
forma muy concreta es lo que es hadoop. Y ¿para qué sirve? En algún otro artículo te hemos explicado la
historia de Hadoop y como nació a partir de la necesidad de Google para poder procesar todos los datos de la
web. Veamos ahora otros conceptos importantes de Hadoop que nos van a dar las claves de porqué Hadoop
es importante, cuáles son los desafíos de utilizar hadoop, cómo se utiliza, en definitiva, qué es Hadoop y para
qué sirve. Hadoop es un framework opensource para almacenar datos y ejecutar aplicaciones en clusters de
hardware básicos. Proporciona un almacenamiento masivo para cualquier tipo de datos, un enorme poder de
procesamiento y la capacidad de manejar tareas o trabajos prácticamente ilimitados. Esto básicamente y de
forma muy concreta es lo que es hadoop. Y ¿para qué sirve? En algún otro artículo te hemos explicado la
historia de Hadoop y como nació a partir de la necesidad de Google para poder procesar todos los datos de la
web. Veamos ahora otros conceptos importantes de Hadoop que nos van a dar las claves de porqué Hadoop
es importante, cuáles son los desafíos de utilizar hadoop, cómo se utiliza, en definitiva, qué es Hadoop y para
qué sirve.
¿Por qué es importante Hadoop?
Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos rápidamente. Con
volúmenes y variedad de datos en constante aumento, especialmente de lo que se refiere a medios de
comunicación social y del Internet de las Cosas, esto es una consideración clave.
Poder de procesamiento. El modelo de computación distribuida de Hadoop procesa rápidamente Big Data.
Cuantos más nodos de computación se utilizan, más poder de procesamiento tendrás.
Tolerancia a fallos. Los datos y el procesamiento de aplicaciones están protegidos contra fallos de hardware. Si
un nodo disminuye, los trabajos se redirigen automáticamente a otros nodos para asegurarse de que la
computación distribuida no falla. Se almacenan automáticamente varias copias de todos los datos.
Flexibilidad. A diferencia de las bases de datos relacionales tradicionales, no es necesario preprocesar los datos
antes de almacenarlos. Puedes almacenar tantos datos como desees y decidir cómo utilizarlos más tarde. Esto
incluye datos no estructurados como texto imágenes y vídeo.
Bajo coste. El framework de código abierto es gratuito y utiliza hardware básico para almacenar grandes
cantidades de datos.
Escalabilidad. Puedes hacer crecer fácilmente el sistema para manejar más datos simplemente añadiendo
nodos. Se requiere poca administración.
¿Cuáles son los desafíos de usar Hadoop?
La programación con MapReduce no es un buen partido para todos los problemas. Es bueno para peticiones
de información simples y problemas que se pueden dividir en unidades independientes, pero no es eficiente
para tareas analíticas, iterativas e interactivas. MapReduce es intensivo en ficheros y los algoritmos iterativos
requieren varias fases de distribución y ordenación de mapas para completar. Esto crea varios archivos entre
fases de MapReduce y es ineficiente para la computación analítica avanzada.
Existe una brecha de talento ampliamente reconocida. Puede ser difícil encontrar programadores de nivel que
tengan suficientes habilidades de Java para ser productivos con MapReduce. Esa es una razón por la que los
proveedores de las distribuciones compiten para poner la tecnología relacional SQL encima de Hadoop. Es
mucho más fácil encontrar programadores con habilidades de SQL que con habilidades de MapReduce. Y la
administración de Hadoop parece parte arte y parte ciencia, requiriendo un bajo nivel de conocimiento de los
sistemas operativos, el Hardware y la configuración del kernel de Hadoop.
Seguridad de datos. Otro desafío se centra en los problemas de seguridad de datos fragmentados, aunque
están surgiendo nuevas herramientas y tecnologías. El protocolo de autenticación Kerberos es un gran paso
hacia la seguridad de los entornos Hadoop.
Gestión y gobierno de datos. Hadoop no tiene herramientas completas y fáciles de utilizar para la gestión de
datos, limpieza de datos, gobernanza y metadatos. Especialmente carece de herramientas para la calidad de
los datos y la estandarización.
¿Cómo se utiliza Hadoop?
Más allá de su objetivo original de buscar millones o miles de millones de páginas web y devolver resultados
relevantes, lo que es y para qué sirve Hadoop es lo que muchas organizaciones buscan en Hadoop. Las
empresas buscan que Hadoop sea su próxima gran plataforma de datos. Los usos más populares de hoy en
día son:
Almacenamiento y archivo de datos de bajo coste. El modesto coste del hardware hace que Hadoop sea útil
para almacenar y combinar datos tales como datos transaccionales, de redes sociales, de sensores, máquinas,
científicos etc. El almacenamiento de bajo coste permite mantener información que no se considera actualmente
crítica pero que podrías necesitar analizar más adelante.
Sandbox para descubrimiento y análisis. Debido a que Hadoop fue diseñado para tratar volúmenes de datos en
una variedad de formas, puede ejecutar algoritmos analíticos. La analítica de Big Data en Hadoop puede ayudar
a una organización a operar de manera más eficiente, descubrir nuevas oportunidades y obtener ventajas
competitivas. El enfoque sandbox o de entorno de pruebas ofrece una oportunidad para innovar con una
inversión mínima.
Data lake. Los data lake permiten almacenar datos en su formato original o exacto, tanto estructurados como
sin estructurar, y sin ningún tipo de procesamiento, con el objetivo de ofrecer una visión sin modificar o sin
refinar de los datos a los analistas de datos para que puedan utilizarlos para descubrir y analizar. Les ayuda a
hacer preguntas nuevas o difíciles sin restricciones. Los data lake no son un reemplazo de los almacenes de
datos. De hecho, el cómo asegurar y gobernar data lakes es un tema enorme para IT.
Complementa tu data warehouse. Ya estamos viendo a Hadoop colocándose junto a entornos de Data
Warehouse, así como ciertos conjuntos de datos que están siendo descargados del data warehouse a Hadoop,
o nuevos tipos de datos que van directamente a Hadoop. El objetivo final de cada organización es contar con
una plataforma para almacenar y procesar datos de diferentes esquemas, formatos etc., para soportar diferentes
casos de uso que se pueden integrar en diferentes niveles.
IoT y Hadoop. Las cosas en el IoT necesitan saber qué comunicar y cuándo actuar. En el núcleo de la IoT hay
un flujo constante de un torrente de datos. Hadoop es frecuentemente utilizado como almacén de datos para
millones o miles de millones de transacciones. Las capacidades masivas de almacenamiento y procesamiento
también te permiten usar Hadoop como una sandbox de descubrimiento y definición de patrones para ser
monitorizados para instrucciones prescriptivas. A continuación puedes mejorar continuamente estas
instrucciones ya que Hadoop se utiliza constantemente con nuevos datos que no coinciden con los patrones
definidos anteriormente.
Conclusión
Hemos visto que es Hadoop y para que sirve además de la importancia que tiene en la actualidad para las
empresas y los desafíos que supone utilizarlo debido a alguna complicación para encontrar expertos en la
materia. Ahora puedes comenzar a utilizarlo para sacar el máximo partido a tu big data. Pero recuerda que si
necesitas ayuda lo ideal es preguntar a un experto.

FUENTES: ¿Qué es Big Data Hadoop y para qué sirve? (s. f.). Recuperado 4 de octubre de 2022, de
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/que-es-big-data-hadoop-y-para-que-sirve
(¿Qué es Big Data Hadoop y para qué sirve?, s. f.)

También podría gustarte