0% encontró este documento útil (0 votos)
174 vistas4 páginas

Características y Herramientas de Big Data

Este documento describe las características principales del Big Data, incluyendo las 5 V (Volumen, Velocidad, Variedad, Valor y Veracidad). Explica herramientas clave como HDFS, Hadoop y Spark, y cómo estas herramientas pueden usarse para procesar grandes cantidades de datos en la nube.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
174 vistas4 páginas

Características y Herramientas de Big Data

Este documento describe las características principales del Big Data, incluyendo las 5 V (Volumen, Velocidad, Variedad, Valor y Veracidad). Explica herramientas clave como HDFS, Hadoop y Spark, y cómo estas herramientas pueden usarse para procesar grandes cantidades de datos en la nube.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

TALLER BIG -DATA

DANIEL RICARDO PEÑA SALGUERO

INSTITUCIÓN UNIVERSITARIA PASCUAL BRAVO


FACULTAD DE PRODUCCIÓN Y DISEÑO
TECNOLOGÌA EN PRODUCCIÓN INDUSTRIAL
MEDELLÍN
2021
¿QUÉ ES EL BIG DATA? ¿EN QUÉ CONSISTEN SUS CARACTERÍSTICAS
PRINCIPALES?

CUANDO HABLAMOS DE BIG DATA NOS REFERIMOS A CONJUNTOS DE DATOS O


COMBINACIONES DE CONJUNTOS DE DATOS CUYO TAMAÑO (VOLUMEN),
COMPLEJIDAD (VARIABILIDAD) Y VELOCIDAD DE CRECIMIENTO (VELOCIDAD)
DIFICULTAN SU CAPTURA, GESTIÓN, PROCESAMIENTO O ANÁLISIS MEDIANTE
TECNOLOGÍAS Y HERRAMIENTAS CONVENCIONALES, TALES COMO BASES DE
DATOS RELACIONALES Y ESTADÍSTICAS CONVENCIONALES O PAQUETES DE
VISUALIZACIÓN, DENTRO DEL TIEMPO NECESARIO PARA QUE SEAN ÚTILES.

LAS 5 “V” DEL BIG DATA

El Big Data se caracteriza por cumplir con las 5 “V”, que no son más que 5
características representativas de esta tecnología.

Volumen
Una de las características del Big Data es que nuevos datos se generan
constantemente. Además, como las fuentes son diversas, el volumen de datos
tiende a ser inmenso.
Velocidad
No sólo se generan muchos datos y desde muchas fuentes, sino que lo normal es
que la velocidad a la que se generan estos datos sea muy alta. Esto provoca un
flujo de datos muy difícil de gestionar con software tradicional.
Variedad
Debido a la naturaleza unificadora del Big Data, se debe gestionar la información
que llega de fuentes muy diferentes. Esto supone que, incluso siendo datos
estructurados, tal estructura sea diferente en cada fuente, lo que supone un nuevo
reto a solventar para la empresa.
Valor
Debido a la inmensa cantidad de datos que se debe procesar, se ha de tener
especial cuidado en la elección de los datos que realmente son importantes para
la empresa y sus futuras operaciones. Una buena definición de objetivos y
estrategia previa al almacenamiento de datos ahorrará mucho tiempo de cómputo
y facilitará la gestión a largo plazo.
Veracidad
El Big Data debe alimentarse con datos relevantes y verdaderos. No podremos
realizar analíticas útiles si muchos de los datos entrantes provienen de fuentes
falsas o con errores en su información.
 MUESTRE UNA GRÁFICA DE UNA ARQUITECTURA BIG DATA Y
EXPLÍQUELA SEGÚN LA LÓGICA "MAESTRO"-"ESCLAVOS"

¿QUÉ SON LOS SISTEMAS DE FICHEROS HDFS?

HDFS es el sistema de ficheros distribuido de Hadoop. El calificativo «distribuido»


expresa la característica más significativa de este sistema de ficheros, la cual es
su capacidad para almacenar los archivos en un clúster de varias máquinas.
Esta característica es imperante cuando se pretenden almacenar grandes
cantidades de datos, puesto que en general no es posible almacenar cientos de
terabytes o petabytes en una única máquina.

¿POR QUÉ SON IMPORTANTES EN LA ARQUITECTURA BIG DATA?

La arquitectura Big Data tiene como principal objetivo el análisis y procesamiento


de grandes cantidades de datos que no pueden realizarse de la manera
convencional, pues se superan las capacidades de los sistemas estándar para su
almacenamiento, gestión y tratamiento En UNIR analizamos los principales
factores que debes considerar.
La arquitectura Big Data consiste, entonces, en el diseño de sistemas y
modelos para el tratamiento de grandes volúmenes de datos de diferentes tipos y
orígenes con el fin de transformarlos en información que permita la mejor toma de
decisiones.
¿QUÉ ES HADOOP?

Hadoop es una estructura de software de código abierto para almacenar datos y


ejecutar aplicaciones en clústeres de hardware comercial. proporciona
almacenamiento masivo para cualquier tipo de datos, enorme poder de
procesamiento y la capacidad de procesar tareas o trabajos concurrentes
virtualmente ilimitados.

¿QUÉ ES SPARK?

Spark es un motor ultrarrápido para el almacenamiento, procesamiento y análisis


de grandes volúmenes de datos. Es de código abierto y se encuentra gestionado
por la Apache Software Fundación. Por tanto, la herramienta se conoce
como Apache Spark y es uno de sus proyectos más activos.

Apache Spark está especialmente diseñado para su implementación en big data y


machine learning. Pues su potencia de procesamiento agiliza la detección de
patrones en los datos, la clasificación organizada de la información, la ejecución
de cómputo intensivo sobre los datos y el procesamiento paralelo en clústers.

¿DE QUÉ MANERA SE PUEDE REALIZAR PROCESAMIENTO CON TALES


HERRAMIENTAS MEDIANTE LA NUBE?

Ahora vemos que hadoop comienza a situarse a un lado de los entornos de


almacenes de datos, además de que ciertos conjuntos de datos se llevan del
almacén de datos a hadoop o que datos nuevos se van directamente a hadoop. la
meta final para toda organización es tener una plataforma correcta para almacenar
y procesar datos de diferentes esquemas, formatos, etc. para justificar diferentes
casos de uso que se puedan integrar en diferentes niveles.
El almacenamiento en la nube es un modelo de informática en la nube que
almacena datos en internet a través de un proveedor de informática en la nube
que administra y opera el almacenamiento en la nube como un servicio. se ofrece
bajo demanda con capacidad y costo oportunos, y elimina la necesidad de tener
que comprar y administrar su propia infraestructura de almacenamiento de datos.
esto le otorga agilidad, escala global y durabilidad con acceso a los datos en
cualquier momento y lugar.

También podría gustarte