Está en la página 1de 16

Laboratorio

N°4
BUSINESS AND
❑ Alvinagorta Huanquis, Joel
CORPORATE
❑ Norabuena Asparrin, Smith
❑ Livia Fernández, Pool Temístocles
❑ Castillo Berrospi, Renzo Jose
❑ Gonzales Quinquilla, Cesar Jean Pierre
3.1¿Qué es Big Data ?

El término "Big Data" se refiere a conjuntos


de datos extremadamente grandes y
complejos que no pueden ser fácilmente
gestionados, procesados o analizados
utilizando métodos tradicionales. Estos
conjuntos de datos suelen caracterizarse por
su volumen, velocidad y variedad.

➔ importancia:

La importancia del Big Data radica en su


potencial para proporcionar información
valiosa y perspicaz que puede utilizarse
para tomar decisiones más informadas y
respaldar estrategias empresariales.
3.2¿Qué tipos de Big Data se tiene ?
➔ BIG DATA NO ESTRUCTURADO
Los principales tipos de Big Data son los siguientes: Son cualquier dato de forma desconocida.
Además, de ser enormes en tamaño, los datos no
➔ BIG DATA ESTRUCTURADO estructurados plantean múltiples desafíos con
respecto a su procesamiento para derivar valor
Cualquier dato que se pueda almacenar, acceder de ellos.
y procesar en formato fijo recibe el nombre de
dato «estructurado»

➔ BIG DATA SEMIESTRUCTURADO ➔ BIG DATA GEOESPACIAL


Los datos semiestructurados pueden contener Son datos relacionados con ubicaciones
ambos tipos de datos. Suelen tener un formato geográficas y se utilizan para análisis de
que se puede definir. mapas, navegación,
3.3 ¿Cuáles son las características de Big Data?

➔ Volumen ➔ Velocidad ➔ Variedad


Se refiere a la gran cantidad de datos generados y Hace referencia a la velocidad a la que los datos son El Big Data puede incluir una amplia variedad de
almacenados. generados, procesados y analizados. tipos y formatos de datos, como texto, imágenes,
videos, archivos de registro, datos de sensores,
datos de redes sociales, transacciones financieras,
entre otros.

➔ Veracidad ➔ Valor

Almacenar y procesar grandes cantidades de datos Antes del Big Data, la calidad de los datos era un
requería inversiones significativas en infraestructura, problema común. Los datos a menudo estaban
como servidores y sistemas de almacenamiento. incompletos, desorganizados o contenían errores.
3.4 ¿Cuáles son las fases/pasos de una solución Big Data?

➔ Definir los objetivos ➔ Recopilación de datos ➔ Almacenamiento de datos


Identificar claramente los objetivos comerciales y Adquirir y recopilar los datos necesarios para el Almacenar los datos recopilados en un entorno
determinar qué problemas o preguntas se intentan análisis. Estos datos pueden provenir de diversas adecuado, como un sistema de almacenamiento
resolver mediante el análisis de Big Data. fuentes, como bases de datos, registros de distribuido o un data warehouse, para facilitar el
aplicaciones, sensores, redes sociales, entre otros. acceso y el análisis posterior.

➔ Procesamiento y análisis de datos ➔ Interpretación de resultados ➔ Acción y mejora continua

Aplicar técnicas de procesamiento y análisis de datos, Interpretar los resultados del análisis de datos y Implementar las acciones correspondientes basadas
como minería de datos, aprendizaje automático y extraer conocimientos relevantes para tomar en los resultados obtenidos y realizar un seguimiento
análisis estadístico, para descubrir patrones, decisiones informadas y responder a los objetivos continuo para evaluar y mejorar la solución de Big
tendencias y relaciones significativas en los datos. comerciales establecidos. Data en curso.
3.5¿Cuáles son los beneficios del Big Data ? 3.6¿Dónde se utiliza Big Data ?

➔ Toma de Decisiones Informadas ➔ Industria y Fabricación

Big data permite analizar y extraer


Optimización, predicción y
grandes cantidades de datos de
reducción de tiempo en la
manera que ya no se depende de la
producción y la maquinaria
intuición.
respectivamente.

➔ Identificación de Patrones y Tendencias ➔ Salud y Medicina

Al hacer un análisis de gran cantidad


En el área de la medicina se utiliza
de datos descubre patrones que ayudan
el Big Data en el análisis de datos
a predecir resultados.
médicos y personalización de
tratamientos.

➔ Optimización de Procesos ➔ Finanzas


Haciendo un análisis se
identifican ineficiencias en los En el área de finanzas se emplea el
procesos lo que da como Big Data para analizar riesgos,
resultado una optimización. predecir tendencias y gestionar la
toma de decisiones.

➔ Personalización del Cliente ➔ Transporte y Logística

Una vez analizados y recopilados


los datos se pueden saber las Mejora de la gestión de
preferencias de los clientes de flotas y reducción de
modo que se brinda una costos operativos.
personalización.
3.7 ¿Qué problema soluciona Big Data?

➔ Escalabilidad ➔ Velocidad ➔ Integración de datos


Manejar grandes cantidades de datos era Analizar y procesar datos en tiempo real era un Los datos a menudo estaban dispersos en
extremadamente difícil debido a la falta de desafío diferentes sistemas y formatos.
infraestructura y tecnología adecuadas.

➔ Costo ➔ Calidad de datos ➔ Privacidad y seguridad

Almacenar y procesar grandes cantidades de datos Antes del Big Data, la calidad de los datos era un El Big Data ha mejorado significativamente la
requería inversiones significativas en infraestructura, problema común. Los datos a menudo estaban capacidad de detectar fraudes y problemas de
como servidores y sistemas de almacenamiento. incompletos, desorganizados o contenían errores. seguridad
3.8 Explique cada una de las capas y el funcionamiento de los diferentes software existentes para cada capa, incluir la capa de Seguridad (y los software como Ranger,
otros), capas de Gobernanza (y los software como Atlas, otros) y cada Cloud de Big Data (y los software como Cloudera CDP, otros y como trabaja con entornos cloud
como Azure, AWS, Google, otros).

➔ Bath o por lotes ➔ Streaming o por transmision


en tiempo real
O
R
I
G
E
N

D
E

D
A
T
O
S
3.8 Explique cada una de las capas y el funcionamiento de los diferentes software existentes para cada capa, incluir la capa de Seguridad (y los software como Ranger,
otros), capas de Gobernanza (y los software como Atlas, otros) y cada Cloud de Big Data (y los software como Cloudera CDP, otros y como trabaja con entornos cloud
como Azure, AWS, Google, otros).

➔ Ingestion de datos ➔ Almacenamiento ➔ Procesamiento ➔ Almacenamiento de


B resultados
A
T
C
H

S ➔ Ingestion de datos ➔ Procesamiento ➔ Alerta y notificaciones


T
R
E
A
M ➔ Machine Learning
I
N
G
3.8 Explique cada una de las capas y el funcionamiento de los diferentes software existentes para cada capa, incluir la capa de Seguridad (y los software como Ranger,
otros), capas de Gobernanza (y los software como Atlas, otros) y cada Cloud de Big Data (y los software como Cloudera CDP, otros y como trabaja con entornos cloud
como Azure, AWS, Google, otros).

Visualización y
Reporting

➔ Capa de Seguridad ➔ Capa de Gobernanza ➔ Capa de Cloud


3.8 Explique cada una de las capas y el funcionamiento de los diferentes software existentes para cada capa, incluir la capa de Seguridad (y los software como Ranger,
otros), capas de Gobernanza (y los software como Atlas, otros) y cada Cloud de Big Data (y los software como Cloudera CDP, otros y como trabaja con entornos cloud
como Azure, AWS, Google, otros).

Proveedor GCP
Proveedor AWS

Google Cloud
Almacenamiento
Storage
Amazon S3, Amazon
Almacenamiento
EBS, Amazon Glacier

Google Cloud
Procesamiento Dataproc, Google
BigQuery Amazon EMR, Amazon
Procesamiento
Redshift

Google Cloud
Análisis
Dataflow Amazon Athena,
Análisis
Amazon QuickSight

Transmisión en Google Cloud


tiempo real Pub/Sub
Transmisión en Amazon Kinesis, AWS
Transmisión en tiempo tiempo real Data Pipeline
Proveedor Almacenamiento Procesamiento Análisis
real

Azure Data Lake Azure Databricks, Azure


Azure Stream
Azure Storage, Azure Blob HDInsight, Azure Azure Event Hubs
Analytics
Storage Synapse Analytics
3.9 Describa una solución de Big Data en el sector telecomunicaciones y
otra en otro sector. ➔ CDR

USO DEL BIG DATA PARA EL ANÁLISIS DE CDR CDR (Call Detail Record), es un registro que contiene información detallada
sobre las llamadas telefónicas realizadas en una red de
➔ Problema telecomunicaciones.
Es necesario analizar los CDR para extraer su gran valor. Pero los CDR
tienen un gran volumen, variedad de datos y alta velocidad de datos, ➔ Metodologia
mientras que los sistemas de telecomunicaciones actuales están diseñados
sin tener en cuenta estos problemas.

❏ IMSI
❏ SUBNO
❏ B-SUBNO
❏ CALL DURATION

➔ Resultados y conclusiones

Aunque el tamaño del clúster es pequeño, es altamente escalable. Podemos conectar


más nodos de datos en cualquier momento según nuestra necesidad de procesamiento
de datos. Además, esta aplicación debería ayudar a comprender para obtener
conocimientos más profundos de los patrones de comportamiento del cliente.
3.9 Describa una solución de Big Data en el sector telecomunicaciones y ➔ Arquitectura
otra en otro sector.
● Componentes de Software
IMPLEMENTACIÓN DE UNA BASE DE DATOS NOSQL PARA OPTIMIZAR LA
GENERACIÓN DE REPORTES DE SERVICIOS Componentes Especificaciones

➔ Problema Sistema operativo Windows server 2008

El sistema gestor de base de datos que manejan actualmente se encuentra Herramienta de desarrollo Java SE Development Kit 8u121
en SQL SERVER 2008. Al recibir los respaldos de base de datos mes a mes
Primer sistema gestor de base Apache Cassandra 2.2
presentan problemas para la integración de dicha información. de datos

Herramienta de desarrollo DataStax DevCenter 1.5 for Windows

Segundo sistema gestor de SQL Server 2008R2


base de datos

Paquete de software Xampp 5.6.30

● Componentes de Hardware

Gestores de base de datos Servidor de aplicación

Componentes Especificaciones Componentes Especificaciones

Procesador CPU Intel i5 6gen 3.6 ghz Procesador CPU Intel i3 6gen 2.5 ghz

Placa Intel B150 Placa Intel B150

Memoria 6GB de RAM 2400MHz Memoria 2GB de RAM 2400MHz

Almacenamiento Disco duro 1TB 7200 Almacenamiento Disco duro 320GB 7200
➔ Objetivo rpm rpm
Desarrollar e implementar un Sistema de Base de datos NoSQL que permita
optimizar la generación de reportes de servicios en la Dirección Regional
de Salud Ancash.
3.9 Describa una solución de Big Data en el sector telecomunicaciones y
otra en otro sector.

❏ Framework para el desarrollo del aplicativo web

➔ Resultados
➔ Herramientas de desarrollo de software

❏ Herramientas CASE
3.10 Muestre la ejecución de la solución, real o demo.
➔ Creación de la base de datos

➔ Instalación de la base de datos CouchDB

Base de datos Manual de Instalación

https://guide.couchdb.org/editions/1/es/ind
ex.html

sudo aptitude install couchdb

➔ Entorno gráfico de CouchDB

➔ Base de datos con documentos de consultas médicas


3.11 ¿Cuáles son las desafíos de Big Data?

➔ Captura de almacenamiento de datos ➔ Calidad de datos ➔ Velocidad de procesamiento


El volumen masivo de datos generado requiere Los datos pueden estar incompletos, ser En muchos casos, es necesario analizar los datos
sistemas de captura y almacenamiento eficientes inconsistentes o contener errores. en tiempo real para obtener información inmediata
y tomar decisiones en consecuencia

➔ Habilidades y talento ➔ Ética y Gobernanza ➔ Privacidad y seguridad

Existe una escasez de profesionales con las El uso de Big Data plantea cuestiones éticas y de El manejo de grandes cantidades de datos
habilidades necesarias para trabajar con Big Data, gobernanza en relación con la privacidad, la personales plantea preocupaciones sobre la
como conocimientos en análisis de datos, transparencia y la equidad. privacidad y la seguridad.
programación, estadísticas y visualización de datos.

También podría gustarte