BD Apuntes de La Clase

BIG
o
l
u
m
e
DAT
n
:
C
a
Profesor:
n Cristian Molina.
A
----------------------------------------------------------------------------------------------------------------
t
1ra
i Clase (07-03-2023):
d
a ● ¿Qué es Big Data?
d Keywords: Gran volumen de datos, predicción, toma de decisiones.
d
e
d
a
t
o
s
p
o
r
s
e
g
u
n
d
o
.
E
s
t
a
c
a
r
a
c
t
e
r
í
s
t
i
c
a
o
r
s
í
s
o
l
a
n
o
d
e
f
i
n
e
q
u
e
u
n
p
r
o
y
e
c
t
o
s
e
a
d
e
B
i
g
D
a
t
a
.
V
e
r
a
c
d
a
d
:
C
a
● Diferencias entre BI y Big Data.
l
-Big Data se hace cargo de la velocidad y de grandes volúmenes de
i
d datos.
a -BI parte de una base tradicional y estructurada, generalmente
d referentes a números y tablas.
-Big Data es una solución para enfrentar el diluvio de datos y generar
d valor.
e
----------------------------------------------------------------------------------------------------------------
l Clase (09-03-2023):
2da
a
i
INFRAESTRUCTURA PARA BIG DATA
n
f ● ON-PREMISE (LOCAL):
o ○ Mayor Costo Inicial (CAPEX).
r ○ Mayor Time to Market.
m ○ Regulaciones Legales Estrictas.
a ● CLOUD: Menor Costo Inicial (CAPEX), Menor Time to Market, Pago por Uso.
c ○ IaaS: Infraestructura como servicio, lo que uno ve.
i ○ PaaS: Plataforma como servicio, base de datos.
ó ○ SaaS: Software/solución como servicio, es un portal web.
n
.
V
a
l
o
r
:
E
l
d
a
t
o
d
Híbrida:
e que es una mezcla de las 2, la cual nos sirve para subir algunas cosas y tenerlas
deb respaldo.
e
t
Sabemos la cantidad de datos que se generan actualmente en internet
r
a
n
s
f
o
r
a
r
s
e
Sabemos
e qué es Big Data:
n
Es el conjunto de estrategias que posibilitan recopilar, y analizar una gran cantidad de
datos, en los cuales se detectan patrones ocultos que hacen visible información relevante. A
u
su vez contribuye a la toma de decisiones acertadas que optimizan las soluciones digitales
n
dea la empresa. Los datos que se procesan incluyen información estructurada y no
estructurada que proviene de muy diversas fuentes como: redes sociales, motores de
búsqueda,
a dispositivos móviles, maquinaria, vehículos, GPS, call centers, etc., por esta
razón
c debe combinar sus técnicas de smart data con aplicaciones comerciales
convencionales
c como bases de datos, ERP o CRM.
i
● La aplicación del big data en las operaciones logísticas posibilita:
ó
● Recopilar y analizar los datos liberados en el desarrollo de la cadena de suministro.
n
● Detectar tendencias y comportamientos de los clientes.
.
● Identificar deficiencias para minimizar errores en los recorridos.
● Reconocer las dificultades para optimizar la ubicación estratégica de la mercancía
B
en el almacén y la preparación de los pedidos.
u
● Automatizar la información que obtienen los vehículos en su actividad.
s
● Neutralizar los riesgos en los recorridos de última milla.
c
a
Entendimos la diferencia entre Big Data y Business Intelligence
r
Big data = grandes volúmenes de datos v/s BI = Manejo de datos reducido
s
a
Entendimos por qué se necesita Big Data
t
Existen
i 3 tipos de roles basados en datos
s
científico
f de datos: está enfocado a las personas que pueden trabajar con datos o lenguaje
con
a modelos predictivos o minería de datos utilizando las matemáticas, python, r,
estadísticas,
c sql
e
ingeniero de datos: es una persona que trabaja con la arquitectura, programación,
r
analista de datos: su tarea es entender lo que realizan los otros, las habilidades de poder
u
contar una historia con los datos,
n
a
Aprendimos a definir una infraestructura para un proyecto de Big Data
n
ECOSISTEMA HADOOP
e
Hadoop
c (La base del bigdata) es una estructura de software de código abierto para
almacenar
e datos y ejecutar aplicaciones en clústeres de hardware comercial. Proporciona
almacenamiento
s masivo para cualquier tipo de datos, enorme poder de procesamiento y la
capacidad
i de procesar tareas o trabajos concurrentes virtualmente ilimitados.
d
COMPUTACIÓN
a MONOLÍTICA: es lo que pasa dentro de un computador, es aquella en la
que
d el software se estructura de forma que todos los aspectos funcionales del mismo
quedan acoplados y sujetos en un mismo programa
(
¿
P
a
r
a
q
u
é
?
)
.
COMPUTACIÓN DISTRIBUIDA : es un método que consiste en hacer que varias

computadoras trabajen juntos para resolver un problema común. De este modo, una red de
computadoras forma una única computadora potente que brinda recursos a gran escala
para afrontar desafíos complejos.
HADOOP: Es una estructura de software de código abierto para almacenar datos y ejecutar
aplicaciones en clústeres de hardware comercial.
hadoop está almacenado de manera distributiva

Los HDFS son archivos que se guardan de manera distributiva y triplicada.
V de volumen y variedad se encuentran en el HDFS y pueden ser estructurados o no

estructurados.
V de velocidad se hace cargo de los datos en forma real y se relaciona al software KAFKA
V de veracidad procesa los datos para saber si son verídicos y se relacionan al software
SPARK y HIVE (SQL)
V de valor es la historia que se contará de un gráfico para poder demostrar cómo se

procesaron los datos a través de Power BI

BD Apuntes de La Clase

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

BD Apuntes de La Clase

Cargado por

Copyright:

Formatos disponibles

BIG

COMPUTACIÓN DISTRIBUIDA : es un método que consiste en hacer que varias

hadoop está almacenado de manera distributiva

V de volumen y variedad se encuentran en el HDFS y pueden ser estructurados o no

V de valor es la historia que se contará de un gráfico para poder demostrar cómo se

También podría gustarte