Está en la página 1de 5

BIG

o
l
u
m
e

DAT
n
:

C
a
Profesor:
n Cristian Molina.

A
----------------------------------------------------------------------------------------------------------------
t
1ra
i Clase (07-03-2023):
d
a ● ¿Qué es Big Data?
d Keywords: Gran volumen de datos, predicción, toma de decisiones.
d
e

d
a
t
o
s

p
o
r

s
e
g
u
n
d
o
.

E
s
t
a

c
a
r
a
c
t
e
r
í
s
t
i
c
a
o
r

s
í

s
o
l
a

n
o

d
e
f
i
n
e

q
u
e

u
n

p
r
o
y
e
c
t
o

s
e
a

d
e

B
i
g

D
a
t
a
.
V
e
r
a
c
d
a
d
:

C
a
● Diferencias entre BI y Big Data.
l
-Big Data se hace cargo de la velocidad y de grandes volúmenes de
i
d datos.
a -BI parte de una base tradicional y estructurada, generalmente
d referentes a números y tablas.
-Big Data es una solución para enfrentar el diluvio de datos y generar
d valor.
e
----------------------------------------------------------------------------------------------------------------
l Clase (09-03-2023):
2da
a

i
INFRAESTRUCTURA PARA BIG DATA
n
f ● ON-PREMISE (LOCAL):
o ○ Mayor Costo Inicial (CAPEX).
r ○ Mayor Time to Market.
m ○ Regulaciones Legales Estrictas.
a ● CLOUD: Menor Costo Inicial (CAPEX), Menor Time to Market, Pago por Uso.
c ○ IaaS: Infraestructura como servicio, lo que uno ve.
i ○ PaaS: Plataforma como servicio, base de datos.
ó ○ SaaS: Software/solución como servicio, es un portal web.
n
.
V
a
l
o
r
:

E
l

d
a
t
o

d
Híbrida:
e que es una mezcla de las 2, la cual nos sirve para subir algunas cosas y tenerlas
deb respaldo.
e

t
Sabemos la cantidad de datos que se generan actualmente en internet
r
a
n
s
f
o
r
a
r
s
e

Sabemos
e qué es Big Data:
n
Es el conjunto de estrategias que posibilitan recopilar, y analizar una gran cantidad de
datos, en los cuales se detectan patrones ocultos que hacen visible información relevante. A
u
su vez contribuye a la toma de decisiones acertadas que optimizan las soluciones digitales
n
dea la empresa. Los datos que se procesan incluyen información estructurada y no
estructurada que proviene de muy diversas fuentes como: redes sociales, motores de
búsqueda,
a dispositivos móviles, maquinaria, vehículos, GPS, call centers, etc., por esta
razón
c debe combinar sus técnicas de smart data con aplicaciones comerciales
convencionales
c como bases de datos, ERP o CRM.
i
● La aplicación del big data en las operaciones logísticas posibilita:
ó
● Recopilar y analizar los datos liberados en el desarrollo de la cadena de suministro.
n
● Detectar tendencias y comportamientos de los clientes.
.
● Identificar deficiencias para minimizar errores en los recorridos.
● Reconocer las dificultades para optimizar la ubicación estratégica de la mercancía
B
en el almacén y la preparación de los pedidos.
u
● Automatizar la información que obtienen los vehículos en su actividad.
s
● Neutralizar los riesgos en los recorridos de última milla.
c
a
Entendimos la diferencia entre Big Data y Business Intelligence
r
Big data = grandes volúmenes de datos v/s BI = Manejo de datos reducido
s
a
Entendimos por qué se necesita Big Data
t
Existen
i 3 tipos de roles basados en datos
s
científico
f de datos: está enfocado a las personas que pueden trabajar con datos o lenguaje
con
a modelos predictivos o minería de datos utilizando las matemáticas, python, r,
estadísticas,
c sql
e
ingeniero de datos: es una persona que trabaja con la arquitectura, programación,
r
analista de datos: su tarea es entender lo que realizan los otros, las habilidades de poder
u
contar una historia con los datos,
n
a
Aprendimos a definir una infraestructura para un proyecto de Big Data

n
ECOSISTEMA HADOOP
e
Hadoop
c (La base del bigdata) es una estructura de software de código abierto para
almacenar
e datos y ejecutar aplicaciones en clústeres de hardware comercial. Proporciona
almacenamiento
s masivo para cualquier tipo de datos, enorme poder de procesamiento y la
capacidad
i de procesar tareas o trabajos concurrentes virtualmente ilimitados.
d
COMPUTACIÓN
a MONOLÍTICA: es lo que pasa dentro de un computador, es aquella en la
que
d el software se estructura de forma que todos los aspectos funcionales del mismo
quedan acoplados y sujetos en un mismo programa
(
¿
P
a
r
a
q
u
é
?
)
.

COMPUTACIÓN DISTRIBUIDA : es un método que consiste en hacer que varias


computadoras trabajen juntos para resolver un problema común. De este modo, una red de
computadoras forma una única computadora potente que brinda recursos a gran escala
para afrontar desafíos complejos.

HADOOP: Es una estructura de software de código abierto para almacenar datos y ejecutar
aplicaciones en clústeres de hardware comercial.

hadoop está almacenado de manera distributiva


Los HDFS son archivos que se guardan de manera distributiva y triplicada.

V de volumen y variedad se encuentran en el HDFS y pueden ser estructurados o no


estructurados.

V de velocidad se hace cargo de los datos en forma real y se relaciona al software KAFKA

V de veracidad procesa los datos para saber si son verídicos y se relacionan al software
SPARK y HIVE (SQL)

V de valor es la historia que se contará de un gráfico para poder demostrar cómo se


procesaron los datos a través de Power BI

También podría gustarte