Está en la página 1de 81

Fundamentos de Big

Data y Ciencia de datos


La formación de talento humano calificado en
ciencias de datos como estrategia para ser
disruptor en el segmento de las tecnologías de la
información

Carlos Alberto Salamando Mejia


Ing. Sistemas y Computación
Big Data Scientist 15/06/2018
Agenda Fundamentos de Big Data y Ciencia de Datos

• Introducción (10 minutos)


• Terminología básica (5 minutos)
• Fundamentos de Big Data (40 minutos)
• Fundamentos de Ciencia de datos(15 minutos)
• Casos prácticos de disrupción en diferentes
industrias(40 minutos)
• Sesión preguntas y respuestas (10 minutos)
Introducción Fundamentos de Big Data y Ciencia de Datos

En esta charla daremos una revisión a los


principales conceptos relacionados con Big
Data, término que se volvió de uso muy
común pero del que se tienen grandes
vacíos como por ejemplo ¿Cuál es la
diferencia con BI?,¿Es lo mismo?, ¿Es una
evolución?, ¿Es un complemento?
Introducción Fundamentos de Big Data y Ciencia de Datos

También hablaremos de Ciencia de


Datos, término que desde mi punto de
vista a día de hoy no es tan,
comúnmente usado o como Big Data
pero que a lo largo de la charla nos
daremos cuenta de que es en realidad la
ciencia de datos la que es interesante
porque hace uso del Big Data para traer
disrupción en la empresa y en general
para la humanidad.
Introducción Fundamentos de Big Data y Ciencia de Datos

Últimos 5 años Últimos 12 meses


Introducción Fundamentos de Big Data y Ciencia de Datos

Vamos a abarcar un poco del


vocabulario y de conceptos de Big
Data y Ciencia de datos, para poder
comprender los casos de aplicación
que generan o generaron una
disrupción en sus nichos de mercado
buscando con todo esto comenzar a
visualizar soluciones que generen
valor para nuestras organizaciones
teniendo en cuenta esto o que vamos
a ver.
Terminología básica
Fundamentos de Big Data y Ciencia de Datos Dato

Representación simbólica (numérica,
alfabética, algorítmica, espacial, etc.)
de un atributo o variable cuantitativa
o cualitativa. Los datos describen
hechos empíricos, sucesos y
entidades.
Terminología básica
Fundamentos de Big Data y Ciencia de Datos Dataset

Colección o grupo de datos


relacionados y que comparten los
mismos atributos
• tweets almacenados en un
archivo plano
• Una colección de imágenes
• Un extracto de filas almacenadas
en una tabla
• Observaciones almacenados en un
archivo xml
Terminología básica
Fundamentos de Big Data y Ciencia de Datos Data size

La unidad básica de
almacenamiento de
datos es el bit, el
cual puede tener solo
dos posibles valores o
estados
(0,1) / (true,false)
Terminología básica
Fundamentos de Big Data y Ciencia de Datos Data size
Terminología básica
Fundamentos de Big Data y Ciencia de Datos Datos Estructurados

Se ciñen a un modelo o
esquena definido, se
almacenan en forma tabular,
pueden ser relacionales, son
típicamente almacenados en
una base de datos relacional
Ej: base de datos de un erp,
crm, registro de un cliente,
tabla de excel
Terminología básica
Fundamentos de Big Data y Ciencia de Datos Datos No Estructurados

No se ciñen a un modelo o
esquema, son generalmente
inconsistentes y no relacionales Ej:
imágenes, audio, video
Terminología básica
Fundamentos de Big Data y Ciencia de Datos Datos Semi-Estructurados

Tienen un nivel de estructura


definido pero no son relacionales
en su naturaleza Ej: XML, JSON
Terminología básica
Fundamentos de Big Data y Ciencia de Datos Metadatos

Proveen información sobre el dataset,


sus características y estructura, en su
mayoría son generados
automáticamente Ej: etiquetas xml
que ofrecen información sobre el autor
y fecha de creación de un documento
Terminología básica
Fundamentos de Big Data y Ciencia de Datos Base de datos relacional

Una base de datos relacional es un


conjunto de una o más tablas
estructuradas en registros (líneas) y
campos (columnas), que se vinculan entre
sí por un campo en común, en ambos
casos posee las mismas características
como por ejemplo el nombre de campo,
tipo y longitud; a este campo
generalmente se le denomina ID,
identificador o clave. Se basa en la teoría
de conjuntos y se usa generalmente un
lenguaje SQL para realizar operaciones
Terminología básica
Fundamentos de Big Data y Ciencia de Datos Bases de datos NoSQL

Difieren de las bases de datos tradicionales


(relacionales) en aspectos importantes,
siendo el más destacado que no usan SQL
como lenguaje principal de consultas. Los
datos almacenados no requieren estructuras
fijas como tablas, Los sistemas NoSQL se
denominan a veces "no sólo SQL" para
subrayar el hecho de que también pueden
soportar lenguajes de consulta de tipo SQL.
A menudo, las bases de datos NoSQL se
clasifican según su forma de almacenar los
datos
Fundamentos de Big Data ¿Qué es Big Data?

Big data / macrodatos / grandes datos es un


término que hace referencia a una cantidad
de datos tal que supera la capacidad del
software / hardware convencional para ser
capturados, administrados y procesados en
un tiempo razonable.
Es el campo dentro de la ciencia de
datos que se encarga de todas las
actividades relacionadas con la gestión
/ procesamiento de grandes
cantidades de datos
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Un poco de historia…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Presente y futuro…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Presente y futuro…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Presente y futuro…

https://www.winshuttle.es/big-data-historia-cronologica/
Fundamentos de Big Data Caracteristicas de Big Data 4V
Fundamentos de Big Data Características de Big Data 5V

La característica número 5
de los grandes volúmenes
de datos esta enfocada a
poder extraer valor de los
mismos
Fundamentos de Ciencia de Datos ¿Qué es la ciencia de datos?

La ciencia de datos es un campo


interdisciplinario que involucra
métodos científicos, procesos y
sistemas para extraer conocimiento
o un mejor entendimiento de datos
en sus diferentes formas, ya sea
estructurados o no estructurados,1​
lo cual es una continuación de
algunos campos de análisis de datos
como la estadística, la minería de
datos, el aprendizaje automático y
la analítica predictiva.
Fundamentos de Ciencia de Datos Data Analysis vs Data Analytics

Data analysis Data analytics


Es un proceso consistente en Es un subcomponente del Data
inspeccionar, limpiar y analysis que implica el uso de
transformar datos con el objetivo herramientas y técnicas de
de resaltar información útil, lo análisis de datos
que sugiere conclusiones, y apoyo
en la toma de decisiones

.
Fundamentos de Ciencia de Datos Data Analysis: EDA vs CDA

Exploratory data analysis Confirmatory data analysis


Técnica de análisis que explora los Se establece una hipótesis a
datos sin una hipótesis previa probar, generalmente se hace
después de haber realizado un
EDA

.
Fundamentos de Ciencia de Datos Ciencia de datos vs BI

Ciencia de datos Business Intelligence


• Trabaja en datos incompletos • Conjuntos de datos
• Los datos suelen estar completos
desordenados • Archivos de datos limpios
• Analiza los datos para ver qué • Informa lo que dicen los
información obtiene datos
• Grandes conjuntos de datos • Conjunto de datos
que es un desafío administrar manejable
• Los hallazgos impulsan • Sus hallazgos miden el
decisiones sobre operaciones y rendimiento pasado
productos
Fundamentos de Ciencia de Datos Data Analysis Techniques

Data Analysis Techniques


Fundamentos de Ciencia de Datos Data Analysis Techniques: A/B Testing
Fundamentos de Ciencia de Datos A. Techniques: Correlation vs
Regresion
Fundamentos de Ciencia de Datos Semantic Analysis
Fundamentos de Ciencia de Datos Machine learning

es una disciplina que crea


sistemas que aprenden
automáticamente. Aprender en
este contexto quiere decir
identificar patrones complejos en
millones de datos. La máquina
que realmente aprende es un
algoritmo que revisa los datos y
es capaz de predecir
comportamientos futuros. 
Fundamentos de Ciencia de Datos Supervised learning
Fundamentos de Ciencia de Datos Unsupervised learning
Fundamentos de Ciencia de Datos Machine learning: aplicaciones

Netflix uses ML algorithms that adapt to user


behavior to provide them with extremely
personalized content.
Tinder uses machine learning for its new feature
‘Smart Photos’, that increases a user’s chances of
finding a match.
Oval Money, thanks to machine learning, offers users
different easy-to-follow strategies that will help
them avoid extra spending. Is that possible?
Snapchat’s filters are a fantastic combination of
augmented reality and machine learning algorithms
for computer vision.
Google maps employs machine learning to make the
process of choosing a parking spot much easier.
ImprompDo helps people get things done without
demanding scheduling. ML gives it an opportunity to
discover suitable moments for showing push
notifications.
Dango uses machine learning to solve the biggest
world’s problem like finding a perfect emoji.
Fundamentos de Ciencia de Datos Data Analysis Techniques

Data Analysis Techniques


Fundamentos de Ciencia de Datos Visual Analysis: Heap maps
Fundamentos de Ciencia de Datos Visual Analysis: Network analysis
Fundamentos de Ciencia de Datos Visual Analysis: Spatial data analysis
Fundamentos de Ciencia de Datos Visual Analysis: Time series analysis
Fundamentos de Ciencia de Datos Minería de datos

Se refiere al proceso que intenta


descubrir patrones en grandes
volúmenes de datos
Utiliza los métodos de la
inteligencia artificial, 
aprendizaje automático, 
estadística y sistemas de 
bases de datos. El objetivo
general del proceso de minería de
datos consiste en extraer
información de un conjunto de
datos y transformarla en una
estructura comprensible para su
Fundamentos de Ciencia de Datos Minería de datos: aplicaciones

• Análisis de la cesta de la
compra
• Patrones de fuga
• Fraudes
• Recursos humanos
• Comportamiento en Internet
• Terrorismo
• Juegos/Videojuegos
• Genética
• Ingeniería eléctrica
• Análisis de gases
Fundamentos de Ciencia de Datos Casos de aplicación: Healthcare
Fundamentos de Ciencia de Datos Casos de aplicación: Smart cities
Fundamentos de Ciencia de Datos Administración de ciudades
Fundamentos de Ciencia de Datos Producto Smart steps
Fundamentos de Ciencia de Datos Producto Smart steps para turismo
Fundamentos de Ciencia de Datos Sistema de recomendación para turistas
Fundamentos de Ciencia de Datos Sistema de recomendación Amazon

https://www.youtube.com/watch?v=S4RL6prqtGQ
Fundamentos de Ciencia de Datos Aseguradoras

https://www.youtube.com/watch?v=lbvXq1c1bwM
Fundamentos de Ciencia de Datos Aseguradoras

https://www.youtube.com/watch?v=EN5GxrujDuc
Fundamentos de Ciencia de Datos Ventas y abastecimiento Wallmart

https://www.youtube.com/watch?v=m5Iij3zQp_w
Fundamentos de Ciencia de Datos Servicios financieros

https://www.youtube.com/watch?v=1RYKgj-QK4I
Fundamentos de Ciencia de Datos Servicios financieros: Fintech

https://www.youtube.com/watch?v=zsMDKGJOJS0
Fundamentos de Ciencia de Datos BBVA: PayStats
Fundamentos de Ciencia de Datos Servicios financieros: FutureBank
Fundamentos de Ciencia de Datos Sesión preguntas
Fundamentos de Ciencia de Datos Agradecimientos

• Gracias a los asistentes por su tiempo y


receptividad a los temas propuestos
• Al MinTic por el programa de competencias
transversales que permitió mi certificación
como Big Data Scientist

También podría gustarte