Está en la página 1de 36

CONTEXTUALIZACIÓN

Las 5 V del Big Data

Volumen Veracidad

Velocidad Variedad

Valor
LAS 5 V´s DEL BIG DATA

volumen
LAS 5 V´s DEL BIG DATA
VOLUMEN

Escala: Small vs Big data


Categoría Big data Small data
Recursos Redes sociales. Enterprise Resource Planning (ERP).
Sensores. Customer Relationship.
Dispositivos móviles. Management (CRM).
Imágenes, videos. Transacciones web.
Volumen Terabytes Gigabytes
Petabytes Terabytes
Exabytes
Zettabytes
Velocidad Real time Batch
Requiere respuesta No requiere necesariamente
inmediata respuesta inmediata
Variedad Datos estructurados Estructurados
Datos no estructurados No estructurados
Datos Semiestructurados
Valor Modelamiento complejo, Inteligencia de negocios, business
análisis predictivo. analytics.
LAS 5 V´s DEL BIG DATA
LAS 5 V´s DEL BIG DATA

velocidad
LAS 5 V´s DEL BIG DATA
VELOCIDAD

Velocidad: Batch o Streaming


BATCH
El procesamiento de los datos es programado en
determinados periodos una vez recolectados y
almacenados una cantidad suficiente de información
acumulada.

Transacción Archivo de Archivo de Archivo maestro


recolectada transacción transacción actualizado en
y procesada creado almacenado periodos de
en lotes tiempo
programados

•  Muchas transacciones se completan al mismo


tiempo en los diferentes procesos.
•  Se requiere de tiempo para procesar los datos
LAS 5 V´s DEL BIG DATA
VELOCIDAD

Velocidad: Batch o Streaming

STREAMING
El procesamiento de los datos es inmediato, una vez ocurrida la
transacción. La base de datos se actualiza una vez ocurrido el
evento.

Ocurrencia de Base de datos


evento actualizada
transaccional

•  El dato es procesado inmediatamente.


•  La acción de procesamiento de datos es repetitivo.
LAS 5 V´s DEL BIG DATA

variedad
LAS 5 V´s DEL BIG DATA
VARIEDAD

Tipos de datos

Estructurados Semiestructurados No estructurados


Datos que tienen un Datos que no tienen Datos que no tienen un
modelo definido o formatos fijos, pero modelo predefinido o no
provienen de un campo contienen atributos o están organizados de
determinado en un etiquetas. alguna manera.
registro.

•  Fichas de clientes •  Correos electrónicos •  Videos


•  Transacciones •  Fichas con imágenes •  Documentos
comerciales médicas
LAS 5 V´s DEL BIG DATA

veracidad
LAS 5 V´s DEL BIG DATA
VERACIDAD

Veracidad de la información

Datos erróneos Datos faltantes Fuentes discrepantes


Campos o atributos mal Información incompleta de Información proveniente de
consignados por problemas dimensiones considerables más de una fuente de
de lectura o tipeo. que puede impactar los información que presenta
Ejemplo, RUT´s de 3 dígitos, resultados esperados. antecedentes diversos.
direcciones inexistentes, etc.
LAS 5 V´s DEL BIG DATA

valor
LAS 5 V´s DEL BIG DATA

¿Dónde está el valor del big data?

Capacidad
analítica
LAS 5 V´s DEL BIG DATA
La Complejidad de los Procesos Analíticos

¿Qué debo Prescriptive


hacer? Analytics
¿Qué
Predictive
pasará?
Analytics

Diagnostic
VALOR

¿Porqué?
Analytics
¿Qué Descriptive
pasó? Analytics

DIFICULTAD
INTRODUCCIÓN A LA CIENCIA DE DATOS

Pero el big data no lo es todo!

Necesitamos darle un sentido, una


utilidad, una razón de ser….

En ese contexto surge Data Science!


O la ciencia de los datos.

LA CIENCIA DE DATOS GENERA VALOR


INTRODUCCIÓN A LA CIENCIA DE DATOS

¿Por qué estamos acá?

Para actualizar conocimientos y no


quedarnos atrás…Especializarnos….
Queremos agregar valor a nuestra
formación, a nuestro desempeño
laboral….
DATA SCIENCE

Data Science

DATOS INFORMACIÓN CONOCIMIENTO


CIENCIA DE DATOS:
EL DATO

El dato se colecta:
-  El estanque de mi auto hace 40
litros.
-  Mi auto consume 12,1 km por
litro.
CIENCIA DE DATOS:
LA INFORMACIÓN

La información se analiza:
-  Me queda un cuarto de estanque de gasolina.
-  Me faltan 150 km para llegar a destino.
CIENCIA DE DATOS:
EL CONOCIMIENTO

Con el conocimiento se analizan procesos para tomar


decisiones:
-  Calculo cuántos litros tengo: me quedan 10 litros en el
estanque.
-  Calculo cuántos litros necesito: 12,4 litros.
-  Comparo ambos resultados: no alcanzo a llegar.
CIENCIA DE DATOS:
EL ROL PROFESIONAL

Profesionales /
técnicos de diversas
disciplinas
con formación en
matemática, estadística,
computación y
visualización gráfica para
analizar e interpretar
información para la toma
de decisiones.
CONTEXTUALIZACIÓN

Los pilares de un científico de datos.

Modelamiento matemático y estadístico.


Análisis de grandes volúmenes de datos.

Programación computación básica, manejo


de bases de datos y operación de software
estadístico.

Técnicas de visualización de información.


Expresión y comunicación.
Técnicas de storytelling.
CIENCIA DE DATOS:
EL ROL PROFESIONAL
INTRODUCCIÓN

¿Cómo convertirse en un unicornio?


Conociendo el cómo, cuándo y el porqué.
El algoritmo matemático es ciego al negocio, se debe entender el
negocio y los datos para plantear cualquier tipo de desarrollo.
CIENCIA DE DATOS:
METODOLOGÍA DE APLICACIÓN

CRISP-DM
Cross Industry
Standard Process
for Data Mining

Un proyecto
analítico es
circular.
CIENCIA DE DATOS:
MACHINE LEARNING CANVAS

DECISIONES TAREA DE MACHINE PROPUESTA DE FUENTES DE DATOS DESAFÍO


LEARNING VALOR
¿Cómo las ¿Con qué fuentes Descripción del
predicciones se Input, Output a ¿Qué es lo que de datos crudos problema u
usan para proveer predecir, tipo de tratamos de hacer contamos (internos/ oportunidad que
el valor propuesto problema para el usuario final externos)? tiene el cliente/
al usuario final? (clasificación, de la solución de usuario.
regresión, etc.) ML? ¿Cómo obtenemos
nuevos datos para
¿Cuáles son los el aprendizaje?
objetivos?
PREDICCIONES MODELAMIENTO
EVALUACIÓN FEATURES
¿Cuándo Offline (Características) ¿Cuándo
hacemos creamos/
predicciones sobre Métodos y métricas Representaciones modificamos el
nuevos inputs? para evaluar el del input obtenidas modelo con
sistema antes del desde la data nuevos datos de
¿Cuánto tenemos despliegue. cruda. entrenamiento?
que caracterizar
un nuevo input ¿Cuánto tenemos
para hacer una EVALUACIÓN en vivo y monitoreo que caracterizar
predicción? los inputs de
Métricas y métodos para evaluar el sistema después del despliegue, y entrenamiento
para cuantificar la creación de valor. para crear un
modelo?

Autor: Louis Dorard


CONTEXTUALIZACIÓN

¿Qué aprenderás en el Diplomado?


Fundamentos de la
Ciencia de Datos.
Herramientas estadísticas
y Forecast
Herramientas computacionales y
Machine Learning.

Visualización de datos.

Aplicaciones de Data
Science.
¿QUÉ VAMOS A APRENDER?

Herramientas estadísticas
y Forecast.

Descriptive Estadística descriptiva


Analytics

Diagnostic Inferencia estadística:


Analytics Modelos de probabilidad
Intervalos de confianza
Test de hipótesis
Predictive Modelos predictivos:
Analytics Modelos de regresión lineal
Modelos lineales generalizados
Series de tiempo
Prescriptive Modelos prescriptivos:
Analytics Árboles de decisión
Análisis factorial
Análisis de componentes principales
¿QUÉ VAMOS A APRENDER?

Herramientas computacionales y
Machine Learning.

Introducción
a la
Programación
en R

Creación de Métodos Métodos


funciones Ciclos Prescriptivos
recursivos
Manipulación
de bases de
datos

Introducción al R Análisis de Datos Machine Learning


¿QUÉ VAMOS A APRENDER?

Herramientas Herramientas
estadísticas y computacionales y
Forecast. Machine Learning.
¿QUÉ VAMOS A APRENDER?

En Visualización de datos.
- Storytelling.
- Tipos de gráficos.
- Construcción de dashboards.
- Importación de datos.
- Generación de mapas.
¿QUÉ VAMOS A APRENDER?

Y finalmente, se focalizarán algunas aplicaciones…

Industria Políticas
Bancaria Públicas

Marketing Procesos

Inteligencia Artificial
CONCLUSIONES DE LA CLASE DE HOY

1. El big data es más que una moda, es un fenómeno que se sustenta en el


desarrollo científico (complejidad) y tecnológico.

2. Gracias a querer saber el porqué de las cosas, tenemos grandes avances en el


desarrollo del conocimiento, que han multiplicado la cantidad de información, la
que hemos registrado desde siempre de muy diversas formas.

3. El big data nos ayuda a procesar grandes volúmenes de información a lógicas


humanas, pero no lo es todo, debemos agregar valor a los datos para obtener el
máximo provecho de ellos.

4. La ciencia de datos nos ayuda a obtener valor de los datos mediante el


aumento de las capacidades analíticas a mayores niveles de complejidad.

5. Esta mayor capacidad analítica, complementada con la comprensión del


negocio, transforma a los científicos de datos en profesionales con habilidades de
gran valor.

6. La metodología CRISP-DM te ayudará a implementar proyectos de data science


en tu empresa y el CANVAS Machine Learning a diseñar un plan para que tu
proyecto tenga un sentido y contribuya con los objetivos del negocio.
DATA SCIENCE

Data Scientist
A data scientist is the
adult version of the kid
who can´t stop asking
“Why?”//

Un científico de datos es la
versión adulta de un niño
que no puede dejar de
Russ Thompson hacer la pregunta ¿Por
Investigador Senior en Alexa qué?
¿QUÉ VAMOS A APRENDER?

BIENVENIDOS!
¡A comenzar el desafío!

Próxima clase:
INTRODUCCIÓN AL ANÁLISIS ESTADÍSTICO
Clase 1
Fundamentos de la ciencia de
datos / Introducción
Alexis Alvear Leyton
aalvearl@uc.cl

También podría gustarte