Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Oscar Ayala
Data Scientist
Nombre
Carrera
Cargo
Experiencia con Data
Big Data?
• Big Data ya no es una promesa ni una
tendencia. Big Data está aquí y está
provocando cambios profundos en
diversas industrias. Desde el punto de
vista tecnológico ya existen sectores
empresariales que han adoptado de
forma masiva proyectos y productos: Y
el sector financiero es uno de ellos.
smart
Fuente: Big Data @ Work Survey, llevado a cabo por IBM a mediados de 2012 con 1.144 profesionales
procedentes de 95 países y 26 sectores
¿QUÉ ES EL BIG DATA?
Volumen
• Enormes volumenes de datos
• Storaged
• Mover data
• Transformar data
Estructurar imagenes
DIMENSIONES del Big Data
Variedad
• Tipos de datos
• Estructurados
• No estructurados
DIMENSIONES del Big Data
Velocidad
• Ritmo en que los datos de entrada fluyen desde las diversas fuentes como
procesos de negocio, máquinas y sensores, redes sociales, dispositivos móviles,
etc.
• Flujo de datos masivo y continuo
• Real time
DIMENSIONES del Big Data
Veracidad
• sesgo, el ruido y la alteración de datos.
• los datos que se almacenan y extraen son directamente relacionados y
significativos al problema que se trata de analiza
DIMENSIONES del Big Data
Validez
• Los datos tienen validez
• Son robustos
• Data cleaning
DIMENSIONES del Big Data
Valor
• El valor del negocio
• Genera rentabilidad
• Mueve KPI’S
DIMENSIONES del Big Data
• Volumen
• Variedad
• Velocidad
•
•
•
Veracidad
Validez
Valor V’ig Data
FUENTES del Big Data
No obstante, la gran
cantidad y aumento de
información, ha hecho
que se hable de los
datos
semiestructurados.
Presentan una
caracteristica entidad –
relación semi definida.
Tal y como cabía esperar, los
datos internos son los datos más
desarrollados y mejor entendidos
de las empresas.
Estos se han recabado, integrado,
estructurado y normalizado a lo
largo de años de planificación de
recursos empresariales, gestión
de datos maestros, business
intelligence y otras
actividades relacionadas.
• La multiplicidad de datos que las organizaciones acumulan en diversos sistemas de información y tecnologías
sobre las diferentes áreas operacionales puede ser, a primera vista, un punto crítico para el negocio. Sin
embargo, toda esta masa de información se presenta como una importante ventaja competitiva para las
empresas que adopten soluciones de Business Intelligence, es decir, sistemas de información analíticos que
recopilan, estructuran y correlacionan datos procedentes de diferentes fuentes, transformándolos en
información de gran valor añadido para la toma de decisiones.
ANALYTICS y el Big Data
Disponibiliza Analiza
DATA MINING & BUSINESS INTELIGENCE del Big Data
DATA MINING & BUSINESS INTELIGENCE del Big Data
CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING –
CRISP -DM
SE TRATA DE UN MODELO DE PROCESO DE MINERÍA DE DATOS QUE
DESCRIBE LOS ENFOQUES COMUNES QUE UTILIZAN LOS EXPERTOS
EN MINERÍA DE DATOS.
Evaluar la Situación
Determinar las condiciones iniciales con la que
elproyecta empieza.
Recolección de Fuentes
Conocer las tablas de las cuales se dispone y el posible uso que pueden tener dentro
del desarrollo del proyecto.
Exploración de Datos
Generación del Reporte de Exploración: Contienen los descriptivos
de las tablas
Selección de Datos
Definir reglas para selección de variables. Proceso descriptivo y univariado de datos.
Limpieza de Datos
Imputacion de Missings, outliers, valores atipicos, cotas de datos, etc.
Construcción de Datos
Generación de nuevas variables por concepto de negocio.
Itegración de Datos
Combinación de bases y/o variables (variables convulucionadas)
DATA MINING & BUSINESS INTELIGENCE del Big Data
Evaluación de Resultados
Evaluación del performance del modelo en una base ajena a a de esarrollo
Desplieue de Desarrollo
Establecer las reglas de su implementación, usos y limitaciones.
Monitoreo
Evaluación continua del modelo, según necesidad y uso, para determinar posibles
descalibrados, deficiencias o problemas con su desempeño.
Model-Driven Discovery-Driven
• Top-down approach; • Bottom-up Approach
• start from hypothesis; • start with a question and/or dataset;
• evaluated based on statistical evidence. • discover patterns and relationships and
generalise to a hypothesis.
Provide hypothesis to
Theory validate and model
Speed is of the essence to
sort the wheat from the
Theory chaff
Lots of qualified new
hypothesis from
discovery
Hypothesis
Hypothesis Apply cutting-edge
techniques to detect truly
new patterns
Ability to turn into
validated and
consumable models, Observation
with the appropriate
rigor Pattern
PROOF FOCUSED
INNOVATION FOCUSED
ANALYTICS en Big Data
Preguntas Ad-hoc
Modelación
Fases del Proyecto
• Ventajas
• Solida
• Funciones innovadores
• Integración con Hadoop para mejorar el ambiente de Big Data
• Alto reconocimiento de fácil uso
Herramientas de la modelación de datos
Herramientas de la modelación de datos
• Ventajas
• Buen manejo de aplicaciones atravez de todos sus productos
• Aprendizaje automático a gran escala
• Las grandes empresas confían en el soporte y análisis de datos
por parte de SAS
Herramientas de la modelación de datos
Herramientas de la modelación de datos
• Ventajas
• Alto reconocimiento
• Watson Analytics
• SPSS fácil manejo (gran base de clientes)
• Se complementa con lenguaje R Phyton y SPARK
• SPSS Modeler fácil uso de aplicación de modelos
Herramientas de la modelación de datos
Herramientas de la modelación de datos
• Ventajas
• Flexibilidad para integrar con otras herramientas
• Código abierto
• Comunidad de personas
Visualización
• Que es la visualización
• Características
• Métodos
• Herramientas
Herramientas para la visualización de datos
Herramientas de la modelación de datos
• Ventajas
• Flexibilidad de usuarios
• Manejo analítico
• Conexión con Google Maps
Pasos en el Análisis
• Descripción
• Que es
• Variables
• Medidas
• Cuantificar
• Calcular
• Agregar
Pasos en el Análisis
• Correlación
• Correlación
• Recodificar
• Partes iguales
• Por negocio
• Por Algoritmo
Pasos en el Análisis
• Information Value
• WOE
Pasos en el Análisis
• Selección variables
• Calcular variables
• Seleccionar variables
• Impacto de las variables
• Recodificar variables
Pasos en el Análisis
• Nuevamente, el
aumento de datos no
estructurados;
representa un reto para
todo proyecto en
analytics.
Where:
MACHINE LEARNING y el Big Data: APRENDIZAJE NO SUPERVISADO
WHAT’S A
CLUSTER?
✓ It is a class of techniques used to
classify cases into groups that are
✓ RELATIVELY HOMOGENEOUS
WITHIN THEMSELVES AND
HETEROGENEOUS BETWEEN
EACH OTHER
✓ HOMOGENEITY (SIMILARITY)
AND HETEROGENEITY
(DISSIMILARITY) ARE
MEASURED ON THE BASIS OF A
DEFINED SET OF VARIABLES
✓ These groups are called clusters
MACHINE LEARNING y el Big Data: APRENDIZAJE NO SUPERVISADO
• In a HIERARCHICAL classification
the data are not partitioned into a
particular number of classes or
clusters at a single step. Instead the
classification consists of a series of
partitions, which may run from a
single cluster containing all
individuals, to n clusters each
containing a single individual.
• The NON-HIERARCHICAL
CLUSTERING that we consider
here is a class of clustering
techniques which produce a
partition of the individuals into
a specified number of groups,
by either minimizing or
maximizing some numerical
criterion.
CLUSTER & SEGMENTATION: AN INTRODUCTION
WORKING WITH R: Iris Data Example
• The IRIS DATASET contains data about sepal
length, sepal width, petal length, and petal
width of flowers of different species. Let us see
what it looks like:
Iris_Data_Example.R
EN RESUMEN…
BIBLIOGRAFIA(*):
① Baesens, B. (2014). Analytics in a big data world: The essential guide to data science and its applications.
Hoboken, NJ: Wiley.
② James, G., Witten, D., Hastie, T., & Tibshirani, R. (2015). An introduction to statistical learning: With
applications in R (1st ed.). New York: Springer.
③ Liebowitz, J. (2013). Big data and business analytics. Boca Raton, FL: CRC Press.
④ Marr, B. (2016). Big data in practice: How 45 successful companies used big data analytics to deliver
extraordinary. Chischester (GB, NY: Wiley.
⑤ Mayer-Schönberger, V., & Cukier, K. (2014). Big data: A revolution that will transform how we live, work,
and think. Boston [u.a., NY: Mariner Books.
⑥ Siegel, E. (2016). Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, Revised and
Updated.
(*) El contenido de esta presentación esta basado enteramente en la bibliografía mencionada. Y el contenido del mismo, es propiedad
intelectual de los autores.
ANEXO I
COMPLEJIDAD de un Modelo
No lo suficientemente
complejo
Over-Fitting: Es lo opuesto al under-
fitting, y consiste en ajustar demasiado
a los datos. Su problema radica en que
pierde capacidad predictiva cuando es
aplicado sobre otra base de datos.
Demasiado
Complejo
Training Data
1.0
0.9
0.8
0.7
0.6
x2 0.5
0.4
EJEMPLO: Buscamos predecir cada punto de
color para cada X1 y X2. 0.3
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO II
ARBOLES DE CLASIFICACION Principios
root node
1.0
x2
<0.63 ≥0.63 0.9
0.8
70% 0.2
40% 0.1
leaf node 55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO II
ARBOLES DE CLASIFICACION Principios
Predict:
root node
1.0
x2
<0.63 ≥0.63 0.9
0.8
70% 0.2
40% 0.1
leaf node 55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO II
ARBOLES DE CLASIFICACION Principios
Decision =
Predict:
Estimate = 0.70
1.0
x2
<0.63 ≥0.63 0.9
0.8
0.7
x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3
70% 0.2
40% 0.1
55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO III
Regresión
Regresión
• Modelo
• Variable Independiente
• Variables dependiente
• Correlación
• Predicción
ANEXO III
Regresión
ANEXO III
Regresión
ANEXO IV
Redes Neuronales
• Entrada
• Entrenamiento
ANEXO IV
SVM
• Algoritmo
• Clasificación
ANEXO V
Naive Bayes
• Probabilidad apriori
• Probabilidad posteriori