Clase 2 ML CRISP DM y Data

¿Qué se entiende por Business
Intelligence?
• El proceso de recolección y análisis de grandes

cantidades de datos con el objeto de encontrar patrones
significativos que permitan apoyar decisiones de
negocios: estratégicas, tácticas y operacionales .
BUSINESS INTELLIGENCE
DATA ANALYTICS
PERFORMANCE MACHINE LEARNING -
MANAGEMENT ANALYTICAL REPORTING DATA MINING
DEEP LEARNING
DATA WAREHOUSE
TRANSACTIONAL DATABASE
http://www.scielo.org.bo/scielo.php?
script=sci_arttext&pid=S2077-
33232003000100010
Área Dirección General de Empresas
Base de Datos Transaccional – Relacionales SQL

(Modelo Estrella – Entidad Relación)
• MS Access
• MySQL
• SQL Server
• Oracle DB
• MariaDB
• PostgreSQL
• Aurora
• …
• Su objetivo es guardar un respaldo de los eventos que ocurren día a día en el

negocio (transacciones)
• Muy rápidas y consistentes al escribir (no perder, no repetir datos)
• Mucha Estructura (SQL)
• La Data más Antigua a veces se borra para ahorrar espacio (reducir costo)!
• Muuuuuy lentas al leer
Data Warehouse – Data Marts Tradicionales
• Su objetivo es la Reporteria y el análisis de Datos

• Principalmente trabajan con data Agregada, ya procesada (KPIs)
• Guardan Info Histórica para hacer análisis comparativos, mirar tendencias
• Contienen otra info del negocio, por ejemplo, Metas de los Equipos para revisar la performance
• Pueden contener info externa a la empresa, por ej, precios de competidores, indicadores económicos, etc.
• Mucha Estructura (SQL)
• Menos lentas al leer, por que son diseñadas para eso
• Alimentan a herramientas de Data Analytics (Reportería Dashboards, Machine Learning, Data Mining)
Bases de Datos No Relacionales – NO-SQL
Not Only SQL
• A diferencia de las bases de datos SQL tradicionales, las bases de datos NoSQL o las bases de datos "no
solo SQL", no almacenan sus datos en relaciones necesariamente tabulares.
• Originalmente diseñados para bases de datos modernas a escala web, han encontrado un uso
generalizado en las aplicaciones web actuales de big data y tiempo real.
• Como las bases de datos NoSQL no se adhieren a un esquema estricto, pueden manejar grandes
volúmenes de datos estructurados, semiestructurados y no estructurados.
• Esto permite a los desarrolladores ser más ágiles e impulsar los cambios de código mucho más rápido
que con las bases de datos relacionales.
Data Lake
• Su objetivo es ser un BIG repositorio de DATA

• Pueden contener data tanto estructurada, como no estructurada
• Pueden contener data agregada o no
• Poca o incluso ninguna Estructura (No-SQL)
• Requieren de usuarios especializados para poder navegarlas (y no ahogarse en el Lago o que se
transforme en un pantano)
Comparativo
BD Transaccional Data Warehouse Data Mart Data Lake
Estructura de la Definida Definida Definida No 100% Definida

Data “schema on “schema on “schema on “schema on read”
write” write” write”
Propósito Escribir Análisis y Análisis y No 100%
rápidamente, Reportería Reportería Definido, puede
garantizar Reactiva, Reactiva, ser un mix de los
consistencia Predictiva, Predictiva, anteriores, o solo
Prescriptiva de Prescriptiva de un actuar como
toda la empresa Área Funcional, storage mientras
BU se define
Accesibilidad Escritura muchos Lectura muchos Lectura pocos Pocos

simultáneos simultáneos simultáneos especializados
Data Scientist
Usuarios De Negocios De Negocios De Negocios Data Scientist
DB Manager
• Arquitecturas de Almacenamiento y Computación Distribuidas

• HADOOP - HDFS
¿Qué es el eco-Sistema Hadoop?
Un conjunto de tecnologías:
• mayormente gratuitas
• para almacenamiento y procesamiento (distribuido)
de grandes cantidades de datos (petabytes+)
• fácilmente escalable
• que corre sobre commodity hardware
• Resiliente a fallos
¿Qué es el eco-Sistema Hadoop?
The Analytics Maturity Road
Data-Driven Business Intelligence
Source: http://www.sas.com/resources/whitepaper/wp_6792.pdf
DGI Busines Intelligence Otoño 2014. Dr. David Diaz 12

The Knowledge Discovery Process in Databases (KDD)
No tan sólo un Algoritmo
http://bituchile.com/wp-content/uploads/2011/06/Fayyad96kdd-process.png
Knowledge Discovery Process
flow, according to CRISP-DM
see
www.crisp-dm.org
for more
information
Continuous
monitoring and
improvement is
an addition to CRISP
14
Qué es el Machine Learning / Data
Mining
• En ciencias de la computación el aprendizaje
automático o aprendizaje de máquinas (del inglés,
"Machine Learning") es una rama de la inteligencia artificial
cuyo objetivo es desarrollar técnicas que permitan a las
computadoras aprender. De forma más concreta, se trata
de crear programas capaces de generalizar
comportamientos a partir de una información no
estructurada suministrada en forma de ejemplos.
• Es, por lo tanto, un proceso de inducción del conocimiento.

En muchas ocasiones el campo de actuación del
aprendizaje automático se solapa con el de la estadística, ya
que las dos disciplinas se basan en el análisis de datos.
• El aprendizaje automático tiene una amplia gama de

aplicaciones, incluyendo motores de búsqueda,
diagnósticos médicos, detección de fraude en el uso de
tarjetas de crédito, análisis del mercado de valores,
clasificación de secuencias de ADN, reconocimiento del
habla y del lenguaje escrito, juegos y robótica.
Machine Learning / Data Mining
Application areas
• Ciencia:
– astronomía, bioinformatica, descubrimiento de curas, …
• Negocios:
– CRM (Administración de relaciones con el cliente), detección
de fraude, e-commerce, manufactura, deportes/
entretenimiento, telecomunicaciones, segmentación de
marketing, salud, …
• Web:
– search engines, advertising, web and text mining, …
• Gobierno:
– vigilancia (?|), detección de crímenes, atrapar evasores de
impuestos, …
Tipos de Algoritmos
Aprendizaje supervisado
Artículo principal: Aprendizaje supervisado
El algoritmo produce una función que establece una correspondencia
entre las entradas y las salidas deseadas del sistema. Un
ejemplo de este tipo de algoritmo es el problema de clasificación, • Árboles de decisiones
donde el sistema de aprendizaje trata de etiquetar (clasificar) una
serie de vectores utilizando una entre varias categorías (clases). • Reglas de asociación
La base de conocimiento del sistema está formada por ejemplos • Algoritmos genéticos
de etiquetados anteriores.
• Redes neuronales artificiales
Aprendizaje no supervisado • Máquinas de vectores de so
Artículo principal: Aprendizaje no supervisado
porte
Todo el proceso de modelado se lleva a cabo sobre un conjunto de
ejemplos formado tan sólo por entradas al sistema. No se tiene • Algoritmos de agrupamiento
información sobre las categorías de esos ejemplos. Por lo tanto, • Redes bayesianas
en este caso, el sistema tiene que ser capaz de reconocer
patrones para poder etiquetar las nuevas entradas. • Análisis de Redes Sociales (
SNAs)
Aprendizaje semisupervisado
Este tipo de algoritmos combinan los dos algoritmos anteriores para
poder clasificar de manera adecuada. Se tiene en cuenta los
datos marcados y los no marcados.
Aplicaciones de Data Mining en Negocios
18
Análisis de Patrones Técnicas más ocupadas
Reglas de
Asociación
Segmentación
Clustering
Clasificación/Predicción
Árboles de Decisión
(Score de Propensión)
19
Análisis de Patrones – Reglas de Asociación
• Clientes de Wal-Mart que compraron una Barbie

tienen un 60% de probabilidad de comprar uno de
tres tipos de barras de cereales [Forbes, Sept 8,
1997]
20
Ejemplo
AB Soporte Confianza
Bread  Peanut Butter 85% 75%
Peanut Butter  Bread 85% 80%
Beer  Bread 80% 95%
Peanut Butter  Jelly 77% 74%
Jelly  Peanut Butter 77% 50%

Segmentación y Afinidad -Clustering
Objetivo:
Encontrar una manera “natural” de agrupar
clientes basados en sus atributos
(visualización)
22
Objetivo: Clasificación/Predicción
Generar un modelo que permita predecir a que clase pertenecerá un
Nuevo cliente (Paga/No Paga, Fuga/No Fuga, Compra/ No Compra)…
Existen muchos métodos:
Regresiones lineales
Regresiones logísticas
Árboles de decision
Redes Neuronales
Maquinas de Vectores de
Soporte
…
23
Árboles de Decisión (Morgan & Sonquist 1963)
• Son una manera de modelar y encontrar relaciones en bases de datos de gran tamaño. Son
expresadas como un conjunto de Reglas, las cuales son de “fácil” interpretación por los humanos.
CRISP-DM
http://www.ivanromero.es/proyecto/analisis.php
Reglas de Decisión: SI …
Entonces…
1. Si el cliente es VIP y Gasto en Compras >1K Entonces SI
2. Si el cliente es VIP y Gasto en Compras =<1K Entonces NO
3. Si el cliente es Sencillo o Normal y ¿Es Moroso? = No y Salario >30K Entonces SI
4. Si el cliente es Sencillo o Normal y ¿Es Moroso? = No y Salario >=30K Entonces No
5. Si el cliente es Sencillo o Normal y ¿Es Moroso? = Si Entonces No
 Relaciones No Lineales
 Relaciones No Simétricas
x Relaciones Poco Estables (Dinámicas)
 Relaciones muy Poco o demasiado Frecuentes
 Problemas de Data Quality
 Etc..
http://www.ivanromero.es/proyecto/analisis.php
Knowledge Discovery Process
flow, according to CRISP-DM
see
Monitoring
www.crisp-dm.org
for more
information
Continuous
monitoring and
improvement is
an addition to CRISP
26
CRISP-DM Detailed Steps
06-11-2022 Dr. David Diaz 27

Overview –
Data Preparation and Understanding
• Just as manufacturing and refining are about transformation of raw materials

into finished products, so too with data to be used for data mining
• ECTL – extraction, clean, transform, load – is the process/methodology for

preparing data for data mining
• The goal: ideal DM environment
• Probably the most critical, expensive and time comsuming steps of the
Data Mining process
• 60-80% of all DM efforts and budget goes to Data Preparation and Data
Understanding Stages.
What the Data Should Look Like
• All data mining algorithms want their input in tabular form –

rows & columns as in a spreadsheet or database table
Typical ECTL operations
for Data Pre-processing
• Operations in tables (sets)

• Operations over records (instances)
• Operations over columns (attributes)
• Data Cleansing
• Other Operations
06-11-2022 Dr. David Diaz 30

• Operations in tables (sets):

– Import, Export (.csv, .xls, .mdb, .txt, .xml, etc…)
• Webcrawling, scrapping, extracting from data feeds (web, rss, twitter,
facebook, etc)
– Integration from different souces
• Join (right, left, outer) tables
• Append tables
– Pivot
• Aggregate, dis-agreggate
• Rotate, transpose
06-11-2022 Dr. David Diaz 31

• Operations over records (instances):

• Selection or Filtering (equal, not equal, if conditions)
• Sampling (random, stratified, balanced
• Distinct
• Split (train, test, production, bootstrap)
• Aggregation, disaggregation (rotation, pivot, sub-totals)
• Sorting (ascending, descending)
• Replacing
• Data quality
– missing and blank (null) imputation, deletion, replacement
06-11-2022 Dr. David Diaz 32

• Operations over columns (attributes):

• Derivation (generation)
• Selection or Filtering (equal, not equal, if conditions)
• Transformation (re-structuring):
– Numerical (normalization, re-scaling, binning, categorization, discretization)
– Nominal (re-categorization, re-grouping, flagging, binary, Boolean, numerical)
– Date & Time Operations (change formats, select days, months, years, calculate period, change
units)
– Strings or text operations (trim, concatenate, extract)
– Type conversion (text to number, number to text, polynomial to binomial, etc)
• Dimensionality (attributes or features) reduction (factor analysis, PCA, redundancy
removal)
• Role setting (input, output, id, target, label, prediction, regular)
• Anonymization
• Time and History operations (create lags, fill forecast, time intervals)
• Re-ordering
06-11-2022 Dr. David Diaz 33
• Data Cleansing:
• Outlier and extreme values detection
• Replace missing values, outliers
• Impute
• Estimate
• Remove duplicated
• Remove unused
06-11-2022 Dr. David Diaz 34

• Other Operations:
• Unstructured data structuring:
– Text mining (extraction of entities and events)
– Sentiment analysis (calculate score of sentiment/opinion)
– Audio recognition, video recognition
• Meta data analysis, transformation
• Social Networks Indicators (degree, betweeness, etc)
06-11-2022 Dr. David Diaz 35

Clase 2 ML CRISP DM y Data

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 2 ML CRISP DM y Data

Cargado por

Copyright:

Formatos disponibles

¿Qué se entiende por Business

• El proceso de recolección y análisis de grandes

Base de Datos Transaccional – Relacionales SQL

• Su objetivo es guardar un respaldo de los eventos que ocurren día a día en el

Data Warehouse – Data Marts Tradicionales

• Su objetivo es la Reporteria y el análisis de Datos

• Su objetivo es ser un BIG repositorio de DATA

Estructura de la Definida Definida Definida No 100% Definida

Accesibilidad Escritura muchos Lectura muchos Lectura pocos Pocos

• Arquitecturas de Almacenamiento y Computación Distribuidas

DGI Busines Intelligence Otoño 2014. Dr. David Diaz 12

No tan sólo un Algoritmo

• Es, por lo tanto, un proceso de inducción del conocimiento.

• El aprendizaje automático tiene una amplia gama de

• Clientes de Wal-Mart que compraron una Barbie

Bread  Peanut Butter 85% 75%

Peanut Butter  Bread 85% 80%

Beer  Bread 80% 95%

Peanut Butter  Jelly 77% 74%

Jelly  Peanut Butter 77% 50%

Existen muchos métodos:

06-11-2022 Dr. David Diaz 27

• Just as manufacturing and refining are about transformation of raw materials

• ECTL – extraction, clean, transform, load – is the process/methodology for

• The goal: ideal DM environment

• All data mining algorithms want their input in tabular form –

• Operations in tables (sets)

06-11-2022 Dr. David Diaz 30

• Operations in tables (sets):

06-11-2022 Dr. David Diaz 31

• Operations over records (instances):

06-11-2022 Dr. David Diaz 32

• Operations over columns (attributes):

06-11-2022 Dr. David Diaz 34

06-11-2022 Dr. David Diaz 35

También podría gustarte