Está en la página 1de 36

¿Qué se entiende por Business

Intelligence?

• El proceso de recolección y análisis de grandes


cantidades de datos con el objeto de encontrar patrones
significativos que permitan apoyar decisiones de
negocios: estratégicas, tácticas y operacionales .

BUSINESS INTELLIGENCE

DATA ANALYTICS
PERFORMANCE MACHINE LEARNING -
MANAGEMENT ANALYTICAL REPORTING DATA MINING
DEEP LEARNING

DATA WAREHOUSE

TRANSACTIONAL DATABASE
http://www.scielo.org.bo/scielo.php?
script=sci_arttext&pid=S2077-
33232003000100010
Área Dirección General de Empresas

Base de Datos Transaccional – Relacionales SQL


(Modelo Estrella – Entidad Relación)

• MS Access
• MySQL
• SQL Server
• Oracle DB
• MariaDB
• PostgreSQL
• Aurora
• …

• Su objetivo es guardar un respaldo de los eventos que ocurren día a día en el


negocio (transacciones)
• Muy rápidas y consistentes al escribir (no perder, no repetir datos)
• Mucha Estructura (SQL)
• La Data más Antigua a veces se borra para ahorrar espacio (reducir costo)!
• Muuuuuy lentas al leer
Área Dirección General de Empresas

Data Warehouse – Data Marts Tradicionales

• Su objetivo es la Reporteria y el análisis de Datos


• Principalmente trabajan con data Agregada, ya procesada (KPIs)
• Guardan Info Histórica para hacer análisis comparativos, mirar tendencias
• Contienen otra info del negocio, por ejemplo, Metas de los Equipos para revisar la performance
• Pueden contener info externa a la empresa, por ej, precios de competidores, indicadores económicos, etc.
• Mucha Estructura (SQL)
• Menos lentas al leer, por que son diseñadas para eso
• Alimentan a herramientas de Data Analytics (Reportería Dashboards, Machine Learning, Data Mining)
Área Dirección General de Empresas
Bases de Datos No Relacionales – NO-SQL
Not Only SQL

• A diferencia de las bases de datos SQL tradicionales, las bases de datos NoSQL o las bases de datos "no
solo SQL", no almacenan sus datos en relaciones necesariamente tabulares.
• Originalmente diseñados para bases de datos modernas a escala web, han encontrado un uso
generalizado en las aplicaciones web actuales de big data y tiempo real.
• Como las bases de datos NoSQL no se adhieren a un esquema estricto, pueden manejar grandes
volúmenes de datos estructurados, semiestructurados y no estructurados.
• Esto permite a los desarrolladores ser más ágiles e impulsar los cambios de código mucho más rápido
que con las bases de datos relacionales.
Área Dirección General de Empresas

Data Lake

• Su objetivo es ser un BIG repositorio de DATA


• Pueden contener data tanto estructurada, como no estructurada
• Pueden contener data agregada o no
• Poca o incluso ninguna Estructura (No-SQL)
• Requieren de usuarios especializados para poder navegarlas (y no ahogarse en el Lago o que se
transforme en un pantano)
Área Dirección General de Empresas

Comparativo
BD Transaccional Data Warehouse Data Mart Data Lake

Estructura de la Definida Definida Definida No 100% Definida


Data “schema on “schema on “schema on “schema on read”
write” write” write”
Propósito Escribir Análisis y Análisis y No 100%
rápidamente, Reportería Reportería Definido, puede
garantizar Reactiva, Reactiva, ser un mix de los
consistencia Predictiva, Predictiva, anteriores, o solo
Prescriptiva de Prescriptiva de un actuar como
toda la empresa Área Funcional, storage mientras
BU se define

Accesibilidad Escritura muchos Lectura muchos Lectura pocos Pocos


simultáneos simultáneos simultáneos especializados
Data Scientist
Usuarios De Negocios De Negocios De Negocios Data Scientist
DB Manager
Área Dirección General de Empresas

• Arquitecturas de Almacenamiento y Computación Distribuidas


• HADOOP - HDFS
¿Qué es el eco-Sistema Hadoop?

Un conjunto de tecnologías:
• mayormente gratuitas
• para almacenamiento y procesamiento (distribuido)
de grandes cantidades de datos (petabytes+)
• fácilmente escalable
• que corre sobre commodity hardware
• Resiliente a fallos
¿Qué es el eco-Sistema Hadoop?
The Analytics Maturity Road
Data-Driven Business Intelligence

Source: http://www.sas.com/resources/whitepaper/wp_6792.pdf

DGI Busines Intelligence Otoño 2014. Dr. David Diaz 12


The Knowledge Discovery Process in Databases (KDD)

No tan sólo un Algoritmo

http://bituchile.com/wp-content/uploads/2011/06/Fayyad96kdd-process.png
Knowledge Discovery Process
flow, according to CRISP-DM

see
www.crisp-dm.org
for more
information

Continuous
monitoring and
improvement is
an addition to CRISP

14
Qué es el Machine Learning / Data
Mining
• En ciencias de la computación el aprendizaje
automático o aprendizaje de máquinas (del inglés,
"Machine Learning") es una rama de la inteligencia artificial
cuyo objetivo es desarrollar técnicas que permitan a las
computadoras aprender. De forma más concreta, se trata
de crear programas capaces de generalizar
comportamientos a partir de una información no
estructurada suministrada en forma de ejemplos.

• Es, por lo tanto, un proceso de inducción del conocimiento.


En muchas ocasiones el campo de actuación del
aprendizaje automático se solapa con el de la estadística, ya
que las dos disciplinas se basan en el análisis de datos.

• El aprendizaje automático tiene una amplia gama de


aplicaciones, incluyendo motores de búsqueda,
diagnósticos médicos, detección de fraude en el uso de
tarjetas de crédito, análisis del mercado de valores,
clasificación de secuencias de ADN, reconocimiento del
habla y del lenguaje escrito, juegos y robótica.
Machine Learning / Data Mining
Application areas

• Ciencia:
– astronomía, bioinformatica, descubrimiento de curas, …

• Negocios:
– CRM (Administración de relaciones con el cliente), detección
de fraude, e-commerce, manufactura, deportes/
entretenimiento, telecomunicaciones, segmentación de
marketing, salud, …

• Web:
– search engines, advertising, web and text mining, …

• Gobierno:
– vigilancia (?|), detección de crímenes, atrapar evasores de
impuestos, …
Tipos de Algoritmos
Aprendizaje supervisado
Artículo principal: Aprendizaje supervisado
El algoritmo produce una función que establece una correspondencia
entre las entradas y las salidas deseadas del sistema. Un
ejemplo de este tipo de algoritmo es el problema de clasificación, • Árboles de decisiones
donde el sistema de aprendizaje trata de etiquetar (clasificar) una
serie de vectores utilizando una entre varias categorías (clases). • Reglas de asociación
La base de conocimiento del sistema está formada por ejemplos • Algoritmos genéticos
de etiquetados anteriores.
• Redes neuronales artificiales
Aprendizaje no supervisado • Máquinas de vectores de so
Artículo principal: Aprendizaje no supervisado
porte
Todo el proceso de modelado se lleva a cabo sobre un conjunto de
ejemplos formado tan sólo por entradas al sistema. No se tiene • Algoritmos de agrupamiento
información sobre las categorías de esos ejemplos. Por lo tanto, • Redes bayesianas
en este caso, el sistema tiene que ser capaz de reconocer
patrones para poder etiquetar las nuevas entradas. • Análisis de Redes Sociales (
SNAs)
Aprendizaje semisupervisado
Este tipo de algoritmos combinan los dos algoritmos anteriores para
poder clasificar de manera adecuada. Se tiene en cuenta los
datos marcados y los no marcados.
Aplicaciones de Data Mining en Negocios

18
Análisis de Patrones Técnicas más ocupadas
Reglas de
Asociación

Segmentación

Clustering

Clasificación/Predicción
Árboles de Decisión
(Score de Propensión)

19
Análisis de Patrones – Reglas de Asociación

• Clientes de Wal-Mart que compraron una Barbie


tienen un 60% de probabilidad de comprar uno de
tres tipos de barras de cereales [Forbes, Sept 8,
1997]

20
Ejemplo
AB Soporte Confianza

Bread  Peanut Butter 85% 75%

Peanut Butter  Bread 85% 80%

Beer  Bread 80% 95%

Peanut Butter  Jelly 77% 74%

Jelly  Peanut Butter 77% 50%


Segmentación y Afinidad -Clustering
Objetivo:
Encontrar una manera “natural” de agrupar
clientes basados en sus atributos
(visualización)

22
Objetivo: Clasificación/Predicción
Generar un modelo que permita predecir a que clase pertenecerá un
Nuevo cliente (Paga/No Paga, Fuga/No Fuga, Compra/ No Compra)…

Existen muchos métodos:

Regresiones lineales
Regresiones logísticas

Árboles de decision
Redes Neuronales
Maquinas de Vectores de
Soporte

23
Árboles de Decisión (Morgan & Sonquist 1963)

• Son una manera de modelar y encontrar relaciones en bases de datos de gran tamaño. Son
expresadas como un conjunto de Reglas, las cuales son de “fácil” interpretación por los humanos.

CRISP-DM

http://www.ivanromero.es/proyecto/analisis.php
Reglas de Decisión: SI …
Entonces…
1. Si el cliente es VIP y Gasto en Compras >1K Entonces SI
2. Si el cliente es VIP y Gasto en Compras =<1K Entonces NO
3. Si el cliente es Sencillo o Normal y ¿Es Moroso? = No y Salario >30K Entonces SI
4. Si el cliente es Sencillo o Normal y ¿Es Moroso? = No y Salario >=30K Entonces No
5. Si el cliente es Sencillo o Normal y ¿Es Moroso? = Si Entonces No

 Relaciones No Lineales
 Relaciones No Simétricas
x Relaciones Poco Estables (Dinámicas)
 Relaciones muy Poco o demasiado Frecuentes
 Problemas de Data Quality
 Etc..

http://www.ivanromero.es/proyecto/analisis.php
Knowledge Discovery Process
flow, according to CRISP-DM

see
Monitoring
www.crisp-dm.org
for more
information

Continuous
monitoring and
improvement is
an addition to CRISP

26
CRISP-DM Detailed Steps

06-11-2022 Dr. David Diaz 27


Overview –
Data Preparation and Understanding

• Just as manufacturing and refining are about transformation of raw materials


into finished products, so too with data to be used for data mining

• ECTL – extraction, clean, transform, load – is the process/methodology for


preparing data for data mining

• The goal: ideal DM environment

• Probably the most critical, expensive and time comsuming steps of the
Data Mining process

• 60-80% of all DM efforts and budget goes to Data Preparation and Data
Understanding Stages.
What the Data Should Look Like

• All data mining algorithms want their input in tabular form –


rows & columns as in a spreadsheet or database table
Typical ECTL operations
for Data Pre-processing

• Operations in tables (sets)


• Operations over records (instances)
• Operations over columns (attributes)
• Data Cleansing
• Other Operations

06-11-2022 Dr. David Diaz 30


Typical ECTL operations
for Data Pre-processing

• Operations in tables (sets):


– Import, Export (.csv, .xls, .mdb, .txt, .xml, etc…)
• Webcrawling, scrapping, extracting from data feeds (web, rss, twitter,
facebook, etc)
– Integration from different souces
• Join (right, left, outer) tables
• Append tables
– Pivot
• Aggregate, dis-agreggate
• Rotate, transpose

06-11-2022 Dr. David Diaz 31


Typical ECTL operations
for Data Pre-processing

• Operations over records (instances):


• Selection or Filtering (equal, not equal, if conditions)
• Sampling (random, stratified, balanced
• Distinct
• Split (train, test, production, bootstrap)
• Aggregation, disaggregation (rotation, pivot, sub-totals)
• Sorting (ascending, descending)
• Replacing
• Data quality
– missing and blank (null) imputation, deletion, replacement

06-11-2022 Dr. David Diaz 32


Typical ECTL operations
for Data Pre-processing

• Operations over columns (attributes):


• Derivation (generation)
• Selection or Filtering (equal, not equal, if conditions)
• Transformation (re-structuring):
– Numerical (normalization, re-scaling, binning, categorization, discretization)
– Nominal (re-categorization, re-grouping, flagging, binary, Boolean, numerical)
– Date & Time Operations (change formats, select days, months, years, calculate period, change
units)
– Strings or text operations (trim, concatenate, extract)
– Type conversion (text to number, number to text, polynomial to binomial, etc)
• Dimensionality (attributes or features) reduction (factor analysis, PCA, redundancy
removal)
• Role setting (input, output, id, target, label, prediction, regular)
• Anonymization
• Time and History operations (create lags, fill forecast, time intervals)
• Re-ordering
06-11-2022 Dr. David Diaz 33
Typical ECTL operations
for Data Pre-processing

• Data Cleansing:
• Outlier and extreme values detection
• Replace missing values, outliers
• Impute
• Estimate
• Remove duplicated
• Remove unused

06-11-2022 Dr. David Diaz 34


Typical ECTL operations
for Data Pre-processing

• Other Operations:
• Unstructured data structuring:
– Text mining (extraction of entities and events)
– Sentiment analysis (calculate score of sentiment/opinion)
– Audio recognition, video recognition
• Meta data analysis, transformation
• Social Networks Indicators (degree, betweeness, etc)

06-11-2022 Dr. David Diaz 35

También podría gustarte