Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Intelligence?
BUSINESS INTELLIGENCE
DATA ANALYTICS
PERFORMANCE MACHINE LEARNING -
MANAGEMENT ANALYTICAL REPORTING DATA MINING
DEEP LEARNING
DATA WAREHOUSE
TRANSACTIONAL DATABASE
http://www.scielo.org.bo/scielo.php?
script=sci_arttext&pid=S2077-
33232003000100010
Área Dirección General de Empresas
• MS Access
• MySQL
• SQL Server
• Oracle DB
• MariaDB
• PostgreSQL
• Aurora
• …
• A diferencia de las bases de datos SQL tradicionales, las bases de datos NoSQL o las bases de datos "no
solo SQL", no almacenan sus datos en relaciones necesariamente tabulares.
• Originalmente diseñados para bases de datos modernas a escala web, han encontrado un uso
generalizado en las aplicaciones web actuales de big data y tiempo real.
• Como las bases de datos NoSQL no se adhieren a un esquema estricto, pueden manejar grandes
volúmenes de datos estructurados, semiestructurados y no estructurados.
• Esto permite a los desarrolladores ser más ágiles e impulsar los cambios de código mucho más rápido
que con las bases de datos relacionales.
Área Dirección General de Empresas
Data Lake
Comparativo
BD Transaccional Data Warehouse Data Mart Data Lake
Un conjunto de tecnologías:
• mayormente gratuitas
• para almacenamiento y procesamiento (distribuido)
de grandes cantidades de datos (petabytes+)
• fácilmente escalable
• que corre sobre commodity hardware
• Resiliente a fallos
¿Qué es el eco-Sistema Hadoop?
The Analytics Maturity Road
Data-Driven Business Intelligence
Source: http://www.sas.com/resources/whitepaper/wp_6792.pdf
http://bituchile.com/wp-content/uploads/2011/06/Fayyad96kdd-process.png
Knowledge Discovery Process
flow, according to CRISP-DM
see
www.crisp-dm.org
for more
information
Continuous
monitoring and
improvement is
an addition to CRISP
14
Qué es el Machine Learning / Data
Mining
• En ciencias de la computación el aprendizaje
automático o aprendizaje de máquinas (del inglés,
"Machine Learning") es una rama de la inteligencia artificial
cuyo objetivo es desarrollar técnicas que permitan a las
computadoras aprender. De forma más concreta, se trata
de crear programas capaces de generalizar
comportamientos a partir de una información no
estructurada suministrada en forma de ejemplos.
• Ciencia:
– astronomía, bioinformatica, descubrimiento de curas, …
• Negocios:
– CRM (Administración de relaciones con el cliente), detección
de fraude, e-commerce, manufactura, deportes/
entretenimiento, telecomunicaciones, segmentación de
marketing, salud, …
• Web:
– search engines, advertising, web and text mining, …
• Gobierno:
– vigilancia (?|), detección de crímenes, atrapar evasores de
impuestos, …
Tipos de Algoritmos
Aprendizaje supervisado
Artículo principal: Aprendizaje supervisado
El algoritmo produce una función que establece una correspondencia
entre las entradas y las salidas deseadas del sistema. Un
ejemplo de este tipo de algoritmo es el problema de clasificación, • Árboles de decisiones
donde el sistema de aprendizaje trata de etiquetar (clasificar) una
serie de vectores utilizando una entre varias categorías (clases). • Reglas de asociación
La base de conocimiento del sistema está formada por ejemplos • Algoritmos genéticos
de etiquetados anteriores.
• Redes neuronales artificiales
Aprendizaje no supervisado • Máquinas de vectores de so
Artículo principal: Aprendizaje no supervisado
porte
Todo el proceso de modelado se lleva a cabo sobre un conjunto de
ejemplos formado tan sólo por entradas al sistema. No se tiene • Algoritmos de agrupamiento
información sobre las categorías de esos ejemplos. Por lo tanto, • Redes bayesianas
en este caso, el sistema tiene que ser capaz de reconocer
patrones para poder etiquetar las nuevas entradas. • Análisis de Redes Sociales (
SNAs)
Aprendizaje semisupervisado
Este tipo de algoritmos combinan los dos algoritmos anteriores para
poder clasificar de manera adecuada. Se tiene en cuenta los
datos marcados y los no marcados.
Aplicaciones de Data Mining en Negocios
18
Análisis de Patrones Técnicas más ocupadas
Reglas de
Asociación
Segmentación
Clustering
Clasificación/Predicción
Árboles de Decisión
(Score de Propensión)
19
Análisis de Patrones – Reglas de Asociación
20
Ejemplo
AB Soporte Confianza
22
Objetivo: Clasificación/Predicción
Generar un modelo que permita predecir a que clase pertenecerá un
Nuevo cliente (Paga/No Paga, Fuga/No Fuga, Compra/ No Compra)…
Regresiones lineales
Regresiones logísticas
Árboles de decision
Redes Neuronales
Maquinas de Vectores de
Soporte
…
23
Árboles de Decisión (Morgan & Sonquist 1963)
• Son una manera de modelar y encontrar relaciones en bases de datos de gran tamaño. Son
expresadas como un conjunto de Reglas, las cuales son de “fácil” interpretación por los humanos.
CRISP-DM
http://www.ivanromero.es/proyecto/analisis.php
Reglas de Decisión: SI …
Entonces…
1. Si el cliente es VIP y Gasto en Compras >1K Entonces SI
2. Si el cliente es VIP y Gasto en Compras =<1K Entonces NO
3. Si el cliente es Sencillo o Normal y ¿Es Moroso? = No y Salario >30K Entonces SI
4. Si el cliente es Sencillo o Normal y ¿Es Moroso? = No y Salario >=30K Entonces No
5. Si el cliente es Sencillo o Normal y ¿Es Moroso? = Si Entonces No
Relaciones No Lineales
Relaciones No Simétricas
x Relaciones Poco Estables (Dinámicas)
Relaciones muy Poco o demasiado Frecuentes
Problemas de Data Quality
Etc..
http://www.ivanromero.es/proyecto/analisis.php
Knowledge Discovery Process
flow, according to CRISP-DM
see
Monitoring
www.crisp-dm.org
for more
information
Continuous
monitoring and
improvement is
an addition to CRISP
26
CRISP-DM Detailed Steps
• Probably the most critical, expensive and time comsuming steps of the
Data Mining process
• 60-80% of all DM efforts and budget goes to Data Preparation and Data
Understanding Stages.
What the Data Should Look Like
• Data Cleansing:
• Outlier and extreme values detection
• Replace missing values, outliers
• Impute
• Estimate
• Remove duplicated
• Remove unused
• Other Operations:
• Unstructured data structuring:
– Text mining (extraction of entities and events)
– Sentiment analysis (calculate score of sentiment/opinion)
– Audio recognition, video recognition
• Meta data analysis, transformation
• Social Networks Indicators (degree, betweeness, etc)