Está en la página 1de 31

MINERIA DE DATOS

INTRODUCCIÓN

SANTIAGO HOYOS
IUSH
Business Intelligence
• What is it?
• What do you do with BI?
• What do you need for using BI?
• BI and DM
Business Intelligence
• Data Search or Analysis?
• Company Analysis from Countable and
Commerce data
• Evolution company so history and past
Analysis
• Report and inform are developed manually or
automatically?
BI Cicle
DATA

KNOWLEDGE
BI
What is • Report
happened?

What is • Monitoring
up?

Why is • Analysis
this?

What will • Forecast


happen?
What is BI
BI and Company
• Contributions:
• Timesaving and reducing cost of repeat task
• Support of decision making a different level:
strategy, tactic and operation
• Insider – info that support BI problems
• Support learning – value added
Data Mining
INTRODUCCIÓN

DATOS

INFORMACIÓN

CONOCIMIENTO
Mineria de Datos
• Analizar datos con el objetivo de encontrar
patrones de forma automatizada
• Proceso automatizado que soporta la toma de
decisiones partiendo de los datos
• Es el uso de algoritmos para extraer
información y conocimiento a partir de un
conjunto de datos (Data Warehouse)
Proceso
BASE DE
datos datos datos DATOS

TRF
SELECCIÓN
PROCESAMIENTO

DATA
BD - DW WAREHOUSES
Minería de datos y la estadística
• Analiza muestra
de datos para
inferir sobre el
comportamiento
Busca información útil usando
de la población. toda la base de datos
• Supone Usa técnicas exploratorias,
algorítmicas para definir el
comportamientos comportamiento.
con base en
distribuciones de
probabilidad
Aplicaciones
• Retención de clientes – pronóstico
• Patrones de compra – asociación
• Detención de fraudes – tarjetas – espionaje
electrónico – análisis de texto
• Manejo del riesgo – capacidad de
endeudamiento
• Segmentación de clientes – campañas de
marketing segmentada – encuestas
• Predicción de ventas y de inventarios – series de
tiempo
Por qué usar DM?
• Bancos – análisis de millones de transacciones
• Las PC son más potentes – más veloz y de
mayor capacidad de almacenamiento
• Competencia – globalización – innovación
tecnológica
Clasificación de la DM
• Descriptiva: buscar patrones en los datos (fraude,
lavado de dinero, de buenos clientes, segmentos)
conocida también como aprendizaje no
supervisado, el método funciona solo sin
supervisión humana.
• Predictiva: la bola de cristal – predicción de
ventas, de número de transacciones, valores de
las acciones. Aprendizaje supervisado, el ser
humano requiere dar la referencia, las clases, por
ejemplo las características de las transacciones
fraudulentas.
Herramientas
• Datos: cualitativos, numéricos, objetos,
imágenes, videos, almacenados y relacionados
en una BD
• Estadística y matemática
• Computadores
Métodos
• Clasificación: cuando la variable es discreta
• Clusterización – agrupamiento
• Asociación
• Pronóstico
• Regresión: cuando la variables es continua
Tipos de datos
• BD relacionados
• Bodegas de datos
• BD transaccionales
• BD orientados a objetos
• BD espaciales – SIG
• BD de texto
• BD multimedia
• Web mining
Clusterización
• Agrupamiento por similitud
Clasificación
• Jeráquica
• No Jeráquica Padre

Hijo Hija

Nieto Nieta Nieta


Bodegas de datos
• Tiene datos consolidados, consistentes y de solo
lectura, objetivo la toma de decisiones
• Conjunto de base de datos de una empresa
• BD operativas – datos actuales – optimización para las
transacciones. Tipo de acceso y modificación alto.
Pocos registros. Usuario – los empleados
• Bodega de datos – datos históricos. Permite
redundancia con el objetivo de rapidez en cálculos.
Optimizadas para la toma de decisiones. Tipo de
acceso lectura y actualización. Millones de registros
(almacena la historia). Usuarios apoyo a la toma de
decisiones
Online Analitical Process
• OLAP: manera básica de hacer minería de
datos.
• Obtiene reporte muy rápidos, totalizadores
• Cubos OLAP. Típico 3 dimensiones. Tablas con
datos del producto (ide, ubicación, precio,
proveedor). Contiene cálculos predefinidos,
totalizadores, reportes muy rápidos. ejemplo
total de carros vendidos en Medellín durante
el primer trimestre del año 2014.
Ciclo de un Pry de MD
• Conocer el negocio
• Recolectar datos
• Limpieza y transformación de datos
• meta u objetivo del proyecto – selección correcta
del modelo de DM
• Generar reportes
• Predicción y valoración – validez del modelo
• Aplicación de resultados en el negocio
• Actualización del modelo - calibración
Fases
1. Selección
2. Pre-Procesamiento
3. Selección de variables
4. Extracción de Conocimiento
5. Validación – Interpretación del conocimiento
Fase 1 - Selección
• Seleccionar los datos adecuados de las fuentes
de datos
• Con base en criterios: calidad, tiempo, costo, o
en atributos, id, nom, céd, etc
Fase 2 – Pre-Procesamiento
• Preparación de los datos para procesar
• Eliminación de errores, anomalías, inconsistencias
• Forma parte de la gestión de la calidad de los datos
• Cómo se hace?
– Limpieza de datos: si hay celda vacía qué se debe hacer?
– Integración de datos: mezcla de datos de múltiples fuentes
– Transformación de datos: cambio de forma de los datos,
formatos, unidades, etc
– Reducción: minimizar pérdida de contenido, sintetizar,
filtrar
Fase 3 – Selección de Variables
• Identificar los atributos más relevantes del
problema
• Buscar variables independientes
• Realizar pruebas para validar independencia
de las variables
Fase 4 – Extracción de Conocimiento
• Identificación de patrones
• Realizar modelos que representan el
comportamiento de las variables del problema
Fase 5 - Validación
• Validar el patrón
• Realizar la interpretación del conocimiento
Minería de Datos
• No es determinística
• Es probabilística, porque se base en modelos
de probabilidad
• Entrega una probabilidad para el resultado
• Se rige por el teorema del límite central, de los
grandes número. Cuando n tiende a infinito, la
predicción es más acertada, sin embargo
puede fallar.
Aplicaciones
• Marketing
– Quién va a comprar?
– Dónde va comprar?
– Cuándo lo va hacer?
– Cuánto va ha comprar?
• Minería de datos en la Web
– Amazon
– Facebook
– Google

También podría gustarte