Está en la página 1de 30

Minería de

Datos
Msc. Freddy Mendez Ortiz
freddy.mendez.docente@gmail.com
Ciclo Minería de Datos
Ciclo de un proyecto de
minería de datos
1. Aprender sobre el negocio
2. Recolectar los datos. Usualmente las
compañías tienes muchas bases de datos
que deben ser centralizadas.
3. Limpieza y transformación de datos (mucho
esfuerzo).
4. Definir la meta del proyecto y así encontrar
el modelo adecuado.
5. Escoger los algoritmos que permitan
optimizar el modelo.
Ciclo de un proyecto de
minería de datos
6. Generar reportes.
7. Generar predicciones y/o “Scoring”.
8. Aplicación de los resultados en el
negocio.
9. Actualización de los modelos
(calibración constante de los modelos).
Estándares en Minería de
Datos
 En Minería de Datos se están haciendo
esfuerzos por definir estándares.
 XML for Analysis: es otro estándar de la
industria y está a cargo del “XML / A
Council”. Así surge el lenguaje de consultas
“query language Data Mining eXtensions”
(DMX) que permite consultas basadas en XML
a los servidores de Minería de Datos.
 SQL MM: (SQL/ Multimedia for Data Mining)
fue propuesto por IBM.
Estándares en Minería de
Datos
 Java Data Mining API. Es un paquete JAVA
para minería de datos propuesto por
ORACLE. El objetivo es permitir a las
aplicaciones JAVA con motores de minería
de datos.
 PMML, Crisp-DM, CMW (extensión de UML) y
otros.
¿Por qué debería ser un
proceso estándar?
 El proceso de minería de datos debe ser
confiable y repetible para personas con
escasos conocimientos de minería de datos.
CRISP-DM
 CRoss-Industry Standard Process for Data
Mining
 CRISP-DM proporciona un marco uniforme
para directores. Permite documentación de
la experiencia
 CRISP-DM es flexible para tener en cuenta las
diferencias.
 Diferentes problemas de negocio => Datos
diferentes
CRISP-DM
 No tiene propietario
 Aplicación / Industria neutral
 Se centra en cuestiones de negocios
 Así como en el análisis técnico y de métodos
Fases de CRISP-DM
Fases de CRISP-DM
 La sucesión de fases no es necesariamente
rígida.
 Cada fase es estructurada en varias tareas
generales.
 Las tareas generales se proyectan a tareas
específicas, donde finalmente se describen
las acciones que deben ser desarrolladas
para situaciones específicas.
Data Warehouse - Bodega de
Datos
 Una bodega de datos es una base de datos
orientada a consultas, como resultado de un
análisis extenso y de la transformación de
datos de la empresa.
 La bodega de datos se usa como punto de
partida de un sistema de toma de decisiones.
Data Warehouse - Bodega de
Datos
 Una bodega de datos tiene datos
consolidados y consistentes, orientados hacia
un tema, históricos y solamente de lectura.
 Una bodega de datos podría ser el resumen
un conjunto de bases de datos de una
empresa.
Data Warehouse - Bodega de
Datos
Data Warehouse - Bodega de
Datos
Data Mart - Mercado de
Datos
 Un Mercado de Datos (Data Mart) tiene las
mismas características que una bodega de
datos, pero a un nivel más refinado, pues
contiene información más detallada
perteneciente a un solo departamento de la
empresa.
¿Qué es OLAP?
 OLAP (Online Analytical Processing)
 OLAP es una tecnología que procesa
información de una bodega de datos en
estructuras multidimensionales que
proporcionan una respuesta rápida a
consultas complejas.
 El objetivo de OLAP es resumir y organizar
grandes cantidades de datos para se
analizados y evaluados rápidamente.
Modelo Estrella
Modelo Estrella
 Tabla de Hechos (fact table): Corresponde a
los hechos del negocio. En general son
valores numéricos y sumables lo que permitirá
sumarizar los millones de registros haciendo
agregados. Debe estar altamente
normalizada.
 Tablas de Dimensiones (dimensions tables):
Permiten describir los hechos desde diferentes
ángulos permitiendo análisis muy diversos. En
general, tienen una descripción textual muy
clara. Generalmente no están normalizadas.
Ejemplo de un Modelo Estrella
Ejemplo de un Modelo Estrella
Ejemplo de un Modelo Estrella
Ejemplo de un Modelo Estrella
KDD – Knowledge Discovery in
Databases
 La
minería de datos se encuadra dentro
de un proceso mucho mayor conocido
como KDD (Knowledge Discovery from
Databases)
KDD – Knowledge Discovery in
Databases
Fases del proceso iterativo e interactivo
1. Integración y recopilación de datos
2. Selección, limpieza y transformación
3. Minería de datos
4. Evaluación e interpretación
5. Difusión y uso
KDD Fase 1
 Integración y recopilación de datos
 Decisiones estratégicas basadas en el análisis, la
planificación y la predicción: datos en varios
departamentos
 Cada fuente de datos distintos formatos de
registro, diferentes grados de agregación,
diferentes claves primarias, etc.
 Integración de múltiples bases de datos:
almacenes de datos (data warehousing)
 Almacén de datos aconsejable cuando el
volumen de información es grande. No
estrictamente necesario (archivos de texto, hojas
de cálculo, ...)
KDD Fase 2
 Selección, limpieza y transformación
 Calidad del conocimiento descubierto depende
(además del algoritmo de minería) de la calidad de
los datos analizados
 Presencia de datos que no se ajustan al
comportamiento general de los datos (outliers)
 Presencia de datos perdidos (missing values)
 Selección de variables relevantes (feature subset
selection)
 Selección de casos aleatoria en bases de datos de
tamaño muy grandes
 Construcción de nuevas variables que faciliten el
proceso de minería de datos
 Discretización de variables continuas
KDD Fase 3
 Minería de datos
➢ Modelos descriptivos
▪ Reglas de asociación
▪ Clustering
➢ Modelos predictivos
▪ Regresión: regresión lineal, regresión
logística
▪ Clasificación supervisada: clasificadores
Bayesianos, redes neuronales, árboles de
clasificación, inducción de reglas, K-NN,
combinación de clasificadores
KDD Fase 4
 Evaluación e interpretación
 Técnicas de evaluación: validación simple
(training + test), validación cruzada con k-fold,
bootstrap
 Reglas de asociación: cobertura (soporte),
confianza
 Clustering: variabilidad intra y entre
 Regresión: error cuadrático medio
 Clasificación supervisada: porcentaje de bien
clasificados, matriz de confusión, análisis ROC
 Modelos precisos, comprensibles (inteligibles) e
interesantes (útiles y novedosos)
KDD Fase 5
 Difusión y uso
➢ Difusión: necesario distribuir, comunicar a
los posibles usuarios, integrarlo en el
know-how de la organización
➢ Medir la evolución del modelo a lo largo
del tiempo (patrones tipo pueden
cambiar)
➢ Modelo debe cada cierto tiempo de ser:
▪ Reevaluado
▪ Reentrenado
▪ Reconstruido

También podría gustarte