Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Data
6.- Principales métodos y algoritmos
en la minería de datos
Sistemas Big Data
Integración batch
https://www.ibm.com/cloud/learn/data-mining
Sistemas Big Data
• SEMMA de SAS
Modelo SEMMA
1. Sample.
2. Explore
3. Modify
4. Access
De ahí el acrónimo de SEMMA.
Sistemas Big Data
Algoritmos en la minería de datos
Modelo SEMMA
Sample
Modelo SEMMA
Explore
Modelo SEMMA
Modify
Modelo SEMMA
Model
Modelo SEMMA
Assess
De la información disponible
También se evalúan las limitaciones del modelo
Sistemas Big Data
¡PREGUNTA!
Modelo CRISP-DM
Modelo CRISP-DM
I. Business Understanding
Busca conocer los objetivos y requisitos del proyecto
1. Determine business objectives: Desde el punto de vista del negocio, entender
que quiere el cliente
2. Assess situation: Identificar los recursos disponibles, requisitos del proyecto,
evaluar riesgos
3. Determine data mining goals: Determinar los criterios de éxito desde el punto
de vista técnico del data mining
4. Produce project plan: Seleccionar las tecnologías y herramientas y plan de
proyecto
Sistemas Big Data
Algoritmos en la minería de datos
IV. Modeling
En esta fase se evaluarán varios modelos y diferentes técnicas de análisis
1. Select modeling techniques: Determinar que algoritmos se probarán (regresión,
random forest, etc.).
2. Generate test design: En esta etapa se corrigen datos
3. Build model: Ejecutar el model. Ejecutar el código/programa.
4. Assess model: Interpretar los resultados de los distintos modelos en función de
los requisitos de negocio, establecer las métricas (de éxito) conseguidas y probar
el diseño.
Sistemas Big Data
Algoritmos en la minería de datos
V. Evaluation
Identifica el modelo que mejores resultados obtiene y los próximos pasos
1. Evaluate results: ¿Los modelos obtiene los resultados esperados? ¿Cuál es el más
apropiado para los requisites del negocio?.
2. Review process: Revisión del trabajo realizado. Resumir el trabajo realizado y
corregir aquello que lo precise.
3. Determine next steps: Basado en los resultados de los pasos anteriores; decidir la
puesta en producción, retocar el modelo o iniciar un nuevo proyecto.
Sistemas Big Data
Algoritmos en la minería de datos
VI. Deployment
Puesta en producción del desarrollo. La dificultad puede ser grande.
1. Plan deployment: Desarrollo del plan de puesta en producción.
2. Plan monitoring and maintenance: Desarrollo de un plan de monitorización y
mantenimiento para evitar incidencias durante la operación del modelo.
3. Produce final report: Elaboración de un resumen del proyecto, el cual puede
incluir un presentación de los resultados del proceso de minado.
4. Review project: Se trata de una reflexión sobre las lecciones aprendidas durante
el desarrollo del proyecto.
Sistemas Big Data
¡PREGUNTA!
Desarrollado en 1989
1. Selection
2. Pre-processing
3. Transformation
4. Data Mining
5. Interpretation/Evaluation
Sistemas Big Data
Algoritmos en la minería de datos
Selection
Pre-processing
Etc.
Sistemas Big Data
Algoritmos en la minería de datos
Transformation
Data Mining
Interpretation/Evaluation
Xxxxxxxxxxx:
Xxxxxxxxx.
X xxxxx
Xxxxxxxxxxxxxxxx
Xxxxxxxxxxxxxxx
Sistemas Big Data
Cuestionario rápido
Sistemas Big Data
Cuestionario rápido
a) Detección de anomalías
b) Búsqueda de patrones
c) Encuentro de correlaciones entre variables
d) Todas las anteriores son correctas
Sistemas Big Data
Cuestionario rápido
a) La toma de decisiones
b) La detección de tendencias
c) El descubrimiento de conocimiento en los datos
d) Todas las anteriores no son correctas
Sistemas Big Data
Resumen de la Clase
Sistemas Big Data
Resumen de la clase
Modelo SEMMA
Modelo CRISP-DM
Modelo KDD
¡ GRACIAS !