Está en la página 1de 48

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM Metodologı́a CRISP-DM
Referencias

1
Docente: Jean Paul Maidana González, PhD

1
Facultad de Ingenierı́a
j.maidanagonzalez@uandresbello.edu

DM
Marzo, 2024
Table of Contents

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
1 Introducción

2 Fases en CRISP-DM

3 Referencias
Agradecimientos

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
Propiedad intelectual
Parte de la información presentada en esta diapositiva fue presentada por McConnel, J. &
Clinton, R. An Introduction to the CRISP-DM methodology y las diapositivas de
nuestra docente Mag. Paulette Reyes.
Table of Contents

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
1 Introducción

2 Fases en CRISP-DM

3 Referencias
Introducción

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias

Metodologı́as en Minerı́a de Datos


Las metodologı́as de minerı́a de datos son enfoques estructurados o marcos que guı́an
el proceso de extraer conocimientos valiosos y patrones de grandes conjuntos de datos.
Estas metodologı́as brindan una manera sistemática de abordar distintas etapas de la
minerı́a de datos, que incluyen preparación de datos, exploración, modelado,
evaluación e implementación.

Cuando se trabaja con grandes conjuntos de datos, las metodologı́as en minerı́a de datos
nos guı́an a encontrar patrones valiosos con un enfoque organizado y estructurado.
Metodologı́as en Minerı́a de Datos

DM

j.maidanagonzalez

Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM

Referencias
Metodologı́as en Minerı́a de Datos

DM

j.maidanagonzalez

Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
Metodologı́as en Minerı́a de Datos

DM

j.maidanagonzalez

Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
KDD (Knowledge Discovery in Databases)
Metodologı́as en Minerı́a de Datos

DM

j.maidanagonzalez

Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
KDD (Knowledge Discovery in Databases)
TDSP (Team Data Science Process)
Metodologı́as en Minerı́a de Datos

DM

j.maidanagonzalez

Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
KDD (Knowledge Discovery in Databases)
TDSP (Team Data Science Process)
Agile Data Mining
Metodologı́as en Minerı́a de Datos

DM

j.maidanagonzalez

Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
KDD (Knowledge Discovery in Databases)
TDSP (Team Data Science Process)
Agile Data Mining
OSEMN (Obtain, Scrub, Explore, Model, iNterpret)
Metodologı́as en Minerı́a de Datos

DM

j.maidanagonzalez

Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
KDD (Knowledge Discovery in Databases)
TDSP (Team Data Science Process)
Agile Data Mining
OSEMN (Obtain, Scrub, Explore, Model, iNterpret)
Microsoft CRISP-DM Extension
Cada metodologı́a tiene sus fortalezas y debilidades, la elección depende de las
necesidades especı́ficas y los requerimientos de cada proyecto.
3 Pilares
áreas de alto nivel para predecir/minerı́a de datos

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias

Esta es la taxonomı́a de IBM, la cual es una buena referencia para proyectos de minerı́a de
datos.

En cada área, tenemos un proceso/ciclo y una serie de eventos que queremos predecir y
encontrar un perfil.
Table of Contents

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
1 Introducción

2 Fases en CRISP-DM

3 Referencias
¿Qué es CRISP-DM?

DM

j.maidanagonzalez
CRISP-DM
Introducción
Cross-Industry Standard Process for Data Mining (CRISP-DM) es un estándar abierto el
Fases en
cual describe un enfoque común para abordar proyectos de Minerı́a de datos. Esta
CRISP-DM
metodologı́a comprende 6 fases.
Referencias
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias

Las fases de esta metodologı́a no son todas estrictamente secuenciales, ya que por lo
general es necesario volver atrás para realizar iteraciones.
El personal y sus roles

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
Roles y etapas
En las fases de proceso CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
1. Comprensión del Negocio
CRISP-DM

Referencias
El enfoque principal de la primera fase de un proceso de minerı́a de datos es comprender
los requisitos y objetivos de dicho proyecto.
Establecer cuáles serán los criterios para medir el éxito en el proyecto, ya sean de tipo
cualitativo o cuantitativo.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
1. Comprensión del Negocio
CRISP-DM

Referencias
El enfoque principal de la primera fase de un proceso de minerı́a de datos es comprender
los requisitos y objetivos de dicho proyecto.
Establecer cuáles serán los criterios para medir el éxito en el proyecto, ya sean de tipo
cualitativo o cuantitativo.
Realizar una evaluación de la situación actual determinando los antecedentes y
requisitos del problema, tanto en términos de negocio como de minerı́a de datos.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
1. Comprensión del Negocio
CRISP-DM

Referencias
El enfoque principal de la primera fase de un proceso de minerı́a de datos es comprender
los requisitos y objetivos de dicho proyecto.
Establecer cuáles serán los criterios para medir el éxito en el proyecto, ya sean de tipo
cualitativo o cuantitativo.
Realizar una evaluación de la situación actual determinando los antecedentes y
requisitos del problema, tanto en términos de negocio como de minerı́a de datos.
Traza un plan de proyecto donde se tiene en cuenta qué pasos se deben seguir y qué
procedimientos se emplearán en cada uno de ellos.
Fases en CRISP-DM
1. Comprensión del Negocio

DM

j.maidanagonzalez

Introducción Algunos ejemplos


Fases en
CRISP-DM Una compañı́a de agua quiere reducir la contaminación
Referencias Una empresa de juegos en lı́nea desea identificar apuestas fraudulentas.
Una revista de suscripción busca mejorar las tasas de renovación.
Los planificadores gubernamentales locales desean conocer la probabilidad de
sostenibilidad de un distrito el próximo año.
Una empresa de envı́os busca identificar contenedores propensos a contener artı́culos
de contrabando.
Una tienda de café busca entender el efecto de cambios de precio en la demanda.
Un hospital necesita saber cuánto personal de emergencia desplegar en cada turno.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
Fases en CRISP-DM

DM

j.maidanagonzalez
2. Comprensión de los Datos
Introducción
Es esta fase se lleva a cabo la recolección y exploración inicial de los datos, con el objetivo
Fases en
CRISP-DM de establecer un primer contacto con el problema. En esta etapa es clave es identificar
Referencias cualquier error de registro que exista para su posterior corrección.
Recolectar datos iniciales y adaptarlos a las necesidades del proyecto para su posterior
procesamiento.
Fases en CRISP-DM

DM

j.maidanagonzalez
2. Comprensión de los Datos
Introducción
Es esta fase se lleva a cabo la recolección y exploración inicial de los datos, con el objetivo
Fases en
CRISP-DM de establecer un primer contacto con el problema. En esta etapa es clave es identificar
Referencias cualquier error de registro que exista para su posterior corrección.
Recolectar datos iniciales y adaptarlos a las necesidades del proyecto para su posterior
procesamiento.
Describir los datos obtenidos: número de instancias (filas) y atributos (columnas), el
significado de los atributos y formato de los datos.
Fases en CRISP-DM

DM

j.maidanagonzalez
2. Comprensión de los Datos
Introducción
Es esta fase se lleva a cabo la recolección y exploración inicial de los datos, con el objetivo
Fases en
CRISP-DM de establecer un primer contacto con el problema. En esta etapa es clave es identificar
Referencias cualquier error de registro que exista para su posterior corrección.
Recolectar datos iniciales y adaptarlos a las necesidades del proyecto para su posterior
procesamiento.
Describir los datos obtenidos: número de instancias (filas) y atributos (columnas), el
significado de los atributos y formato de los datos.
Explorar los datos aplicando técnicas básicas de estadı́stica descriptiva que revelan
propiedades de estos.
Fases en CRISP-DM

DM

j.maidanagonzalez
2. Comprensión de los Datos
Introducción
Es esta fase se lleva a cabo la recolección y exploración inicial de los datos, con el objetivo
Fases en
CRISP-DM de establecer un primer contacto con el problema. En esta etapa es clave es identificar
Referencias cualquier error de registro que exista para su posterior corrección.
Recolectar datos iniciales y adaptarlos a las necesidades del proyecto para su posterior
procesamiento.
Describir los datos obtenidos: número de instancias (filas) y atributos (columnas), el
significado de los atributos y formato de los datos.
Explorar los datos aplicando técnicas básicas de estadı́stica descriptiva que revelan
propiedades de estos.
Verificar los datos para determinar su consistencia, la cantidad y distribución de los
valores nulos o valores fuera de rango (datos atı́picos) que puedan provocar ruido en el
modelado posterior.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción 3. Preparación de los Datos


Fases en
CRISP-DM
Se realiza la limpieza y transformación de datos para corregir los errores identificados en la
Referencias etapa anterior, con el fin que el set de datos quede listo para la siguiente etapa.
Se deben seleccionar, limpiar y generar conjuntos de datos correctos, organizados y
preparados para la fase de modelado.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción 3. Preparación de los Datos


Fases en
CRISP-DM
Se realiza la limpieza y transformación de datos para corregir los errores identificados en la
Referencias etapa anterior, con el fin que el set de datos quede listo para la siguiente etapa.
Se deben seleccionar, limpiar y generar conjuntos de datos correctos, organizados y
preparados para la fase de modelado.
Los errores en los datos que se pasan por alto y que no son resueltos en esta fase se
trasladan hasta la fase de modelado (error de arrastre), lo que genera una reducción
en la exactitud de los modelos o incluso, entregar resultados basados en datos que aún
contienen errores no detectados.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción 3. Preparación de los Datos


Fases en
CRISP-DM
Se realiza la limpieza y transformación de datos para corregir los errores identificados en la
Referencias etapa anterior, con el fin que el set de datos quede listo para la siguiente etapa.
Se deben seleccionar, limpiar y generar conjuntos de datos correctos, organizados y
preparados para la fase de modelado.
Los errores en los datos que se pasan por alto y que no son resueltos en esta fase se
trasladan hasta la fase de modelado (error de arrastre), lo que genera una reducción
en la exactitud de los modelos o incluso, entregar resultados basados en datos que aún
contienen errores no detectados.
Esta fase es sumamente crı́tica en un proyecto de minerı́a de datos y generalmente,
consume la mayor parte del tiempo de un proyecto.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
Fases en CRISP-DM

DM

j.maidanagonzalez
4. Modelado
Introducción

Fases en
En esta fase, se aplican diferentes algoritmos de minerı́a de datos para construir modelos
CRISP-DM con el objetivo de estimar el valor de una determinada variable.
Referencias
Seleccionar los algoritmos de modelado más apropiados al problema.
Fases en CRISP-DM

DM

j.maidanagonzalez
4. Modelado
Introducción

Fases en
En esta fase, se aplican diferentes algoritmos de minerı́a de datos para construir modelos
CRISP-DM con el objetivo de estimar el valor de una determinada variable.
Referencias
Seleccionar los algoritmos de modelado más apropiados al problema.
Generar un plan de prueba, donde configuramos los valores de los parámetros que se
usarán para los algoritmos de aprendizaje automático.
Fases en CRISP-DM

DM

j.maidanagonzalez
4. Modelado
Introducción

Fases en
En esta fase, se aplican diferentes algoritmos de minerı́a de datos para construir modelos
CRISP-DM con el objetivo de estimar el valor de una determinada variable.
Referencias
Seleccionar los algoritmos de modelado más apropiados al problema.
Generar un plan de prueba, donde configuramos los valores de los parámetros que se
usarán para los algoritmos de aprendizaje automático.
Determinar las métricas que se calcularán para evaluar los modelos.
Fases en CRISP-DM

DM

j.maidanagonzalez
4. Modelado
Introducción

Fases en
En esta fase, se aplican diferentes algoritmos de minerı́a de datos para construir modelos
CRISP-DM con el objetivo de estimar el valor de una determinada variable.
Referencias
Seleccionar los algoritmos de modelado más apropiados al problema.
Generar un plan de prueba, donde configuramos los valores de los parámetros que se
usarán para los algoritmos de aprendizaje automático.
Determinar las métricas que se calcularán para evaluar los modelos.
Construir los modelos, ejecutando los algoritmos seleccionados sobre los datos
preparados, experimentando con varios modelos y calculando las métricas.
Fases en CRISP-DM

DM

j.maidanagonzalez
4. Modelado
Introducción

Fases en
En esta fase, se aplican diferentes algoritmos de minerı́a de datos para construir modelos
CRISP-DM con el objetivo de estimar el valor de una determinada variable.
Referencias
Seleccionar los algoritmos de modelado más apropiados al problema.
Generar un plan de prueba, donde configuramos los valores de los parámetros que se
usarán para los algoritmos de aprendizaje automático.
Determinar las métricas que se calcularán para evaluar los modelos.
Construir los modelos, ejecutando los algoritmos seleccionados sobre los datos
preparados, experimentando con varios modelos y calculando las métricas.
Evaluar los resultados, donde se analizan las métricas de evaluación obtenidas con el
fin de conocer la bondad de los modelos generados y garantizar que cumplan con los
criterios de éxito definidos al inicio del proyecto.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM
5. Evaluación
Referencias En la fase de evaluación, los resultados del modelo se evalúan para determinar si satisface o
no el objetivo de negocio establecido originalmente.
Si la precisión de los modelos en los datos de prueba no es adecuada, se vuelve a las
fases anteriores para ajustar aquellas áreas que pueden ser las razones de la baja
precisión.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM
5. Evaluación
Referencias En la fase de evaluación, los resultados del modelo se evalúan para determinar si satisface o
no el objetivo de negocio establecido originalmente.
Si la precisión de los modelos en los datos de prueba no es adecuada, se vuelve a las
fases anteriores para ajustar aquellas áreas que pueden ser las razones de la baja
precisión.
Habiendo alcanzado un nivel satisfactorio de precisión, el proceso pasa a la fase de
despliegue.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM
6. Despliegue
Referencias En la fase de implementación o despliegue se explota la utilidad de los modelos de
predicción para ser integrados en el negocio.
La información valiosa derivada de los datos debe presentarse de tal manera que las partes
interesadas puedan usarlas cuando lo deseen.
Planificación de despliegue, monitorización y del mantenimiento.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM
6. Despliegue
Referencias En la fase de implementación o despliegue se explota la utilidad de los modelos de
predicción para ser integrados en el negocio.
La información valiosa derivada de los datos debe presentarse de tal manera que las partes
interesadas puedan usarlas cuando lo deseen.
Planificación de despliegue, monitorización y del mantenimiento.
Generación de informe final.
Fases en CRISP-DM

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM
6. Despliegue
Referencias En la fase de implementación o despliegue se explota la utilidad de los modelos de
predicción para ser integrados en el negocio.
La información valiosa derivada de los datos debe presentarse de tal manera que las partes
interesadas puedan usarlas cuando lo deseen.
Planificación de despliegue, monitorización y del mantenimiento.
Generación de informe final.
Revisión del proyecto
Table of Contents

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
1 Introducción

2 Fases en CRISP-DM

3 Referencias
Referencias

DM

j.maidanagonzalez

Introducción

Fases en
CRISP-DM

Referencias
IBM SPSS Modeler CRISP-DM Guide V.18 release 3. https://www.ibm.com/docs/
it/SS3RA7_18.3.0/pdf/ModelerCRISPDM.pdf
John McConnel & Rachel Clinton. ”An Introduction to the CRISP DM methodol-
ogy”.

También podría gustarte