Está en la página 1de 28

Crisp-DM

SEMMA
Camila Anna Sofía Estacuy Mazariegos
01
CRISP-DM
Minería de Datos
Introducción
Es un modelo de proceso con
seis fases que describe
naturalmente el ciclo de vida de
la ciencia de datos
Publicado en 1999 para
estandarizar los procesos
de minería de datos en
todas las industrias, desde
entonces se ha convertido
en la metodología más
común para proyectos de
minería de datos, análisis y
ciencia de datos.
Fases
de CRIPS-DM
I. Comprensión empresarial er un sólid
o
blec nto
Esta endimie como
La fase de comprensión empresarial se centra en la ent rial es de
p r e sa m i e ntos e
comprensión de los objetivos y requisitos del proyecto. em r los ci
u i u tame
nt
s t r o l
con asa: abs
una
c cial.
• Determine los objetivos comerciales: primero debe esen
"comprender a fondo, desde una perspectiva
comercial, lo que el cliente realmente quiere lograr".
( Guía CRISP-DM ) y luego definir los criterios de éxito
empresarial.

• Evaluar la situación: determinar la disponibilidad de


recursos, los requisitos del proyecto, evaluar los
riesgos y contingencias y realizar un análisis de costo-
beneficio.
I. Comprensión empresarial er un sólid
o
blec nto
Esta endimie como
ent rial es de
• Determine los objetivos de la minería de datos: p r e sa m i e ntos e
em r los ci nt
además de definir los objetivos comerciales, también s t r u i o l u tame
con asa: abs
debe definir cómo se ve el éxito desde una una
c cial.
esen
perspectiva técnica de minería de datos.

• Producir plan de proyecto: seleccione tecnologías y


herramientas y defina planes detallados para cada
fase del proyecto.
II. Comprensión de Datos
La siguiente es la fase de comprensión de datos . Además
de la base de Business Understanding , impulsa el
enfoque para identificar, recopilar y analizar los
conjuntos de datos que pueden ayudarlo a lograr los
objetivos del proyecto

• Recopilar datos iniciales: Adquiera los datos


necesarios y (si es necesario) cárguelos en su
herramienta de análisis.

• Describa los datos: examine los datos y documente


sus propiedades superficiales, como el formato de los
datos, la cantidad de registros o las identidades de
los campos.
II. Comprensión de Datos
• Explore los datos: profundice en los datos. Consúltelo,
visualícelo e identifique las relaciones entre los datos.

• Verifique la calidad de los datos: ¿Qué tan


limpios/sucios están los datos? Documente cualquier
problema de calidad.
III. Preparación de Datos
Esta fase, a la que a menudo se hace referencia como
“recopilación de datos”, prepara los conjuntos de datos
finales para el modelado.

• Seleccionar datos: determine qué conjuntos de datos


se utilizarán y documente los motivos de
inclusión/exclusión.

• Limpiar datos: A menudo, esta es la tarea más larga.


Sin él, es probable que seas víctima de la basura que
entra y sale. Una práctica común durante esta tarea
es corregir, imputar o eliminar valores erróneos.
III. Preparación de Datos
• Construir datos: derivar nuevos atributos que serán
útiles. Por ejemplo, obtenga el índice de masa
corporal de alguien a partir de los campos de altura y
peso.

• Integre datos: cree nuevos conjuntos de datos


combinando datos de múltiples fuentes.

• Formato de Datos: Cambie el formato de los datos


según sea necesario. Por ejemplo, puede convertir
valores de cadena que almacenan números en
valores numéricos para poder realizar operaciones
matemáticas.
IV. Modelado
Aquí probablemente construirá y evaluará varios
modelos basados en varias técnicas de modelado
diferentes.

• Integre Seleccione técnicas de modelado: determine


qué algoritmos probar (p. ej., regresión, red neuronal).

• Generar diseño de prueba: en espera de su enfoque


de modelado, es posible que deba dividir los datos en
conjuntos de entrenamiento, prueba y validación.
IV. Modelado
• Modelo de compilación: por muy glamoroso que
parezca, esto podría ser simplemente ejecutar unas
pocas líneas de código como "reg =
LinearRegression().fit(X, y)".

• Evaluar el modelo: por lo general, varios modelos


compiten entre sí y el científico de datos debe
interpretar los resultados del modelo en función del
conocimiento del dominio, los criterios de éxito
predefinidos y el diseño de la prueba.
V. Evaluación
Mientras que la tarea de evaluación del modelo de la
fase de modelado se centra en la evaluación del modelo
técnico, la fase de evaluación analiza de manera más
amplia qué modelo se adapta mejor al negocio y qué
hacer a continuación.

• Evaluar resultados: ¿Los modelos cumplen con los


criterios de éxito empresarial? ¿Cuál(es) debemos
aprobar para el negocio?

• Proceso de revisión: Revisar el trabajo realizado. ¿Se


pasó algo por alto? ¿Se ejecutaron correctamente
todos los pasos? Resuma los hallazgos y corrija
cualquier cosa si es necesario.
V. Evaluación
• Determine los próximos pasos: en función de las tres
tareas anteriores, determine si debe continuar con la
implementación, iterar más o iniciar nuevos
proyectos.
VI. Despliegue
Un modelo no es particularmente útil a menos que el
cliente pueda acceder a sus resultados. La complejidad
de esta fase varía ampliamente

• Evaluar Planificar la implementación: desarrolle y


documente un plan para implementar el modelo.

• Supervisión y mantenimiento del plan: Desarrolle un


plan completo de supervisión y mantenimiento para
evitar problemas durante la fase operativa (o fase
posterior al proyecto) de un modelo.
VI. Despliegue
• Producir informe final: el equipo del proyecto
documenta un resumen del proyecto que puede
incluir una presentación final de los resultados de la
extracción de datos.

• Revisar el proyecto: realice una retrospectiva del


proyecto sobre lo que salió bien, lo que podría haber
sido mejor y cómo mejorar en el futuro.
VI. Despliegue
El trabajo de su organización podría no terminar ahí.
Como marco de un proyecto, CRISP-DM no describe qué
hacer después del proyecto (también conocido como
"operaciones"). Pero si el modelo va a producción,
asegúrese de mantener el modelo en producción. A
menudo se requiere un monitoreo constante y un ajuste
ocasional del modelo.
02
SEMMA
Minería de Datos
Introducción
El Instituto SAS desarrolló
SEMMA como el proceso de
minería de datos. Tiene cinco
pasos (Muestra, Explorar,
Modificar, Modelar y Evaluar),
ganándose el acrónimo de
SEMMA.
SEMMA
SAS Instituto desarrollador de esta metodología, la
define como el proceso de selección, exploración y
modelado de grandes cantidades de datos para
descubrir patrones de negocio desconocidos.

El método de minería de datos se puede utilizar para


resolver una amplia gama de problemas comerciales,
incluida la identificación de fraudes, la retención y
rotación de clientes, el marketing de bases de datos, la
lealtad de los clientes, la previsión de quiebras, la
segmentación del mercado, así como el análisis de
riesgos, afinidad y cartera.
Fases
de SEMMA
I. Muestra
Este paso implica elegir un subconjunto del conjunto de
datos de volumen apropiado de un conjunto de datos
amplio que se ha proporcionado para la construcción
del modelo. El objetivo de esta etapa inicial del proceso
es identificar las variables o factores (tanto
dependientes como independientes) que influyen en el
proceso. La información recopilada luego se clasifica en
categorías de preparación y validación.
II. Explorar
Durante este paso, se lleva a cabo un análisis univariado
y multivariado para estudiar las relaciones
interconectadas entre los elementos de datos e
identificar brechas en los datos. Mientras que el análisis
multivariado estudia la relación entre las variables, el
univariado analiza cada factor individualmente para
comprender su papel en el esquema general. Se analizan
todos los factores influyentes que pueden influir en el
resultado del estudio, con una gran dependencia de la
visualización de datos.
III. Modificar
En este paso, las lecciones aprendidas en la fase de
exploración a partir de los datos recopilados en la fase
de muestra se derivan con la aplicación de la lógica
empresarial. En otras palabras, los datos se analizan y
limpian, luego se pasan a la etapa de modelado y se
exploran si los datos requieren refinamiento y
transformación.
IV. Modelo
Con las variables refinadas y los datos limpios, el paso
de modelado aplica una variedad de técnicas de minería
de datos para producir un modelo proyectado de cómo
estos datos logran el resultado final deseado del
proceso.
V. Evaluar
En esta etapa final de SEMMA, se evalúa el modelo para
determinar qué tan útil y confiable es para el tema
estudiado. Los datos ahora se pueden probar y utilizar
para estimar la eficacia de su rendimiento.
¡Gracias!

También podría gustarte