Está en la página 1de 6

CRISP-DM stands for Cross Industry Standard Process for Data Mining.

Data Mining o minera de datos se basa en: Indentificar patrones de comportamiento.

Definir reglas. Predecir sucesos.

CRISP-DM es una metodologia para realizar proyectos de minera de datos. Divide los procesos en 6 fases.

FASE 1: Entendimiento del negocio


o Subfase 1. Determinar los objetivos de negocio (Escenario actual) Nombre. Misin. Objetivos de negocio. Factores crticos de xito. Subfase 2. Evaluacin de la situacin. Subfase 3. Determinar los objetivos de minera de datos. Subfase 4. Realizar el plan de proyecto.

o o o

Subfases 1+2
1. Comprensin del negocio (estatica)
Informacin que necesitamos: Nombre. Misin. Objetivos de negocio que se pretende alcanzar. Estrategias para alcanzar el objetivo. Descripcin del producto/servicio. Mercado de la organizacin. Competencia. Terminologa de la organizacin. Organigrama. Mapa de salida (mapa esttico de negocio)

2.Evaluacin de los objetivos de negocio.


F - Fortalezas O - Oportunidades D - Debilidades A Amenazas Oportunidades y Amenazas son agentes externos, mientras que Fortalezas y Debilidades son propias de la organizacin. Factores crticos de xitos: aquellas cosas que tienen que suceder o no para alcanzar el xito. Anlisis de riesgo. Mapa de salida. Mapa de condicionamiento de los objetivos.

3. Medios, expectativas, restricciones para alcanzar los objetivos.


Recursos humanos (perfil, tiempo de dedicacin) (Medios) Fuentes de informacin (Medios) Requerimientos Expectativas Restricciones (tiempo, dinero, recursos) Mapa de salida. Mapa tctico.

Subfase 3 Determinar los objetivos de minera de datos.


A partir de los objetivos de negocio tengo que poder traducir en los objetivos de minera de datos. Necesito informacin completa y consistente. Hago un anlisis sobre los factores de xito. Realizar plan de proyecto. Determinar fases, recursos, tiempos. Entendimiento de los datos: saber con qu informacin se cuenta. Preparacin de los datos: todos los pasos previos para construir el cubo. Modelado: tengo el cubo, elijo la tcnica que voy a aplicar -> algoritmo, herramienta. Evaluacin de resultados. Interviene el equipo completo. Implementacin. Entendimiento de los datos: o Recolectar datos iniciales. o Descripcin de los datos. o Exploracin de los datos. o Verificacin de la calidad de los datos. Mencionar tablas a utilizar, describirlas, ver algunos registros, verificar calidad (registros vacos, que el tiempo de almacenamiento sea suficiente.) Procesar -> Renombrar campos, llenar campos vacos. Preparacin de los datos. (Fase 3) o Inclusin/Exclusin o Reporte de limpieza. o Atributos derivados y gen de registros. o Unificacin. o Reformateo. Modelado. (Fase 4)

o o o o

Tcnica. Diseo de pruebas. Construccin del modelo. Evaluacin y revisin.

FASE 2: Entendimiento de los datos


Reporte inicial de datos. Que informacin es importante? Con qu datos tengo que contar? Encuesta -> datos blandos. Movimientos -> datos duros. Se incluyen en el reporte las tablas de inters. Perodo histrico: tiempo de anlisis de los datos. Criterio de seleccin: recorte de registros y columnas. Reporte de la descripcin de datos. Ya tengo el cubo armado. Descripcin de cada uno de los atributos. Mostrar el DER para ver la relacin con las tablas vinculadas. Hacer anlisis de los datos y armar grficos estadsticos o cuadros comparativos de algunos atributos. Reporte de la exploracin de datos. Es prcticamente igual al anterior pero centrndonos en los atributos decisivos. Se pueden integrar los dos reportes. Puede comenzar a formularse hiptesis con los resultados obtenidos. Reporte de la calidad de datos. Cobertura de los datos (ver qu valores de un determinado atributo estn cubiertos) Puede faltan que el atributo tome algn valor, o pueden faltar valores para algn lugar o zona. Atributos perdidos: para algunos registros no tengo la totalidad de las columnas con valor.

FASE 3: Preparacion de los datos


Dataset + Descripcin. Qu necesito para construir el dataset? Exclusin significa que puede decidir deshacerme de un dato. Reporte de limpieza de datos. Para resolver inconsistencias se puede modificar algn registro. Por lo general se da con datos continuos (medicin realizada con un sensor.) Puede no existir. Reporte de atributos derivados y generacin de registros. Atributos derivados -> hacer algn clculo con 1 o ms atributos o trabajar con distintos atributos que generan un atributo, por ej, la fecha de nacimiento y la fecha actual generan la edad. Generacin de registros -> No es tan comn. Hay que hacerlo con cuidado de no agregar registros inconsistentes. Unificacin. Si por ejemplo existieran distintas categoras de clientes/consumidores, pero para mi estudio no es importante esa divisin, entonces existe para mi estudio una nica categora. Reformateo.

Reformular campos de texto a valores numricos para poder procesarlos. Por ejemplo: Muy Satisfecho = 5, Satisfecho = 4, etc

Fase 4: Modelado
Tcnica. En funcin de mi objetivo y las hiptesis, aplico un algoritmo y obtengo un resultado. Se decide sobre qu tcnica se va a aplicar, qu herramienta. Tcnicas: ej redes neuronales, C4.2. Diseo de pruebas. Se generan registros para pruebas. Las herramientas por lo general, lo resuelven automticamente. Construccin del modelo. Configurar los parmetros de ejecucin de la herramienta. La herramienta antes de procesar los datos necesita adems de los registros como entrada, ciertos parmetros de configuracin que dependen de la herramienta y la tcnica. Registrar esos parmetros. Evaluacin y revisin. Revisar parmetros elegidos.

Fase 5: Evaluacin
Evaluar los resultados del proceso de minera de datos en funcin del objetivo del negocio del cliente. Revisin. Determinar qu actividades faltaran o deberan repetirse. Qu otro tipo de informacin puede servir. Determinar qu pasos seguir.

Fase 6: Implementacin
Armado del informe final. Revisin del proyecto.

Induccin
Los algoritmos de induccin construyen rboles y a partir de eso se generan reglas que son del tipo supervisadas (atributos clasificados). ID3 Induction Decision Tree. Atributos discretos. Una mejora: C4.5 (C4.5 is an algorithm used to generate a decision tree). Herramienta Ctree. Atributos continuos. Top-Down Induction of Decision Trees (TDIDT) Generalizacin -> Involucin. Particularizacin -> Deduccin. Para poder evolucionar los datos deben estar clasificados. Clculo de entropa.

Si todos los valores de un atributo son iguales, la entropa es 0. Si hay igual cantidad de un valor que de otro, la entropa es 1. Se busca la azarosidad. El valor vinculado a la azarosidad mide la incertidumbre. Si hay 4 NO y 10 SI, (3 atributos, 14 mediciones,/observaciones) Analizo para cada atributo los SI/NO.

También podría gustarte