Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CRISP-DM es una metodologia para realizar proyectos de minera de datos. Divide los procesos en 6 fases.
o o o
Subfases 1+2
1. Comprensin del negocio (estatica)
Informacin que necesitamos: Nombre. Misin. Objetivos de negocio que se pretende alcanzar. Estrategias para alcanzar el objetivo. Descripcin del producto/servicio. Mercado de la organizacin. Competencia. Terminologa de la organizacin. Organigrama. Mapa de salida (mapa esttico de negocio)
o o o o
Reformular campos de texto a valores numricos para poder procesarlos. Por ejemplo: Muy Satisfecho = 5, Satisfecho = 4, etc
Fase 4: Modelado
Tcnica. En funcin de mi objetivo y las hiptesis, aplico un algoritmo y obtengo un resultado. Se decide sobre qu tcnica se va a aplicar, qu herramienta. Tcnicas: ej redes neuronales, C4.2. Diseo de pruebas. Se generan registros para pruebas. Las herramientas por lo general, lo resuelven automticamente. Construccin del modelo. Configurar los parmetros de ejecucin de la herramienta. La herramienta antes de procesar los datos necesita adems de los registros como entrada, ciertos parmetros de configuracin que dependen de la herramienta y la tcnica. Registrar esos parmetros. Evaluacin y revisin. Revisar parmetros elegidos.
Fase 5: Evaluacin
Evaluar los resultados del proceso de minera de datos en funcin del objetivo del negocio del cliente. Revisin. Determinar qu actividades faltaran o deberan repetirse. Qu otro tipo de informacin puede servir. Determinar qu pasos seguir.
Fase 6: Implementacin
Armado del informe final. Revisin del proyecto.
Induccin
Los algoritmos de induccin construyen rboles y a partir de eso se generan reglas que son del tipo supervisadas (atributos clasificados). ID3 Induction Decision Tree. Atributos discretos. Una mejora: C4.5 (C4.5 is an algorithm used to generate a decision tree). Herramienta Ctree. Atributos continuos. Top-Down Induction of Decision Trees (TDIDT) Generalizacin -> Involucin. Particularizacin -> Deduccin. Para poder evolucionar los datos deben estar clasificados. Clculo de entropa.
Si todos los valores de un atributo son iguales, la entropa es 0. Si hay igual cantidad de un valor que de otro, la entropa es 1. Se busca la azarosidad. El valor vinculado a la azarosidad mide la incertidumbre. Si hay 4 NO y 10 SI, (3 atributos, 14 mediciones,/observaciones) Analizo para cada atributo los SI/NO.