Estrategias de Desarrollo Aplicadas SDD (I)

Estrategias de
Desarrollo aplicadas a
un Sistema de Apoyo a
la Toma de Decisiones.
Metodologías de Desarrollo de un
DSS
Metodología KDD
 Knowledge Discovery in Databases
 Secuencial e iterativo
 Busca encontrar patrones
 Extracción automatizada de conocimiento partiendo de grandes volúmenes de datos
Etapas de KDD
Etapas de KDD
1. SELECCIÓN
 Establecer límites y objetivos precisos y medibles
2. PREPROCESAMIENTO
 La salida de esta fase es el datawarehouse
 Recopilación de datos de diferentes fuentes, incluso externas
 Base de datos elegida debe ser coherente, relevante y actualizada
 por ejemplo: colecciones de documentos, correos electrónicos, fotografías, bases de datos de
procesos, bases de datos de transacciones de clientes, etc..
Etapas de KDD
3. TRANSFORMACIÓN
 Eliminación de ruido y datos aislados o outliers.
 Limpieza de datos
 Estos “datos sucios” pueden confundir el proceso de minería y conducir a resultados inválidos o
poco confiables.
Etapas de KDD
4. MINERÍA DE DATOS
 Nos permite procesar un set de datos para obtener nueva información sobre ese mismo dataset.
1) Selección de la tarea
2) Selección de algoritmo
3) Implementación
Etapas de KDD
5. EVALUACIÓN
Se utiliza el modelo o patrón obtenidos en la fase anterior, los cuales son analizados y evaluados
para convertirse en conocimiento.
Metodología CRISP -DM
 Cross-Industry Standard Process for Data Mining
 es flexible y se pueden personalizar fácilmente
 cubre las fases de un proyecto, sus tareas respectivas, y las relaciones entre estas tareas.
Fases de CRISP-DM
Fases de CRISP-DM
1. Entendimiento del negocio
 Se enfoca en la comprensión de los objetivos de proyecto.
2. Entendimiento de los datos
 Comienza con la colección de datos inicial y continúa con las actividades que permiten
familiarizarse con los datos, identificar los problemas de calidad, descubrir conocimiento
preliminar sobre los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en
cuanto a la información oculta.
Fases de CRISP-DM
3. Preparación de los datos
 Actividades necesarias para construir el conjunto final de a partir de los datos en bruto iniciales.
Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y la
limpieza de datos para las herramientas que modelan.
4. Modelado
 En esta fase, se seleccionan y aplican las técnicas de modelado que sean pertinentes al problema y
se calibran sus parámetros a valores óptimos.
 Algunas técnicas tienen requerimientos específicos sobre la forma de los datos. Por lo tanto, casi
siempre en cualquier proyecto se acaba volviendo a la fase de preparación de datos.
Fases de CRISP-DM
5. Evaluación
 Antes de proceder al despliegue final del modelo, es importante evaluarlo a fondo y revisar los
pasos ejecutados para crearlo, comparar el modelo obtenido con los objetivos de negocio.
6. Despliegue
 Dependiendo de los requisitos, esta fase puede ser tan simple como la generación de un informe
o tan compleja como la realización periódica y quizás automatizada de un proceso de análisis de
datos en la organización.
Metodología SEMMA
 Sample Explore Modify Model Assess
 Se define como el proceso de se lección, exploración y modelado de grandes cantidades de datos
para revelar patrones de negocio desconocidos.
 Se encuentra enfocada fundamentalmente en aspectos técnicos.
 Dicha metodología fue propuesta inicialmente para trabajar con el software de Explotación de
Datos de la compañía SAS.
Fases SEMMA
Fases SEMMA
1. Muestreo (Sample)
 Extracción de una muestra representativa sobre la que se va a llevar a cabo el análisis.
 El método de muestreo más común se denomina " muestreo aleatorio simple " , en el que cada
elemento en la población tiene la misma probabilidad de ser seleccionado.
2. Exploración (Explore)
 Análisis de los datos extraídos en la muestra, para lo cual se propone el uso de herramientas de
visualización o de diferentes técnicas estadísticas para la exploración de la información
seleccionada, que contribuyan a poner de manifiesto relaciones entre variables.
Fases SEMMA
3. Modificación (Modify)
 Modificación de los datos que van a ser ingresados al modelo para que tengan el formato adecuado,
mejorando la definición de los mismos.
4. Modelado (Model)
 se procede a modelar el conjunto de datos, permitiendo al software realizar una búsqueda completa
de combinaciones de datos que ayudarán a predecir los resultados esperados de manera confiable.
 Las técnicas utilizadas para el modelado de los datos incluyen técnicas adaptativas, lógica difusa,
reglas de asociación, árboles de decisión, redes neuronales y computación evolutiva; como así
también involucran métodos estadísticos tradicionales.
Fases SEMMA
5. Valoración (Assess)
 La última fase de la metodología SEMMA, consiste en la valoración de los datos obtenidos para
determinar el grado de confiabilidad de los mismos y así poder evaluar el modelo, mediante la
comparación con otros métodos estadísticos o con nuevas poblaciones muestrales.
 https://www.sngular.com/es/data-science-crisp-dm-metodologia/
 https://www.laboratoriodecertificacion.es/breve-explicacion-del-proceso-kdd/
 https://mnrva.io/kdd-platform.html
 https://www.researchgate.net/publication/
284215308_Proceso_de_Conceptualizacion_del_Entendimiento_del_Negocio_para_Proyectos_
de_Explotacion_de_Informacion/fulltext/57aabbd908ae3765c3b5086c/Proceso-de-
Conceptualizacion-del-Entendimiento-del-Negocio-para-Proyectos-de-Explotacion-de-
Informacion.pdf?origin=publication_detail

Estrategias de Desarrollo Aplicadas SDD (I)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estrategias de Desarrollo Aplicadas SDD (I)

Cargado por

Copyright:

Formatos disponibles

Estrategias de

También podría gustarte