• Software • Metodologías • KDD • Selección • Preprocesamiento • Transformación • Técnicas de Minería de Datos • Evaluación e Interpretación
Inteligencia de Negocios - Claudio Henríquez Berroeta
Introducción • Minería de Datos “La minería de Datos es la ciencia de extracción de información útil de grandes conjuntos de datos o bases de datos.” Mannila
Inteligencia de Negocios - Claudio Henríquez Berroeta
Software
Inteligencia de Negocios - Claudio Henríquez Berroeta
Weka • Weka es una colección de algoritmos de máquinas de aprendizaje para tareas de Minería de Datos.
• Pertenece al Machine Learning Group de la Universidad de Waikato,
Nueva Zelanda.
Inteligencia de Negocios - Claudio Henríquez Berroeta
Archivos de Weka • Usa un formato de archivos ARFF, sin embargo, también se pueden usar archivos de texto delimitados por comas CSV. • El archivo ARFF contiene una cabecera que define el formato de los atributos a considerar en el modelo, seguido por los datos que van separados por coma y salto de línea por cada fila • @relation • @attribute • NUMERIC • STRING • DATE • Nominales entre llaves, separados por coma {valor1, valor 2,…} • @data
Inteligencia de Negocios - Claudio Henríquez Berroeta
Metodologías • CRISP-DM (IBM) • Proceso de seis fases: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación e implantación. • SEMMA (SAS) • Proceso de selección, exploración y modelado de grandes volúmenes de datos para descubrir patrones de negocio desconocido • Catalyst (P3TQ) • Plantea la formulación de un modelo de negocio y un modelo de explotación de información
Inteligencia de Negocios - Claudio Henríquez Berroeta
Uso de Metodologías
“Estudio comparativo de metodologías para minería de datos” [Moine, Haedo, Gordillo]
Inteligencia de Negocios - Claudio Henríquez Berroeta
Descubrimiento de Conocimiento en Bases de Datos (KDD)
“Knowledge Discovery in Databases (KDD) es considerado como el
proceso no trivial de la extracción de datos ocultos, previamente desconocidos y potencialmente útiles.”
Inteligencia de Negocios - Claudio Henríquez Berroeta
Selección • En esta etapa se escogen los conjuntos de datos a utilizar en el análisis, es una selección a grandes rasgos donde se deben incorporar todos los atributos que puedan influir en un resultado final. • Se deben eliminar todos los datos irrelevantes considerando el entendimiento del negocio. • Considerar datos individualizadores para estos efectos, como por ejemplo: identificadores, direcciones.
Inteligencia de Negocios - Claudio Henríquez Berroeta
Preprocesamiento (1) En esta etapa se considera la calidad de los datos, verificando la integridad y la limpieza.
• Integración:
• Los datos, si bien corresponden a la misma información,
presentan formatos diferentes en los diferentes períodos de tiempo, debido a modificaciones del instrumento de recolección (formulario), de manera que deberán ser sometidos a un proceso de integración y unificación de conceptos.
Inteligencia de Negocios - Claudio Henríquez Berroeta
Preprocesamiento (2)
• Limpieza:
• Este paso tiene como objetivo reducir el ruido y las
inconsistencias. Para ello, se seleccionará una muestra de los datos, pudiendo de esta forma interpretar la validez de algún valor para algún atributo y mejorar la calidad de los datos.
• Resulta interesante estudiar la cantidad de datos nulos y los
outliers (datos erróneos), con el fin de reducir las posibilidades de error cuando sean procesados por el algoritmo.
Inteligencia de Negocios - Claudio Henríquez Berroeta
Transformación • Consiste en la normalización de los datos. Este paso implica la transformación del tipo de algunos atributos, en caso que fuera necesario, teniendo presente que convertir el tipo de un atributo a otro puede cambiar la semántica de dicho atributo. Este paso está muy ligado al algoritmo que procesará los datos para obtener conocimiento. • Discretización: • transformar valores numéricos a nominales (generación de rangos) • Creación: • se pueden crear nuevos atributos a partir de la combinación de otros, considerando su semántica (expresiones matemáticas, agrupaciones).
Inteligencia de Negocios - Claudio Henríquez Berroeta
Transformación (muestreo) • Reducción • Consiste en la selección de una muestra representativa del total de los datos, intentando eliminar carácterísticas redundantes. • La creación de una sub muestra disminuirá la carga de procesamiento de datos y por ende el tiempo de procesamiento de datos por parte de los algoritmos. • Se debe considerar en primera instancia la cantidad de registros basado en la cantidad por elemento de cada clase, se debe equiparar utilizando algún criterio, el cual puede ser el principio de Pareto (80/20), el que describe el 80% de las consecuencias proviene del 20% de las causas. • Formas • Muestreo Probabilístico • Muestreo mediante Cluster
Inteligencia de Negocios - Claudio Henríquez Berroeta
Técnicas de Minería de Datos • En esta etapa se escoge la técnica de Minería de Datos adecuada a la problemática a resolver. • Se pueden diferenciar en principalmente en Descriptivas y Predictivas • Descriptivas • Reglas de Asociación • Clustering • Predictivas • Árboles de Decisión • Redes Neuronales Artficiales • Máquinas de Soporte Vectorial • Clasificador Bayesiano
Inteligencia de Negocios - Claudio Henríquez Berroeta
Evaluación e Interpretación • Corresponde a la etapa de análisis de los resultados obtenidos y su correspondiente evaluación para ver si se han logrado los objetivos.
• Se debe diferenciar los resultados en términos del modelo y en
términos del negocio.
Inteligencia de Negocios - Claudio Henríquez Berroeta