Instituto IACC 28-06-2020 Proceso de minería de datos.
Una organización dedicada a la venta de productos ferreteros, desea analizar
información que se encuentra en distintas bases de datos para obtener antecedentes relevantes que permitan mejorar las ventas. Para ello el equipo de tecnología decide realizar un proceso de unificación de los datos, comenzando con la limpieza, integración y transformación de los datos. De acuerdo al caso presentado responda las siguientes preguntas: ¿Cuáles son los métodos para limpiar los datos que se encuentran en las distintas fuentes? Los datos que normalmente se utilizan en sistemas informáticos y/o en forma cotidiana algunas veces presentan inconsistencias o simplemente carecen de información que podría ser relevante. El proceso de limpieza de datos consiste en algunos métodos o formas de completar esa información faltante y según el contenido de la semana permite “suavizar el ruido”, para ello se recurrirá a los diferentes métodos que se explicaran brevemente a continuación: Ignorar la tupla: Cuando la clasificación no encuentra la clase dentro de la tupla la ignora completamente. No recomendable ya que si faltan muchas tuplas los resultados no serán fidedignos o confiables. Rellenar el Valor manualmente: Poco practico ya que si es mucha la información faltante tomara mucho tiempo completar o rellenar dichos valores. Usar constante global para rellenar: Si falta algún valor se puede reemplazar automáticamente por un identificador o etiqueta como “N/A”, “desconocido”, “#”, etc. Si bien se presenta como una opción viable en muchos casos, no es recomendable ya que el programa de minería de datos puede considerar como “interesante” que este elemento se repita muchas veces desviando la atención de los datos o información que si puede ser relevante. Usar el atributo para rellenar el valor faltante: en este caso se puede usar un valor promedio del resto de los datos para completar el valor faltante. Usar el atributo para todos los elementos que cumplan una clase: a diferencia del anterior acá se usara una media relacionada a la clase a la cual pertenecen, por ejemplo si falta el gasto en viajes en una tupla donde se puede clasificar por nivel de ingreso, se promediara según su clasificación, por lo tanto no será el mismo valor para los de rango alto que los que están en rangos mas bajos. Utilizar el valor mas probable: Mediante la regresión lineal y herramientas basadas en un árbol de decisión se puede predecir el dato faltante. Este método es el mas utilizado ya que se utilizan los datos actuales para predecir los faltantes.
¿Cuál es el principal problema que se produce en la integración de los datos?
La integración de datos combina información de diferentes fuentes en un almacén de datos coherente, esto puede llevar a conflictos en los valores por eso es necesario el proceso de resolución de datos y allí radica su importancia.
¿Qué incluye el proceso de transformación de los datos?
Este proceso consiste en consolidar o convertir los datos en formas apropiadas para el proceso de minería, en donde encontraremos los siguientes: Suavizante: proceso para eliminar el ruido de los datos. Agregación: donde se aplican operaciones de resumen o agregación de datos. Generalización de los datos: cuando se encuentran datos de bajo nivel o primitivos suelen sustituirse por datos de nivel superior a través de las jerarquías conceptuales. Normalización: cuando los datos atributos se escalan para caer dentro de un rango especificado. Construcción característica donde nuevos atributos se construyen a partir de un conjunto dado para facilitar el proceso de minería. REFERENCIAS IACC (2015), Introducción a la Inteligencia de negocios. Parte 2. Herramientas de Business Intelligence. Semana 2