Está en la página 1de 4

Control Semana 2

Adrián Vásquez Parra

HERRAMIENTAS DE BUSINESS INTELLIGENCE


Instituto IACC
28-06-2020
Proceso de minería de datos.

Una organización dedicada a la venta de productos ferreteros, desea analizar


información que se encuentra en distintas bases de datos para obtener antecedentes
relevantes que permitan mejorar las ventas. Para ello el equipo de tecnología decide
realizar un proceso de unificación de los datos, comenzando con la limpieza, integración
y transformación de los datos. De acuerdo al caso presentado responda las siguientes
preguntas:
¿Cuáles son los métodos para limpiar los datos que se encuentran en las distintas
fuentes?
Los datos que normalmente se utilizan en sistemas informáticos y/o en forma
cotidiana algunas veces presentan inconsistencias o simplemente carecen de
información que podría ser relevante. El proceso de limpieza de datos consiste en
algunos métodos o formas de completar esa información faltante y según el contenido
de la semana permite “suavizar el ruido”, para ello se recurrirá a los diferentes métodos
que se explicaran brevemente a continuación:
Ignorar la tupla: Cuando la clasificación no encuentra la clase dentro de la tupla la
ignora completamente. No recomendable ya que si faltan muchas tuplas los resultados
no serán fidedignos o confiables.
Rellenar el Valor manualmente: Poco practico ya que si es mucha la información
faltante tomara mucho tiempo completar o rellenar dichos valores.
Usar constante global para rellenar: Si falta algún valor se puede reemplazar
automáticamente por un identificador o etiqueta como “N/A”, “desconocido”, “#”, etc. Si
bien se presenta como una opción viable en muchos casos, no es recomendable ya que
el programa de minería de datos puede considerar como “interesante” que este
elemento se repita muchas veces desviando la atención de los datos o información que
si puede ser relevante.
Usar el atributo para rellenar el valor faltante: en este caso se puede usar un valor
promedio del resto de los datos para completar el valor faltante.
Usar el atributo para todos los elementos que cumplan una clase: a diferencia del
anterior acá se usara una media relacionada a la clase a la cual pertenecen, por ejemplo
si falta el gasto en viajes en una tupla donde se puede clasificar por nivel de ingreso, se
promediara según su clasificación, por lo tanto no será el mismo valor para los de rango
alto que los que están en rangos mas bajos.
Utilizar el valor mas probable: Mediante la regresión lineal y herramientas basadas en
un árbol de decisión se puede predecir el dato faltante. Este método es el mas utilizado
ya que se utilizan los datos actuales para predecir los faltantes.

¿Cuál es el principal problema que se produce en la integración de los datos?


La integración de datos combina información de diferentes fuentes en un almacén de
datos coherente, esto puede llevar a conflictos en los valores por eso es necesario el
proceso de resolución de datos y allí radica su importancia.

¿Qué incluye el proceso de transformación de los datos?


Este proceso consiste en consolidar o convertir los datos en formas apropiadas para el
proceso de minería, en donde encontraremos los siguientes:
Suavizante: proceso para eliminar el ruido de los datos.
Agregación: donde se aplican operaciones de resumen o agregación de datos.
Generalización de los datos: cuando se encuentran datos de bajo nivel o primitivos
suelen sustituirse por datos de nivel superior a través de las jerarquías conceptuales.
Normalización: cuando los datos atributos se escalan para caer dentro de un rango
especificado.
Construcción característica donde nuevos atributos se construyen a partir de un
conjunto dado para facilitar el proceso de minería.
REFERENCIAS
IACC (2015), Introducción a la Inteligencia de negocios. Parte 2. Herramientas de
Business Intelligence. Semana 2

También podría gustarte