Está en la página 1de 5

Proceso de Minería de Datos.

Javier Serrano

Business Intelligence

Instituto IACC

18-06-2018
Desarrollo

Una organización dedicada a la venta de productos ferreteros, desea analizar información que se
encuentra en distintas bases de datos para obtener antecedentes relevantes que permitan mejorar
las ventas. Para ello el equipo de tecnología decide realizar un proceso de unificación de los
datos, comenzando con la limpieza, integración y transformación de los datos. De acuerdo al
caso presentado responda las siguientes preguntas.

¿Cuáles son los métodos para limpiar los datos que se encuentran en las distintas fuentes?

Ejemplifique.

La información que se encuentra almacenada en distintos tipos de sistemas, ya sean software o

simplemente datos en papel, suele no ser consistente en el tipo de información para algunos datos

que serían de suma relevancia. Para ello se aplica la integración de datos, que consiste en

suavizar un poco el ruido y solo identificar los valores y las inconsistencias de estos mismos.

Algunos métodos son:

Ignorar Tuplas: cuando la etiqueta de la clase no se encuentra, buscar valores que faltan por

atributo.

Rellenar el valor faltante manualmente: buscar uno a uno los datos faltantes.

Utilizar constante global: rellenar los datos que faltan con alguna etiqueta generalizada como

“Desconocido” o “#”, aunque un programa de minería puede trabajar erróneamente.

Utilizar el atributo significa rellenar el valor faltante: utilizar el promedio del dato para completar

los faltantes.

Utilizar el atributo para todas las muestras que pertenecen a la misma clase que se encuentra

en la tuplas: si la clasificación es de acuerdo al riesgo, se debe sustituir el valor faltante con el

promedio de los clientes con la misma categoría.


Utilizar el valor más probable para rellenar el valor faltante: regresión lineal, se utiliza un

árbol de decisión, se pueden utilizar datos de otro cliente similar para completar los datos

faltantes

¿Cuál es el principal problema que se produce en la integración de los datos?

Algunos métodos que solicitan hacer el rellenado de datos, Cabe decir que no siempre la falta de

datos significa un error, dado que en la mayoría de los sistemas siempre existirán datos que son

opcionales. Otro problema que suele suceder es no hacer un buen diseño de las bases de datos y

los procedimientos para el ingreso de la información para minimizar los errores.

La redundancia de información también es un tema importante y un problema en la unificación

de los datos.

Los tipos de datos pueden referirse a los mismo, pero son diferentes, en el caso de monedas,

algunos sistemas los pueden valorizar con otro tipo de moneda ya sea peso, dólar, euro, etc. El

atributo puede llamarse de la misma forma, pero su contenido es distinto.

¿Qué incluye el proceso de transformación de los datos?

La transformación de datos puede incluir lo siguiente:

1. Suavizante: Trabaja para eliminar los ruidos de los datos.

2. Agregación: Donde se aplican operaciones de resumen o de agregación.

3. Generalización de los datos: Datos en bruto se sustituyen por conceptos más generales

para su mejor utilización. Por ejemplo, los atributos categóricos.


4. La Normalización: Los datos se escalas para caer dentro de una categoría especifica.

5. Construcción característica: Donde nuevos valores se asocian y se añaden a partir de un

conjunto de datos para una identificación que ayuda al proceso de minería.

Se realizan distintas funciones para un análisis previo, el objetivo es preparar de mejor manera la

información para aplicar una técnica que se adapte bien a la minería de datos y dar solución al

problema. Este paso también se le conoce como pre-procesamiento de los datos.


Bibliografía

 Contenidos Semana 2.

También podría gustarte