Está en la página 1de 7

lOMoARcPSD|4662885

Módulo 2 - Lectura 1

Introducción en Big Data y Data Science (Universidad Empresarial Siglo 21)

StuDocu no está patrocinado ni avalado por ningún colegio o universidad.


Descargado por diego bracha (emabracha@gmail.com)
lOMoARcPSD|4662885

Descubriendo
valor en los
datos

Big Data

Descargado por diego bracha (emabracha@gmail.com)


lOMoARcPSD|4662885

Descubriendo valor en los


datos
¿Qué es el proceso KDD?
El término descubrimiento de conocimiento en bases de datos, o KDD (del
inglés knowledge discovery in databases) para abreviar, se refiere al amplio
proceso de búsqueda de conocimiento en los datos y hace hincapié en la
aplicación de "alto nivel" de determinados métodos de minería de datos. Es
de interés para los investigadores en aprendizaje automático,
reconocimiento de patrones, bases de datos, estadísticas, inteligencia
artificial, adquisición de conocimientos para sistemas expertos y
visualización de datos (Galán Montaño, 2007).

El objetivo unificador del proceso KDD es extraer conocimiento de datos en


el contexto de bases de datos grandes.

Para ello, se utilizan métodos de minería de datos (algoritmos) para extraer


(identificar) lo que se considera conocimiento, de acuerdo con las
especificaciones de medidas y umbrales, utilizando una base de datos junto
con cualquier preprocesamiento, submuestreo y transformaciones
requeridos de esa base de datos.

Figura 1: El proceso de descubrimiento del conocimiento en base de datos

Fuente: Timarán Pereira, Hernández Arteaga, Caicedo Zambrano, Hidalgo Troya, y Alvarado Pérez,
2016.

Descargado por diego bracha (emabracha@gmail.com)


lOMoARcPSD|4662885

El proceso general de encontrar e interpretar patrones a partir de datos


implica la aplicación repetida de los siguientes pasos:

1) Desarrollar un entendimiento de:


a. el dominio de la aplicación;
b. el conocimiento previo pertinente;
c. los objetivos del usuario final.
2) Creación de un conjunto de datos de destino: selección de un conjunto
de datos o enfoque en un subconjunto de variables o muestras de datos
en las que se debe realizar el descubrimiento.
3) Limpieza y preprocesamiento de datos:
a. eliminación de ruidos o valores extremos;
b. recopilación de la información necesaria para modelar o
explicar el ruido;
c. estrategias para manejar campos de datos que faltan;
d. contabilización de la información de secuencia temporal y
cambios conocidos.
4) Reducción y proyección de datos.
a. Encontrar características útiles para representar los datos
dependiendo del objetivo de la tarea.
b. Utilizar métodos de reducción de la dimensionalidad o de
transformación para reducir el número efectivo de variables
bajo consideración o para encontrar representaciones
invariantes para los datos.
5) Elegir la tarea de minería de datos.
a. Decidir si el objetivo del proceso KDD es la clasificación,
regresión, agrupación, etcétera.
6) Elegir el/los algoritmo/s de minería de datos.
a. Selección de métodos que se utilizarán para buscar patrones
en los datos.
b. Decidir qué modelos y parámetros pueden ser apropiados.
c. Emparejar un método particular de minería de datos con los
criterios generales del proceso KDD.
7) Extracción de datos.
a. Búsqueda de patrones de interés en una forma
representacional particular o un conjunto de
representaciones tales como reglas de clasificación o árboles,
regresión, agrupación, etcétera.
8) Interpretación de patrones minados.
9) Consolidar el conocimiento descubierto.

Los términos descubrimiento de conocimiento y extracción de datos son


distintos.

Descargado por diego bracha (emabracha@gmail.com)


lOMoARcPSD|4662885

KDD se refiere al proceso general de descubrir conocimientos útiles a partir


de datos. Implica la evaluación y posiblemente la interpretación de los
patrones para tomar la decisión de lo que califica como conocimiento.
También incluye la elección de esquemas de codificación,
preprocesamiento, muestreo y proyecciones de los datos antes del paso de
minería de datos.

La minería de datos se refiere a la aplicación de algoritmos para extraer


patrones de datos sin los pasos adicionales del proceso KDD.

Definiciones relacionadas con el proceso KDD


El descubrimiento de conocimientos en bases de datos es el proceso no
trivial de identificar patrones válidos, nuevos, potencialmente útiles y, en
última instancia, comprensibles en los datos.

Tabla 1: datos y conjunto de hechos

Datos Un conjunto de hechos


Una expresión E en un lenguaje L que describe
Patrones
hechos en un subconjunto Fe de F.
KDD es un proceso de varios pasos que incluye la
preparación de datos, la búsqueda de patrones, la
Procesos
evaluación de conocimientos y el refinamiento con
iteración después de la modificación.
Los patrones descubiertos deben ser verdaderos en
Válidos los nuevos datos con cierto grado de certeza.
Generalizar al futuro (otros datos).
Los patrones deben ser nuevos (no deben conocerse
Novedosos
previamente).
Procesable; los patrones deberían conducir
Útiles
potencialmente a algunas acciones útiles.
El proceso debe conducir a la comprensión humana.
Compresibles Los patrones deben hacerse comprensibles para
facilitar una mejor comprensión de los datos
subyacentes.

Fuente: elaboración propia.

Descargado por diego bracha (emabracha@gmail.com)


lOMoARcPSD|4662885

El interés es una medida general del valor del patrón, combinando validez,
novedad, utilidad y simplicidad (Berlanga Rivera, 2010).

Descargado por diego bracha (emabracha@gmail.com)


lOMoARcPSD|4662885

Bibliografía de referencias
Berlanga Rivera, F. J. (2010). Aprendizaje de sistemas basados en reglas
difusas compactos y precisos con programación genética. Recuperado de:
https://dialnet.unirioja.es/servlet/tesis?codigo=21417

Galán Montaño, F. J. (2013). Metodología para el análisis de ocurrencias de


terremotos de gran magnitud. Recuperado de:
http://eps.upo.es/martinez/TFM/TFM_Galan_2013.pdf

Timarán Pereira, S. R., Hernández Arteaga, I., Caicedo Zambrano, S. J.,


Hidalgo Troya, A., y Alvarado Pérez, J. C. (2016). El proceso de
descubrimiento de conocimiento en bases de datos. En Autores,
Descubrimiento de patrones de desempeño académico (pp. 63-86). Bogotá,
CO: Ediciones Universidad Cooperativa de Colombia. doi:
http://dx.doi.org/10.16925/9789587600490

Descargado por diego bracha (emabracha@gmail.com)

También podría gustarte