Proceso KDD minería datos

Diplomado en Analítica
1.6 Minería de datos.
Jorge Aurelio Herrera Cuartas
12 de septiembre de 2022
Contenido

1.6.1 Conceptos, definiciones y aplicaciones de la minería
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in Databases)
en bases de datos.
1.6.3 Procesos de minería de datos CRISP-DM.
1.6.4 Procesos de minería de datos SEMMA
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
1.6.1 Conceptos, definiciones y aplicaciones de la minería.
Minería de datos:
Es un conjunto de técnicas que se utilizan para optimizar el desarrollo de la inteligencia de

Negocios a partir de los datos que una organización recolecta, organiza y almacena,
posteriormente, realizar el análisis de datos y contribuir del modo más eficiente posible en la
toma de decisiones.
La minería de datos busca descubrir el conocimiento de los datos recopilados y

almacenados, de manera oportuna y en una forma escalable.
“El proceso no trivial de identificación de patrones de datos almacenados en bases de datos

estructuradas y que tiene las propiedades de no triviales, validos, nuevos, posteriormente
útiles y en ultima instancia comprensibles, donde los datos se organizan en registros
estructurados por variables categóricas, ordinales y continuas”
Fayyad et al.
Minería de datos:
Es el proceso que utiliza técnicas matemáticas, estadísticas y de inteligencia artificial para

extraer datos, identificar información útil y conocimientos posteriores en forma de patrones.
Estos patrones pueden estar representados en diferentes formas:

• Reglas de negocio.
• Afinidades.
• Correlaciones.
• Asociación.
• Modelos de predicción.
Minería de datos:
El término minería de datos se utiliza para describir el descubrimiento o minado del

conocimiento a partir de grandes cantidades de datos.
Cabe anotar que la minería de datos nació como analogía de la minería tradicional. Como se
trata de minar, buscar conocimiento en ingentes cantidades de datos.
También se le conoce, como:
• Minería de conocimiento.
• Descubrimiento del
conocimiento.
• Extracción del conocimiento.
• Análisis de datos.
• Análisis de patrones de datos.
• Arqueología de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Conocimiento
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
Selección de datos: Se determinan las fuentes
de datos y el tipo de información que se
utilizará. Es la etapa donde los datos relevantes
Conocimiento
para el análisis son extraídos desde las fuentes
de datos.
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
Preprocesamiento: consiste en la preparación
y limpieza de los datos extraídos desde las
distintas fuentes. Se utilizan diversas
Conocimiento
estrategias para manejar datos faltantes o
ausentes, en blanco, datos inconsistentes o que
Interpretación
están fuera de rango.
Minería de datos
Transformación
Preprocesamiento
Selección
Transformación: Consiste en el tratamiento
preliminar de los datos, transformación y
generación de nuevas variables a partir de las
Conocimiento
ya existentes. Se realizan operaciones de
agregación o normalización, consolidando los
Interpretación
datos de una forma necesaria para la fase
siguiente.
Minería de datos
Transformación
Preprocesamiento
Selección
Minería de datos: es la fase de modelado,
donde se aplican métodos inteligentes con el
objetivo de extraer patrones previamente
Conocimiento
desconocidos, válidos, nuevos, potencialmente
útiles y comprensibles.
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
Interpretación: Se identifican los patrones
obtenidos, que son realmente interesantes,
basándose en algunas medidas, y se realiza
Conocimiento
una evaluación de los resultados obtenidos.
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
Conocimiento: Información potencialmente útil
dentro de los datos contenidos en algún
repositorio de información.
Conocimiento
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
KDD: se refiere al proceso no trivial de
descrubrir conocimiento e información
potencialmente útil dentro de los datos
Conocimiento
contenidos en algún repositorio de información.
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
KDD: se refiere al proceso no trivial de
descrubrir conocimiento e información
potencialmente útil dentro de los datos
Conocimiento
contenidos en algún repositorio de información.
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
Minería de datos
Minería de datos
Selección y
Análisis de las Interpretación y
Selección del Transformación o aplicación de Extracción de
propiedades de evaluación de
conjunto de datos preprocesamiento técnicas de conocimiento
los datos datos
minería de datos
Minería de datos Aquí se decide cuáles van a ser las variables objetivos, las variables
independientes y la selección de registros que se utilizará.
Selección y
los datos datos
minería de datos
Minería de datos Utilizando histogramas y/o diagramas de dispersión se buscan valores

atípicos y ausencia de datos.
Selección y
los datos datos
minería de datos
Minería de datos En este paso, se normalizan los datos a una misma escala. También se
decide como se van a tratar datos faltantes, atípicos o dudosos. Una
posibilidad es tratarlos como un tipo de dato especial, o bien se decide
descartarlos.
Selección y
los datos datos
minería de datos
Minería de datos Se construye un modelo que será utilizado sobre los datos para predecir
las clases mediante clasificación o para descubrir grupos semejantes
mediante segmentación.
Selección y
los datos datos
minería de datos
Minería de datos Se buscan patrones de comportamiento en los valores de las variables

del problema o relaciones de asociación entre dichas variables.
Selección y
los datos datos
minería de datos
Minería de datos El modelo debe ser validado, comprobando que las conclusiones
arrojadas son validas y satisfactorias. En caso que el modelo final no
supere esta evaluación, el proceso podría repetirse, incluso desde el
principio o a partir de cualquiera de los pasos anteriores.
Selección y
los datos datos
minería de datos
Minería de datos
Selección y
los datos datos
minería de datos
Metodología CRISP-DM:
Cross Industry Standard Process for Data Mining, se propuso alrededor del 96 por un
consorcio de empresas europeas. Convirtiéndose una metodología de minería de datos
abierta y no propietaria.
Se construyó en base de experiencias reales, de empresas de importantes de la industria y

de empresas de tecnologías de la información.
Comprensión Comprensión Preparación

Modelamiento Evaluación Despliegue
del negocio de datos de datos

• Determinar los
objetivos del En esta fase se trata de entender los
negocio. objetivos del negocio y requerimientos
• Evaluar la del proyecto desde una perspectiva de
situación. negocio y no técnica.
• Determinar el
objetivo de
minería de
datos.
• Desarrollar el
plan del
proyecto.

• Obtener los
datos iniciales. Recopilar y familiarizarse con los datos,
• Describir los identificar los problemas de calidad de
datos. datos y analizar las primeras
• Explorar potencialidades o subconjuntos de
datos. datos de interés.
• Verificar la
calidad de los
datos.

• Seleccionar
los datos. El objetivo de esta fase es obtener las
• Limpiar datos. vista “minable”. Se realiza la selección
• Construir de datos.
datos.
• Integrar datos.
• Dar formato a
los datos.

• Seleccionar
Se seleccionan diversas técnicas de técnica de
modelado adecuadas a un conjunto de modelamiento.
datos ya preparado (la vista minable), a • Generar el
fin de centrarse en las necesidades diseño de
especificas del negocio. prueba.
• Construir el
modelo.
• Evaluar el
modelo.

• Evaluar
Evaluar el modelo de la fase anterior, resultados.
es decir, si el modelo sirve para • Revisar el
responder a algunos de los proceso.
requerimientos del negocio. • Determinar los
siguientes
pasos.

Desplegar el
En esta fase se explota la potencialidad plan.
de los modelos, integrarlos en los Monitorear y
procesos de toma de decisiones de la mantener.
organización, difundir informes sobre el Desarrollar el
conocimiento extraído. reporte final.
Revisión del
proyecto

• Determinar los • Obtener los • Seleccionar • Seleccionar • Evaluar Desplegar el

objetivos del datos iniciales. los datos. técnica de resultados. plan.
negocio. • Describir los • Limpiar datos. modelamiento. • Revisar el Monitorear y
• Evaluar la datos. • Construir • Generar el proceso. mantener.
situación. • Explorar datos. diseño de • Determinar los Desarrollar el
• Determinar el datos. • Integrar datos. prueba. siguientes reporte final.
objetivo de • Verificar la • Dar formato a • Construir el pasos. Revisión del
minería de calidad de los los datos. modelo. proyecto
datos. datos. • Evaluar el
• Desarrollar el modelo.
plan del
proyecto.
El desarrollo y evaluación de los modelos no es el final del proyecto, en algunos casos la fase de despliegue puede ser tan
simple como generar un informe, o tan compleja como la implementación de nuevos procesos al interior de la minería.
Metodología SEMMA:
Abreviatura de:
• Sample (muestreo).
• Explore (exploración).
• Modify (modificación).
• Model (modelo).
• Asses (valoración).
Se puede definir como el proceso de selección, exploración y modelado de grandes

volúmenes de datos para descubrir patrones de negocio desconocidos.
Muestreo Exploración Modificación Modelado Evaluación
Muestreo: Genera una muestra representativa de datos. Se identifican los datos.
Exploración: Visualización y descripción básica de los datos. Se exploran los conjuntos de datos para observar relaciones
y patrones, y se generan análisis diversos, identificación de variables importantes y análisis de asociación.
Modificación: Selección de variables y transformación de la representación de variables. Se preparan los datos para el
análisis.
Modelado: Utiliza técnicas diversas de estadística y modelos de aprendizaje automático.
Evaluación: Evalúa la precisión y utilidad de los modelos.

CRISP-DM VS SEMMA
Las metodologías SEMMA y CRISP-DM comparten la misma esencia, estructurando el proyecto de

Minería de Datos en fases interrelacionadas, convirtiendo el proceso de Minería de Datos en un enfoque
iterativo e interactivo. Sin embargo, la metodología SEMMA se enfoca más en las características técnicas
del desarrollo del proceso, mientras que la metodología CRISP-DM mantiene una perspectiva más amplia
respecto a los objetivos de negocio del proyecto.
Esta diferencia se establece desde la primera fase del proyecto de Minería de Datos, donde la
metodología SEMMA comienza realizando un muestreo de datos. En cambio, el método CRISP-DM parte
del análisis del problema de negocio para su transformación en un problema técnico. Desde este punto de
vista más global, se puede considerar que la metodología CRISP-DM se acerca más al concepto real del
proyecto y puede integrarse con una Metodología de Gestión de Proyectos específica que completaría las
tareas administrativas y técnicas.
Otra diferencia significativa entre la metodología SEMMA y la CRISP-DM es su relación con las
herramientas comerciales. La metodología SEMMA solo es abierta en sus aspectos generales ya que está
muy ligada a los productos SAS donde se implementa. Por su parte, la metodología CRISP-DM se ha
diseñado como una metodología neutra respecto a la herramienta utilizada para el desarrollo del proyecto
de Minería de Datos, siendo su distribución gratuita.
Clasificación
Clasificación
suave
Preferencias o
Predictivos
priorización
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Clasificación • Modelos y tareas:
Clasificación Los modelos son las relaciones, reglas, patrones y

suave
resúmenes extraídos tras el análisis de los datos.
Preferencias o
Predictivos
priorización De esta manera se obtiene la información útil.
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales

suave
Preferencias o
Predictivos
Categorización
• Modelos Predictivos:
Regresión Su objetivo es encontrar posibles valores del futuro

mediante aproximaciones de los datos que se
Modelos y conocen
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales

suave
Preferencias o
Predictivos
Categorización
• Modelos Predictivos:
Regresión Su objetivo es encontrar posibles valores del futuro

mediante aproximaciones de los datos que se
Modelos y conocen.
tareas
• Modelos descriptivos:
Agrupamiento
Es encontrar patrones que resuman el contenido de
Correlaciones y los datos. No tiene como objetivo predecir nuevos
factorizaciones datos.
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Clasificación • Clasificación:
Clasificación Cada entrada de la base de datos (instancia)

suave
pertenece a una clase, que se indica mediante un el
Preferencias o valor de un atributo llamado la clase de la instancia.
Predictivos
priorización
Este atributo toma diversos valores discretos,
Categorización
correspondiendo cada uno a una clase.
Regresión En ultimas, el objetivo de la clasificación es predecir

la clase desconocida de nuevas instancias.
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Clasificación • Clasificación suave:
Clasificación Similar a la anterior, con la diferencia que se cuenta

suave
con una función que evalúa el porcentaje de
Preferencias o certeza de la función de clasificación.
Predictivos
priorización
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Clasificación • Preferencias o priorización:
Clasificación Teniendo dos o mas ejemplos de nuestro conjunto

suave
de datos, se elabora un orden de preferencia según
Preferencias o las características que estemos buscando.
Predictivos
priorización
A pesar que la tarea es útil para ordenar un
Categorización
conjunto grade de datos, generalmente se utiliza
para calcular la prioridad entre dos elementos.
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Clasificación • Categorización:
Clasificación Esta tarea no pretende el aprendizaje de una

suave
función, sino el de una correspondencia.
Preferencias o
Predictivos
priorización
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Clasificación • Regresión:
Clasificación También llamada interpolación. Es una tarea de

suave
predicción, similar a la clasificación con la diferencia
Preferencias o que la regresión el valor a calcular es numérico.
Predictivos
priorización
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Clasificación • Agrupamiento:
Clasificación Conocido como “clustering”, y consiste en formar

suave
grupos naturales a partir de un conjunto de datos.
Preferencias o
Predictivos
priorización En contraste con la clasificación, en vez de analizar
datos etiquetados con una clase, los analiza para
Categorización
generar una etiqueta.
Regresión Los datos se agrupan de modo que los que

pertenezcan a grupos distintos se diferencien lo
Modelos y máximo posible.
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Clasificación • Correlaciones y factorizaciones:
Clasificación Analiza el porcentaje de similitud entre los valores

suave
de dos variables numéricas.
Preferencias o
Predictivos
priorización En caso que el coeficiente sea 1 significa que las
variables están fuertemente correlacionadas, en
Categorización
caso contrario, sí el coeficiente es 0, significa que
las variables no guardan ninguna correlación.
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Clasificación • Reglas de asociación:
Clasificación Son similares a la anterior, su función principal es

suave
obtener una relación no explicita entre atributos
Predictivos
Preferencias o categóricos (variables nominales no numéricas).
priorización
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Clasificación • Dependencias funcionales:
Clasificación Similar a la Reglas de asociación, pero en este

suave
caso se busca una función que dados los valores
Preferencias o de los atributos 𝐴𝑖 , 𝐴𝑗 , … , 𝐴𝑘 , se pueda determinar el
Predictivos
priorización
atributo 𝐴𝑟 .
Categorización
La explicación es que 𝐴𝑟 depende o es función de
los valores del resto de atributos 𝐴𝑖 , 𝐴𝑗 , … , 𝐴𝑘 .
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Bibliografía
• [1] Aguilar, L. J. (2019). Inteligencia de negocios y analítica de datos: una visión global de business
intelligence & analytics. Alpha Editorial.
• [2] Bobadilla, J. (2021). Machine Learning y Deep Learning: Usando Python, Scikit y Keras. Ediciones
de la U.
• [3] Caballero, R., Martín, E. M., & Riesco Rodríguez, A. (2019). Big Data Con Python. Alpha Editorial, 1.
• [4] García, J., Molina, J., Berlanga, A., Patricio, M., Bustamante, A., & Padilla, W. (2018). Ciencia de
datos. Técnicas Analíticas y Aprendizaje Estadístico. Bogotá, Colombia. Publicaciones Altaria, SL.
• [5] Mirjalili, V., & Raschka, S. (2020). Python machine learning. Marcombo.
• [6] Pérez, A. (2016). Python fácil. Alpha Editorial.

Proceso KDD minería datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Proceso KDD minería datos

Cargado por

Copyright:

Formatos disponibles

Diplomado en Analítica

1.6 Minería de datos.

Jorge Aurelio Herrera Cuartas

1.6 Minería de datos.

Es un conjunto de técnicas que se utilizan para optimizar el desarrollo de la inteligencia de

La minería de datos busca descubrir el conocimiento de los datos recopilados y

“El proceso no trivial de identificación de patrones de datos almacenados en bases de datos

Es el proceso que utiliza técnicas matemáticas, estadísticas y de inteligencia artificial para

Estos patrones pueden estar representados en diferentes formas:

El término minería de datos se utiliza para describir el descubrimiento o minado del

Minería de datos Utilizando histogramas y/o diagramas de dispersión se buscan valores

Minería de datos Se buscan patrones de comportamiento en los valores de las variables

Se construyó en base de experiencias reales, de empresas de importantes de la industria y

Comprensión Comprensión Preparación

Comprensión Comprensión Preparación

Comprensión Comprensión Preparación

Comprensión Comprensión Preparación

Comprensión Comprensión Preparación

Comprensión Comprensión Preparación

Comprensión Comprensión Preparación

Comprensión Comprensión Preparación

• Determinar los • Obtener los • Seleccionar • Seleccionar • Evaluar Desplegar el

Se puede definir como el proceso de selección, exploración y modelado de grandes

Muestreo Exploración Modificación Modelado Evaluación

Muestreo: Genera una muestra representativa de datos. Se identifican los datos.

Modelado: Utiliza técnicas diversas de estadística y modelos de aprendizaje automático.

Evaluación: Evalúa la precisión y utilidad de los modelos.

Las metodologías SEMMA y CRISP-DM comparten la misma esencia, estructurando el proyecto de

Clasificación Los modelos son las relaciones, reglas, patrones y

Clasificación Los modelos son las relaciones, reglas, patrones y

Regresión Su objetivo es encontrar posibles valores del futuro

Clasificación Los modelos son las relaciones, reglas, patrones y

Regresión Su objetivo es encontrar posibles valores del futuro

Clasificación Cada entrada de la base de datos (instancia)

Regresión En ultimas, el objetivo de la clasificación es predecir

Clasificación Similar a la anterior, con la diferencia que se cuenta

Clasificación Teniendo dos o mas ejemplos de nuestro conjunto

Clasificación Esta tarea no pretende el aprendizaje de una

Clasificación También llamada interpolación. Es una tarea de

Clasificación Conocido como “clustering”, y consiste en formar

Regresión Los datos se agrupan de modo que los que

Clasificación Analiza el porcentaje de similitud entre los valores

Clasificación Son similares a la anterior, su función principal es

Clasificación Similar a la Reglas de asociación, pero en este

También podría gustarte