Documentos de Académico
Documentos de Profesional
Documentos de Cultura
12 de septiembre de 2022
Contenido
Minería de datos:
Minería de datos:
Minería de datos:
Cabe anotar que la minería de datos nació como analogía de la minería tradicional. Como se
trata de minar, buscar conocimiento en ingentes cantidades de datos.
También se le conoce, como:
• Minería de conocimiento.
• Descubrimiento del
conocimiento.
• Extracción del conocimiento.
• Análisis de datos.
• Análisis de patrones de datos.
• Arqueología de datos.
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Conocimiento
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Selección de datos: Se determinan las fuentes
de datos y el tipo de información que se
utilizará. Es la etapa donde los datos relevantes
Conocimiento
para el análisis son extraídos desde las fuentes
de datos.
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Preprocesamiento: consiste en la preparación
y limpieza de los datos extraídos desde las
distintas fuentes. Se utilizan diversas
Conocimiento
estrategias para manejar datos faltantes o
ausentes, en blanco, datos inconsistentes o que
Interpretación
están fuera de rango.
Minería de datos
Transformación
Preprocesamiento
Selección
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Transformación: Consiste en el tratamiento
preliminar de los datos, transformación y
generación de nuevas variables a partir de las
Conocimiento
ya existentes. Se realizan operaciones de
agregación o normalización, consolidando los
Interpretación
datos de una forma necesaria para la fase
siguiente.
Minería de datos
Transformación
Preprocesamiento
Selección
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Minería de datos: es la fase de modelado,
donde se aplican métodos inteligentes con el
objetivo de extraer patrones previamente
Conocimiento
desconocidos, válidos, nuevos, potencialmente
útiles y comprensibles.
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Interpretación: Se identifican los patrones
obtenidos, que son realmente interesantes,
basándose en algunas medidas, y se realiza
Conocimiento
una evaluación de los resultados obtenidos.
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Conocimiento: Información potencialmente útil
dentro de los datos contenidos en algún
repositorio de información.
Conocimiento
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
KDD: se refiere al proceso no trivial de
descrubrir conocimiento e información
potencialmente útil dentro de los datos
Conocimiento
contenidos en algún repositorio de información.
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
KDD: se refiere al proceso no trivial de
descrubrir conocimiento e información
potencialmente útil dentro de los datos
Conocimiento
contenidos en algún repositorio de información.
Interpretación
Minería de datos
Transformación
Preprocesamiento
Selección
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Minería de datos
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Minería de datos
Selección y
Análisis de las Interpretación y
Selección del Transformación o aplicación de Extracción de
propiedades de evaluación de
conjunto de datos preprocesamiento técnicas de conocimiento
los datos datos
minería de datos
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Minería de datos Aquí se decide cuáles van a ser las variables objetivos, las variables
independientes y la selección de registros que se utilizará.
Selección y
Análisis de las Interpretación y
Selección del Transformación o aplicación de Extracción de
propiedades de evaluación de
conjunto de datos preprocesamiento técnicas de conocimiento
los datos datos
minería de datos
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Selección y
Análisis de las Interpretación y
Selección del Transformación o aplicación de Extracción de
propiedades de evaluación de
conjunto de datos preprocesamiento técnicas de conocimiento
los datos datos
minería de datos
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Minería de datos En este paso, se normalizan los datos a una misma escala. También se
decide como se van a tratar datos faltantes, atípicos o dudosos. Una
posibilidad es tratarlos como un tipo de dato especial, o bien se decide
descartarlos.
Selección y
Análisis de las Interpretación y
Selección del Transformación o aplicación de Extracción de
propiedades de evaluación de
conjunto de datos preprocesamiento técnicas de conocimiento
los datos datos
minería de datos
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Minería de datos Se construye un modelo que será utilizado sobre los datos para predecir
las clases mediante clasificación o para descubrir grupos semejantes
mediante segmentación.
Selección y
Análisis de las Interpretación y
Selección del Transformación o aplicación de Extracción de
propiedades de evaluación de
conjunto de datos preprocesamiento técnicas de conocimiento
los datos datos
minería de datos
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Selección y
Análisis de las Interpretación y
Selección del Transformación o aplicación de Extracción de
propiedades de evaluación de
conjunto de datos preprocesamiento técnicas de conocimiento
los datos datos
minería de datos
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Minería de datos El modelo debe ser validado, comprobando que las conclusiones
arrojadas son validas y satisfactorias. En caso que el modelo final no
supere esta evaluación, el proceso podría repetirse, incluso desde el
principio o a partir de cualquiera de los pasos anteriores.
Selección y
Análisis de las Interpretación y
Selección del Transformación o aplicación de Extracción de
propiedades de evaluación de
conjunto de datos preprocesamiento técnicas de conocimiento
los datos datos
minería de datos
1.6 Minería de datos.
1.6.2 El proceso de descubrimiento de conocimiento (Knowledge Discovery in
Databases) en bases de datos.
Minería de datos
Selección y
Análisis de las Interpretación y
Selección del Transformación o aplicación de Extracción de
propiedades de evaluación de
conjunto de datos preprocesamiento técnicas de conocimiento
los datos datos
minería de datos
1.6 Minería de datos.
1.6.3 Procesos de minería de datos CRISP-DM.
Metodología CRISP-DM:
Cross Industry Standard Process for Data Mining, se propuso alrededor del 96 por un
consorcio de empresas europeas. Convirtiéndose una metodología de minería de datos
abierta y no propietaria.
• Determinar los
objetivos del En esta fase se trata de entender los
negocio. objetivos del negocio y requerimientos
• Evaluar la del proyecto desde una perspectiva de
situación. negocio y no técnica.
• Determinar el
objetivo de
minería de
datos.
• Desarrollar el
plan del
proyecto.
1.6 Minería de datos.
1.6.3 Procesos de minería de datos CRISP-DM.
• Obtener los
datos iniciales. Recopilar y familiarizarse con los datos,
• Describir los identificar los problemas de calidad de
datos. datos y analizar las primeras
• Explorar potencialidades o subconjuntos de
datos. datos de interés.
• Verificar la
calidad de los
datos.
1.6 Minería de datos.
1.6.3 Procesos de minería de datos CRISP-DM.
• Seleccionar
los datos. El objetivo de esta fase es obtener las
• Limpiar datos. vista “minable”. Se realiza la selección
• Construir de datos.
datos.
• Integrar datos.
• Dar formato a
los datos.
1.6 Minería de datos.
1.6.3 Procesos de minería de datos CRISP-DM.
• Seleccionar
Se seleccionan diversas técnicas de técnica de
modelado adecuadas a un conjunto de modelamiento.
datos ya preparado (la vista minable), a • Generar el
fin de centrarse en las necesidades diseño de
especificas del negocio. prueba.
• Construir el
modelo.
• Evaluar el
modelo.
1.6 Minería de datos.
1.6.3 Procesos de minería de datos CRISP-DM.
• Evaluar
Evaluar el modelo de la fase anterior, resultados.
es decir, si el modelo sirve para • Revisar el
responder a algunos de los proceso.
requerimientos del negocio. • Determinar los
siguientes
pasos.
1.6 Minería de datos.
1.6.3 Procesos de minería de datos CRISP-DM.
Desplegar el
En esta fase se explota la potencialidad plan.
de los modelos, integrarlos en los Monitorear y
procesos de toma de decisiones de la mantener.
organización, difundir informes sobre el Desarrollar el
conocimiento extraído. reporte final.
Revisión del
proyecto
1.6 Minería de datos.
1.6.3 Procesos de minería de datos CRISP-DM.
El desarrollo y evaluación de los modelos no es el final del proyecto, en algunos casos la fase de despliegue puede ser tan
simple como generar un informe, o tan compleja como la implementación de nuevos procesos al interior de la minería.
1.6 Minería de datos.
1.6.4 Procesos de minería de datos SEMMA
Metodología SEMMA:
Abreviatura de:
• Sample (muestreo).
• Explore (exploración).
• Modify (modificación).
• Model (modelo).
• Asses (valoración).
Exploración: Visualización y descripción básica de los datos. Se exploran los conjuntos de datos para observar relaciones
y patrones, y se generan análisis diversos, identificación de variables importantes y análisis de asociación.
Modificación: Selección de variables y transformación de la representación de variables. Se preparan los datos para el
análisis.
Esta diferencia se establece desde la primera fase del proyecto de Minería de Datos, donde la
metodología SEMMA comienza realizando un muestreo de datos. En cambio, el método CRISP-DM parte
del análisis del problema de negocio para su transformación en un problema técnico. Desde este punto de
vista más global, se puede considerar que la metodología CRISP-DM se acerca más al concepto real del
proyecto y puede integrarse con una Metodología de Gestión de Proyectos específica que completaría las
tareas administrativas y técnicas.
Otra diferencia significativa entre la metodología SEMMA y la CRISP-DM es su relación con las
herramientas comerciales. La metodología SEMMA solo es abierta en sus aspectos generales ya que está
muy ligada a los productos SAS donde se implementa. Por su parte, la metodología CRISP-DM se ha
diseñado como una metodología neutra respecto a la herramienta utilizada para el desarrollo del proyecto
de Minería de Datos, siendo su distribución gratuita.
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación
Clasificación
suave
Preferencias o
Predictivos
priorización
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Modelos y tareas:
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Modelos y tareas:
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Modelos y tareas:
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Clasificación suave:
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Preferencias o priorización:
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Categorización:
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Regresión:
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Agrupamiento:
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Correlaciones y factorizaciones:
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Reglas de asociación:
Categorización
Regresión
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
1.6 Minería de datos.
1.6.5 Modelos, algoritmos y técnicas de minería de datos.
Clasificación • Dependencias funcionales:
Modelos y
tareas
Agrupamiento
Correlaciones y
factorizaciones
Descriptivos
Reglas de
asociación
Dependencias
funcionales
Bibliografía
• [1] Aguilar, L. J. (2019). Inteligencia de negocios y analítica de datos: una visión global de business
intelligence & analytics. Alpha Editorial.
• [2] Bobadilla, J. (2021). Machine Learning y Deep Learning: Usando Python, Scikit y Keras. Ediciones
de la U.
• [3] Caballero, R., Martín, E. M., & Riesco Rodríguez, A. (2019). Big Data Con Python. Alpha Editorial, 1.
• [4] García, J., Molina, J., Berlanga, A., Patricio, M., Bustamante, A., & Padilla, W. (2018). Ciencia de
datos. Técnicas Analíticas y Aprendizaje Estadístico. Bogotá, Colombia. Publicaciones Altaria, SL.
• [5] Mirjalili, V., & Raschka, S. (2020). Python machine learning. Marcombo.
• [6] Pérez, A. (2016). Python fácil. Alpha Editorial.