Está en la página 1de 29

Minería de datos “La

información es
oro”
¿Qué es la minería?
Es la actividad de explotar las
minas para extraer los
minerales.
Introducción
En analogía a la actividad
minera de metales, la
minería de datos es la
explotación de los datos
para extraer conocimiento
que será utilizado en la
toma de decisiones de la
institución o empresa.
Los elementos clave de la
minería de datos

Las grandes cantidades de


datos son transformadas a
información para producir
conocimiento que se utilice en
la toma de decisiones.
El proceso de análisis KDD:

El KDD (“Knowledge Discovery in


Databases”) es una metodología que
emplea los métodos de la ciencia
estadística, de la ciencia de la
computación y de la inteligencia
artificial para descubrir patrones en
grandes volúmenes de datos.
TIPOS DE INVESTIGACIÓN SEGÚN EL OBJETIVO DE LA
INVESTIGACIÓN

 INVESTIGACIÓN EXPLORATORIA
 INVESTIGACIÓN DESCRIPTIVA

 INVESTIGACIÓN CORRELACIONAL
 INVESTIGACIÓN EXPLICATIVA
 Investigación experimental
 Investigación predictiva
 Investigación de pronóstico
El papel de las estadísticas y de
las probabilidades

PASADO PRESENTE FUTURO

ESTADÍSTICA PROBABILIDAD

Las cifras de la estadística describen Las cifras de la estadística son


o explican como ocurrieron las usadas como probabilidades para
diferentes actividades de un hecho describir o explicar como ocurrirán
en el pasado. las mismas actividades del hecho en
el futuro.
El proceso de análisis KDD consta de las siguientes etapas o
fases:

1) Preparación de datos (Selección y limpieza)


2) Exploración y auditoría
3) Transformación de datos
4) Minería de datos propiamente dicha (Modelamiento y
análisis de datos) y validación del modelamiento.
5) Extracción de conocimiento
6) Interpretación de resultados y toma de decisión
FASES DE LA MINERÍA DE DATOS

Universo

El almacén de datos para la minería de datos se convierte en un universo


de poblaciones bajo investigación. Muchos conocimientos para la toma
de decisiones de problemas pueden ser extraídas de este almácen.
FASES DE LA MINERÍA DE DATOS

Población
FASES DE LA MINERÍA DE DATOS

Población
Preparación de datos (Selección y limpieza)

Comprende la aplicación del muestreo para seleccionar las


unidades en investigación que deben conformar la muestra de
interés, tomando en cuenta las variables que deben ser
investigadas y evaluando la variabilidad de los datos,
considerando la eliminación de valores atípicos, nulos u otros
que vicien los resultados del conocimiento y por ende la toma
de decisión.
Exploración y auditoría

 Construcción de estadísticas y gráficos estadísticos


para la descripción.
 Exploración de patrones.
 Control del cumplimiento de estándares.

etc.
Transformación de datos o etapa del
preprocesamiento

Esta etapa comprende las actividades previas de adecuar


los datos al problema y al método de análisis de la minería
de datos.
Minería de datos propiamente dicha
Realiza el modelamiento y análisis de los datos para cumplir el
objetivo de la investigación. Los modelos usados para extraer
patrones de conocimientos son:
 Modelo de asociación (Reglas de asociación)
 Modelo de agrupamiento (Clustering)
 Modelo de clasificación (Árboles de decisión)
 Modelo de predicción (Árboles de predicción)
 Modelos de diseños experimentales (MANOVA)
etc.
Extracción de conocimiento
El modelo de minería de datos al ser aplicado a los datos en las
variables investigadas, proporciona un modelo de conocimiento
del patrón de comportamiento de los datos y de la asociación que
pueda existir entre las variables. En algunos casos se aplica dos a
más métodos de minería de datos.
Interpretación de resultados y toma de decisión

Si el modelo de conocimiento obtenido es el deseado se procede a


la validación. Si son varios los modelos empleados se toma la
decisión de elegir no el mejor, sino al que más conviene a la
solución del problema. En algunos casos se cumple con ambos
requisitos.
CLASIFICACIÓN DE LOS MÉTODOS DE LA
MINERÍA DE DATOS
Modelos de Reglas de asociación
asociación
Métodos no
supervisados
Modelos de Clustering
No tienen variable agrupamiento
dependiente
Métodos de
la minería de
datos Modelos de
Árboles de decisión

clasificación Variable
dependiente
Métodos categórica
supervisados
Modelos de Árboles de predicción
Si tienen variable
dependiente predicción Variable
dependiente
numérica
REGLAS DE ASOCIACIÓN
En la minería de datos, las reglas de los modelos de asociación se
utilizan para descubrir hechos que ocurren en común dentro de un
determinado conjunto de datos.
CLUSTERING (Agrupamiento)

Métodos que determinan y asignan a las unidades en


investigación a grupos de similares características.
CLASIFICACIÓN (Árboles de decisión)

Consiste en clasificar a las unidades en investigación en clases


como consecuencia de la ocurrencia de ciertas características.

EJEMPLO:
Agrupar a personas en diabéticos y no diabéticos como
consecuencia de la ocurrencia de sus signos y síntomas.
PREDICCIÓN (La regresión y las series de tiempo)

El objetivo de la predicción es, obtener un modelo de


conocimiento para predecir valores de la variable dependiente
cuando son dados valores a las variables independientes.

EJEMPLO:
Predecir la probabilidad de que una transacción sea
fraudulenta.
CASO:
REGLAS DE ASOCIACIÓN:
El 30% de las personas que compran queso en el camión de la UNA compran 2 yogurts.

ÁRBOLES DE DECISIÓN:
Como el costo de los pasajes en avión no está caro y se emplea menos tiempo en llegar al destino, las
personas prefieren viajar más en avión que por vía terrestre.

AGRUPAMIENTO
Juana, Rosa y Marga tienen gustos parecidos cuando se compran ropa.

PREDICCIÓN:
Si el cielo está nublado, no hay viento la probabilidad de que llueva es de 0.95.

UN OUTLIER ES:
Luis usa el internet tres horas más que el uso promedio de horas de todos los compañeros de su aula.
SOFTWARES DE MINERÍA DE DATOS:

IBM SPSS MODELER Data mining Excel 2016


IBM SPSS Modeler
Auditar Datos de Trucha
Análisis Factorial de
Componentes Principales
Chi Cuadra
OBESIDAD POR CANTALIM
Regresión Lineal Simple
Mercado Unión y Dignidad
Histograma
PRODUCCIÓN DE QUESO

También podría gustarte