Minería de datos
Alan Ramírez Noriega
Nuevas necesidades
Aumento del volumen y variedad de información en bases de datos digitales
crece espectacularmente.
Información histórica de las empresas
Método tradicional de convertir datos en conocimiento consiste en un análisis
e interpretación realizada de forma manual.
El procedimiento es lento, caro y subjetivo.
El análisis manual es impracticable en dominios con grandes cantidades de
información
El análisis de los datos de una base de información se realiza mediante
consultas efectuadas con lenguajes de consulta como SQL.
Genera información resumida de una forma preestablecida,
Poco flexible
Poco escalable a grandes cantidades de datos.
Nuevas necesidades
La tecnología a respondido al reto anterior con el almacén de datos (data
warehouse).
Es un repositorio de fuentes heterogéneas de datos, integrado y organizados
bajo un esquema unificado para su análisis y soporte a la toma de decisiones.
Sin embargo, estos métodos no generan reglas, patrones, pautas, es decir,
conocimientos que puedan ser aplicados a otros datos
Ejemplo:
Es útil saber que el 10% de los ancianos padecen Alzheimer
Es mas útil tener un conjunto de reglas que a partir de los antecedentes, los
hábitos y otras características del individuo nos digan si un paciente tendrá o no
Alzheimer.
Minería de datos
Es el proceso de extraer conocimiento útil y comprensible, previamente
desconocido, desde grandes cantidades de datos almacenados en
distintos formatos.
Retos de la minería de datos:
Trabajar con grandes volúmenes de datos
Usar técnicas adecuadas para extraer conocimiento novedoso y útil
Ejemplos 1: Análisis de créditos
bancarios
Un banco por internet desea obtener reglas para predecir que personas
de las que solicitan crédito no lo devuelven.
Datos:
Ejemplos 1: Análisis de créditos
bancarios
A partir de técnicas de minería de datos se podrían obtener las siguientes
reglas:
Ejemplo 2: Análisis de la cesta de
compra
Un supermercado quiere obtener información sobre el comportamiento de
compra de sus clientes. Piensa que de esta forma puede mejorar el
servicio que les ofrece: reubicación de los productos que se suelen
comprar juntos, localizar un lugar idóneo para nuevos productos, etc.
Datos:
Ejemplo 2: Análisis de la cesta de
compra
Análisis:
El 100% de las veces que se compran pañales también se compra leche.
El 50% de las veces que se compran huevos también se compra aceite
El 33% de las veces que se compra vino y salmón también se compran lechugas.
Ejemplo 3: Determinar las ventas de un
producto
Una gran cadena de tiendas de electrodomésticos desea optimizar el
funcionamiento de su almacén manteniendo un stock de cada producto
suficiente para poder servir rápidamente el material adquirido por sus
clientes.
Datos:
Ejemplo 3: Determinar las ventas de un
producto
Esta información permite a la empresa generar un modelo para predecir
cuales van a ser las venta de cada producto en el siguiente mes en
función de las ventas realizadas en los meses anterior y efectuar asi los
pedidos necesario a sus proveedores para disponer del stock necesario
para hacer frente a esas ventas.
Ejemplo 4: Determinar grupos
diferenciados de empleados
El departamento de recursos humanos de una gran empresa desea
categorizar a sus empleados en distintos grupos con el objetivo de
entender mejor su comportamiento y tratarlos de manera adecuada.
Datos:
Ejemplo 4: Determinar grupos
diferenciados de empleados
Un sistema de minería podría obtener tres grupos con la siguiente
descripción
Grupo 1: Sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas
Grupo 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente son
mujeres y viven en casas de alquiler.
Grupo 3: Con hijos, casados y con coche. Mayoritariamente hombres
propietarios de su vivienda. Poco sindicados.
¿A que tipo de datos puede aplicarse
la minería de datos?
Base de datos relacionales
Otros tipos de base de datos
Base de dato espacial (lugares físicos)
Base de datos temporales
Base de datos documentales
Base de datos multimedia
World Wide Web
Minería del contenido
Minería de la estructura
Minería del uso
Tipos de modelos
Predictivos: Pretenden estimar valores futuros o desconocidos de variables
de interés (variable dependiente), usando otra variables o campos de la
BD(variable independiente).
Clasificación y regresión
Ejemplo: Estimar la demanda de un nuevo producto en función del gasto de
publicidad.
Descriptivos: Identifican patrones que explican o resumen los datos, es
decir, sirven para explorar las propiedades de los datos, no para predecir
nuevos datos.
Agrupamiento, reglas de asociación y análisis correlacional.
Ejemplo: Una agencia de viaje desea identificar grupos de personas con unos
mismos gustos, para organizar diferentes ofertas para cada grupo y poder
remitirles esta información; para ello analizan los viajes que han realizado sus
clientes e infiere un modelo descriptivo que caracteriza estos grupos.
Relación de la minería de datos con
otras disciplinas Base de datos:
Almacenes de datos, procesamiento analítico en
línea.
Recuperación de información
Estadística:
Media, varianza, distribuciones, regresión lineal y no
lineal, validación cruzada, etc.
Aprendizaje automático:
Desarrollo de algoritmos capaces de aprender
Sistemas para la toma de decisiones:
Asistencia a los directivos en la resolución de
problemas.
Visualización de datos:
Graficas, icónicas, basadas en pixeles, jerárquicas,
entre otras.
Computación paralela:
Otras disciplinas:
Procesamiento de lenguaje natural, análisis de
imágenes, procesamiento de señales, gráficos por
computadora.
Aplicaciones
Aplicaciones financiera y banca: Seguros y salud privada
Obtención de patrones de uso fraudulento de tarjetas de Determinación de los clientes que
crédito.
podrían ser potencialmente caros.
Determinación del gasto en tarjeta de crédito por
grupos. Análisis de procedimientos médicos
solicitados conjuntamente
Calculo de correlaciones entre indicadores financieros.
Predicción de qué clientes contratan
Identificación de reglas de mercado de valores a partir
de históricos. nuevas pólizas
Análisis de riesgos en créditos. Identificación de patrones para clientes
con riesgo
Análisis de mercado, distribución y, en general,
comercio: Identificación de comportamiento
Análisis de la cesta de compra (compras conjuntas,
fraudulento
secuenciales, ventas cruzadas, señuelos, etc.) Predicción de los clientes que podrían
Evaluación de campañas publicitarias ampliar su póliza para incluir
procedimientos extras (dentales, ópticos)
Análisis de fidelidad de los clientes. Reducción de fuga.
Segmentación de clientes.
Estimación de stocks, de coste, de venta, etc.
Aplicaciones
Educación
Selección o capacitación de estudiantes.
Detección de abandonos y de fracasos.
Estimación del tiempo de estancia en la institución.
Procesos industriales
Extracción de modelos sobre comportamientos de compuestos
Detección de piezas con trabas. Modelo de calidad
Predicción de fallos y accidentes
Estimación de composiciones optimas en mezclas
Extracción de modelos de coste
Extracción de modelos de producción.
Medicina
Identificación de patologías. Diagnostico de enfermedades
Detección de pacientes con riesgos de sufrir una patología concreta
Recomendación priorizada de fármacos para una misma patología
Aplicaciones
Otras áreas:
Biología, bioingeniería y otras ciencias
Correo electrónico y agendas personales:
Análisis de secuencias de genes Clasificación y distribución automática de correo,
detección de corres spam, gestión de avisos,
Análisis de secuencias de proteínas análisis del empleo del tiempo.
Predecir si un compuesto químico causa Recursos humanos: Selección de empleados.
cáncer
Web: Análisis del comportamiento de los usuarios,
Clasificación de cuerpos celestes detección de fraude en el comercio electrónico,
Predicción de recorrido y distribución de análisis de los log de un servidor web.
inundaciones Turismo: Determinar las características
Modelos de calidad de aguas, indicadores socioeconómicas de los turistas en un determinado
ecológicos. destino turístico, identificar patrones de reserva,
etc.
Telecomunicaciones Trafico: modelos de trafico a partir de fuentes
Establecimiento de patrones de llamada diversas: cámara, GPS…
Modelos de carga de redes Hacienda: Detección de evasión fiscal
Detección de fraudes Policiales: Identificación de posibles terroristas en un
aeropuerto.
Deportes: Estudio de la influencia de jugadores y
de cambios. Planificación de eventos
Política: Diseño de campañas políticas, estudios de
tendencias de grupos, etc.
Referencias
Introducción a la minería de datos.
Hernández Orallo, J.; Ramírez Quintana, Ma. J.; Ferri Ramírez, C.
PEARSON EDUCACIÓN S.A.
Madrid, 2004
ISBN: 84-205-4091-9
Páginas 680