0% encontró este documento útil (0 votos)
92 vistas19 páginas

Introducción a la Minería de Datos

Este documento describe la minería de datos y sus aplicaciones. Explica que la minería de datos es el proceso de extraer conocimiento útil de grandes cantidades de datos. Presenta ejemplos de cómo se puede aplicar la minería de datos en áreas como el análisis de créditos bancarios, el análisis de la cesta de la compra, la predicción de ventas y la segmentación de empleados. Finalmente, enumera diversas aplicaciones como finanzas, mercadeo, educación, industria y medicina.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
92 vistas19 páginas

Introducción a la Minería de Datos

Este documento describe la minería de datos y sus aplicaciones. Explica que la minería de datos es el proceso de extraer conocimiento útil de grandes cantidades de datos. Presenta ejemplos de cómo se puede aplicar la minería de datos en áreas como el análisis de créditos bancarios, el análisis de la cesta de la compra, la predicción de ventas y la segmentación de empleados. Finalmente, enumera diversas aplicaciones como finanzas, mercadeo, educación, industria y medicina.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Minería de datos

Alan Ramírez Noriega


Nuevas necesidades

 Aumento del volumen y variedad de información en bases de datos digitales


crece espectacularmente.
 Información histórica de las empresas
 Método tradicional de convertir datos en conocimiento consiste en un análisis
e interpretación realizada de forma manual.
 El procedimiento es lento, caro y subjetivo.
 El análisis manual es impracticable en dominios con grandes cantidades de
información
 El análisis de los datos de una base de información se realiza mediante
consultas efectuadas con lenguajes de consulta como SQL.
 Genera información resumida de una forma preestablecida,
 Poco flexible
 Poco escalable a grandes cantidades de datos.
Nuevas necesidades

 La tecnología a respondido al reto anterior con el almacén de datos (data


warehouse).
 Es un repositorio de fuentes heterogéneas de datos, integrado y organizados
bajo un esquema unificado para su análisis y soporte a la toma de decisiones.
 Sin embargo, estos métodos no generan reglas, patrones, pautas, es decir,
conocimientos que puedan ser aplicados a otros datos
 Ejemplo:
 Es útil saber que el 10% de los ancianos padecen Alzheimer
 Es mas útil tener un conjunto de reglas que a partir de los antecedentes, los
hábitos y otras características del individuo nos digan si un paciente tendrá o no
Alzheimer.
Minería de datos

 Es el proceso de extraer conocimiento útil y comprensible, previamente


desconocido, desde grandes cantidades de datos almacenados en
distintos formatos.
 Retos de la minería de datos:
 Trabajar con grandes volúmenes de datos
 Usar técnicas adecuadas para extraer conocimiento novedoso y útil
Ejemplos 1: Análisis de créditos
bancarios
 Un banco por internet desea obtener reglas para predecir que personas
de las que solicitan crédito no lo devuelven.
 Datos:
Ejemplos 1: Análisis de créditos
bancarios
 A partir de técnicas de minería de datos se podrían obtener las siguientes
reglas:
Ejemplo 2: Análisis de la cesta de
compra
 Un supermercado quiere obtener información sobre el comportamiento de
compra de sus clientes. Piensa que de esta forma puede mejorar el
servicio que les ofrece: reubicación de los productos que se suelen
comprar juntos, localizar un lugar idóneo para nuevos productos, etc.
 Datos:
Ejemplo 2: Análisis de la cesta de
compra
 Análisis:
 El 100% de las veces que se compran pañales también se compra leche.
 El 50% de las veces que se compran huevos también se compra aceite
 El 33% de las veces que se compra vino y salmón también se compran lechugas.
Ejemplo 3: Determinar las ventas de un
producto
 Una gran cadena de tiendas de electrodomésticos desea optimizar el
funcionamiento de su almacén manteniendo un stock de cada producto
suficiente para poder servir rápidamente el material adquirido por sus
clientes.
 Datos:
Ejemplo 3: Determinar las ventas de un
producto
 Esta información permite a la empresa generar un modelo para predecir
cuales van a ser las venta de cada producto en el siguiente mes en
función de las ventas realizadas en los meses anterior y efectuar asi los
pedidos necesario a sus proveedores para disponer del stock necesario
para hacer frente a esas ventas.
Ejemplo 4: Determinar grupos
diferenciados de empleados
 El departamento de recursos humanos de una gran empresa desea
categorizar a sus empleados en distintos grupos con el objetivo de
entender mejor su comportamiento y tratarlos de manera adecuada.
 Datos:
Ejemplo 4: Determinar grupos
diferenciados de empleados
 Un sistema de minería podría obtener tres grupos con la siguiente
descripción
 Grupo 1: Sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas
 Grupo 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente son
mujeres y viven en casas de alquiler.
 Grupo 3: Con hijos, casados y con coche. Mayoritariamente hombres
propietarios de su vivienda. Poco sindicados.
¿A que tipo de datos puede aplicarse
la minería de datos?
 Base de datos relacionales
 Otros tipos de base de datos
 Base de dato espacial (lugares físicos)
 Base de datos temporales
 Base de datos documentales
 Base de datos multimedia
 World Wide Web
 Minería del contenido
 Minería de la estructura
 Minería del uso
Tipos de modelos
 Predictivos: Pretenden estimar valores futuros o desconocidos de variables
de interés (variable dependiente), usando otra variables o campos de la
BD(variable independiente).
 Clasificación y regresión
 Ejemplo: Estimar la demanda de un nuevo producto en función del gasto de
publicidad.
 Descriptivos: Identifican patrones que explican o resumen los datos, es
decir, sirven para explorar las propiedades de los datos, no para predecir
nuevos datos.
 Agrupamiento, reglas de asociación y análisis correlacional.
 Ejemplo: Una agencia de viaje desea identificar grupos de personas con unos
mismos gustos, para organizar diferentes ofertas para cada grupo y poder
remitirles esta información; para ello analizan los viajes que han realizado sus
clientes e infiere un modelo descriptivo que caracteriza estos grupos.
Relación de la minería de datos con
otras disciplinas  Base de datos:
 Almacenes de datos, procesamiento analítico en
línea.
 Recuperación de información
 Estadística:
 Media, varianza, distribuciones, regresión lineal y no
lineal, validación cruzada, etc.
 Aprendizaje automático:
 Desarrollo de algoritmos capaces de aprender
 Sistemas para la toma de decisiones:
 Asistencia a los directivos en la resolución de
problemas.
 Visualización de datos:
 Graficas, icónicas, basadas en pixeles, jerárquicas,
entre otras.
 Computación paralela:
 Otras disciplinas:
 Procesamiento de lenguaje natural, análisis de
imágenes, procesamiento de señales, gráficos por
computadora.
Aplicaciones
 Aplicaciones financiera y banca:  Seguros y salud privada
 Obtención de patrones de uso fraudulento de tarjetas de  Determinación de los clientes que
crédito.
podrían ser potencialmente caros.
 Determinación del gasto en tarjeta de crédito por
grupos.  Análisis de procedimientos médicos
solicitados conjuntamente
 Calculo de correlaciones entre indicadores financieros.
 Predicción de qué clientes contratan
 Identificación de reglas de mercado de valores a partir
de históricos. nuevas pólizas
 Análisis de riesgos en créditos.  Identificación de patrones para clientes
con riesgo
 Análisis de mercado, distribución y, en general,
comercio:  Identificación de comportamiento
 Análisis de la cesta de compra (compras conjuntas,
fraudulento
secuenciales, ventas cruzadas, señuelos, etc.)  Predicción de los clientes que podrían
 Evaluación de campañas publicitarias ampliar su póliza para incluir
procedimientos extras (dentales, ópticos)
 Análisis de fidelidad de los clientes. Reducción de fuga.
 Segmentación de clientes.
 Estimación de stocks, de coste, de venta, etc.
Aplicaciones
 Educación
 Selección o capacitación de estudiantes.
 Detección de abandonos y de fracasos.
 Estimación del tiempo de estancia en la institución.
 Procesos industriales
 Extracción de modelos sobre comportamientos de compuestos
 Detección de piezas con trabas. Modelo de calidad
 Predicción de fallos y accidentes
 Estimación de composiciones optimas en mezclas
 Extracción de modelos de coste
 Extracción de modelos de producción.
 Medicina
 Identificación de patologías. Diagnostico de enfermedades
 Detección de pacientes con riesgos de sufrir una patología concreta
 Recomendación priorizada de fármacos para una misma patología
Aplicaciones
 Otras áreas:
 Biología, bioingeniería y otras ciencias
 Correo electrónico y agendas personales:
 Análisis de secuencias de genes Clasificación y distribución automática de correo,
detección de corres spam, gestión de avisos,
 Análisis de secuencias de proteínas análisis del empleo del tiempo.
 Predecir si un compuesto químico causa  Recursos humanos: Selección de empleados.
cáncer
 Web: Análisis del comportamiento de los usuarios,
 Clasificación de cuerpos celestes detección de fraude en el comercio electrónico,
 Predicción de recorrido y distribución de análisis de los log de un servidor web.
inundaciones  Turismo: Determinar las características
 Modelos de calidad de aguas, indicadores socioeconómicas de los turistas en un determinado
ecológicos. destino turístico, identificar patrones de reserva,
etc.
 Telecomunicaciones  Trafico: modelos de trafico a partir de fuentes
 Establecimiento de patrones de llamada diversas: cámara, GPS…
 Modelos de carga de redes  Hacienda: Detección de evasión fiscal
 Detección de fraudes  Policiales: Identificación de posibles terroristas en un
aeropuerto.
 Deportes: Estudio de la influencia de jugadores y
de cambios. Planificación de eventos
 Política: Diseño de campañas políticas, estudios de
tendencias de grupos, etc.
Referencias

 Introducción a la minería de datos.


 Hernández Orallo, J.; Ramírez Quintana, Ma. J.; Ferri Ramírez, C.
 PEARSON EDUCACIÓN S.A.
 Madrid, 2004
 ISBN: 84-205-4091-9
 Páginas 680

También podría gustarte