Está en la página 1de 25

01/07/2022

MINERÍA DE DATOS

FUNDAMENTO DE MINERÍA DE DATOS O


DATA MINING (DM)
Docente:
Mg. Marleny Peralta Ascue

Objetivos

 Entender el concepto de minería de datos


 Conocer áreas de aplicación de la minería de datos

Mg. Marleny Peralta Ascue

1
01/07/2022

Motivación

Diferentes formas de conocimiento

Datos Superficiales (se descubren con SQL)


Datos Multi-Dimensionales (se descubren con OLAP)

Datos Escondidos
(se descubren con KDD)

Datos Profundos (se descubren sólo con pistas)

El verdadero valor de los datos consiste en poder


extraer información útil para la toma de decisiones
Mg. Marleny Peralta Ascue

Motivación

Existen ingentes cantidades de datos almacenados infrautilizados

Hay que saber convertir datos en activos de valor

Es muy común que las organizaciones desconozcan el nivel de


calidad de sus datos almacenados y el valor que estos datos
pueden tener para generar grandes beneficios económicos,
sociales y científicos

Mg. Marleny Peralta Ascue

2
01/07/2022

Evolución de la Minería de datos

Mg. Marleny Peralta Ascue

Minería de datos

Mg. Marleny Peralta Ascue

3
01/07/2022

DATOS – INFORMACIÓN – CONOCIMIENTO

Es la unidad Es la información
un conjunto de datos
fundamental de la adquiridos por una
procesados
información persona

Mg. Marleny Peralta Ascue

¿Qué es la Minería de datos?

Mg. Marleny Peralta Ascue

4
01/07/2022

¿Qué es la Minería de datos?

Mg. Marleny Peralta Ascue

Mg. Marleny Peralta Ascue

5
01/07/2022

¿Qué es la Minería de datos?

Es un conjunto de técnicas y tecnologías que permiten


explorar grandes bases de datos, de manera automática o
semiautomática, con el objetivo de encontrar patrones
repetitivos que expliquen el comportamiento de estos
datos.

Mg. Marleny Peralta Ascue

Otro nombre para la Minería de Datos:


Descubrimiento de conocimiento en bases de datos
(KDD)
Interpretación /
evaluación
Minería de
datos

Transformación

Preprocesamiento Conocimiento
Selección

Patrones
Datos
Transformados
Datos
Datos Preprocesados
Datos
Seleccionados

Mg. Marleny Peralta Ascue

6
01/07/2022

¿Qué es la Minería de datos?


How can I analyze this data?

Knowledge

Conocimiento
“Data rich,
(patrones interesantes)
Information poor”

La Minería de Datos estudia métodos, técnicas y algoritmos de cómo


extraer conocimiento relevante desde grandes cantidades de
información.
Mg. Marleny Peralta Ascue

¿Qué es la Minería de datos?

Mg. Marleny Peralta Ascue

7
01/07/2022

Retos de la Minería de datos

1. Trabajar con grandes volúmenes de datos,


presentándose los problemas propios de los
sistemas de información como son: la ausencia
de datos, su volatilidad, intratabilidad, etc.

2. Usar las técnicas de análisis adecuadas, para


poder analizar y extraer informaciones útiles de los
mismos.

Mg. Marleny Peralta Ascue

¿Qué es la Minería de datos?


Minería de datos [Witten & Frank 2000]:
proceso de extracción de conocimiento válido,
útil, comprensible, y desconocido, a partir de
datos almacenados.

válido: el conocimiento obtenido debe ser preciso ("correcto") para


nuevos conjuntos de datos.
útil: el conocimiento obtenido debe servir a la organización para tomar
decisiones que le reporten algún beneficio.
comprensible: el conocimiento obtenido debe ser fácil de interpretar y
usar.
novedoso: el conocimiento obtenido debe aportar a la organización,
información desconocida hasta ese momento.
Mg. Marleny Peralta Ascue

8
01/07/2022

Objetivos y características de la Minería de datos


• Explorar datos que se encuentran en las profundidades de las
bases de datos.
• Consolidar los datos en un almacén de datos.
• Tiene una arquitectura cliente-servidor usando
procesamiento paralelo.
• Facilita el uso de varias herramientas y técnicas para la
extracción de los datos.
• La minería de datos produce cinco tipos de información:
— Asociaciones
— Secuencias
— Clasificaciones
— Agrupamientos
— Pronósticos
Mg. Marleny Peralta Ascue

Alcances de la Minería de datos

 Descubrimiento automatizado de modelos


previamente desconocidos.
• Predicción automatizada de tendencias y
comportamientos.
• Aportes a la toma de decisiones con bases y
fundamentos reales basados en los datos.

Mg. Marleny Peralta Ascue

9
01/07/2022

Áreas de aplicación
•Aplicaciones financieras y de banca:
−obtención de patrones de uso fraudulento de tarjetas.
−obtención de perfiles de clientes en el uso de tarjetas.
−obtención de correlaciones entre indicadores financieros.
−análisis de riesgos en la concesión de préstamos, ...

•Análisis de mercado, distribución y comercio:


−análisis de la cesta de la compra.
−evaluación de campañas publicitarias.
−obtención de perfiles de clientes.
−análisis de la fidelidad de los clientes, ...
•Otros sectores:
−compañías de servicios: telecomunicaciones, agua, gas, ....
−correo electrónico, agendas personales.
−turismo
−tráfico
−uso de web
−... Mg. Marleny Peralta Ascue

Aplicaciones
• Medicina:
- Identificación de terapias médicas satisfactorias para diferentes enfermedades.
- Asociación de síntomas y clasificación diferencial de patologías.
- Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de
riesgo/salud en distintas patologías.
- Segmentación de pacientes para una atención más inteligente según su grupo.
- Predicciones temporales de los centros asistenciales para el mejor uso de recursos,
consultas, salas y habitaciones.
- Estudios epidemiológicos, análisis de rendimientos de campañas de información,
prevención, sustitución de fármacos, etc.

• Seguros y Salud Privada:


- Análisis de procedimientos médicos solicitados conjuntamente.
- Predecir qué clientes compran nuevas pólizas.
- Identificar patrones de comportamiento para clientes con riesgo.
- Identificar comportamiento fraudulento.
Transportes: - Determinar la planificación de la distribución entre tiendas.
- Analizar patrones de carga.
Mg. Marleny Peralta Ascue

10
01/07/2022

Ejemplo1: análisis de riesgo en préstamos bancarios


Un banco desea disponer de un modelo que le permita
predecir qué tipo de clientes podrían no devolver un préstamo
solicitado. La entidad dispone de información sobre préstamos
anteriores, así como datos personales de los titulares de esos
préstamos.

ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-


(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

Mg. Marleny Peralta Ascue

Ejemplo1: análisis de riesgo en préstamos bancarios

ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-


(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

A partir de estos datos, las técnicas de DM podrían generar un modelo de


los datos, consistente en un conjunto de reglas, que permitiesen predecir
en el futuro, el posible comportamiento de un cliente que solicitase un
préstamo.

Mg. Marleny Peralta Ascue

11
01/07/2022

Ejemplo1: análisis de riesgo en préstamos bancarios

ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-


(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

Para nuestro estudio,


existen dos clases de
cliente: los que
Las reglas generadas en el proceso de DM, deben devuelven los
préstamos y los que no
predecir la clase de un cliente (variable objetivo) a partir los devuelven.
de sus características (variables predictivas).

Mg. Marleny Peralta Ascue

Ejemplo1: análisis de riesgo en préstamos bancarios


ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-
(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

Regla 1:
Si cuentas-morosas > 0 entonces devuelve-préstamo = no

Regla 2:
Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)
entonces devuelve-préstamo = sí
...
Mg. Marleny Peralta Ascue

12
01/07/2022

¿Para qué puede ser útil la Minería de datos?


1 exabyte (1 millón de terabytes) se
genera anualmente en todo el mundo

Conocimiento

Patrones

•Control
•Diagnóstico
•Predicción
•Toma de decisiones
Mg. Marleny Peralta Ascue

Ejemplo2: definir grupos diferenciados de empleados

El departamento de recursos humanos de una gran


empresa, desea categorizar a sus empleados en
distintos grupos, con el objetivo de establecer un trato
personalizado con ellos y definir las políticas sociales
de la empresa. La organización dispone en sus bases de
datos de información sobre sus empleados.

Mg. Marleny Peralta Ascue

13
01/07/2022

Ejemplo2: definir grupos diferenciados de empleados


ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüed.Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Propietario Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Propietario Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Propietario Sí 2 6 M
9 20000 Sí Sí 3 Propietario No 7 5 H
10 30000 Sí Sí 2 Propietario No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 Sí Sí 2 Propietario No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H

Mg. Marleny Peralta Ascue

Ejemplo2: definir grupos diferenciados de empleados


ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüed.Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Propietario Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Propietario Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Propietario Sí 2 6 M
9 20000 Sí Sí 3 Propietario No 7 5 H
10 30000 Sí Sí 2 Propietario No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 A partir
8000 de estos
Sí datos,
Sí las técnicas
2 dePropietario
MD podrían No generar
3 un modelo
1 de H
13 los20000 No
datos, consistenteNoen un conjunto
0 Alquiler
de grupos No 27
de empleados 5
con M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15
características
8000 No
similares.

Este 0modelo proporcionaría
Alquiler No
una3 descripción
2
"masH
significativa" de los datos disponibles.

Mg. Marleny Peralta Ascue

14
01/07/2022

Ejemplo2: definir grupos diferenciados de empleados


Grupo 1: 5 ejemplos Grupo 2: 4 ejemplos Grupo 3: 6 ejemplos
Sueldo : 22600 Sueldo : 22500 Sueldo : 18833
Casado : No -> 0.8 Casado : No -> 1.0 Casado : Sí -> 1.0
Coche : Sí -> 1.0 Coche : Sí -> 1.0
Sí -> 0.2 Hijos : 0 Hijos : 2
Coche : No -> 0.8 Alq/Prop : Alquiler -> 0.75 Alq/Prop : Alquiler -> 0.17

Sí -> 0.2 Prop -> 0.25 Prop -> 0.83


Hijos : 0 Sindic. : Sí -> 1.0 Sindic. : No -> 0.67
Alq/Prop : Alquiler -> 1.0 Bajas/Año : 2
Sindic. : No -> 0.8 Antigüedad : 8 Sí -> 0.33
Sexo : H -> 0.25 Bajas/Año : 5
Sí -> 0.2 M -> 0.75 Antigüedad : 8
Bajas/Año : 8 Sexo : H -> 0.83
Antigüedad : 8 M -> 0.17
Sexo : H -> 0.6
M -> 0.4

•GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.


•GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas.
Normalmente mujeres.
•GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.
Mg. Marleny Peralta Ascue

Permitió encontrar algunas


relaciones en los hábitos de
compras de sus clientes.
Ejemplo3: Caso de estudio
Supermercados Wal-Mart

Mg. Marleny Peralta Ascue

15
01/07/2022

Ejemplo3: Caso de estudio

Mg. Marleny Peralta Ascue

Ejemplo3: Caso de estudio

Mg. Marleny Peralta Ascue

16
01/07/2022

Ejemplo3: Caso de estudio

33
Mg. Marleny Peralta Ascue

Minería de datos

La minería de datos puede ser dividida


en:

- Minería de datos predictiva (MDP)


Modelos de
datos

Vista minable

- Minería de datos para


descubrimiento
de conocimiento (MDDC)

Mg. Marleny Peralta Ascue

17
01/07/2022

Minería de datos

Mg. Marleny Peralta Ascue

¿Qué es Minería de datos?

Mg. Marleny Peralta Ascue

18
01/07/2022

Relación de MD con otras disciplinas

El componente principal en la Tecnología de minería de datos


ha sido desarrollo en áreas de:

- Estadísticas
- Inteligencia Artificial
- Aprendizaje de máquinas

Actualmente, existe gran relevancia en:


- Ambientes de negocios
Las descripciones básicas de las arquitecturas de almacenes
de datos.

Mg. Marleny Peralta Ascue

Relación de MD con otras disciplinas

Mg. Marleny Peralta Ascue

19
01/07/2022

Relación de MD con otras disciplinas

1. Minería de datos y Estadística


La Estadística ha proporcionado muchos de los conceptos,
algoritmos y técnicas que se utilizan en MD
• Afirmación típica: Minería de datos es lo mismo que
Estadística
• Aunque MD y análisis estadístico están claramente
relacionados, existen diferencias claras:
• MD realiza un análisis exploratorio, descubriendo nuevo
conocimiento. Ej.: más del 60% de las personas que
compran queso fresco, adquieren algún tipo de mermelada
• Análisis estadístico realiza un análisis corroborativo,
debemos sospechar las relaciones y lo que hacemos es
cuantificarlas
Mg. Marleny Peralta Ascue

Relación de MD con otras disciplinas

2. Minería de datos y aprendizaje automático


El aprendizaje automático es el área de la IA que se ocupa de
desarrollar algoritmos capaces de aprender.
• Afirmación típica: Minería de datos es lo mismo que
aprendizaje automático
• Es cierto que el núcleo de la MD como fase del KDD lo
forman las técnicas de aprendizaje automático
• Sin embargo, cuando en general utilizamos MD para
referirnos a KDD, es clara la diferencia
• Otra gran diferencia, es el tamaño y formato de los datos
utilizados

Mg. Marleny Peralta Ascue

20
01/07/2022

Relación de MD con otras disciplinas

3.Minería de datos y BBDD


• Afirmación típica: ¿Qué tiene que ver la minería de datos
con las BBDD?
• Evidentemente mucho: el principal campo de aplicación
de la MD son los Datawarehouses corporativos
• Conocimiento a extraer de BBDD:
Conocimiento evidente: se obtiene de un sistema de
BBDD operacional mediante consultas SQL (OLTP)
Conocimiento multidimensional: Consultas OLAP contra
un datawarehouse
Conocimiento oculto: Técnicas de MD contra el
Datawarehouse. Representa aproximadamente el 20% del
total, pero es el más interesante, por ser desconocido a priori
Mg. Marleny Peralta Ascue

Relación de MD con otras disciplinas

4. Minería de datos y visualización


La forma de presentar los datos ayuda a la compresión de los
mismos, tanto al técnico de MD como a los clientes
Ejemplos:
* Visualización de datos estadísticos * Dispersión, pixeles

Mg. Marleny Peralta Ascue

21
01/07/2022

Relación de MD con otras disciplinas

5.Computación paralela y distribuida


• Es muy importante el procesamiento paralelo, distribuido
para repartir (disminuir) el costo computacional de las tareas
más complejas de MD
• Incrementa la escalabilidad de los algoritmos de DM

6.Sistemas de toma de decisión


• Son herramientas y sistemas informatizados que asisten a los
directivos en la resolución de problemas y toma de
decisiones

Mg. Marleny Peralta Ascue

Relación de MD con otras disciplinas

Mg. Marleny Peralta Ascue

22
01/07/2022

“Volumen masivo de
datos, tanto
estructurados como no-
estructurados, los cuales
son demasiado grandes y
difíciles de procesar con
las bases de datos y el
software tradicionales"
(ONU, 2012)

Mg. Marleny Peralta Ascue

A qué tipo de datos puede aplicarse la Minería de datos?

¿En principio, a cualquier tipo

 Bases de datos relacionales


 Bases de datos espaciales
 Bases de datos temporales
 Bases de datos documentales
 Bases de datos multimedia
 World Wide Web (Web mining)
 El almacén de información más grande y diverso de los
existentes
 Existe gran cantidad de datos de los que se puede extraer
información útil

Mg. Marleny Peralta Ascue

23
01/07/2022

A qué tipo de datos puede aplicarse la Minería de datos?

Bases de datos espaciales


Contienen información relacionada con el espacio físico en
un sentido amplio.
Incluyen datos geográficos, imágenes médicas, redes de
transporte o información de tráfico,…
Objetivo DM: encontrar patrones entre los datos. P.e.:
características de las casas en zonas montañosas, etc.

Bases de datos temporales


Almacenan datos con atributos relacionados con el tiempo
Objetivo DM: encontrar las características de la evolución

Mg. Marleny Peralta Ascue

A qué tipo de datos puede aplicarse la Minería de datos?

Bases de datos documentales (Text Mining)


• Contienen descripciones para los objetos (documentos
no estructurados, semi-estructurados, estructurados)
• Objetivo DM: obtener asociaciones entre los
contenidos, clasificar objetos textuales,…
Bases de datos multimedia
• Almacenan imágenes, vídeo y audio

World Wide Web (Web Mining)


• El almacén de información más grande y diverso de los
existentes
• Existe gran cantidad de datos de los que se puede extraer
información útil
Mg. Marleny Peralta Ascue

24
01/07/2022

Mg. Marleny Peralta Ascue

25

También podría gustarte