Está en la página 1de 13

II73 – Sistemas de Información Inteligentes

Tema 8.
Introducción a la minería de datos

Tema 8 – Minería de datos

Contenidos del tema


1. Minería de datos.
2. OLAP versus minería de datos.
3. El proceso de descubrir información.
4. Minería del almacén de datos.
5. Técnicas de minería de datos.
5.1 Formación de grupos.
5.2 Árboles de decisión.
5.3 Razonamiento basado en casos.
5.4 Búsqueda de asociaciones.
5.5 Redes neuronales.
6. Herramientas de minado.
7. Aplicaciones del minado.

2 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

Arquitectura de un almacén de datos

EXTRACCIÓN DE
INFORMACIÓN

FUENTES DE METADATOS

SERVIDOR OLAP
DATOS
GESTION Y CONTROL
EXTERNAS
FUENTES

OLAP
FUENTES INTERNAS

ALMACÉN DE DATOS

ALMACÉN INFORMES/
INTERMEDIO DATA MARTS CONSULTAS COMPLEJAS

PREPARACIÓN ALMACENAMIENTO
DE DATOS DE DATOS

DATA MINING

FLUJOS DE DATOS
3 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

1. Minería de datos
Las herramientas OLAP no permiten encontrar todas las
relaciones existentes en el enorme volumen de información
que generan las empresas.
Hay algunas propiedades de los datos que las personas no
podemos descubrir con una herramienta OLAP porque no
sospechamos su existencia.
Se necesitan herramientas capaces de descubrir la
información por si mismas, sin ser dirigidas por personas,
sino por los propios datos.
La minería de datos se aplica para descubrir información
valiosa y no predecible a partir de un gran volumen de datos.

4 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

1. Minería de datos

El minado de datos descubre dos tipos de información:


– Asociaciones entre los datos: los que compran pan
también suelen comprar leche.
– Patrones típicos de comportamiento: la mayoría de
gente hace el 90% de sus compras los fines de
semana.
Las herramientas de minado analizan por si mismas los
datos históricos para descubrir información aplicable al
futuro.

5 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

2. OLAP versus minería de datos


Las herramientas OLAP analizan el pasado: los usuarios ejecutan
consultas complejas para analizar datos históricos y presentan los
resultados de la forma más adecuada. El usuario tiene que saber
qué está buscando y formular una sucesión de consultas
adecuadas.
La minería de datos sirve para predecir el futuro: el usuario prepara
unos datos para que la herramienta descubra en ellos información
aplicable al futuro. Sin embargo el usuario no dirige la operación
porque no sabe qué es lo que se va a descubrir.

6 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

3. El proceso de descubrir información


1. Definir los objetivos del proceso. P. ej. encontrar asociaciones
entre productos que se venden juntos.
2. Seleccionar, limpiar, transformar y preparar los datos que se van
a minar.
3. Aplicar las técnicas de minería de datos más adecuadas al tipo de
información que se desea encontrar.
4. Interpretar y evaluar los resultados presentados por la
herramienta: no todo lo descubierto es igualmente útil.
5. Presentación de resultados, ya sea de forma gráfica o con una
tabla.
6. Hacer que la organización conozca y comience a utilizar los
resultados encontrados.

7 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

4. Minería del almacén de datos


Los almacenes de datos son muy buenos lugares para ejecutar
operaciones de minería porque:
– Contienen una gran cantidad de datos ya preparados para
minar: ya se han limpiado, corregido y organizado.
– Las herramientas de minería de datos requieren que los datos
estén a un nivel de granularidad muy bajo.
– La mayoría de los SGBD que soportan la implementación de
almacenes de datos, también proporcionan algunas
herramientas de minería de datos.

8 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

5. Técnicas de minería de datos


Existen muchas técnicas que combinan conceptos de inteligencia
artificial, estadística y bases de datos.
Cada técnica tiene muchos algoritmos diferentes y se puede aplicar
con distintos objetivos.
Todas las técnicas y algoritmos de minado filtran una gran cantidad
de datos a un nivel de detalle muy bajo con objeto de descubrir
información útil.
Hay que saber escoger la mejor técnica de minado para cada tipo
de información, y aplicar sus algoritmos a los datos de una forma
adecuada.
Las principales técnicas son: formación de grupos, árboles de
decisión, razonamiento basado en casos, búsqueda de
asociaciones, y redes neuronales.

9 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

5. Técnicas de minería de datos


En la siguiente tabla se dan algunos ejemplos de aplicación de las diferentes
técnicas de minería de datos.

Área de aplicación Objetivos Técnica aplicada


Detección del fraude Fraude con tarjetas de crédito Razonamiento basado en
casos
Auditorias internas
Robos en almacenes

Evaluación de riesgos Concesión de hipotecas y Árboles de decisión


tarjetas de crédito
Razonamiento basado en
Aceptación de clientes casos
Asignación de tipos de interés
Análisis de mercados Cestas de clientes Formación de grupos
Marketing personalizado Árboles de decisión
Relaciones con clientes Asociaciones
Redes neuronales

10 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

5.1 Formación de grupos (clustering)

Esta técnica de minado trata


de formar grupos de datos ejecutivos

INGRESOS
similares distribuidos a los
largo de varias dimensiones. jubilados

Solo aquellos grupos a los


que se les pueda dar un
significado serán de utilidad. estudiantes

EDAD

11 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

5.1 Algoritmos de formación de grupos

1. En un espacio de N dimensiones cada dato es un punto con N valores


asignados.
2. Se decide el número de grupos que se quieren formar y para cada grupo se
elige un dato como centro inicial. Este es el dato que representa al grupo y
se denomina semilla.
3. Se crean los primeros grupos: cada dato se asigna al grupo cuya semilla se
encuentra más cercana. Para calcular la distancia de un dato a otro se
pueden utilizar diversas medidas matemáticas.
4. Se calcula una nueva semilla para cada grupo. La nueva semilla sustituye a
la inicial ya que representa mejor al grupo.
5. Repetir desde el paso 3: Se vuelven a calcular los grupos y las nuevas
semillas sucesivamente hasta que los grupos finales ya estén formados (no
aparecen nuevas semillas).

12 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

5.2 Árboles de decisión


Esta técnica de minado sirve para clasificar y predecir, dando información del
proceso de razonamiento seguido, es decir, que justifican sus respuestas.
Se utilizan los datos para construir árboles de decisión: sus nodos internos
son criterios de clasificación para los datos y sus hojas son los grupos en los
que se desea clasificar a los datos.
Para clasificar cada dato hay que recorrer el árbol de decisión desde la raíz
hasta las hojas.
Los algoritmos que construyen el árbol de decisión parten de un gran
volumen de datos y consideran un conjunto de variables que representan
sus propiedades. Según se va construyendo el árbol, en cada nivel el
algoritmo escoge la variable que mejor reclasifica los datos hasta entonces
clasificados.
Posteriormente, con un grupo de datos previamente validados es posible
podar del árbol aquellas ramas que pueden clasificar los datos de manera
errónea.

13 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

5.2 Ejemplo de árbol de decisión


El siguiente árbol permite clasificar las ventas al contado o con crédito
dependiendo del importe de la venta y de la solvencia del cliente.

IMPORTE
entre 100 y 500 menos de 100 o más de 500

SOLVENCIA CONTADO
alta, media baja

CREDITO CONTADO

14 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

5.3 Razonamiento basado en casos


Esta técnica de minado sirve para clasificar y predecir datos en
función de las experiencias previas.
De igual manera que un médico trata de recordar casos similares
antes de hacer un diagnóstico, esta técnica de minado observa las
características de los datos existentes para clasificar los datos
nuevos.
Esta técnica se suele aplicar en aquellos casos en que es difícil
determinar un proceso de razonamiento claro a la hora de tomar
decisiones. Se utiliza la experiencia del pasado para tomar unas
decisiones, que luego el sistema no puede explicar ni justificar.

15 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

5.3 Razonamiento basado en casos


El proceso de razonamiento basado en casos consiste en:
1. Encontrar los casos más similares al nuevo caso (función
de distancia).
2. Reutilizar la información de los casos más similares para
clasificar el nuevo caso (función de combinación).
3. Revisar la solución propuesta por si hay que ajustarlo
mejor al nuevo caso.
4. Memorizar este nuevo caso para que pueda ser utilizado
en el futuro para realizar nuevos razonamientos.
Las claves del proceso están en utilizar una buena función de
distancia y una buena función de combinación.

16 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

5.4 Búsqueda de asociaciones


Esta técnica de minado se utiliza para encontrar relaciones
frecuentes entre los datos y así descubrir información útil. P. ej.:
aquellos clientes particulares que telefonean frecuentemente a
números de fax probablemente necesiten contratar una nueva
línea telefónica.
Esta técnica es capaz de descubrir dos tipos de información
diferentes:
1. Reglas de asociación.
2. Patrones secuenciales.

17 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

5.4.1 Descubrimiento de reglas de asociación


Una regla de asociación expresa una afinidad entre datos. Las
reglas de asociación descubren datos que suelen ocurrir juntos, p.
ej: productos que se suelen comprar juntos.
Esta técnica es muy aplicada aunque su ejecución puede ser muy
costosa porque para descubrir las reglas, los algoritmos de
minado deben considerar todas las combinaciones posibles entre
los datos.
La validez de la regla se expresa con dos medidas: la confianza y
la cobertura. Solamente las reglas muy válidas pueden ser útiles.

18 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

5.4.1 Descubrimiento de reglas de asociación


La cobertura de la regla indica la proporción de datos para los que la
regla es cierta.
La confianza de la regla indica la proporción de datos para los que
la regla es cierta con respecto al número de datos a los que la regla
se aplica.
Por ejemplo, si un cliente compra pan entonces también compra
leche:
– Una cobertura del 60% indica que “de todos los clientes el 60%
compra pan y leche”.
– Una confianza del 85% indica que “de todos los clientes que
compran pan, el 85% también compra leche”.

19 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

5.4.2 Patrones secuenciales


Se trata de minar los datos para encontrar patrones que indiquen
una secuencia de eventos ordenados en el tiempo.
La cobertura y la confianza del patrón indican su utilidad.
Dos ejemplos de estas dos medidas:
– El 60% (confianza) de los que compran una cámara digital
después compran un impresora a color. Estos son el 10% de los
clientes totales (cobertura).
– El 80% (confianza) de los que compran un PC después
contratan una línea ADSL. Estos son el 8% de los clientes
totales (cobertura).

20 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

5.5 Redes neuronales


Las redes neuronales imitan al cerebro humano ya que consisten en una
estructura de muchas neuronas interconectadas.
La red se compone de tantas neuronas de entrada como variables haya en
los datos, y una o varias capas de neuronas internas que operan con los
datos para producir una salida como respuesta válida.

E N T R A D A

SALIDA
DE
V A R I A B L E S

21 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

5.5 Redes neuronales


Las neuronas se unen por enlaces con pesos asociados, y los datos circulan
por la red desde la entrada hacia la salida.
Las neuronas aplican funciones de activación sobre sus datos de entrada
para producir una salida.
Una función de activación determina el nuevo estado de activación de la
neurona teniendo en cuenta la entrada total calculada (ver figura siguiente).
Las redes neuronales utilizan un conjunto de datos para entrenarse y así
poder generalizar patrones de clasificación y predicción útiles en tareas de
minado de datos.
En la fase de entrenamiento de la red los enlaces van ajustando su
comportamiento iterativamente hasta ser capaces de producir salidas
válidas.

22 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

5.5 Redes neuronales


Estructura de una neurona y función de activación
x1 w1
x2 w2
.
. y= f(Σiwixi) y
.

xn wn
ENTRADA PESOS NEURONA SALIDA

Ejemplo de aplicación de una red neuronal muy simple

0.01 35*0.01
Edad= 35 0.9

0.315+0.75 1.065 > 1


Conceder crédito
1.0
0.001
Sueldo= 750 750*0.001

23 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

6. Herramientas de minado
Deben proporcionar un amplio rango de algoritmos y técnicas de
minado.
Deben ser capaces de integrarse con el almacén de datos.
Los resultados deben ser correctos por lo que la herramienta debe
reconocer los datos erróneos e incompletos, y rechazarlos o
transformarlos adecuadamente.
También deben ser capaces de presentar sus resultados de una
manera fácil de interpretar y de manipular.

24 II73 – Sistemas de Información Inteligentes


Tema 8 – Minería de datos

7. Aplicaciones del minado


Las principales aplicaciones son industriales, médicas, militares y
científicas.
Las aplicaciones de más éxito son las del sector de los negocios,
donde se puede hacer:
– Segmentación de clientes.
– Análisis de mercados.
– Análisis de riesgos.
– Detección de fraudes.
– Defensa de la delincuencia.
– Predicción de demandas.

25 II73 – Sistemas de Información Inteligentes

Tema 8 – Minería de datos

Bibliografía del tema


P. Ponniah. Data warehousing fundamentals. Ed. Wiley. Tema 17.

26 II73 – Sistemas de Información Inteligentes

También podría gustarte