5 Data Mining

Aprendizaje Automtico y Data Mining
Bloque IV
DATA MINING
ndice
n n
Definicin y aplicaciones. Grupos de tcnicas:

n n n
Visualizacin. Verificacin. Descubrimiento.
n n n
Eficiencia computacional. Bsqueda de patrones temporales. Terminologa.
DEFINICIN Y APLICACIONES
Definicin y aplicaciones (I)

n
Data Mining (minera de datos): tcnicas para la extraccin de informacin oculta en grandes bases de datos.
n
Grandes cantidades de informacin recopiladas en los ltimos aos (mbitos financiero, metereolgico, telefona, medicina, investigacin, supermercados, etc.). Fcil y barato recopilar informacin. Se piensa que la informacin puede ser til. Pero el gran volumen la hace inmanejable, es imposible extraer la informacin til y descartar la irrelevante.
4
Definicin y aplicaciones (II)

n
Dos posibles enfoques para el problema:

n
Tradicional:
Anlisis manual realizado por un estadstico o un programador. Se requiere personal muy experimentado. Anlisis automtico o semi-automtico mediante herramientas de fcil uso. No es necesario personal experto. DATA MINING.
Actual:

Origen del trmino DATA MINING

n
Minera de datos: es necesario remover muchos datos (tierra) para extraer algo de informacin (metal).
5
Definicin y aplicaciones (III)

n
Relacin con el aprendizaje automtico:

n
Se busca un modelo que explique o se ajuste a los ejemplos recopilados, igual que en aprendizaje automtico. Se utilizan modelos similares:
rboles de decisin. Listas de reglas. Mtodos bayesianos. Redes neuronales.
Principal diferencia: los algoritmos estn adaptados para poder trabajar sobre grandes bases de datos.
6
Definicin y aplicaciones (IV)

n
Principales aplicaciones:
n
Marketing: estudio del comportamiento de consumidores a partir de datos recopilados (compra con tarjetas de crdito). Finanzas: estudio de mercados, de productos, de clientes, de prstamos, etc. Medicina: diagnstico automtico a partir de bases de datos con historias clnicas de pacientes. Distribucin de energa: pervisiones de demanda a partir de datos histricos. Redes de telefona o datos: previsiones de demanda, de ocupacin de lneas, de anchos de banda utilizados a lo largo del da, etc. Deteccin de fallos: en cadenas de produccin, en centrales de produccin de energa, etc.
GRUPOS DE TCNICAS
Grupos de tcnicas (I)

n
3 grupos de tcnicas principales:

n
Visualizacin.
Ayudas para el descubrimiento manual de informacin. Se muestran tendencias, agrupamientos de datos, etc. Funcionamiento semi-automtico. Se conoce de antemano un modelo y se desea saber si los datos disponibles se ajustan a l. Se establecen medidas de ajuste al modelo. Se busca un modelo desconocido de antemano. Descubrimiento descriptivo: se busca modelo legible. Descubrimiento predictivo: no importa que el modelo no sea legible.
9
Verificacin.

Descubrimiento.

Grupos de tcnicas (II)

n
Tcnicas de visualizacin:
n n
Visualizacin en 2D de datos multidimensionales. Problema con mltiples atributos:

Vibraciones. Temperatura. Horas funcionamiento. Meses desde revisin
Se calculan las distancias entre cada 2 instancias de entrenamiento.

d ( x1 , x2 ) =
(temp1 temp2 )2 + (vib1 vib2 )2 + (horas1 horas2 )2 + (rev1 rev2 )2
Se crea un grfico 2D en el que cada instancia corresponde a un punto y en el que las distancias entre instancias son lo ms parecidas posible a las distancias reales.
10
Grupos de tcnicas (III)

n
Ejemplo de visualizacin:
Dim.2
7 9 2 6 5 1 8 4 3
At1 Ej. 1 Ej. 2 Ej. 3 Ej. 4 Ej. 5 Ej. 6 Ej. 7 Ej. 8 Ej. 9 -
At2 -
At3 -
At4 -
At5 -
At6 -
Dim.1
11
Grupos de tcnicas (IV)

n
Tcnicas de verificacin:
n
Se conoce de antemano un modelo y se desea verificar si es un buen modelo para el conjunto de instancias disponible. Medidas utilizadas: soporte y precisin.
Soporte: dada una regla, porcentaje de instancias que cumplen sus condiciones. Precisin: dada una regla, porcentaje de casos en los que la regla se cumple.
soporte
si (temp=alta) y (vibr=altas) entonces (fallar)

precisin n
Interesan soporte y precisin altos.

12
Grupos de tcnicas (V)

n
Tcnicas de descubrimiento.
n
Descriptivo: se busca un modelo legible.

Clustering (agrupamiento). Resumen. Generacin de reglas en cualquier formato.
Justifican la clase (ej. rboles de decisin). Justifican cualquier relacin (ej. reglas de asociacin).
Predictivo: no importa si el modelo no es legible.

Clasificacin. Anlisis de series temporales (prediccin). Regresin.
13
EFICIENCIA COMPUTACIONAL
14
Eficiencia computacional (I)

n
Ejemplo: procesamiento paralelo para crear un rbol de decisin. Objetivo: elegir el atributo ms apropiado para cada nodo, pero con un gran nmero de datos. Dos posibles estrategias:
n
Con movimiento de datos entre procesadores. Sin movimiento de datos entre procesadores.
15
Eficiencia computacional (II)

n
Con movimiento de datos entre procesadores.

1.
Reparto aleatorio de ejemplos (instancias) entre los procesadores. En cada procesador, ajuste de una funcin de distribucin de probabilidad de los valores de los atributos. Recopilacin de resultados (funciones) y envo a un nico procesador. En ese procesador se elige el atributo a utilizar en el nodo correspondiente del rbol. Se repite el proceso para todos los nodos.
2.
3.
4.
5.
16
Eficiencia computacional (III)

n
Sin movimiento de datos entre procesadores.

1. 2.
Nodo raz: se elige el atributo como en el caso anterior. Los ejemplos correspondientes a cada rama (desde el nodo anterior) se llevan a un conjunto distinto de procesadores. Cada grupo de procesadores trabaja independientemente sobre su rama del rbol. El reparto contina hasta que el nmero de ramas es igual al nmero de procesadores. Cada procesador trabaja independientemente hasta completar su rama del rbol.
3.
4.
5.
17
BSQUEDA DE PATRONES TEMPORALES
18
Bsqueda patrones temporales (I)

n
Ejemplo de la dificultad que puede alcanzar la extraccin de informacin en bases de datos. Trabajaremos sobre un problema mdico:
n n
Se dispone de historias clnicas de mltiples pacientes. Se desean extraer secuencias de comportamientos que se repitan con frecuencia. Los atributos son los sntomas detectados o las mediciones tomadas en cada revisin:
Temperatura. Presin. Medidas en anlisis (porcentajes). Etc.
19
Bsqueda patrones temporales (II)

n
Algoritmo:
1.
Ordenacin temporal de los registros de cada paciente.

PACIENTE 1 ATRIBUTOS PACIENTE 2 ATRIBUTOS D A S D A S PACIENTE 3 ATRIBUTOS -
D A S
PACIENTE 4 ATRIBUTOS D A S D A S -
PACIENTE 5 ATRIBUTOS D A S -
PACIENTE 6 ATRIBUTOS -
20
Bsqueda patrones temporales (III)

2.
Bsqueda de combinaciones de atributos (sntomas) que se repiten en un mismo da simultneamente con alta frecuencia (entre todos los pacientes). Se descartan todos los restantes das (combinaciones de atributos que no se repiten con frecuencia). Sobre la lista ordenada restante, se buscan secuencias repetidas.
3.
4.
21
Bsqueda patrones temporales (IV)

4.
Bsqueda de secuencias repetidas:

n Mltiples pasadas sobre la base de datos. n Se comienza con secuencias de un elemento (las de la etapa anterior). n En cada pasada se aade un nuevo elemento para crear nuevas secuencias candidatas. n Las secuencias candidatas se evalan, slo se mantienen aquellas cuya frecuencia de repeticin supera un cierto umbral.
5.
Poda de las secuencias:

n Se eliminan todas las secuencias que estn contenidas en otra secuencia ms larga.
22
TERMINOLOGA
23
Terminologa (I)
n n
KDD: Knowledge discovery in databases. Engloba ms aspectos que Data Mining:

n
Preprocesados de los datos:

Eliminacin de ruidos. Cambios de variable y transformaciones (extraccin de caractersticas mediante PCA, ICA, etc. Se ver en otra asignatura).
n n
Data mining o extraccin de informacin. Procesos posteriores:

Interpretacin de resultados. Generacin de informes.
24
Terminologa (II)
n n
EDD: Exploratory Data Analysis. Engloba ms aspectos que Data Mining:

n
Preprocesados de los datos:

Eliminacin de ruidos. Cambios de variable y transformaciones (extraccin de caractersticas mediante PCA, ICA, etc. Se ver en otra asignatura).
n n
Data mining o extraccin de informacin. Procesos posteriores:

Interpretacin de resultados. Generacin de informes.
25
Terminologa (III)
n
n
Text mining.
Bsqueda de patrones en textos.
n n
Bsqueda de documentos similares en bases de datos. Asociacin automtica de palabras clave (keywords) a documentos. Bsqueda de datos concretos (en tablas, por ejemplo) en grandes bases de datos de documentos.
En ningn caso son procesos triviales.
26
Terminologa (IV)
n
n
Web mining.
Bsqueda de datos en internet. Mltiples buscadores: Google, etc. No se trata de simples bsquedas en bases de datos. El indexado es muy complejo:
n
n n
Por cada palabra (o grupo de palabras), se crean ndices indicando el nmero de ocurrencias en cada documento. Se comprime la informacin mediante PCA, ICA o RP (se vern mtodos en otra asignatura).
27
Aprendizaje Automtico y Data Mining
Bloque IV
DATA MINING
28

5 Data Mining

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

5 Data Mining

Cargado por

Copyright:

Formatos disponibles

Aprendizaje Automtico y Data Mining

Definicin y aplicaciones. Grupos de tcnicas:

Visualizacin. Verificacin. Descubrimiento.

Eficiencia computacional. Bsqueda de patrones temporales. Terminologa.

Definicin y aplicaciones (I)

Definicin y aplicaciones (II)

Dos posibles enfoques para el problema:

Origen del trmino DATA MINING

Definicin y aplicaciones (III)

Relacin con el aprendizaje automtico:

Definicin y aplicaciones (IV)

Grupos de tcnicas (I)

3 grupos de tcnicas principales:

Grupos de tcnicas (II)

Visualizacin en 2D de datos multidimensionales. Problema con mltiples atributos:

Se calculan las distancias entre cada 2 instancias de entrenamiento.

(temp1 temp2 )2 + (vib1 vib2 )2 + (horas1 horas2 )2 + (rev1 rev2 )2

Grupos de tcnicas (III)

Grupos de tcnicas (IV)

si (temp=alta) y (vibr=altas) entonces (fallar)

Interesan soporte y precisin altos.

Grupos de tcnicas (V)

Descriptivo: se busca un modelo legible.

Predictivo: no importa si el modelo no es legible.

Eficiencia computacional (I)

Eficiencia computacional (II)

Con movimiento de datos entre procesadores.

Eficiencia computacional (III)

Sin movimiento de datos entre procesadores.

BSQUEDA DE PATRONES TEMPORALES

Bsqueda patrones temporales (I)

Bsqueda patrones temporales (II)

Ordenacin temporal de los registros de cada paciente.

Bsqueda patrones temporales (III)

Bsqueda patrones temporales (IV)

Bsqueda de secuencias repetidas:

Poda de las secuencias:

KDD: Knowledge discovery in databases. Engloba ms aspectos que Data Mining:

Preprocesados de los datos:

Data mining o extraccin de informacin. Procesos posteriores:

EDD: Exploratory Data Analysis. Engloba ms aspectos que Data Mining:

Preprocesados de los datos:

Data mining o extraccin de informacin. Procesos posteriores:

En ningn caso son procesos triviales.

Aprendizaje Automtico y Data Mining

También podría gustarte