Está en la página 1de 28

Aprendizaje Automtico y Data Mining

Bloque IV

DATA MINING

ndice
n n

Definicin y aplicaciones. Grupos de tcnicas:


n n n

Visualizacin. Verificacin. Descubrimiento.

n n n

Eficiencia computacional. Bsqueda de patrones temporales. Terminologa.

DEFINICIN Y APLICACIONES

Definicin y aplicaciones (I)


n

Data Mining (minera de datos): tcnicas para la extraccin de informacin oculta en grandes bases de datos.
n

Grandes cantidades de informacin recopiladas en los ltimos aos (mbitos financiero, metereolgico, telefona, medicina, investigacin, supermercados, etc.). Fcil y barato recopilar informacin. Se piensa que la informacin puede ser til. Pero el gran volumen la hace inmanejable, es imposible extraer la informacin til y descartar la irrelevante.
4

Definicin y aplicaciones (II)


n

Dos posibles enfoques para el problema:


n

Tradicional:
Anlisis manual realizado por un estadstico o un programador. Se requiere personal muy experimentado. Anlisis automtico o semi-automtico mediante herramientas de fcil uso. No es necesario personal experto. DATA MINING.

Actual:

Origen del trmino DATA MINING


n

Minera de datos: es necesario remover muchos datos (tierra) para extraer algo de informacin (metal).
5

Definicin y aplicaciones (III)


n

Relacin con el aprendizaje automtico:


n

Se busca un modelo que explique o se ajuste a los ejemplos recopilados, igual que en aprendizaje automtico. Se utilizan modelos similares:
rboles de decisin. Listas de reglas. Mtodos bayesianos. Redes neuronales.

Principal diferencia: los algoritmos estn adaptados para poder trabajar sobre grandes bases de datos.
6

Definicin y aplicaciones (IV)


n

Principales aplicaciones:
n

Marketing: estudio del comportamiento de consumidores a partir de datos recopilados (compra con tarjetas de crdito). Finanzas: estudio de mercados, de productos, de clientes, de prstamos, etc. Medicina: diagnstico automtico a partir de bases de datos con historias clnicas de pacientes. Distribucin de energa: pervisiones de demanda a partir de datos histricos. Redes de telefona o datos: previsiones de demanda, de ocupacin de lneas, de anchos de banda utilizados a lo largo del da, etc. Deteccin de fallos: en cadenas de produccin, en centrales de produccin de energa, etc.

GRUPOS DE TCNICAS

Grupos de tcnicas (I)


n

3 grupos de tcnicas principales:


n

Visualizacin.
Ayudas para el descubrimiento manual de informacin. Se muestran tendencias, agrupamientos de datos, etc. Funcionamiento semi-automtico. Se conoce de antemano un modelo y se desea saber si los datos disponibles se ajustan a l. Se establecen medidas de ajuste al modelo. Se busca un modelo desconocido de antemano. Descubrimiento descriptivo: se busca modelo legible. Descubrimiento predictivo: no importa que el modelo no sea legible.
9

Verificacin.

Descubrimiento.

Grupos de tcnicas (II)


n

Tcnicas de visualizacin:
n n

Visualizacin en 2D de datos multidimensionales. Problema con mltiples atributos:


Vibraciones. Temperatura. Horas funcionamiento. Meses desde revisin

Se calculan las distancias entre cada 2 instancias de entrenamiento.


d ( x1 , x2 ) =

(temp1 temp2 )2 + (vib1 vib2 )2 + (horas1 horas2 )2 + (rev1 rev2 )2

Se crea un grfico 2D en el que cada instancia corresponde a un punto y en el que las distancias entre instancias son lo ms parecidas posible a las distancias reales.
10

Grupos de tcnicas (III)


n

Ejemplo de visualizacin:
Dim.2
7 9 2 6 5 1 8 4 3

At1 Ej. 1 Ej. 2 Ej. 3 Ej. 4 Ej. 5 Ej. 6 Ej. 7 Ej. 8 Ej. 9 -

At2 -

At3 -

At4 -

At5 -

At6 -

Dim.1

11

Grupos de tcnicas (IV)


n

Tcnicas de verificacin:
n

Se conoce de antemano un modelo y se desea verificar si es un buen modelo para el conjunto de instancias disponible. Medidas utilizadas: soporte y precisin.
Soporte: dada una regla, porcentaje de instancias que cumplen sus condiciones. Precisin: dada una regla, porcentaje de casos en los que la regla se cumple.
soporte

si (temp=alta) y (vibr=altas) entonces (fallar)


precisin n

Interesan soporte y precisin altos.


12

Grupos de tcnicas (V)


n

Tcnicas de descubrimiento.
n

Descriptivo: se busca un modelo legible.


Clustering (agrupamiento). Resumen. Generacin de reglas en cualquier formato.
Justifican la clase (ej. rboles de decisin). Justifican cualquier relacin (ej. reglas de asociacin).

Predictivo: no importa si el modelo no es legible.


Clasificacin. Anlisis de series temporales (prediccin). Regresin.

13

EFICIENCIA COMPUTACIONAL

14

Eficiencia computacional (I)


n

Ejemplo: procesamiento paralelo para crear un rbol de decisin. Objetivo: elegir el atributo ms apropiado para cada nodo, pero con un gran nmero de datos. Dos posibles estrategias:
n

Con movimiento de datos entre procesadores. Sin movimiento de datos entre procesadores.

15

Eficiencia computacional (II)


n

Con movimiento de datos entre procesadores.


1.

Reparto aleatorio de ejemplos (instancias) entre los procesadores. En cada procesador, ajuste de una funcin de distribucin de probabilidad de los valores de los atributos. Recopilacin de resultados (funciones) y envo a un nico procesador. En ese procesador se elige el atributo a utilizar en el nodo correspondiente del rbol. Se repite el proceso para todos los nodos.

2.

3.

4.

5.

16

Eficiencia computacional (III)


n

Sin movimiento de datos entre procesadores.


1. 2.

Nodo raz: se elige el atributo como en el caso anterior. Los ejemplos correspondientes a cada rama (desde el nodo anterior) se llevan a un conjunto distinto de procesadores. Cada grupo de procesadores trabaja independientemente sobre su rama del rbol. El reparto contina hasta que el nmero de ramas es igual al nmero de procesadores. Cada procesador trabaja independientemente hasta completar su rama del rbol.

3.

4.

5.

17

BSQUEDA DE PATRONES TEMPORALES

18

Bsqueda patrones temporales (I)


n

Ejemplo de la dificultad que puede alcanzar la extraccin de informacin en bases de datos. Trabajaremos sobre un problema mdico:
n n

Se dispone de historias clnicas de mltiples pacientes. Se desean extraer secuencias de comportamientos que se repitan con frecuencia. Los atributos son los sntomas detectados o las mediciones tomadas en cada revisin:
Temperatura. Presin. Medidas en anlisis (porcentajes). Etc.
19

Bsqueda patrones temporales (II)


n

Algoritmo:
1.

Ordenacin temporal de los registros de cada paciente.


PACIENTE 1 ATRIBUTOS PACIENTE 2 ATRIBUTOS D A S D A S PACIENTE 3 ATRIBUTOS -

D A S

PACIENTE 4 ATRIBUTOS D A S D A S -

PACIENTE 5 ATRIBUTOS D A S -

PACIENTE 6 ATRIBUTOS -

20

Bsqueda patrones temporales (III)


2.

Bsqueda de combinaciones de atributos (sntomas) que se repiten en un mismo da simultneamente con alta frecuencia (entre todos los pacientes). Se descartan todos los restantes das (combinaciones de atributos que no se repiten con frecuencia). Sobre la lista ordenada restante, se buscan secuencias repetidas.

3.

4.

21

Bsqueda patrones temporales (IV)


4.

Bsqueda de secuencias repetidas:


n Mltiples pasadas sobre la base de datos. n Se comienza con secuencias de un elemento (las de la etapa anterior). n En cada pasada se aade un nuevo elemento para crear nuevas secuencias candidatas. n Las secuencias candidatas se evalan, slo se mantienen aquellas cuya frecuencia de repeticin supera un cierto umbral.

5.

Poda de las secuencias:


n Se eliminan todas las secuencias que estn contenidas en otra secuencia ms larga.

22

TERMINOLOGA

23

Terminologa (I)
n n

KDD: Knowledge discovery in databases. Engloba ms aspectos que Data Mining:


n

Preprocesados de los datos:


Eliminacin de ruidos. Cambios de variable y transformaciones (extraccin de caractersticas mediante PCA, ICA, etc. Se ver en otra asignatura).

n n

Data mining o extraccin de informacin. Procesos posteriores:


Interpretacin de resultados. Generacin de informes.
24

Terminologa (II)
n n

EDD: Exploratory Data Analysis. Engloba ms aspectos que Data Mining:


n

Preprocesados de los datos:


Eliminacin de ruidos. Cambios de variable y transformaciones (extraccin de caractersticas mediante PCA, ICA, etc. Se ver en otra asignatura).

n n

Data mining o extraccin de informacin. Procesos posteriores:


Interpretacin de resultados. Generacin de informes.
25

Terminologa (III)
n
n

Text mining.
Bsqueda de patrones en textos.
n n

Bsqueda de documentos similares en bases de datos. Asociacin automtica de palabras clave (keywords) a documentos. Bsqueda de datos concretos (en tablas, por ejemplo) en grandes bases de datos de documentos.

En ningn caso son procesos triviales.

26

Terminologa (IV)
n
n

Web mining.
Bsqueda de datos en internet. Mltiples buscadores: Google, etc. No se trata de simples bsquedas en bases de datos. El indexado es muy complejo:
n

n n

Por cada palabra (o grupo de palabras), se crean ndices indicando el nmero de ocurrencias en cada documento. Se comprime la informacin mediante PCA, ICA o RP (se vern mtodos en otra asignatura).
27

Aprendizaje Automtico y Data Mining

Bloque IV

DATA MINING

28

También podría gustarte

  • Ficha Español DS-PR1-WB
    Ficha Español DS-PR1-WB
    Documento3 páginas
    Ficha Español DS-PR1-WB
    Alex Emmanuel Martinez Cortes
    Aún no hay calificaciones
  • Ctrol HK PDF
    Ctrol HK PDF
    Documento1 página
    Ctrol HK PDF
    Alex Emmanuel Martinez Cortes
    Aún no hay calificaciones
  • Guia - Rapida - SF-600W
    Guia - Rapida - SF-600W
    Documento1 página
    Guia - Rapida - SF-600W
    Alex Emmanuel Martinez Cortes
    Aún no hay calificaciones
  • Metodo de Biseccion
    Metodo de Biseccion
    Documento4 páginas
    Metodo de Biseccion
    Alex Emmanuel Martinez Cortes
    Aún no hay calificaciones
  • Beans
    Beans
    Documento9 páginas
    Beans
    Nancy Adriana Gomez Rodriguez
    Aún no hay calificaciones
  • Ejercicios 18.5 y 18.7 Chapra
    Ejercicios 18.5 y 18.7 Chapra
    Documento1 página
    Ejercicios 18.5 y 18.7 Chapra
    Alex Emmanuel Martinez Cortes
    Aún no hay calificaciones
  • Prolog
    Prolog
    Documento41 páginas
    Prolog
    Sergio D'Chko Mandgtz
    Aún no hay calificaciones
  • Curso de Prolog
    Curso de Prolog
    Documento62 páginas
    Curso de Prolog
    Neto HZ
    Aún no hay calificaciones
  • Reproductor Kinect
    Reproductor Kinect
    Documento7 páginas
    Reproductor Kinect
    Alex Emmanuel Martinez Cortes
    Aún no hay calificaciones
  • Calculo para La Ingenieria
    Calculo para La Ingenieria
    Documento403 páginas
    Calculo para La Ingenieria
    F.W.
    100% (52)
  • Productos Notables
    Productos Notables
    Documento14 páginas
    Productos Notables
    Felipe Escamilla Hdez
    Aún no hay calificaciones
  • Alg II
    Alg II
    Documento37 páginas
    Alg II
    Alex Emmanuel Martinez Cortes
    Aún no hay calificaciones
  • Distribuciones Discretas
    Distribuciones Discretas
    Documento12 páginas
    Distribuciones Discretas
    Daniel Torres Perez
    Aún no hay calificaciones