Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bloque IV
DATA MINING
ndice
n n
n n n
DEFINICIN Y APLICACIONES
Data Mining (minera de datos): tcnicas para la extraccin de informacin oculta en grandes bases de datos.
n
Grandes cantidades de informacin recopiladas en los ltimos aos (mbitos financiero, metereolgico, telefona, medicina, investigacin, supermercados, etc.). Fcil y barato recopilar informacin. Se piensa que la informacin puede ser til. Pero el gran volumen la hace inmanejable, es imposible extraer la informacin til y descartar la irrelevante.
4
Tradicional:
Anlisis manual realizado por un estadstico o un programador. Se requiere personal muy experimentado. Anlisis automtico o semi-automtico mediante herramientas de fcil uso. No es necesario personal experto. DATA MINING.
Actual:
Minera de datos: es necesario remover muchos datos (tierra) para extraer algo de informacin (metal).
5
Se busca un modelo que explique o se ajuste a los ejemplos recopilados, igual que en aprendizaje automtico. Se utilizan modelos similares:
rboles de decisin. Listas de reglas. Mtodos bayesianos. Redes neuronales.
Principal diferencia: los algoritmos estn adaptados para poder trabajar sobre grandes bases de datos.
6
Principales aplicaciones:
n
Marketing: estudio del comportamiento de consumidores a partir de datos recopilados (compra con tarjetas de crdito). Finanzas: estudio de mercados, de productos, de clientes, de prstamos, etc. Medicina: diagnstico automtico a partir de bases de datos con historias clnicas de pacientes. Distribucin de energa: pervisiones de demanda a partir de datos histricos. Redes de telefona o datos: previsiones de demanda, de ocupacin de lneas, de anchos de banda utilizados a lo largo del da, etc. Deteccin de fallos: en cadenas de produccin, en centrales de produccin de energa, etc.
GRUPOS DE TCNICAS
Visualizacin.
Ayudas para el descubrimiento manual de informacin. Se muestran tendencias, agrupamientos de datos, etc. Funcionamiento semi-automtico. Se conoce de antemano un modelo y se desea saber si los datos disponibles se ajustan a l. Se establecen medidas de ajuste al modelo. Se busca un modelo desconocido de antemano. Descubrimiento descriptivo: se busca modelo legible. Descubrimiento predictivo: no importa que el modelo no sea legible.
9
Verificacin.
Descubrimiento.
Tcnicas de visualizacin:
n n
Se crea un grfico 2D en el que cada instancia corresponde a un punto y en el que las distancias entre instancias son lo ms parecidas posible a las distancias reales.
10
Ejemplo de visualizacin:
Dim.2
7 9 2 6 5 1 8 4 3
At1 Ej. 1 Ej. 2 Ej. 3 Ej. 4 Ej. 5 Ej. 6 Ej. 7 Ej. 8 Ej. 9 -
At2 -
At3 -
At4 -
At5 -
At6 -
Dim.1
11
Tcnicas de verificacin:
n
Se conoce de antemano un modelo y se desea verificar si es un buen modelo para el conjunto de instancias disponible. Medidas utilizadas: soporte y precisin.
Soporte: dada una regla, porcentaje de instancias que cumplen sus condiciones. Precisin: dada una regla, porcentaje de casos en los que la regla se cumple.
soporte
Tcnicas de descubrimiento.
n
13
EFICIENCIA COMPUTACIONAL
14
Ejemplo: procesamiento paralelo para crear un rbol de decisin. Objetivo: elegir el atributo ms apropiado para cada nodo, pero con un gran nmero de datos. Dos posibles estrategias:
n
Con movimiento de datos entre procesadores. Sin movimiento de datos entre procesadores.
15
Reparto aleatorio de ejemplos (instancias) entre los procesadores. En cada procesador, ajuste de una funcin de distribucin de probabilidad de los valores de los atributos. Recopilacin de resultados (funciones) y envo a un nico procesador. En ese procesador se elige el atributo a utilizar en el nodo correspondiente del rbol. Se repite el proceso para todos los nodos.
2.
3.
4.
5.
16
Nodo raz: se elige el atributo como en el caso anterior. Los ejemplos correspondientes a cada rama (desde el nodo anterior) se llevan a un conjunto distinto de procesadores. Cada grupo de procesadores trabaja independientemente sobre su rama del rbol. El reparto contina hasta que el nmero de ramas es igual al nmero de procesadores. Cada procesador trabaja independientemente hasta completar su rama del rbol.
3.
4.
5.
17
18
Ejemplo de la dificultad que puede alcanzar la extraccin de informacin en bases de datos. Trabajaremos sobre un problema mdico:
n n
Se dispone de historias clnicas de mltiples pacientes. Se desean extraer secuencias de comportamientos que se repitan con frecuencia. Los atributos son los sntomas detectados o las mediciones tomadas en cada revisin:
Temperatura. Presin. Medidas en anlisis (porcentajes). Etc.
19
Algoritmo:
1.
D A S
PACIENTE 4 ATRIBUTOS D A S D A S -
PACIENTE 5 ATRIBUTOS D A S -
PACIENTE 6 ATRIBUTOS -
20
Bsqueda de combinaciones de atributos (sntomas) que se repiten en un mismo da simultneamente con alta frecuencia (entre todos los pacientes). Se descartan todos los restantes das (combinaciones de atributos que no se repiten con frecuencia). Sobre la lista ordenada restante, se buscan secuencias repetidas.
3.
4.
21
5.
22
TERMINOLOGA
23
Terminologa (I)
n n
n n
Terminologa (II)
n n
n n
Terminologa (III)
n
n
Text mining.
Bsqueda de patrones en textos.
n n
Bsqueda de documentos similares en bases de datos. Asociacin automtica de palabras clave (keywords) a documentos. Bsqueda de datos concretos (en tablas, por ejemplo) en grandes bases de datos de documentos.
26
Terminologa (IV)
n
n
Web mining.
Bsqueda de datos en internet. Mltiples buscadores: Google, etc. No se trata de simples bsquedas en bases de datos. El indexado es muy complejo:
n
n n
Por cada palabra (o grupo de palabras), se crean ndices indicando el nmero de ocurrencias en cada documento. Se comprime la informacin mediante PCA, ICA o RP (se vern mtodos en otra asignatura).
27
Bloque IV
DATA MINING
28