Está en la página 1de 38

Introduccin

x conceptos relacionados

x Las tcnicas de minera de datos


S
PARTE II
x Clasificacin
La agrupacin x
x Reglas de asociacin
S
PARTE III
x Web Mining
x espacial Minera
x Temporal Minera

Pgina 3
Introduccin

s Definir la minera de datos


bases de datos de minera de
datos s vs.
s tareas de minera de datos bsicos

desarrollo de la minera de datos s


temas de minera de datos s
Objetivo: Proporcionar una visin general de la minera de datos.

Pgina 4
Introduccin
sde datos est creciendo a un
fenomenal
tarifa

sLos usuarios esperan ms


sofisticado
informacin

Cmo se hace?
DESCUBRA LA INFORMACIN OCULTADA
Minera de datos

Pgina 5
Definicin de minera de datos

constatacin informacin oculta en


una
base de datos

datos ajustaron a un modelo


s

Trminos similares
x anlisis de datos exploratorio
x Los datos descubrimiento impulsado

x aprendizaje deductivo

Pgina 6
Procesamiento de bases de datos vs.
Procesamiento de minera de datos
Consulta
Bien definido
- SQL
Consulta
- Poco definido
- Ninguna consulta precisa
idioma

datos
- Datos operacionales

salida
- Preciso
- Subconjunto de la base de datos

datos
- Datos no operativos

salida
Difuso
- No es un subconjunto de la base de datos

n a un modelo
Trminos similares
x anlisis de datos exploratorio
x Los datos descubrimiento impulsado

x aprendizaje deductivo

Pgina 6
Procesamiento de bases de datos vs.
Procesamiento de minera de datos
Consulta
Bien definido
- SQL
Consulta
- Poco definido
- Ninguna consulta precisa
idioma
datos
- Datos operacionales

salida
- Preciso
- Subconjunto de la base de datos

datos
- Datos no operativos

salida
Difuso
- No es un subconjunto de la base de datos

Pgina 7
Ejemplos de consulta

s Base de Datos
s Data Mining
- Todos los clientes que han comprado leche
- Buscar todos los artculos que se compran con frecuencia
con leche. (reglas de asociacin)
-Encontrar todos los solicitantes de crdito
con el apellido de Smith.
- Identificar a los clientes que han comprado ms
De $ 10,000 en el ltimo mes.
-Encontrar todos los solicitantes de crdito
que son pobres de crdito
Riesgos. (clasificacin)
- Identificar clientes con hbitos de compra similares.
(Agrupacin)

Pgina 8
Modelos y tareas de minera de datos
Pgina 9
Tareas bsicas de minera de datos
S
Mapas datos de clasificacin en grupos predefinidos o
Clases
El aprendizaje supervisado x
El reconocimiento de patrones x
x Prediccin
S
La regresin se utiliza para asignar un elemento de datos a una verdadera
Variable de prediccin valorada.
S
La agrupacin de los grupos de datos similar juntos en grupos.
x aprendizaje no supervisado
x Segmentacin

x Particiones

Pgina 10
Tareas bsicas de minera de datos (continuacin)
S
Datos de mapas de resumen en subconjuntos con
Descripciones simples asociadas.
x Caracterizacin
x Generalizacin
S
Anlisis enlace descubre relaciones entre los datos.
x Anlisis Affinity
x Reglas de asociacin

x anlisis secuencial determina patrones

secuenciales.
Pgina 11
Ejemplo: Anlisis de series temporales
Ejemplo: Bolsa de Valores
Predecir los valores futuros
Determinar patrones similares en el tiempo
Clasificar el comportamiento

Pgina 12
Minera de Datos vs. KDD

sdescubrimiento de conocimiento
en bases de datos (KDD):
Proceso de bsqueda de informacin til y
Patrones en los datos.

sde minera de datos: El uso de


algoritmos para extraer el
Informacin y patrones derivados por el KDD
proceso.

Pgina 13
Proceso KDD
S
Seleccin: Obtener datos de diversas fuentes.
S
Preprocesamiento: Limpiar datos.
S
Transformacin: Convertir a formato comn.
Transforma a nuevo formato.
S
Minera de datos: obtener los resultados deseados.
S
Interpretacin / Evaluacin: Presentar los resultados a los usuarios en
Manera significativa.
Modificado en [FPSS96C]

Pgina 14
KDD Proceso Ex: Registro Web
S
Seleccin:
x Seleccin de registro de datos (fechas y lugares) a
utilizar
S
Preprocesamiento:
x Retirela identificacin de URL
x Eliminar registros de errores
S
Transformacin:
x Sessionize (tipo y grupo)
S
Minera de datos:
Identificary contar los patrones
x Construir estructura de datos
S
Interpretacin / Evaluacin:
x Identificar y mostrar secuencias de acceso
frecuente.
S
Aplicaciones potenciales del usuario:
x prediccin Cache
x Personalizacin

Pgina 15
Desarrollo de la minera de datos
Medidas de Similitud
Agrupacin jerrquica
Sistemas IR
Consultas imprecisas
Datos textuales
Motores de bsqueda web
Teorema de Bayes
Anlisis de regresin
Algoritmo EM
K-Means Clustering
Anlisis de series temporales
Redes neuronales
Algoritmos del rbol de decisin
Tcnicas de Diseo de Algoritmos
Anlisis de Algoritmos
Estructuras de datos
Modelo de Datos Relacionales
SQL
Algoritmos de reglas de asociacin
Almacenamiento de datos
Tcnicas de Escalabilidad

Pgina 16
Problemas de KDD

s Interaccin Humano
s Overfitting

s Los valores atpicos

s Interpretacin

s Visualizacin

s grandes conjuntos de datos

s alta dimensionalidad

Pgina 17
Cuestiones del KDD (cont.)

s Datos Multimedia
s Falta de Datos

s datos irrelevantes

s ruidoso Datos

s Cambio de Datos
s Integracin
s Aplicacin

Pgina 18
Implicaciones sociales de
DM

s privacidad
s de perfiles

s El uso no autorizado

Pgina 19
Mtricas de minera de datos

s Utilidad
s retorno de la inversin (ROI)

s Precisin

s Espacio / Tiempo

Pgina 20
Perspectiva de base de datos sobre datos
Minera

s Escalabilidad
s dato del Mundo Real

s Actualizaciones

s Facilidad de uso

Pgina 21
Tcnicas de visualizacin

s grfica
s geomtrica

basado en iconos s
basado en Pxeles s
s jerrquica

s hbrido

Pgina 22
Conceptos relacionados Esquema
S
Base de Datos / Sistemas OLTP
S
Conjuntos Fuzzy y Lgica
S
Recuperacin de informacin (motores de bsqueda web)
S
Modelado Dimensional
S
Almacenamiento de datos
S
OLAP / DSS
S
Estadstica
S
Aprendizaje automtico
S
La coincidencia de patrones
Objetivo: Examinar algunas reas que estn relacionadas con
Minera de datos

Pgina 23
Sistemas DB & OLTP
S
Esquema
x (ID, nombre, direccin, salario, JobNo)
S
Modelo de datos
x ER
x relacional
S
Transaccin
S
Consulta:
SELECT Nombre
De T
WHERE Salario> 100000
DM: Slo consultas imprecisas

Pgina 24
Conjuntos Fuzzy y Lgica
S
Conjunto difuso: Establecer funcin de pertenencia es una funcin real
Con salida en el rango [0,1].
S
F (x): La probabilidad x est en F.
S
1-f (x): La probabilidad x no est en F.
S
EX:
x T = {x | X es una persona y x es alto}
x Sea f (x) la probabilidad de que x es alto

x Aqu f es la funcin de pertenencia

DM: Prediccin y clasificacin son difusos.


Pgina 25
Conjuntos difusos

Pgina 26
Clasificacin / Prediccin
Est borroso
Prstamo
Amnt
Sencillo
Borroso
Aceptar
Aceptar
Rechazar
Rechazar

Pgina 27
Recuperacin de informacin
S
Recuperacin de Informacin (IR): recuperacin de la informacin deseada a
partir de
Datos textuales.
S
La ciencia de la biblioteca
S
Bibliotecas digitales
S
Motores de bsqueda web
S
Tradicionalmente basada en palabras clave
S
Ejemplo de consulta:
Buscar todos los documentos sobre "data mining".
DM: Medidas de similitud;
Mine texto / datos web.

Pgina 28
Recuperacin de informacin
(Cont.)

sSimilitud: medida de lo cerca que


una consulta es
A un documento.

los documentos que son


s de

suficientemente cerca son


Recuperado

s Mtrica:
x= Precisin | pertinentes y se
recuper |
Recuperado |

Recordemos x = | pertinentes y se
recuper |
| Relevante |

Pgina 29
Resultado de la consulta IR
Medidas y
Clasificacin
IR
Clasificacin

Pgina 30
Modelado Dimensional
S
Ver los datos de forma jerrquica ms como negocio
Los ejecutivos podran
S
til en sistemas de apoyo a la toma de decisiones y minera
S
Dimensin: conjunto de atributos relacionados lgicamente;
Eje para modelar datos.
S
Datos: los datos almacenados
S
Ejemplo: Dimensiones - productos, ubicaciones, fecha
Hechos - cantidad, precio unitario
DM: Puede ver los datos como dimensionales.

Pgina 31
Vista Relacional de Datos
ID de producto
Fecha Cantidad Precio por Unidad
123
Dallas
022900 5
25
123
Houston 020100 10
20
150
Dallas
031500 1
100
150
Dallas
031500 5
95
150
Fuerte
Valor
021000 5
80
150
Chicago 012000 20
75
200.
Seattle
030100 5
50
300
Rochester 021500 200
5
500
Bradenton 022000 15
20
500
Chicago 012000 10
25
1

Pgina 32
Consultas de modelado dimensional
s Roll Up: dimensin ms general
s desglosar: dimensin ms

especfica
s Dimensin (agregacin) Jerarqua

s SQL utiliza agregacin

Sistemas s apoyo a las decisiones


(DSS): Computer
Sistemas y herramientas para ayudar a los
Tomar decisiones y resolver problemas.

Pgina 33
Vista de cubo de datos

Pgina 34
Jerarquas de agregacin

Pgina 35
Esquema de estrella

Pgina 36
Almacenamiento de datos
S
De carcter temtico, integrado, variable con el
tiempo, no voltil William
Inmon
S
Datos operativos: Los datos utilizados en el da a da las necesidades de la
empresa.
S
Informacin Tcnica: Compatible con otras funciones, como la planificacin
Y pronstico.
S
Las herramientas de minera de datos a menudo tienen acceso a almacenes de
datos en lugar de
Datos operacionales.
DM: Puede acceder a los datos en el almacn.

Pgina 37
Operacional vs. Informativo

Datos operacionales
Almacn de datos
Solicitud
OLTP
OLAP
Utilizar
Consultas precisas
Ad hoc
Temporal
Instantnea
Histrico
Modificacin
Dinmica
Esttico
Orientacin
Solicitud
Negocio
Datos
Valores Operacionales
Integrado
tamao
Gigabits
Terabits
Nivel
Detallado
Resumido
Acceso
A menudo
Con menos frecuencia
Respuesta
Pocos segundos
Minutos
Esquema de datos
Relacional
Estrella / copo de nieve

Pgina 38
OLAP
S
Online Analytic Processing (OLAP): proporciona ms complejo
Consultas de OLTP.
S
Procesamiento de transacciones en lnea (OLTP): tradicional
Base de datos / procesamiento de transacciones.
S
Datos dimensionales; Cube ver
S
Visualizacin de operaciones:
x Slice: examinar sub-cubo.
Dados x: rotar el cubo para mirar a otra dimensin.
x Roll Up / Drill Down
DM: Puede utilizar consultas OLAP.

Pgina 39
Operaciones OLAP
Unicelular
Clulas Mltiples
Rebanada
Dado
Enrollar
Profundizar

Pgina 40
Estadstica
S
Modelos descriptivos simples
S
La inferencia estadstica: la generalizacin de un modelo creado
Desde una muestra de los datos hasta el conjunto de datos completo.
S
Anlisis exploratorio de datos:
xLos datos en realidad puede conducir
a la creacin de la
modelo

xEnfrente de vista estadstico


tradicional.
S
Minera de datos dirigida a usuarios empresariales
DM: Muchos mtodos de minera de datos vienen de
Tcnicas estadsticas.

Pgina 41
Aprendizaje automtico
S
Mquina de aprendizaje: el rea de la IA que examina cmo escribir
Programas que pueden aprender.
S
A menudo utilizado en la clasificacin y prediccin
S
Aprendizaje supervisado: aprende con el ejemplo.
S
El aprendizaje no supervisado: aprende sin el conocimiento de la correcta
Respuestas.
S
El aprendizaje automtico a menudo se ocupa de pequeos conjuntos de datos
estticos.
DM: Usa muchas tcnicas de aprendizaje automtico.

Pgina 42
La coincidencia de patrones
(Reconocimiento)

scoincidencia de
patrones: encuentra
Ocurrencias de un evento predefinido
Patrn en los datos.
sLas aplicaciones incluyen el habla
Reconocimiento, recuperacin de informacin,
anlisis de series temporales.
DM: Tipo de clasificacin.

Pgina 43
DM vs. Temas relacionados
Consulta de rea
Datos
Resultado
S
Salida
DB / OLT
PAG
Resumen
mi
Base de datos
Resumen
mi
DB
Objetos o
Aggregati
en
IR
Resumen
mi
Documentos
Documento vago
S
OLAP Analysi
S
Multidimensio
Nal
Resumen
mi
DB
Objetos o
Aggregati
en
DM
Vague Preprocessed Vague KDD
Objetos

Pgina 44
Esquema de Tcnicas de Minera de Datos
S
Estadstico
x Punto de Estimacin
x modelos basados en Summarization
x Teorema de Bayes
x Prueba de hiptesis
x regresin y correlacin
S
Medidas de Similitud
S
rboles de decisin
S
Redes neuronales
x funciones de activacin
S
Algoritmos genticos

Proporcionar una visin


Objetivo:

general de los datos bsicos


Tcnicas de minera

Pgina 45
Estimacin puntual
S
Estimacin puntual: estimar un parmetro de la poblacin.
S
Puede realizarse calculando el parmetro para una
muestra.
S
Puede utilizarse para predecir el valor de los datos que faltan.
S
Ex:
x R contiene 100 empleados
x 99 tienen informacin sobre los salarios

x salario medio de stos es de $ 50.000

x Utilice $ 50,000 como valor de permanecer

salario del empleado.


Es esta una buena idea?

Pgina 46
Error de estimacin
S
Sesgo: La diferencia entre los resultados esperados
Valor y valor real.
S
Error cuadrtico medio (MSE): se espera
Valor de la diferencia cuadrtica entre
La estimacin y el valor real:
S
Por qu cuadrado?
S
Error cuadrtico medio de la raz (RMSE)

Pgina 47
Estimacin de Jackknife
S
Jackknife Estimado: estimacin del parmetro es
Obtenido al omitir un valor del conjunto de
Valores observados.
S
Ejemplo: estimacin de la media para X = {x
1
,,x
norte
}

Pgina 48
Estimacin de mxima verosimilitud
(MLE)
S
Obtener estimaciones de parmetros que maximicen la
Probabilidad de que los datos de la muestra se
Modelo especfico.
S
Probabilidad conjunta para observar los datos de la muestra
Multiplicando las probabilidades individuales. Probabilidad
funcin:
S
Maximizar L.

Pgina 49
Ejemplo MLE
S
Lanzamiento de monedas cinco veces: {H, H, H, H, T}
S
Asumiendo una moneda perfecta con H y T igualmente probable, la
La probabilidad de esta secuencia es:
S
Sin embargo, si la probabilidad de que H sea 0,8, entonces:

Pgina 50
Expectativa-
Maximizacin (EM)

sResuelve estimacin con


incompleto
datos.

s obtener estimaciones iniciales para


Parmetros.

sutilizar iterativamente las


estimaciones para
Datos perdidos y contine hasta
convergencia.

Pgina 51
Ejemplo EM
Pgina 52
Algoritmo EM

Pgina 53
Teorema de Bayes
S
Probabilidad posterior: P (h
1
X
yo
)
S
Probabilidad previa: P (h
1
)
S
Bayes Teorema:
S
Asignar probabilidades de hiptesis dadas
Un valor de datos.

Pgina 54
Ejemplo de Teorema de Bayes
S
Autorizaciones de crdito (hiptesis): h
1
= Autorizar
Compra h
2
= Autorizar despus de una identificacin ulterior,
marido
3
= No autorizar, h
4
= No autorizar pero
Contacto con la polica
S
Asigne doce valores de datos para todas las combinaciones de
Crdito e ingresos:
S
A partir de los datos de entrenamiento: P (h
1
) = 60%; P h
2
) = 20%; P h
3
)
= 10%; P h
4
) = 10%.

1
2
3
4
Excelente x 1
x2
x3
x4
Bueno
x5
x6
x7
x8
Malo
x9
x 10
x 11
x 12

Pgina 55
Ejemplo Bayes (cont.)

s Datos Preparacin:
X i Identificacin Ingresos Clase de crdito
14
Excelente h 1
x4
23
Bueno
h1
x7
32
Excelente h 1
x2
43
Bueno
h1
x7
54
Bueno
h1
x8
62
Excelente h 1
x2
73
Malo
h2
x 11
82
Malo
h2
x 10
93
Malo
h3
x 11
10 1
Malo
h4
x9
Pgina 56
Ejemplo Bayes (cont.)
S
Calcular P (x
yo
H
J
) Y P (x
yo
)
S
Ejemplo: P (x
7
H
1
) = 2/6; P (x
4
H
1
) = 1/6; P (x
2
H
1
) = 2/6; P (x
8
H
1
)
= 1/6; P (x
yo
H
1
) = 0 para todos los dems x
yo
.
S
Predice la clase para x
4
:

x Calcular P (h
J
X
4
) Para todos los h
J
.

Lugar x x
4
En clase con mayor valor.

x Ex:
3 P (h
1
X
4
) = (P (x
4
H
1
Pabelln
1
)) / P (x
4
)
= (1/6) (0,6) /0,1 = 1.

3 x
4
En la clase h
1
.

Pgina 57
Regresin
spredecir los valores futuros basados
en
Valores pasados

s Regresin lineal asume


Existe una relacin lineal.
Y=c
0
C
1
x
1
+ ... + c
norte
x
norte

sEncuentre los valores para


adaptarse mejor a los datos
Pgina 58
Regresin lineal

Pgina 59
Correlacin

sExamine el grado en el que los


valores para dos
Las variables se comportan de manera similar.

s Coeficiente de correlacin r:
1 = correlacin perfecta
-1 = correlacin perfecta pero opuesta
0 = ninguna correlacin
Pgina 60
Medidas de Similitud
S
Determinar la similitud entre dos
objetos.
S
Caractersticas de similitud:
S
Alternativamente, medida de medida de distancia
Qu tan diferentes o diferentes son los objetos.

Pgina 61
Medidas de Similitud

Pgina 62
Medidas de distancia

s medida de disimilitud entre objetos


Pgina 63
Juego de veinte preguntas

Pgina 64
rboles de decisin

rbol de Decisin s (DT):


xrbol donde la raz y cada nodo
interno es
Etiquetado con una pregunta.

xLos arcos representan cada posible


respuesta a la
Pregunta asociada.
xCada nodo hoja representa una
prediccin de una
solucin al problema.

stcnica popular para la


clasificacin; Nodo de la hoja
Indica la clase a la que la correspondiente tupla
Pertenece

Pgina 65
Ejemplo del rbol de decisin

Pgina 66
rboles de decisin
S
Un modelo de rbol de decisin es un modelo computacional
Que consta de tres partes:
rbol de Decisin x
x Algoritmo para crear el rbol

x algoritmo que se aplica a los datos del rbol


S
La creacin del rbol es la parte ms difcil.
S
El procesamiento es bsicamente una bsqueda similar a la
rbol de bsqueda binario (aunque DT no puede ser binario).

Pgina 67
Algoritmo del rbol de decisin

Pgina 68
DT Ventajas / Desventajas

s Ventajas:
x fcil de entender.
x fcil de generar reglas
s Desventajas:
X puede sufrir de sobreajuste.
x Clasifica por reparto rectangular.

x no maneja fcilmente los datos no

numricos.
X puede ser bastante grande - la poda es

necesaria.
Pgina 69
Redes neuronales

basado en el funcionamiento
Est

observado de cerebro humano.


s (Redes Neuronales Artificiales

(ANN)
Nuestro punto de vista es de las redes
neuronales es muy simplista.
s Consideramos que una red neuronal

(NN) de una
Punto de vista grfico.
sAlternativamente, un NN puede ser
visto desde el
Perspectiva de las matrices.

sSe utiliza en el reconocimiento de


patrones, reconocimiento de voz,
Visin por computadora y clasificacin.

Pgina 70
Redes neuronales
S
Red neuronal (NN) es un grafo dirigido F = <V, A>
Con vrtices V = {1,2, ..., n} y arcos A = {<i, j> |
1 <= i, j <= n}, con las siguientes restricciones:

xV se divide en un conjunto de nodos


de entrada, V
yo
,
Nodos ocultos, V
MARIDO
, Y nodos de salida, V
O
.

x Los vrtices tambin se dividen en


capas
x cualquier arco <i, j> debe tener el

nodo i en la capa h-1 y


Nodo j en la capa h.
xArco <i, j> se marca con un valor
numrico w
Ij
.

x i nodo est marcado con una funcin f


yo
.

Pgina 71
Ejemplo de red neuronal

Pgina 72
NN Node

Pgina 73
NN Funciones de activacin

s funciones asociadas con los nodos


en el grfico.
s de salida puede estar en el rango [-

1,1] o [0,1]
Pgina 74
NN Funciones de activacin

Pgina 75
NN Aprendizaje

spropagar valores de entrada a travs


de grfico.
s Comparar salida a la salida
deseada.
s Ajuste pesos en el grfico en

consecuencia.
Pgina 76
Redes neuronales
S
Un modelo de red neuronal es un modelo computacional
Que consta de tres partes:

x grfico Neural Network


x algoritmo de aprendizaje que indica

cmo el aprendizaje
Tiene lugar.

tcnicas x recordar que determinan


cmo
La informacin se obtiene de la red.
S
Vamos a ver la propagacin como la tcnica de recordar.

Pgina 77
NN Ventajas

s aprendizaje
s Puede seguir aprendiendo, incluso

despus de conjunto de
entrenamiento
ha sido aplicado.
Es fcil paralelizacin
s resuelve muchos problemas

Pgina 78
NN Desventajas

Es difcil de entender
s puede sufrir de overfitting

s Estructura del grfico debe ser

determinada a priori.
los valores de s de entrada deben ser
numricas.
s Verificacin difcil.

Pgina 79
Algoritmos genticos
S
Algoritmos de tipo de bsqueda de optimizacin.
S
Crea una solucin factible inicial e iterativamente
Crea nuevas soluciones "mejores".
S
Basado en la evolucin humana y la supervivencia de la aptitud.
S
Debe representar una solucin como individuo.
S
Individual: Cadena I =
1
,YO
2
,,YO
norte
donde
J
Est en dado
Alfa Beta.
S
Cada personaje I
J
se llama un gen.
S
Poblacin: conjunto de individuos.

Pgina 80
Algoritmos genticos
S
Un algoritmo gentico (GA) es un modelo computacional
Consistente en cinco partes:

x Un conjunto a partir de individuos, P.


x Crossover: tcnica para combinar dos

padres
Para crear descendencia.

x Mutacin: cambiar al azar un


individuo.
x Fitness: determinar los mejores

individuos.
x algoritmo que se aplica el cruce y
Tcnicas de mutacin para utilizar de forma
Funcin de acondicionamiento fsico para determinar
Individuos en P para mantener.

Pgina 81
Ejemplos de crossover
111 111
000 000
Padres
Nios
111 000
000 111
A) Crossover nico
111 111
Padres
Nios
111 000
000
A) Crossover nico
111 111
000 000
Padres
A) Crossover mltiple
111 111
000
Padres
Nios
111 000
000 111
Nios
111 000
000 111
00
11
00
11

Pgina 82
Algoritmo gentico

Pgina 83
GA Ventajas / Desventajas

s Ventajas
x paralelizado fcilmente
s Desventajas
x difcil de entender y explicar a los
usuarios finales.
x abstraccin del problema y mtodo

para
Representar a los individuos es bastante difcil.

x funcin de aptitud La determinacin


es difcil.
x Determinacin de cmo realizar cruce

y Mutacin es difcil.

También podría gustarte