Documentos de Académico
Documentos de Profesional
Documentos de Cultura
x conceptos relacionados
Pgina 3
Introduccin
Pgina 4
Introduccin
sde datos est creciendo a un
fenomenal
tarifa
Cmo se hace?
DESCUBRA LA INFORMACIN OCULTADA
Minera de datos
Pgina 5
Definicin de minera de datos
Trminos similares
x anlisis de datos exploratorio
x Los datos descubrimiento impulsado
x aprendizaje deductivo
Pgina 6
Procesamiento de bases de datos vs.
Procesamiento de minera de datos
Consulta
Bien definido
- SQL
Consulta
- Poco definido
- Ninguna consulta precisa
idioma
datos
- Datos operacionales
salida
- Preciso
- Subconjunto de la base de datos
datos
- Datos no operativos
salida
Difuso
- No es un subconjunto de la base de datos
n a un modelo
Trminos similares
x anlisis de datos exploratorio
x Los datos descubrimiento impulsado
x aprendizaje deductivo
Pgina 6
Procesamiento de bases de datos vs.
Procesamiento de minera de datos
Consulta
Bien definido
- SQL
Consulta
- Poco definido
- Ninguna consulta precisa
idioma
datos
- Datos operacionales
salida
- Preciso
- Subconjunto de la base de datos
datos
- Datos no operativos
salida
Difuso
- No es un subconjunto de la base de datos
Pgina 7
Ejemplos de consulta
s Base de Datos
s Data Mining
- Todos los clientes que han comprado leche
- Buscar todos los artculos que se compran con frecuencia
con leche. (reglas de asociacin)
-Encontrar todos los solicitantes de crdito
con el apellido de Smith.
- Identificar a los clientes que han comprado ms
De $ 10,000 en el ltimo mes.
-Encontrar todos los solicitantes de crdito
que son pobres de crdito
Riesgos. (clasificacin)
- Identificar clientes con hbitos de compra similares.
(Agrupacin)
Pgina 8
Modelos y tareas de minera de datos
Pgina 9
Tareas bsicas de minera de datos
S
Mapas datos de clasificacin en grupos predefinidos o
Clases
El aprendizaje supervisado x
El reconocimiento de patrones x
x Prediccin
S
La regresin se utiliza para asignar un elemento de datos a una verdadera
Variable de prediccin valorada.
S
La agrupacin de los grupos de datos similar juntos en grupos.
x aprendizaje no supervisado
x Segmentacin
x Particiones
Pgina 10
Tareas bsicas de minera de datos (continuacin)
S
Datos de mapas de resumen en subconjuntos con
Descripciones simples asociadas.
x Caracterizacin
x Generalizacin
S
Anlisis enlace descubre relaciones entre los datos.
x Anlisis Affinity
x Reglas de asociacin
secuenciales.
Pgina 11
Ejemplo: Anlisis de series temporales
Ejemplo: Bolsa de Valores
Predecir los valores futuros
Determinar patrones similares en el tiempo
Clasificar el comportamiento
Pgina 12
Minera de Datos vs. KDD
sdescubrimiento de conocimiento
en bases de datos (KDD):
Proceso de bsqueda de informacin til y
Patrones en los datos.
Pgina 13
Proceso KDD
S
Seleccin: Obtener datos de diversas fuentes.
S
Preprocesamiento: Limpiar datos.
S
Transformacin: Convertir a formato comn.
Transforma a nuevo formato.
S
Minera de datos: obtener los resultados deseados.
S
Interpretacin / Evaluacin: Presentar los resultados a los usuarios en
Manera significativa.
Modificado en [FPSS96C]
Pgina 14
KDD Proceso Ex: Registro Web
S
Seleccin:
x Seleccin de registro de datos (fechas y lugares) a
utilizar
S
Preprocesamiento:
x Retirela identificacin de URL
x Eliminar registros de errores
S
Transformacin:
x Sessionize (tipo y grupo)
S
Minera de datos:
Identificary contar los patrones
x Construir estructura de datos
S
Interpretacin / Evaluacin:
x Identificar y mostrar secuencias de acceso
frecuente.
S
Aplicaciones potenciales del usuario:
x prediccin Cache
x Personalizacin
Pgina 15
Desarrollo de la minera de datos
Medidas de Similitud
Agrupacin jerrquica
Sistemas IR
Consultas imprecisas
Datos textuales
Motores de bsqueda web
Teorema de Bayes
Anlisis de regresin
Algoritmo EM
K-Means Clustering
Anlisis de series temporales
Redes neuronales
Algoritmos del rbol de decisin
Tcnicas de Diseo de Algoritmos
Anlisis de Algoritmos
Estructuras de datos
Modelo de Datos Relacionales
SQL
Algoritmos de reglas de asociacin
Almacenamiento de datos
Tcnicas de Escalabilidad
Pgina 16
Problemas de KDD
s Interaccin Humano
s Overfitting
s Interpretacin
s Visualizacin
s alta dimensionalidad
Pgina 17
Cuestiones del KDD (cont.)
s Datos Multimedia
s Falta de Datos
s datos irrelevantes
s ruidoso Datos
s Cambio de Datos
s Integracin
s Aplicacin
Pgina 18
Implicaciones sociales de
DM
s privacidad
s de perfiles
s El uso no autorizado
Pgina 19
Mtricas de minera de datos
s Utilidad
s retorno de la inversin (ROI)
s Precisin
s Espacio / Tiempo
Pgina 20
Perspectiva de base de datos sobre datos
Minera
s Escalabilidad
s dato del Mundo Real
s Actualizaciones
s Facilidad de uso
Pgina 21
Tcnicas de visualizacin
s grfica
s geomtrica
basado en iconos s
basado en Pxeles s
s jerrquica
s hbrido
Pgina 22
Conceptos relacionados Esquema
S
Base de Datos / Sistemas OLTP
S
Conjuntos Fuzzy y Lgica
S
Recuperacin de informacin (motores de bsqueda web)
S
Modelado Dimensional
S
Almacenamiento de datos
S
OLAP / DSS
S
Estadstica
S
Aprendizaje automtico
S
La coincidencia de patrones
Objetivo: Examinar algunas reas que estn relacionadas con
Minera de datos
Pgina 23
Sistemas DB & OLTP
S
Esquema
x (ID, nombre, direccin, salario, JobNo)
S
Modelo de datos
x ER
x relacional
S
Transaccin
S
Consulta:
SELECT Nombre
De T
WHERE Salario> 100000
DM: Slo consultas imprecisas
Pgina 24
Conjuntos Fuzzy y Lgica
S
Conjunto difuso: Establecer funcin de pertenencia es una funcin real
Con salida en el rango [0,1].
S
F (x): La probabilidad x est en F.
S
1-f (x): La probabilidad x no est en F.
S
EX:
x T = {x | X es una persona y x es alto}
x Sea f (x) la probabilidad de que x es alto
Pgina 26
Clasificacin / Prediccin
Est borroso
Prstamo
Amnt
Sencillo
Borroso
Aceptar
Aceptar
Rechazar
Rechazar
Pgina 27
Recuperacin de informacin
S
Recuperacin de Informacin (IR): recuperacin de la informacin deseada a
partir de
Datos textuales.
S
La ciencia de la biblioteca
S
Bibliotecas digitales
S
Motores de bsqueda web
S
Tradicionalmente basada en palabras clave
S
Ejemplo de consulta:
Buscar todos los documentos sobre "data mining".
DM: Medidas de similitud;
Mine texto / datos web.
Pgina 28
Recuperacin de informacin
(Cont.)
s Mtrica:
x= Precisin | pertinentes y se
recuper |
Recuperado |
Recordemos x = | pertinentes y se
recuper |
| Relevante |
Pgina 29
Resultado de la consulta IR
Medidas y
Clasificacin
IR
Clasificacin
Pgina 30
Modelado Dimensional
S
Ver los datos de forma jerrquica ms como negocio
Los ejecutivos podran
S
til en sistemas de apoyo a la toma de decisiones y minera
S
Dimensin: conjunto de atributos relacionados lgicamente;
Eje para modelar datos.
S
Datos: los datos almacenados
S
Ejemplo: Dimensiones - productos, ubicaciones, fecha
Hechos - cantidad, precio unitario
DM: Puede ver los datos como dimensionales.
Pgina 31
Vista Relacional de Datos
ID de producto
Fecha Cantidad Precio por Unidad
123
Dallas
022900 5
25
123
Houston 020100 10
20
150
Dallas
031500 1
100
150
Dallas
031500 5
95
150
Fuerte
Valor
021000 5
80
150
Chicago 012000 20
75
200.
Seattle
030100 5
50
300
Rochester 021500 200
5
500
Bradenton 022000 15
20
500
Chicago 012000 10
25
1
Pgina 32
Consultas de modelado dimensional
s Roll Up: dimensin ms general
s desglosar: dimensin ms
especfica
s Dimensin (agregacin) Jerarqua
Pgina 33
Vista de cubo de datos
Pgina 34
Jerarquas de agregacin
Pgina 35
Esquema de estrella
Pgina 36
Almacenamiento de datos
S
De carcter temtico, integrado, variable con el
tiempo, no voltil William
Inmon
S
Datos operativos: Los datos utilizados en el da a da las necesidades de la
empresa.
S
Informacin Tcnica: Compatible con otras funciones, como la planificacin
Y pronstico.
S
Las herramientas de minera de datos a menudo tienen acceso a almacenes de
datos en lugar de
Datos operacionales.
DM: Puede acceder a los datos en el almacn.
Pgina 37
Operacional vs. Informativo
Datos operacionales
Almacn de datos
Solicitud
OLTP
OLAP
Utilizar
Consultas precisas
Ad hoc
Temporal
Instantnea
Histrico
Modificacin
Dinmica
Esttico
Orientacin
Solicitud
Negocio
Datos
Valores Operacionales
Integrado
tamao
Gigabits
Terabits
Nivel
Detallado
Resumido
Acceso
A menudo
Con menos frecuencia
Respuesta
Pocos segundos
Minutos
Esquema de datos
Relacional
Estrella / copo de nieve
Pgina 38
OLAP
S
Online Analytic Processing (OLAP): proporciona ms complejo
Consultas de OLTP.
S
Procesamiento de transacciones en lnea (OLTP): tradicional
Base de datos / procesamiento de transacciones.
S
Datos dimensionales; Cube ver
S
Visualizacin de operaciones:
x Slice: examinar sub-cubo.
Dados x: rotar el cubo para mirar a otra dimensin.
x Roll Up / Drill Down
DM: Puede utilizar consultas OLAP.
Pgina 39
Operaciones OLAP
Unicelular
Clulas Mltiples
Rebanada
Dado
Enrollar
Profundizar
Pgina 40
Estadstica
S
Modelos descriptivos simples
S
La inferencia estadstica: la generalizacin de un modelo creado
Desde una muestra de los datos hasta el conjunto de datos completo.
S
Anlisis exploratorio de datos:
xLos datos en realidad puede conducir
a la creacin de la
modelo
Pgina 41
Aprendizaje automtico
S
Mquina de aprendizaje: el rea de la IA que examina cmo escribir
Programas que pueden aprender.
S
A menudo utilizado en la clasificacin y prediccin
S
Aprendizaje supervisado: aprende con el ejemplo.
S
El aprendizaje no supervisado: aprende sin el conocimiento de la correcta
Respuestas.
S
El aprendizaje automtico a menudo se ocupa de pequeos conjuntos de datos
estticos.
DM: Usa muchas tcnicas de aprendizaje automtico.
Pgina 42
La coincidencia de patrones
(Reconocimiento)
scoincidencia de
patrones: encuentra
Ocurrencias de un evento predefinido
Patrn en los datos.
sLas aplicaciones incluyen el habla
Reconocimiento, recuperacin de informacin,
anlisis de series temporales.
DM: Tipo de clasificacin.
Pgina 43
DM vs. Temas relacionados
Consulta de rea
Datos
Resultado
S
Salida
DB / OLT
PAG
Resumen
mi
Base de datos
Resumen
mi
DB
Objetos o
Aggregati
en
IR
Resumen
mi
Documentos
Documento vago
S
OLAP Analysi
S
Multidimensio
Nal
Resumen
mi
DB
Objetos o
Aggregati
en
DM
Vague Preprocessed Vague KDD
Objetos
Pgina 44
Esquema de Tcnicas de Minera de Datos
S
Estadstico
x Punto de Estimacin
x modelos basados en Summarization
x Teorema de Bayes
x Prueba de hiptesis
x regresin y correlacin
S
Medidas de Similitud
S
rboles de decisin
S
Redes neuronales
x funciones de activacin
S
Algoritmos genticos
Pgina 45
Estimacin puntual
S
Estimacin puntual: estimar un parmetro de la poblacin.
S
Puede realizarse calculando el parmetro para una
muestra.
S
Puede utilizarse para predecir el valor de los datos que faltan.
S
Ex:
x R contiene 100 empleados
x 99 tienen informacin sobre los salarios
Pgina 46
Error de estimacin
S
Sesgo: La diferencia entre los resultados esperados
Valor y valor real.
S
Error cuadrtico medio (MSE): se espera
Valor de la diferencia cuadrtica entre
La estimacin y el valor real:
S
Por qu cuadrado?
S
Error cuadrtico medio de la raz (RMSE)
Pgina 47
Estimacin de Jackknife
S
Jackknife Estimado: estimacin del parmetro es
Obtenido al omitir un valor del conjunto de
Valores observados.
S
Ejemplo: estimacin de la media para X = {x
1
,,x
norte
}
Pgina 48
Estimacin de mxima verosimilitud
(MLE)
S
Obtener estimaciones de parmetros que maximicen la
Probabilidad de que los datos de la muestra se
Modelo especfico.
S
Probabilidad conjunta para observar los datos de la muestra
Multiplicando las probabilidades individuales. Probabilidad
funcin:
S
Maximizar L.
Pgina 49
Ejemplo MLE
S
Lanzamiento de monedas cinco veces: {H, H, H, H, T}
S
Asumiendo una moneda perfecta con H y T igualmente probable, la
La probabilidad de esta secuencia es:
S
Sin embargo, si la probabilidad de que H sea 0,8, entonces:
Pgina 50
Expectativa-
Maximizacin (EM)
Pgina 51
Ejemplo EM
Pgina 52
Algoritmo EM
Pgina 53
Teorema de Bayes
S
Probabilidad posterior: P (h
1
X
yo
)
S
Probabilidad previa: P (h
1
)
S
Bayes Teorema:
S
Asignar probabilidades de hiptesis dadas
Un valor de datos.
Pgina 54
Ejemplo de Teorema de Bayes
S
Autorizaciones de crdito (hiptesis): h
1
= Autorizar
Compra h
2
= Autorizar despus de una identificacin ulterior,
marido
3
= No autorizar, h
4
= No autorizar pero
Contacto con la polica
S
Asigne doce valores de datos para todas las combinaciones de
Crdito e ingresos:
S
A partir de los datos de entrenamiento: P (h
1
) = 60%; P h
2
) = 20%; P h
3
)
= 10%; P h
4
) = 10%.
1
2
3
4
Excelente x 1
x2
x3
x4
Bueno
x5
x6
x7
x8
Malo
x9
x 10
x 11
x 12
Pgina 55
Ejemplo Bayes (cont.)
s Datos Preparacin:
X i Identificacin Ingresos Clase de crdito
14
Excelente h 1
x4
23
Bueno
h1
x7
32
Excelente h 1
x2
43
Bueno
h1
x7
54
Bueno
h1
x8
62
Excelente h 1
x2
73
Malo
h2
x 11
82
Malo
h2
x 10
93
Malo
h3
x 11
10 1
Malo
h4
x9
Pgina 56
Ejemplo Bayes (cont.)
S
Calcular P (x
yo
H
J
) Y P (x
yo
)
S
Ejemplo: P (x
7
H
1
) = 2/6; P (x
4
H
1
) = 1/6; P (x
2
H
1
) = 2/6; P (x
8
H
1
)
= 1/6; P (x
yo
H
1
) = 0 para todos los dems x
yo
.
S
Predice la clase para x
4
:
x Calcular P (h
J
X
4
) Para todos los h
J
.
Lugar x x
4
En clase con mayor valor.
x Ex:
3 P (h
1
X
4
) = (P (x
4
H
1
Pabelln
1
)) / P (x
4
)
= (1/6) (0,6) /0,1 = 1.
3 x
4
En la clase h
1
.
Pgina 57
Regresin
spredecir los valores futuros basados
en
Valores pasados
Pgina 59
Correlacin
s Coeficiente de correlacin r:
1 = correlacin perfecta
-1 = correlacin perfecta pero opuesta
0 = ninguna correlacin
Pgina 60
Medidas de Similitud
S
Determinar la similitud entre dos
objetos.
S
Caractersticas de similitud:
S
Alternativamente, medida de medida de distancia
Qu tan diferentes o diferentes son los objetos.
Pgina 61
Medidas de Similitud
Pgina 62
Medidas de distancia
Pgina 64
rboles de decisin
Pgina 65
Ejemplo del rbol de decisin
Pgina 66
rboles de decisin
S
Un modelo de rbol de decisin es un modelo computacional
Que consta de tres partes:
rbol de Decisin x
x Algoritmo para crear el rbol
Pgina 67
Algoritmo del rbol de decisin
Pgina 68
DT Ventajas / Desventajas
s Ventajas:
x fcil de entender.
x fcil de generar reglas
s Desventajas:
X puede sufrir de sobreajuste.
x Clasifica por reparto rectangular.
numricos.
X puede ser bastante grande - la poda es
necesaria.
Pgina 69
Redes neuronales
basado en el funcionamiento
Est
(ANN)
Nuestro punto de vista es de las redes
neuronales es muy simplista.
s Consideramos que una red neuronal
(NN) de una
Punto de vista grfico.
sAlternativamente, un NN puede ser
visto desde el
Perspectiva de las matrices.
Pgina 70
Redes neuronales
S
Red neuronal (NN) es un grafo dirigido F = <V, A>
Con vrtices V = {1,2, ..., n} y arcos A = {<i, j> |
1 <= i, j <= n}, con las siguientes restricciones:
Pgina 71
Ejemplo de red neuronal
Pgina 72
NN Node
Pgina 73
NN Funciones de activacin
1,1] o [0,1]
Pgina 74
NN Funciones de activacin
Pgina 75
NN Aprendizaje
consecuencia.
Pgina 76
Redes neuronales
S
Un modelo de red neuronal es un modelo computacional
Que consta de tres partes:
cmo el aprendizaje
Tiene lugar.
Pgina 77
NN Ventajas
s aprendizaje
s Puede seguir aprendiendo, incluso
despus de conjunto de
entrenamiento
ha sido aplicado.
Es fcil paralelizacin
s resuelve muchos problemas
Pgina 78
NN Desventajas
Es difcil de entender
s puede sufrir de overfitting
determinada a priori.
los valores de s de entrada deben ser
numricas.
s Verificacin difcil.
Pgina 79
Algoritmos genticos
S
Algoritmos de tipo de bsqueda de optimizacin.
S
Crea una solucin factible inicial e iterativamente
Crea nuevas soluciones "mejores".
S
Basado en la evolucin humana y la supervivencia de la aptitud.
S
Debe representar una solucin como individuo.
S
Individual: Cadena I =
1
,YO
2
,,YO
norte
donde
J
Est en dado
Alfa Beta.
S
Cada personaje I
J
se llama un gen.
S
Poblacin: conjunto de individuos.
Pgina 80
Algoritmos genticos
S
Un algoritmo gentico (GA) es un modelo computacional
Consistente en cinco partes:
padres
Para crear descendencia.
individuos.
x algoritmo que se aplica el cruce y
Tcnicas de mutacin para utilizar de forma
Funcin de acondicionamiento fsico para determinar
Individuos en P para mantener.
Pgina 81
Ejemplos de crossover
111 111
000 000
Padres
Nios
111 000
000 111
A) Crossover nico
111 111
Padres
Nios
111 000
000
A) Crossover nico
111 111
000 000
Padres
A) Crossover mltiple
111 111
000
Padres
Nios
111 000
000 111
Nios
111 000
000 111
00
11
00
11
Pgina 82
Algoritmo gentico
Pgina 83
GA Ventajas / Desventajas
s Ventajas
x paralelizado fcilmente
s Desventajas
x difcil de entender y explicar a los
usuarios finales.
x abstraccin del problema y mtodo
para
Representar a los individuos es bastante difcil.
y Mutacin es difcil.