Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mineria de Datos
Mineria de Datos
ndice
MINERA DE DATOS
INTRODUCCIN A LA MINERA DE DATOS
TAREAS EN MINERA DE DATOS
FASES EN MINERA DE DATOS
TIPOS DE ALGORITMOS PARA PREDICCIN (CLASIFICACIN Y
REGRESIN)
EVALUACIN DEL CONOCIMIENTO MINADO
SELECCIN DE ATRIBUTOS
MINERA DE TEXTOS
Clasificacin
Regresin
Asociacin
Agrupacin (clustering)
Aos
Euros
Salario
Casa
propia
Cuentas
morosas
...
Devuelve el
crdito
101
15
60000
2200 Si
...
No
102
30000
3500 Si
...
Si
103
9000
1700 Si
...
No
104
15
18000
1900 No
...
Si
105
10
24000
2100 No
...
No
...
...
...
...
...
...
...
10
11
12
Ejemplo 2. Datos
Producto
Mes-12
...
Mes-4
Mes-3
Mes-2
Mes-1
Televisor
plano
20
...
52
14
139
74
Video
11
...
43
32
26
59
Nevera
50
...
61
14
28
Microondas
...
21
27
49
Discman
14
...
27
25
12
...
...
...
...
...
...
...
13
DVDs a vender
12
10
8
6
4
2
0
0
10
Mes 12
14
15
Huevos
Aceite
Paales
Vino
Leche
Manteq
uilla
Salmn
Lechugas
...
Si
No
No
Si
No
Si
Si
Si
...
No
Si
No
No
Si
No
No
Si
...
No
No
Si
No
Si
No
No
No
...
No
Si
Si
No
Si
No
No
No
...
Si
Si
No
No
No
Si
No
Si
...
Si
No
No
Si
Si
Si
Si
No
...
No
No
No
No
No
No
No
No
...
Si
Si
Si
Si
Si
Si
Si
No
...
...
...
...
...
...
...
...
.
.
.
.. ...
.
16
17
18
Sea la regla:
20
Ejemplo 4. Datos
Id
Sueldo
Casado
Coche
Hijos
Alq/Pro
p
Sindicado
Bajas
Antiged Sexo
ad
1000
Si
No
Alq
No
15
2000
No
Si
Alq
Si
1500
Si
Si
Prop
Si
10
3000
Si
Si
Alq
No
15
1000
Si
Si
Prop
Si
..
.
...
...
...
...
...
...
...
...
21
GRUPO 2
GRUPO 3
Sueldo
1535
1428
1233
Casado (No/Si)
77%/22%
98%/2%
0%/100%
Coche
82%/18%
1%/99%
5%/95%
Hijos
0.05
0.3
2.3
Alq/Prop
99%/1%
75%/25%
17%/83%
Sindicado
80%/20%
0%/100%
67%/33%
Bajas
8.3
2.3
5.1
Antigedad
8.7
8.1
Sexo (H/M)
61%/39%
25%/75%
83%/17%
22
23
Ejemplo: clustering de
libros. 2 grupos:
* Palabras y frases largas
(filosofa?)
* Palabras y frases cortas
(novela?)
X: Longitud media de palabras
24
Representacin de clusters
Por sus centroides (ej: algoritmo k-medias)
La pertenencia a un cluster puede ser
probabilstica (ej: algoritmo EM)
25
Representacin de clusters
Jerrquica (ej: algoritmo cobweb)
Nota: las etiquetas filosofa, clsico, etc. aparecen slo a ttulo
indicativo. El sistema simplemente detectara distintos grupos a
distintos niveles
Libros
Filosofa
Analtica
Teatro
Existencialista
Clasico
Novela
Historica
Historica
Moderno
26
Anlisis de mercado:
Aplicaciones II
Medicina: diagnstico de enfermedades (ej:
diagnstico de dolor abdominal)
Ciencia:
28
Aplicaciones III
Deteccin de spam (SpamAssassin, bayesiano)
Web: asociar libros que compran usuarios en etiendas (amazon.com)
Web: clasificacin automtica de pginas web
para directorios
Reconocimiento de caracteres, de voz. etc.
Prediccin de la demanda elctrica, de gas,
etc.
29
30
31
32
33
Sensory Homunculus
34
35
Sistema 10-20
El electro-encefalograma (EEG)
Cambios de potencial -> ondas electromagnticas (muy
dbiles)
Medicin: invasiva o no invasiva
El aprendizaje se utiliza para decodificar las ondas (cada
individuo tiene sus peculiaridades)
Para hacer aprendizaje automtico es necesario convertir cada
forma de onda en un conjunto de atributos que la caracterize
(transformada de Fourier, PSD)
Es til la banda de frecuencias entre 8Hz y 30Hz
37
38
39
El spellboard
40
41
Esquema de aprendizaje
OPERADOR
GUI
SOCCERCLIENT
SOCCERSERVER
ENTRENADOR
FICHERO
TRAZA
WEKA v. 3.2
AGENTE
FINAL
REGLAS.C
42
GUI Soccerclient
43
Atributos a utilizar
CONO DE
VISIN
Distancia_Contrario1
Vale_Contrario1
Distancia_Bola
Distancia_SuPorteria
Vale_SuPorteria
Angulo_Bola Angulo_Contrario1
Angulo_SuPorteria
Angulo
Angulo_contrario2
Distancia_Contrario2
Vale_Contrario2
44
Acciones
Acciones
Avanzar rpido: dash99
Avanzar lento: dash 60
Girar 10 Derecha: turn-right-10
Girar 10 Izquierda: turn-left-10
Tirar a puerta: kick99
Tiro corto: kick60
45
46
47
49
50
Integracin y recopilacin
Almacenes de datos (data warehousing):
repositorio de informacin obtenido de
diversas fuentes (heterogneas), almacenada
bajo un esquema unificado
51
Atributos:
52
Clase
Atributos
IDC
Aos
Euros
Salario
Casa
propia
Cuentas
morosas
...
Devuelve
el crdito
101
15
60000
2200 Si
...
No
102
30000
3500 Si
...
Si
103
9000
1700 Si
...
No
104
15
18000
1900 No
...
Si
105
10
24000
2100 No
...
No
Datos
...
...
...
...
...
...
...
Posibilidades:
Hacerlo a mano
Utilizar herramientas de preproceso (ej: seleccin
de atributos)
Dejar que lo haga el algoritmo de minera de datos
(peor solucin)
54
55
Temperatura
Humedad
Viento
Tenis
Sol
85
85
No
No
Sol
80
90
Si
No
Nublado
83
86
No
Si
Lluvia
70
96
No
No
Lluvia
68
80
No
Si
Nublado
64
65
Si
Si
Sol
72
95
No
No
Sol
69
70
No
Si
Lluvia
75
80
No
Si
Sol
75
70
Si
Si
Nublado
72
90
Si
Si
Nublado
81
75
No
Si
Lluvia
71
91
Si
No
56
Datos
Cielo
Temperatura
Humedad
Viento
Tenis
Sol
85
85
No
No
Sol
80
90
Si
No
Nube
s
83
86
No
Si
Lluvi
a
70
96
No
So
Lluvi
a
68
80
No
Si
Nubl
ado
64
65
Si
Si
Sol
72
95
No
No
Sol
69
70
No
Si
Lluvi
a
75
80
No
Si
Sol
75
70
Si
Si
Nubl
ado
72
90
Si
Si
Nubl
ado
81
75
No
Si
Lluvi
a
71
91
Si
No
Cielo
Tempe
ratura
Humedad
Viento
Tenis
Sol
60
65
No
?????
Clasificador
Algoritmo
MD
IF Cielo = Sol Y
Humedad <= 75
THEN Tenis = Si ...
Prediccin
Clase = Si
57
58
CLASSIFY: clasificacin y
regresin
CLUSTER: agrupacin
ASSOCIATE: asociacin
59
Tipos de atributos
Nominales (discretos, categricos): cielo,
viento
Numricos: temperatura, humedad
Hay atributos numricos que son realmente
nominales (ej: DNI)
Hay atributos nominales que son realmente
numricos (ej: edad con valores nio,
joven, adulto, mayor).
60
61
@data
Sol, 85, 85, no, no
Sol, 80, 90, si, no
Nublado, 81, 86, no, si
Lluvia, 70, 96, no, si
...
62
Formato Arff
@relation tiempo
@attribute cielo {sol, nubes, lluvia}
@attribute temperatura numeric
@attribute humedad numeric
@attribute viento {si, no}
@attribute tenis {si, no}
@data
Sol, 85, 85, no, no
Sol, 80, 90, si, no
Nublado, 81, 86, no, si
Lluvia, 70, 96, no, si
63
Funciones:
Naive Bayes
Sol
Cielo
Lluvia
Nubes
Humedad
Viento
SI
<=75
> 75
Si
SI
NO
NO
No
SI
67
68
69
Cielo?
Sol
Lluvia
Nubes
<=X
Temperatura?
<=X
>X
>X
Viento?
Si
No
Sol
C
Lluvia
Nubes
Ten
C
Ten
Nubes
83
86
No
Si
Ten
Lluvia
70
96
No
No
Sol
85
85
No
No
Sol
80
90
Si
No
Nubes
64
65
Si
Si
Lluvia
68
80
No
Si
Sol
72
95
No
No
Nubes
72
90
Si
Si
Lluvia
75
80
No
Si
Sol
69
70
No
Si
Nubes
81
75
No
Si
Lluvia
65
70
Si
No
Sol
75
70
Si
Si
Lluvia
71
91
Si
No
3 No, 2 Si
0 No, 4 Si
3 No, 2 Si
Tendencia al no
Particin perfecta
Tendencia al no
H ( P ) =
p log ( p
Ci
Ci
H(P) = ( p log( p ) + p
si
no
= (1 p )
si
si
Ci
log( p ))
no
no
HP=(5/14)*0.97+(4/14)*0+(5/14)*0.97 = 0.69
Nota: hay 14 datos en total
Y si el atributo es contnuo?
Hay que partir por el valor X, donde sea mas conveniente,
minimizando la entropa
Temperatura
Nota: solo hemos probado
algunas de las posibles
particiones, entre las que
se encuentra la mejor
<=X
X<=70
>X
64 Si, 65 No, 68 Si, 69 Si, 70 Si, 71 No, 72 No Si, 75 Si Si, 80 No, 81 Si, 83 Si, 85 - No
1 No, 4 Si
4 No, 5 Si
HP = 0.89
64 Si, 65 No, 68 Si, 69 Si, 70 Si, 71 No, 72 No Si, 75 Si Si, 80 No, 81 Si, 83 Si, 85 - No
3 No, 5 Si
2 No, 4 Si
HP = 0.93
64 Si, 65 No, 68 Si, 69 Si, 70 Si, 71 No, 72 No Si, 75 Si Si, 80 No, 81 Si, 83 Si, 85 - No
3 No, 7 Si
2 No, 2 Si HP = 0.91
Caso de humedad
Humedad
<=75
0 No, 4 Si
> 75
5 No, 4 Si
65-Si, 70-No Si Si, 75Si, 80-Si Si, 85-No, 86-Si, 90-No Si, 91-No, 95-No, 96-Si,
1 No, 6 Si
4 No, 3 Si
HP = 0.79
HP=0.69
Humedad
Cielo
Sol
Lluvia
<=75
Nubes
3 No, 2 Si
0 No, 4 Si
3 No, 2 Si
0 No, 4 Si
HP = 0.89
HP = 0.89
Temperatura
Viento
<=X
1 No, 4 Si
> 75
>X
4 No, 5 Si
Si
3 No, 3 Si
5 No, 4 Si
No
2 No, 6 Si
Sol
C
Lluvia
Nubes
Ten
C
Ten
Nubes
83
86
No
Si
Sol
85
85
No
No
Sol
80
90
Si
No
Nubes
64
65
Si
Si
Sol
72
95
No
No
Nubes
72
90
Si
Si
Sol
69
70
No
Si
Nubes
81
75
No
Si
Sol
75
70
Si
Si
3 No, 2 Si
0 No, 4 Si
Ten
Lluvia
70
96
No
No
Lluvia
68
80
No
Si
Lluvia
75
80
No
Si
Lluvia
65
70
Si
No
Lluvia
71
91
Si
No
3 No, 2 Si
Cielo
Sol
Lluvia
Nubes
Humedad
<=75
T
Ten
72
95
No
No
69
70
No
Si
75
70
Si
Si
> 75
T
Ten
85
85
No
No
80
90
Si
No
Aqu no es necesario
seguir subdividiendo
porque todos los datos son
de la misma clase
Sol
Lluvia
Nubes
Humedad
<=75
> 75
NO
Humedad
<=70
> 70
Ten
Ten
69
70
No
Si
72
95
No
No
75
70
Si
Si
Sol
Cielo
Nubes
Humedad
<=75
> 75
SI
NO
Lluvia
Sol
Cielo
Lluvia
Nubes
Humedad
Viento
SI
<=75
> 75
Si
SI
NO
NO
No
SI
SI
NO
SI
SOL
NUBES
LLUVIA
Cielo
THEN Tenis = Si
ELSE Tenis = No
88
89
Funciones:
Y
0
1
2
3
4
5
6
7
8
9
10
0
1,3
1,8
2,5
4,3
5,5
6,1
6,5
8,2
8,8
10,5
Y=1*X
Caso general (regresin lineal)
Y = A1*X1 + A2*X2 + A3*X3 + A4
Y
12
10
8
6
4
2
0
0
10
12
91
92
93
Funciones:
96
97
rboles de regresin:
Funciones:
Naive Bayes
rboles de regresin
Y si tenemos atributos nominales y
numricos y queremos predecir cantidades
numricas (regresin)?
Usar rboles de regresin: tienen funciones
(regresin lineal) en las hojas
104
Inform tic o
Si
Si
Si
Si
Si
Si
Si
No
No
No
No
No
No
No
E dad
S alario
20
25
30
35
40
45
50
20
25
30
35
40
45
50
2000
2500
3000
3500
4000
4500
5000
2000
2050
2100
2150
2200
2250
2300
6 00 00
5 00 00
4 00 00
S a la rio
3 00 00
S a la rio No
2 00 00
1 00 00
0
0
20
40
60
105
Informtico
Si
Salario = 2000+(edad-20)*100
No
Salario = 2000+(edad-20)*10
106
Algoritmo LMT
107
Altura
Nio
Adulto
Mayor
Altura
Nio
Adulto
Mayor
Altura
Nio
Adulto
Mayor
Altura
Nio
Adulto
Mayor
114
115
Naive Bayes
117
pr(cielo = sol/si) = numero de das soleados y buenos para el tenis dividido por el
nmero de das buenos para el tenis
pr(humedad = alta /si)
pr(viento = si /si)
pr(si) = nmero de das buenos para el tenis dividido por el nmero de das
totales
118
Datos de entrada
Da
Cielo
Temperatura
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Soleado
Soleado
Nublado
Lluvioso
Lluvioso
Lluvioso
Nublado
Soleado
Soleado
Lluvioso
Soleado
Nublado
Nublado
Lluvioso
Caliente
Caliente
Caliente
Templado
Frio
Frio
Frio
Templado
Frio
Templado
Templado
Templado
Caliente
Templado
Humedad
Alta
Alta
Alta
Alta
Normal
Normal
Normal
Alta
Normal
Normal
Normal
Alta
Normal
Alta
Viento
Tenis
No
Si
No
No
No
Si
Si
No
No
No
Si
Si
No
Si
No
No
Si
Si
Si
No
Si
No
Si
Si
Si
Si
Si
No
119
Temperatura
Humedad
Viento Tenis
Soleado Frio
Soleado Templado
Nublado Frio
Nublado Caliente
Nublado Templado
Nublado Caliente
Lluvioso Templado
Lluvioso Frio
Lluvioso Templado
Normal
Normal
Normal
Alta
Alta
Normal
Alta
Normal
Normal
No
Si
Si
No
Si
No
No
No
No
Si
Si
Si
Si
Si
Si
Si
Si
Si
Soleado
Soleado
Soleado
Lluvioso
Lluvioso
Alta
Alta
Alta
Normal
Alta
No
No
Si
Si
Si
No
No
No
No
No
Caliente
Templado
Caliente
Frio
Templado
120
Si
No
Sol
2/9
3/5
Nubes
4/9
0/5
Lluvia
3/9
2/5
Pr(si
P(Temp/Tenis)
Tempera
tura
Si
No
Caliente
2/9
2/5
Templado
4/9
2/5
Frio
3/9
1/5
P(Hum/Tenis)
Humedad
Si
No
Alta
3/9
4/5
Normal
6/9
1/5
Viento
Si
No
Si
3/9
3/5
No
6/9
2/5
P(Tenis)
Tenis
Si
No
9/14
5/14
/ sol, fro, alta, si) ~ 2/9 * 3/9 * 3/9 * 3/9 * 9/14 = 0.0053
Pr(no
/ sol, fro, alta, si) ~ 3/5 * 1/5 * 4/5 * 3/5 * 5/14 = 0.0206
Pr
Pr
P(A|Tenis=si)
Soleado, nublado, lluvioso
Ojo: el estimador
Laplaciano suma 1:
Pr(Sol / Si) =
(2+1)/(9+1+1+1)
122
Temperatura
Humedad
Viento
Tenis
Sol
85
85
No
No
Sol
80
90
Si
No
Nublado
83
86
No
Si
Lluvia
70
96
No
So
Lluvia
68
80
No
Si
Nublado
64
65
Si
Si
Sol
72
95
No
No
Sol
69
70
No
Si
Lluvia
75
80
No
Si
Sol
75
70
Si
Si
Nublado
72
90
Si
Si
Nublado
81
75
No
Si
Lluvia
71
91
Si
No
123
Supone normalidad
y calcula la media y
la varianza
124
Meta-algoritmos o conjuntos de
clasificadores (ensembles of classifiers)
Construyen varios predictores (clasificacin o regresin) y
despus los usan de manera conjunta
Suelen ser mas precisos que los algoritmos individuales,
siempre que los algoritmos base predigan mejor que el azar
La idea es que si los distintos clasificadores no estn
correlacionados en los errores, el uso conjunto de todos ellos
ser mejor que usar cualquiera de ellos por separado
Tipos principales:
126
Randomization
Nota: tambin se pueden crear conjuntos de
clasificadores generando distintos
clasificadores a partir del mismo conjunto de
entrenamiento, mediante randomizacin
Ej: en J49 (C4.5) siempre se elige el mejor
atributo para cada nodo. En lugar de eso,
elegir para cada nodo un atributo elegido
aleatoriamente de entre los 5 mejores. Cada
vez que ejecutemos J48, se crear un
clasificador distinto, incluso partiendo de los
mismos datos
Nmero de clasificadores
Porqu funciona?
Supongamos que hay 25 clasificadores
Cada clasificador tiene un error =0.35
Si los errores de los clasificadores son
independientes o no correlacionados (es decir,
si no se equivocan a la vez)
El error del clasificador conjunto ser:
Adaboost (boosting)
Al igual que Bagging, Boosting se basa en entrenar varios
clasificadores con distintas muestras de entrenamiento
Pero en Boosting, las muestras se construyen de manera
secuencial
Los datos de entrenamiento son una lista de tuplas
{(x1,y1), , (xa,ya), , (xd,yd)}
Cada dato tiene un peso wa, inicialmente todos wa=1/d
Los pesos se irn adaptando, de manera que los datos
difciles tendrn mas peso y los ms fciles, menos
Los pesos se pueden utilizar mediante remuestreo, o bien
hay algoritmos (como J48 o NN) que pueden utilizar
directamente datos con pesos
Adaboost (boosting)
1.
2.
3.
El clasificador final f es una combinacin de todos los hi.. Los coeficientes alfa dependen de
lo preciso que sea el clasificador hi (de su porcentaje de aciertos)
Iteraciones de Adaboost
Problemas de Boosting
Si los datos tienen ruido, Boosting se puede
sobreadaptar al ruido
Random Forests
Es Bagging con rboles de decisin (por
ejemplo, creados con J48)
Pero en cada nodo se pone, no el mejor
atributo, sino:
El mejor de un subconjunto aleatorio de m
atributos
Un atributo elegido aleatoriamente de entre los
m mejores
Humedad?
Cielo?
Sol
Lluvia
Cielo
Nubes
<=X> X
Sol
Lluvia
Nubes
Humedad SI
Viento
Temperatura? Viento?
<=75 > 75
Si
No
SI
NO
NO
SI
<=X> X
Si No
Random Forests
Slo dos parmetros: nmero k de rboles en
el ensemble y nmero m de atributos para
ser tenidos en cuenta en cada creacin de
nodo
Alta precisin y menos sensible al ruido que
Boosting
Nombres de algoritmos
rboles de decisin y reglas. Para clasificacin
Funciones:
Naive Bayes
141
142
143
144
Particiones estratificadas
Es conveniente que las particiones sean
estratificadas
La proporcin entre las clases que existe en el
conjunto de datos original, se intenta
mantener en los conjuntos de entrenamiento
y test
Ejemplo: si en el conjunto original un 65% de
los datos pertenecen a la clase positiva, la
estratificacin intentar que esa proporcin
se mantenga en entrenamiento y test
145
Leave-one-out
Es una validacin cruzada con k = nmero de datos de
entrenamiento
Si hay n datos de entrenamiento, repetir k=n veces:
(aciertos/n)*100
150
El porcentaje de aciertos es
(TP+TN)/(TP+TN+FN+FP)
Clasificado Clasificado
como +
como -
Dato
realmente
+
TP (true
positive)
FN (false
negative)
Dato
realmente
-
FP (false
positive)
TN (true
negative)
De entre todos los datos positivos, cuantos clasificamos correctamente. Mide lo bien que
acertamos en la clase +
153
Clasificado
como -
Dato
realmente +
TP 90
FN 10
Dato
realmente -
FP 40
TN 60
Clasificado
como +
Clasificado
como -
Dato
realmente +
TP 60
FN 40
Dato
realmente -
FP 10
TN 90
Notese tambin que en los datos hay 100 personas con cncer y
100 personas sin cncer (sumar las lneas horizontales)
154
Clasificado
como -
Clasificado
como +
Clasificado
como -
Dato
TP 90
realmente +
FN 10
Dato
realmente +
TP 60
FN 40
Dato
realmente -
TN 60
Dato
realmente -
FP 10
TN 90
FP 40
155
156
EN PROBLEMAS DE
CLASIFICACIN
Clase como
Clase
real
Si
no
Si
TP 7
FN 2
no
FP 3
TN 2
157
EN PROBLEMAS DE
REGRESIN
158
La Sobreadaptacin o sobreaprendizaje
(overfitting)
Se produce sobreadaptacin cuando el clasificador
obtiene un alto porcentaje de aciertos en
entrenamiento pero pequeo en test (es decir, no
generaliza bien)
Se puede decir que el clasificador est
memorizando los datos en lugar de generalizando
Ej: Un alumno aprende a realizar perfectamente los
problemas de exmenes anteriores, pero no sabe
resolver los del examen final
Podemos detectarlo tambin porque en validacin
cruzada saldrn porcentajes cercanos al azar
160
Idea de sobreadaptacin
Supongamos que se trata de un problema de
regresin y los datos estn distribuidos segn una
parbola, pero hay algo de ruido
Es decir, el modelo subyacente es una parbola,
pero los datos muestran ligeras variaciones (ruido)
161
Sobreadaptacin/subadaptacin
Derecha: el modelo se ha sobreadaptado al ruido
porque es demasiado complejo
Izquierda: el modelo lineal g(x) es demasiado simple
para aproximar una parbola y subadapta los datos
Conclusin: tiene que haber un equilibrio en la
complejidad del clasificador (o del modelo en general)
162
Sobreadaptacin/subadaptacin
En general un algoritmo de aprendizaje va a generar
clasificadores o regresores de determinada
complejidad.
Tenemos cierto control sobre la complejidad de los
predictores mediante parmetros del algoritmo:
Sobreadaptacin/subadaptacin de un
clasificador lineal
Sea un problema de clasificacin biclase con 1000
atributos
Disponemos de un algoritmo que genera
clasificadores lineales (como el logistic regresion)
Supongamos que tenemos 1000 datos de
entrenamiento (y por ejemplo 10000 para test)
?Cul ser el porcentaje de aciertos en
entrenamiento?
?Cul ser el porcentaje de aciertos en test?
Sol
Cielo
Lluvia
Nubes
Humedad
Viento
SI
<=75
> 75
Si
SI
NO
NO
No
SI
165
166
167
Sobreadaptacin. Resumen
Factores que influyen: ruido, nmero de datos y
complejidad del clasificador
Ej: si hay pocos datos y permitimos gran
complejidad al clasificador (que crezca mucho)
habr sobreadaptacin (memorizacin)
Ej: si hay ruido en los datos y permitimos gran
complejidad al clasificador, se sobreadaptar al
ruido
Ej: pero si la complejidad del clasificador es
insuficiente, habr subadaptacin
168
A2
A3
OR
169
A2
A3
OR
170
A2
A3
OR
A1
A2
A3
FBIN
Si ahora le planteamos al
algoritmo otra funcin
binaria (FBIN), el porcentaje
de aciertos sera 100-P%
Es decir, donde se acertaba
en OR, se falla en FBIN
En media:
(100-P%+P%)/2 = 50%
171
172
173
Espiral
40
Imposible aprender a
separar dos espirales
con reglas o rboles de
decisin, aunque ib1 lo
hace relativamente
bien
30
20
10
Serie1
0
-40
-30
-20
-10
-10
10
20
30
40
Serie2
-20
-30
-40
174
Paridad par
Ningn sistema es
capaz de aprender la
regularidad nmero par
de 1s porque su
lenguaje de
representacin no lo
permite
A1
A2
A3
PAR?
SI
NO
j48: 40%
NO
PART: 15%
SI
IB1: 0%
NO
IBK: 0%
SI
NBAYES: 36%
SI
NO
Id3: 1%
175
SELECCIN DE ATRIBUTOS
183
Seleccin de atributos
Algunos atributos pueden ser redundantes
(como salario y categora social) y
hacen ms lento el proceso de aprendizaje
Otros son irrelevantes (como el DNI para
predecir si una persona va a devolver un
crdito)
En ocasiones el exceso de atributos puede
llevar a sobreaprendizaje, pues incrementa
la complejidad del modelo (sobre todo si hay
pocos datos)
En ocasiones es til tener el conocimiento de
qu atributos son relevantes para una tarea
Existen algoritmos de seleccin de atributos
184
Pero juntos s:
IF inteligencia=si Y artificial=si THEN informtica
186
189
Pr(si
Cielo
Si
No
Sol
2/9
3/5
Nubes
4/9
0/5
Lluvia
3/9
2/5
P(Temp/Tenis)
Tempera
tura
Si
No
Caliente
2/9
2/5
Templado
4/9
2/5
Frio
3/9
1/5
P(Hum/Tenis)
Humedad
Si
No
Alta
3/9
4/5
Normal
6/9
1/5
Viento
Si
No
Si
3/9
3/5
No
6/9
2/5
Tenis
Si
No
9/14
5/14
Pr(no
190
50,5
82
52,2
Tipos:
CfsSubsetEval
94,5
53,0
53,2
SubsetEval
51,0
51,0
191
Mtodo rpido
Problemas: elimina atributos redundantes,
pero como Ranker, puede eliminar atributos
que por si solos no estn correlacionados con
la clase, pero con otro atributo si que lo
estn (ej: inteligencia artificial)
192
194
Seleccin de atributos
Mtodo evaluacin de
subconjuntos de atributos
Bsqueda: Ranker
Evaluador: ChiSquareAttributeEval, GainRatioAttributeEval,
InfoGainAttributeEval
196
197
Evaluadores de subconjuntos
CfsSubsetEval : rpidos
CfsSubsetEval: considera el valor predictivo
(correlacin) de cada atributo y de su
redundancia
SubsetEval: ms lentos
ClassifierSubsetEval: usa un clasificador para
evaluar el conjunto
WrapperSubsetEval: classificador + validacin
cruzada
198
Mtodos de bsqueda
BestFirst: Mejor primero (lento)
ExhaustiveSearch: Bsqueda exhaustiva (muy
lento)
GeneticSearch: Bsqueda gentica (rpido)
GreedyStepWise: Escalada (muy rpido)
RankSearch: Primero ordena los atributos y
despus construye el subconjunto de manera
incremental, en direccin del mejor al peor,
hasta que no merece la pena aadir nuevos
atributos (rpido)
199
Seleccin Ranker
200
201
Seleccin Filter
Subconjunto
seleccionado
202
203
204
205
Subconjunto
seleccionado
206
Mtodo Wrapper
207
Usaremos
PART como
clasificador
Usaremos el
conjunto de
entrenamiento
para calcular
los aciertos
208
Subconjunto
seleccionado
209
210
Resultados PCA
211
212
De atributos y de
instancias (datos)
213
214
215
Seleccionaremos los 10
mejores atributos, tras la
ordenacin
216
Resultados de la
seleccin
Hay que
pulsar Apply!
Atributos
seleccionados
217
218
MINERA DE TEXTOS
Minera de Textos
Se trata de realizar tareas de minera de
datos, donde los datos son textos (pginas
web, peridicos, )
Un texto es un dato
Pero no est representado como una lista de
valores para ciertos atributos
Por tanto, habr que convertir cada texto a
una represenacin de atributos/valores
Bolsas de palabras
Un texto se representa como un vector con tantos
componentes como palabras haya en el texto. Cada
componente contiene la frecuencia de la palabra en
el texto
Ignora el orden de aparicin de las palabras
Ejemplo: En un agujero en el suelo viva un Hobbit.
No un agujero hmedo, sucio, repugnante, con
restos de gusanos y olor a fango, era un agujero
Hobbit ...
EN
UN
AGUJERO
EL
SUELO
HOBBIT
...
A1
A2
A3
A4
A5
A6
...
...
N-gramas
En ocasiones, los atributos relevantes son
secuencias de palabras.
UN-AGUJERO
AGUJEROEN
EN-EL
EL-SUELO
NO-UN
...
A1
A2
A3
A4
A5
A6
...
...
N-gramas
Problema: hay demasiados (todas las
combinaciones posibles de dos palabras)
Los bigramas funcionan bien en algunos
problemas pero mal en otros (ej: en zoologa
es suficiente con unigramas)
Frases
Considera el documento como un conjunto de
frases sintcticas
Permite mantener el contexto de las palabras
Ej: a cada palabra, se le aade la informacin
de qu papel juega en la frase,
gramaticalmente (nombre, adjetivo, verbo, )
o sintcticamente (sujeto, predicado, objeto
directo, ).
Categoras de conceptos
Considera slo la raz morfolgica (stem)
de las palabras
Ejemplo: informacin, informando,
informador, ... Se representan como
inform
Reduce la dimensionalidad del bag of words
Problemas: informal e informar se
pueden confundir
Reduccin de dimensionalidad
Eliminacin de palabras muy muy poco frecuentes
Eliminacin de palabras muy frecuentes (suelen ser
las stopwords: el, la, que, y, ...)
Se pueden utilizar tcnicas de seleccin de atributos
tpicas de minera de datos
Se suele utilizar Indexacin Semntica Latente (LSI),
que es una tcnica de proyeccin a espacios de
dimensionalidad menor, similar a anlisis de
componentes principales (tcnica existente en
Weka: PCA)
LSI tambin reduce los problemas de sinonimia y
polisemia
A1 = 3*A1+2*A2- - An
A2 = A1-2*A2+ +5* An
tf
ij
ij
n
k j
)
kj
ij
= xij log( )
DFi
tf
tfidf
O bien
ij
1+ D
= xij log(
)
DFi
tf