Está en la página 1de 9

Ejemplo de Examen tipo Avex

Solución:
La técnica no indicada sería Entrenamiento&test. Valorar la calidad de lo aprendido en función
de una única partición en el conjunto de ejemplos disponibles puede producir resultados
equívocos cuando el número de ejemplos es muy reducido, dado que se puede producir un
sesgo involuntario a la hora de escoger los ejemplos en un conjunto y otro.

Solución:

Especializar G_j : Se eliminan las hipótesis por inconsistencia, no describen el ejemplo:


(x1, x2, x3, N, x5, x6) y (x1, x2, x3, x4, S, x6).

G_j+1 = {(S, x2, x3, x4, x5, x6), (x1, N, x3, x4, x5, x6), (x1, x2, S, x4, x5, x6), (x1, x2, x3, x4, x5, S)}

Generalizar S_j :
S_j+1 = {(S,N,S,S,N,S)}
Solución:

Semilla = { I1 = 0, I2 = 0, I3 = 0 }
E={},L={}

Tenemos los siguientes complejos:

C1 : (I1 = 0)
C2 : (I2 = 0)
C3 : (I3 = 1)

El único que no describe ningún ejemplo negativo es C3, por tanto se añade a la estrella:

E = {C3}
L’ = {C1, C2}
L = L’

C12 : (I1 = 0) ^ (I2 = 0)

Este complejo describe ejemplos negativos (ejemplo 2), por tanto no se incorpora a la estrella.
La función LEF no permite reglas de más de 2 premisas, por lo que en este punto no se tratan
más especializaciones.

El único complejo de la estrella, C3, cubre dos ejemplos positivos (1 y 7) y tiene una premisa,
cumpliendo con las especificaciones de la función LEF.

R(1) = {C3(1)}
Solución:

Conectado = [(1,2), (1,3), (3,4), (3,5)]


Alcanzable = [(1,2), (1,3), (1,4), (1,5), (3,4), (3,5)]

E+ = [(1,2), (1,3), (1,4), (1,5), (3,4), (3,5)]


E- = [(1,1), (2,1), (2,2), (2,3), (2,4), (2,5), (3,1), (3,2), (3,3), (4,1), (4,2), (4,3), (4,4), (4,5), (5,1), (5,2),
(5,3), (5,4), (5,5)]

L = Conectado (A, B)
Alcanzable(A,B) :- Conectado(A,B)

Para calcular los ejemplos positivos tenemos que ver la tupla donde A y B estén conectados y
desde A se pueda alcanzar B:

E(L,+) = [(1,2), (1,3), (3,4), (3,5)]

Para calcular los ejemplos negativos tenemos que ver una tupla donde A y B están conectados
pero que desde A no se pueda alcanzar B:

E(L,-) = []
Se calculan las incertidumbres de los atributos:

I_(A1=sí) = -(1/1)*log2*(1/1) – (0/1)*log2*(0/1) = 0


I_(A1=no) = -(1/4)*log2*(1/4) – (3/4)*log2*(3/4) = 0.8113
I(A1) = (1/5)*0 + (4/5)*0.8113 = 0.6490

I_(A2=sí) = - (3/3)*log2*(3/3) – (0/3)*log*(0/3) = 0


I_(A2=no) = -(2/2)*log2*(2/2) – (0/2)*log2*(0/2) = 0
I(A2) = (3/5)*0 + (2/5)*0 = 0

Al ser 0 la incertidumbre de A2 no haría falta seguir calculando. Se elegiría el atributo A2 ya que


sería el atributo con mayor ganancia de información.
Solución:

Cálculo del error de A1:

mu_(A1=Alto) = (4100 + 3100 + 4000) / 3 = 3733.33


mu_(A1=Bajo) = (500 + 700 + 1000) / 3 = 733.33
sigma_(A1=Alto) = sqrt(((4100 – 3733.33)^2 + (3100 – 3733.33)^2 + (4000 – 3733.33)^2) / 3)
= 449.69
sigma_(A1=Bajo) = sqrt(((500 – 733.33)^2 + (700 – 733.33)^2 + (1000-733.33)^2) / 3) = 205.48

Error_(A1) = (3/6) * 449.69 + (3/6) * 205.48 = 327.585

Cálculo del error de A2:

mu_(A2=sí) = (4100 + 3100 + 700 + 1000) / 4 = 2225


mu_(A2=no) = (500 + 4000) / 2 = 2250
sigma_(A2=sí) ) =
sqrt(((4100 – 2225)^2 + (3100 – 2225)^2 + (700 – 2225)^2 + (1000 – 2225)^2) / 4) = 1423.68
sigma_(A2=no) = sqrt(((500 – 2250)^2 + (4000 – 2250)^2) / 2) = 1750

Error_(A2) = (4/6) * 1423.68 + (2 / 6) * 1750 = 1532.45

Cálculo del error de A3:

mu_(A3=sí) = (4100 + 4000 + 1000) / 3 = 3033.33


mu_(A3=no) = (500 + 3100 + 700) / 3 = 1433.33
sigma_(A3=sí) = sqrt(((4100 – 3033.33)^2 + (4000 – 3033.33)^2 + (1000 – 3033.33)^2) / 3
= 1438.36
sigma_(A3=no) = sqrt(((500 – 1433.33)^2 + (3100 – 1433.33)^2 + (700 – 1433.33)^2 /3
= 1181.34

Error_(A3) = (3/6) * 1438.36 + (3/6) * 1181.34 = 1309.85

Se elige el atributo A1 por tener menor error.


Solución:
Se calculan las distancias euclídeas entre todos los ejemplos y e0:
d(e1, e0) = sqrt((0-3)^2 + (3-5)^2) = 3.6056
d(e2, e0) = sqrt((5-3)^2 + (3-5)^2) = 2.8284
d(e3, e0) = sqrt((2-3)^2 + (5-5)^2) = 1
d(e4, e0) = sqrt((3-3)^2 + (1-5)^2) = 4
d(e5, e0) = sqrt((3-3)^2 + (10-5)^2) = 5

Se calcula la similitud:
s(e1, e0) = 1/(1+3.6056) = 0.2171
s(e2, e0) = 1/(1+2.8284) = 0.2612
s(e3, e0) = 1/(1+1) = 0.5
s(e4, e0) = 1/(1+4) = 0.2
s(e5, e0) = 1/(1+5) = 0.1667

Las tres mayores similitudes se producen para los ejemplos e1, e2 y e3. Aplicando el criterio
“clase de la mayoría” y habiendo dos ejemplos “-“ y uno “+”, el ejemplo se clasificaría como “-“.
Solución:

Se calculan las probabilidades:

P(C_+) = 2/6 = 0.33


P(C_-) = 4/6 = 0.66

Atributos nominales:
P(A2=sí|C_+) = 2/2 = 1 -> 0.95
P(A2=no|C_+) = 0/2 = 0 -> 0.05
P(A2=sí|C_-) = 2/4 = 0.5
P(A2=no|C_-) = 2/4 = 0.5
Solución:
Se calculan las distancias de los ejemplos a los centroides:
d(e1, c(C1)) = sqrt((1-1)^2 + (1-1.5)^2) = 0.5
d(e2, c(C1)) = sqrt((1-1)^2 + (2-1.5)^2) = 0.5
d(e3, c(C1)) = sqrt((2-1)^2 + (1-1.5)^2) = 1.12
d(e4, c(C1)) = sqrt((4-1)^2 + (2-1.5)^2) = 3.04
d(e5, c(C1)) = sqrt((5-1)^2 + (2-1.5)^2) = 4.03
d(e6, c(C1)) = sqrt((4-1)^2 + (3-1.5)^2) = 3.35
d(e1, c(C2)) = sqrt((1-3.75)^2 + (1-2)^2) = 2.93
d(e2, c(C2)) = sqrt((1-3.75)^2 + (2-2)^2) = 2.75
d(e3, c(C2)) = sqrt((2-3.75)^2 + (1-2)^2 = 2.02
d(e4, c(C2)) = sqrt(4-3.75)^2 + (2-2)^2 = 0.25
d(e5, c(C2)) = sqrt(5-3.75)^2 + (2-2)^2 = 1.25
d(e6, c(C2)) = Sqrt(4-3.75)^2 + (3-2)^2= 1.03

Se eligen las distancias mínimas de cada ejemplo a cada centroide. Los clústers quedan
configurados de la siguiente manera:
C1 = {e1, e2, e3}
C2 = {e4, e5, e6}
Solución:

Es falsa. Es necesario aplicarle una función no lineal de tipo umbral, F. (Página 460 del libro)

También podría gustarte