Examen Ejemplo

Ejemplo de Examen tipo Avex
Solución:
La técnica no indicada sería Entrenamiento&test. Valorar la calidad de lo aprendido en función
de una única partición en el conjunto de ejemplos disponibles puede producir resultados
equívocos cuando el número de ejemplos es muy reducido, dado que se puede producir un
sesgo involuntario a la hora de escoger los ejemplos en un conjunto y otro.
Solución:
Especializar G_j : Se eliminan las hipótesis por inconsistencia, no describen el ejemplo:

(x1, x2, x3, N, x5, x6) y (x1, x2, x3, x4, S, x6).
G_j+1 = {(S, x2, x3, x4, x5, x6), (x1, N, x3, x4, x5, x6), (x1, x2, S, x4, x5, x6), (x1, x2, x3, x4, x5, S)}
Generalizar S_j :
S_j+1 = {(S,N,S,S,N,S)}
Solución:
Semilla = { I1 = 0, I2 = 0, I3 = 0 }
E={},L={}
Tenemos los siguientes complejos:
C1 : (I1 = 0)
C2 : (I2 = 0)
C3 : (I3 = 1)
El único que no describe ningún ejemplo negativo es C3, por tanto se añade a la estrella:
E = {C3}
L’ = {C1, C2}
L = L’
C12 : (I1 = 0) ^ (I2 = 0)
Este complejo describe ejemplos negativos (ejemplo 2), por tanto no se incorpora a la estrella.
La función LEF no permite reglas de más de 2 premisas, por lo que en este punto no se tratan
más especializaciones.
El único complejo de la estrella, C3, cubre dos ejemplos positivos (1 y 7) y tiene una premisa,
cumpliendo con las especificaciones de la función LEF.
R(1) = {C3(1)}
Solución:
Conectado = [(1,2), (1,3), (3,4), (3,5)]

Alcanzable = [(1,2), (1,3), (1,4), (1,5), (3,4), (3,5)]
E+ = [(1,2), (1,3), (1,4), (1,5), (3,4), (3,5)]

E- = [(1,1), (2,1), (2,2), (2,3), (2,4), (2,5), (3,1), (3,2), (3,3), (4,1), (4,2), (4,3), (4,4), (4,5), (5,1), (5,2),
(5,3), (5,4), (5,5)]
L = Conectado (A, B)
Alcanzable(A,B) :- Conectado(A,B)
Para calcular los ejemplos positivos tenemos que ver la tupla donde A y B estén conectados y
desde A se pueda alcanzar B:
E(L,+) = [(1,2), (1,3), (3,4), (3,5)]
Para calcular los ejemplos negativos tenemos que ver una tupla donde A y B están conectados
pero que desde A no se pueda alcanzar B:
E(L,-) = []
Se calculan las incertidumbres de los atributos:
I_(A1=sí) = -(1/1)*log2*(1/1) – (0/1)*log2*(0/1) = 0

I_(A1=no) = -(1/4)*log2*(1/4) – (3/4)*log2*(3/4) = 0.8113
I(A1) = (1/5)*0 + (4/5)*0.8113 = 0.6490
I_(A2=sí) = - (3/3)*log2*(3/3) – (0/3)*log*(0/3) = 0

I_(A2=no) = -(2/2)*log2*(2/2) – (0/2)*log2*(0/2) = 0
I(A2) = (3/5)*0 + (2/5)*0 = 0
Al ser 0 la incertidumbre de A2 no haría falta seguir calculando. Se elegiría el atributo A2 ya que

sería el atributo con mayor ganancia de información.
Solución:
Cálculo del error de A1:
mu_(A1=Alto) = (4100 + 3100 + 4000) / 3 = 3733.33

mu_(A1=Bajo) = (500 + 700 + 1000) / 3 = 733.33
sigma_(A1=Alto) = sqrt(((4100 – 3733.33)^2 + (3100 – 3733.33)^2 + (4000 – 3733.33)^2) / 3)
= 449.69
sigma_(A1=Bajo) = sqrt(((500 – 733.33)^2 + (700 – 733.33)^2 + (1000-733.33)^2) / 3) = 205.48
Error_(A1) = (3/6) * 449.69 + (3/6) * 205.48 = 327.585
mu_(A2=sí) = (4100 + 3100 + 700 + 1000) / 4 = 2225

mu_(A2=no) = (500 + 4000) / 2 = 2250
sigma_(A2=sí) ) =
sqrt(((4100 – 2225)^2 + (3100 – 2225)^2 + (700 – 2225)^2 + (1000 – 2225)^2) / 4) = 1423.68
sigma_(A2=no) = sqrt(((500 – 2250)^2 + (4000 – 2250)^2) / 2) = 1750
Error_(A2) = (4/6) * 1423.68 + (2 / 6) * 1750 = 1532.45
mu_(A3=sí) = (4100 + 4000 + 1000) / 3 = 3033.33

mu_(A3=no) = (500 + 3100 + 700) / 3 = 1433.33
sigma_(A3=sí) = sqrt(((4100 – 3033.33)^2 + (4000 – 3033.33)^2 + (1000 – 3033.33)^2) / 3
= 1438.36
sigma_(A3=no) = sqrt(((500 – 1433.33)^2 + (3100 – 1433.33)^2 + (700 – 1433.33)^2 /3
= 1181.34
Error_(A3) = (3/6) * 1438.36 + (3/6) * 1181.34 = 1309.85
Se elige el atributo A1 por tener menor error.

Solución:
Se calculan las distancias euclídeas entre todos los ejemplos y e0:
d(e1, e0) = sqrt((0-3)^2 + (3-5)^2) = 3.6056
d(e2, e0) = sqrt((5-3)^2 + (3-5)^2) = 2.8284
d(e3, e0) = sqrt((2-3)^2 + (5-5)^2) = 1
d(e4, e0) = sqrt((3-3)^2 + (1-5)^2) = 4
d(e5, e0) = sqrt((3-3)^2 + (10-5)^2) = 5
Se calcula la similitud:
s(e1, e0) = 1/(1+3.6056) = 0.2171
s(e2, e0) = 1/(1+2.8284) = 0.2612
s(e3, e0) = 1/(1+1) = 0.5
s(e4, e0) = 1/(1+4) = 0.2
s(e5, e0) = 1/(1+5) = 0.1667
Las tres mayores similitudes se producen para los ejemplos e1, e2 y e3. Aplicando el criterio
“clase de la mayoría” y habiendo dos ejemplos “-“ y uno “+”, el ejemplo se clasificaría como “-“.
Solución:
Se calculan las probabilidades:
P(C_+) = 2/6 = 0.33

P(C_-) = 4/6 = 0.66
Atributos nominales:
P(A2=sí|C_+) = 2/2 = 1 -> 0.95
P(A2=no|C_+) = 0/2 = 0 -> 0.05
P(A2=sí|C_-) = 2/4 = 0.5
P(A2=no|C_-) = 2/4 = 0.5
Solución:
Se calculan las distancias de los ejemplos a los centroides:
d(e1, c(C1)) = sqrt((1-1)^2 + (1-1.5)^2) = 0.5
d(e2, c(C1)) = sqrt((1-1)^2 + (2-1.5)^2) = 0.5
d(e3, c(C1)) = sqrt((2-1)^2 + (1-1.5)^2) = 1.12
d(e4, c(C1)) = sqrt((4-1)^2 + (2-1.5)^2) = 3.04
d(e5, c(C1)) = sqrt((5-1)^2 + (2-1.5)^2) = 4.03
d(e6, c(C1)) = sqrt((4-1)^2 + (3-1.5)^2) = 3.35
d(e1, c(C2)) = sqrt((1-3.75)^2 + (1-2)^2) = 2.93
d(e2, c(C2)) = sqrt((1-3.75)^2 + (2-2)^2) = 2.75
d(e3, c(C2)) = sqrt((2-3.75)^2 + (1-2)^2 = 2.02
d(e4, c(C2)) = sqrt(4-3.75)^2 + (2-2)^2 = 0.25
d(e5, c(C2)) = sqrt(5-3.75)^2 + (2-2)^2 = 1.25
d(e6, c(C2)) = Sqrt(4-3.75)^2 + (3-2)^2= 1.03
Se eligen las distancias mínimas de cada ejemplo a cada centroide. Los clústers quedan
configurados de la siguiente manera:
C1 = {e1, e2, e3}
C2 = {e4, e5, e6}
Solución:
Es falsa. Es necesario aplicarle una función no lineal de tipo umbral, F. (Página 460 del libro)

Examen Ejemplo

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Examen Ejemplo

Cargado por

Copyright:

Formatos disponibles

Ejemplo de Examen tipo Avex

Especializar G_j : Se eliminan las hipótesis por inconsistencia, no describen el ejemplo:

Tenemos los siguientes complejos:

C12 : (I1 = 0) ^ (I2 = 0)

Conectado = [(1,2), (1,3), (3,4), (3,5)]

E+ = [(1,2), (1,3), (1,4), (1,5), (3,4), (3,5)]

E(L,+) = [(1,2), (1,3), (3,4), (3,5)]

I_(A1=sí) = -(1/1)*log2*(1/1) – (0/1)*log2*(0/1) = 0

I_(A2=sí) = - (3/3)*log2*(3/3) – (0/3)*log*(0/3) = 0

Al ser 0 la incertidumbre de A2 no haría falta seguir calculando. Se elegiría el atributo A2 ya que

Cálculo del error de A1:

mu_(A1=Alto) = (4100 + 3100 + 4000) / 3 = 3733.33

Error_(A1) = (3/6) * 449.69 + (3/6) * 205.48 = 327.585

Cálculo del error de A2:

mu_(A2=sí) = (4100 + 3100 + 700 + 1000) / 4 = 2225

Error_(A2) = (4/6) * 1423.68 + (2 / 6) * 1750 = 1532.45

Cálculo del error de A3:

mu_(A3=sí) = (4100 + 4000 + 1000) / 3 = 3033.33

Error_(A3) = (3/6) * 1438.36 + (3/6) * 1181.34 = 1309.85

Se elige el atributo A1 por tener menor error.

Se calculan las probabilidades:

P(C_+) = 2/6 = 0.33

También podría gustarte

I_(A1=sí) = -(1/1)log2(1/1) – (0/1)log2(0/1) = 0

I_(A2=sí) = - (3/3)log2(3/3) – (0/3)log(0/3) = 0