Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Los árboles de decisión abstractason una de las técnicas de catión de clase más
utilizadas debido a su representación fácilmente comprensible. En la literatura, se
han desarrollado varios métodos para generar árboles de decisión útiles. Los
algoritmos ID3 y SLIQ son dos de los algoritmos importantes que generan árboles
de decisión. Aunque se han aplicado para varios problemas de la vida real, son
inadecuados para representar la ambiguedad y la vaguedad del pensamiento y la
percepción humanas. En este estudio, se discuten los algoritmos ID3 difusos y SLIQ
difusos, que generan árboles de decisión difusos, así como sus versiones mejoradas.
Sus actuaciones también se prueban utilizando simples conjuntos de entrenamiento
de la literatura.
Los árboles de decisión son modelos predictivos diseñados para la minería de datos
supervisada que analizan los datos de forma multivariante y arbórea [25]. Logranel
objeto classification a través dela división de las ramas de un árbol donde cada
división presenta una prueba a través de un atributo o un criterio. Cada división se
denomina nodo y la primeradivisión se denomina raíz del árbol. Cuando finaliza la
división o el proceso de bifurcación, cada uno de los últimos nodos se denomina
nodo terminal o hoja del árbol. Cada secuenciade rama proporciona una regla para
laclasificación de objetos [26]. En Fig se proporciona un ejemplo de un árbol de
decisión. 1 [26]. En Higuera. 1, la decisión de jugar al tenis se logra teniendo en
cuenta factores relacionados con el clima como la perspectiva del clima, la humedad
y el viento. La primera división se logra a través de la perspectiva que constituye
e-mail: cinard@itu.edu.tr
la raíz del árbol. Si el cielo está nublado, entonces se toma la decisión de jugar al
tenis haciendo de esto ladivisión fi nal de una cierta perspectiva condicional. La
decisión de jugar al tenis es la hoja o el nodo terminal del árbol. Sin embargo, si el
clima es soleado o lluvioso, no se puede tomar una decisión directa sin tener en
cuenta la humedad o las condiciones del viento. Por lo tanto, en tales casos, el nodo
terminal no se puede alcanzar únicamente en la perspectiva.
Los árboles de decisión dividen un complejo proceso de decisión en un conjunto
de decisiones más sencillas para clasificar los objetos dados con una representación
fácilmente comprensible [27]. Esta es la razón por la que los árbolesde decisión son
herramientas importantes en la literatura de minería de datos [31]. Se han propuesto
muchos algoritmos para construir árboles de decisión. Aunque estos métodos han
generado árboles de decisión útiles paraproblemas de clasión declase, son
inadecuados para representar la ambiguedad y la vaguedad del pensamiento y la
percepción humanas
[46].
En la teoría de conjuntos clásicos, un elemento pertenece a un determinado
conjunto o no. Por ejemplo, en el árbol de decisión indicado en la Fig. 1, se supone
que la humedad de un objeto se conoce precisamente porque es alta o normal.
Supongamos que hay un cierto límite, 20 %, que se utiliza para determinar la
humedad de un objeto, es decir, si la humedad está por encima de ese límite,
entonces pertenece a alto, de lo contrario pertenece a lo normal. Si un objeto tiene
un 21 % de humedad, ¿debemos clasificar el objeto como no jugar al tenis?
Los conjuntos crujientes pueden no ser realistas para los problemas del mundo
real, incluida la vaguedad y la subjetividad. Por lo tanto, los conjuntos difusos se
han integrado en los árboles de decisión para mejorar la capacidad de manejo de la
incertidumbre. En este capítulo, se discuten algoritmos de inducción clásicos para
construir árboles de decisión difusos.
Arboles de decisión difusos 223
0 el registro20 se asume como 0. Si las decisiones para todos los objetos son las
mismas, entonces la entropía será cero. Esto significa que no es necesario
dividir el nodo en el nivel de decisión correspondiente. Deje que T i sea el
conjunto de subconjuntos creados a partir dela división del conjunto S por el
atributo Ai: La ganancia de información para cada atributo se calcula de la
siguiente manera:
K
donde t 1/4 [ k1/41tk: En cada iteración del algoritmo ID3, el atributo que tiene la
mayor ganancia de información se selecciona como el nivel de decisión. Un
pseudocódigo que incluye los pasos principales del algoritmo ID3 se da en el
algoritmo 1.
Algoritmo 1: Algoritmo ID3
Entrada: Datos de clasificación
1 Calcular p(k),E(S)
2 Calcular IG(S,Aj)- maxi-SIG(S,Ai)
3 Rama para el atributo Aj
4 Actualización S
5 si E(S) á0 o ningún atributo queda para dividir, a continuación, terminar esta rama;
6 si todas las ramas terminadas, termina el algoritmo;
7 Más
8 GotoStep1
Salida: Decisiontree
66335
E-Sá 1/4 log2 log2 log2 1/4 1:531
1414141414
226 A. Altay y D. Cinar
113
EðbienN.o 1/4 Registro2 Registro2 Registro2 ¼ 1:371
5
Del mismo modo, los valores de entropía para otras características se encuentran
como E-maloá 1/4 0:811 y Edesconocido1/4 1:522: En el conjunto de datos, hay
clientes con 5 buenos, 4 malos y 5 historial de crédito desconocido. Por lo tanto, la
ganancia de información para el historial de crédito de atributos se puede obtener
de la siguiente manera:
545
IG-S; historial crediticio1/4 1:531 1:317 0:811 1:522 1/4 0:266
141414
51
EðSAltoN.o 1/4 Registro2 Registro2 ¼ 0:65
6
GINIðS;AiÞ ¼j jGINI t 5
S
t2Ti
La impureza gindel para deuda, garantía e ingresos se calcula como 0,612, 0,563
y 0,262, respectivamente. Una mayor impureza GINI indica un mayor nivel de
heterogeneidad y un nivel de determinación más bajo en una decisión; mientras que
una impureza GINI inferior indica una regla más decidida sobre una decisión.
Puesto que la impureza GINI más baja pertenece al atributo income, este atributo
se convierte en la raíz del árbol con tres ramas que son bajas, moderadas y altas.
MEðtÞ ¼ 1 maxk½pðtkÞð6Þ
Por lo tanto, la clase besomes alto riesgo, ya que la mayoría de las personas con
malos historiales de crédito pertenecen al grupo de alto riesgo. El error de error de
cálculo para estaprimera división se calcula a travésde todos los datos de
claseincorrecta. Elnúmero erróneode objetos para personas conbuenos; historial de
crédito desconocido y malo es 2, 3 y 1, respectivamente. En un total de 14 objetos,
6 de ellos se colocan incorrectamente. Por lo tanto, ME-S; credithistoryá 1/4 6a14
230 A. Altay y D. Cinar
1/4 0:428: Latasa de error de fi cation se calculacomo 0.5, 0.428 y 0.214 para la
deuda; garantías y atributos de ingresos. Por lo tanto, la primeradivisión se logra a
través de los ingresos:
La comparación de la entropía, la impureza GINI y el error de fi catión
declaseincorrectase resume en la Fig. 3. El nivel máximo de impureza puede ser 0,5
parael error de impureza yficatocente de clase incorrecta de GINI y 1 para
laentropía, que indica el caso de máxima heterogeneidad en los datos. Como se
puede ver en Fig. 3, la entropía tiene un aumento no lineal y más accelarated a
medida que aumenta la heterogeneidad.
3 La comparación entre la
entropía, la impureza GINI yel
error deficatión de clase
incorrecta
• dap; qá[dár; s; p y q
están en el mismo
clúster, y r y s están en
clústeres diferentes.
Arboles de decisión difusos 231
2.2.4 Desviación
DðtÞ ¼ 2X½ntkðlnðptkÞÞð8Þ
k1/41
3122
Dá2x 1x 4 2a 3lna4,1ln,4, 2,2,2, 2,2,2, 2, 2, 2, 2, 2,5, 5,5, 5, 5, 5, 5, 5, 5,
5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5,
5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5,
1311
1lná5s 2 1/2 a3 lna5,1ln,5 ,1 ln , 5 ,1 ln,1 , 1 , 1, 24 :55
Con tal división, la desviación se reduciría de 29,71 a 24,55, lo que supone una
disminución de 5,24 unidades de impureza. Si el atributo split fuera deuda, el nuevo
valor de desviación de la división sería 28,49, lo que supone una disminución de
1,22. El valor de desviación de la división sería de 25,71, en caso de garantía y
10,95 en caso de ingresos. Puesto que el valor de desviación más pequeño se logra
por ingresos, se selecciona como elprimer atributo para la división del árbol.
Erðh;DÞ\Erðh0;DÞandErðhÞ[Erðh0Þð9Þ
Una vez que se genera un árbol base (T 0), varios subárboles (T 1; T2;...; Tt) de este
árbol seconstruyen secuencialmente de forma que se minimice la tasade error por
nodo hoja utilizando la siguiente fórmula [37].
Propuesto por Niblett [28], la poda de errores mínimos intenta podar el árbol
utilizando una medida de tasa de error propuesta que se compara entre elárbol
podado y el original. Esta comparación se logra mediante la comparación de las
tasas de error que implican si la tasa de error disminuye cuando se poda cada ruta
no terminal. La fórmula de tasa de error para el árbol podado se muestra a
continuación:
n nc ák1
Erp 1/4o 11 nk
donde n es el número de objetos que cumplen las condiciones del nodo no terminal
relacionado, nc es el número máximo de elementos que pertenecen a la misma clase
234 A. Altay y D. Cinar
1/4nk nn cá k1
Eru½12 n n K k¼1
3 323 1 11 1 3
1
Eru 1/4 á 1/4 0:375
4 33 4 1 3
Este algoritmo es propuesto por Mehta et al. [24] para árboles dedecisión binarios
que implican valores numéricos o categóricos. Utiliza la impureza GINI y un límite
dividido con unenfoque inicial. Durante el proceso de creación de árboles, se deben
tomar dos decisiones principales: (i) evaluación de divisiones para cada atributo y
la selección de la mejor división y (ii) creación de particiones utilizando la mejor
división. La división a través de atributos numéricos tiene la forma de Aáv, donde
A es el valor del atributo y v es el valor de división y un número real. El
pseudocódigo que incluye los pasos principales de SLIQ se da en el algoritmo 3.
Del mismo modo para A2; los puntos de división son 62 y 67 donde las impurezas
GINI son GINI-S; A2; 62x 1/4 0:412 y GINIs; A2; 671/4 0:231. El segundo punto
de división proporciona una disminución de 0,269 y GINIaS; A2x 1/4 0:231. En
términos de A3, las opciones de punto dividido son 0.5, 2.5, 10.5, 13.5, 16.5 y 19.5
con impurezas GINI 0.375, 0.374, 0.493, 0.469, 0.490 y 0.444. Por lo tanto, GINIS;
A3x 1/4 0:374 por el punto 2.5. Considerando A1; A2 y A3; la disminución máxima
de la impureza GINI es proporcionada por A2 dividiendo del valor de 67. La rama
izquierda A2[67 implica una impureza GINI de 0, por lo tanto, todos los objetos
pertenecen a la misma clase, haciendo de este nodo una hoja. Sin embargo, la
impureza GINI de la rama A2a67 tiene un GINI de 0,355 y necesita datos
clasificados de la Tabla 3 A1 para la división adicional de SLIQ en 13 objetos. La
división adicional proporciona dos árboles alternativos. Sobre la división A 2á67;
tanto GINIcomoS; A1; 46:5 oGinis; A2; 62tiene valores de 0. Dos árboles generados
por el algoritmo SLIQ se dan en Figs. 5 y 6.
5 Segundo árbol generado por el algoritmo SLIQ
Los árboles de decisión difusos fueron mencionados por primera vez por Chang y
Pavlidis [8]en 1977. Desde entonces, muchos algoritmos de inducción de árboles
de decisión difusos se han propuesto en la literatura. En Chiang y Hsu [9], se puede
encontrar una revisión exhaustiva de los árboles de decisión difusos. En esta
sección,se discuten los algoritmos de inducción difusa ampliamente utilizados—
ID3 difuso y algoritmos SLIQ difusos— y se da una breve revisión de la literatura
sobre estudios recientes utilizando estos algoritmos.
Antes de discutir los árboles de decisión difusos, algunas operaciones difusas
fundamentales relacionadas con el proceso de inducción del árbol de decisión difusa
se dan como la siguiente. S seaun conjunto difuso de n objetos en un conjunto de
entrenamiento. Un subconjunto difuso parala clase k se puede representar con C.
La frecuencia relativa pk para la clase k se puede calcular de la siguiente manera:
M 13o
páká1/4 PKk1-MCákáCák
¼
x2S
MáCaka1/4 Xa lCak xxa 14
M
donde -C-ká es la cardinalidad del subconjunto C-k y lC-k xá es el valor de
pertenencia del objeto x ala clase k: Para cada atributo Ai; hay términos ni
linguísticos que están
representados por A1i á t
kM Mátká kCáká;[ Kk1/41átk 1/4t
;...; A n
i
i
: Deje que T 15o
p át á 1/4 ?
-i
sea el conjunto de 16o
Má tk áCáká 1/4 Xá mín.
subconjuntos creados
s
a partir del conjunto de división por el atributo Ai: Frecuencia relativa de la clase
En este estudio, se utiliza una función de pertenencia triangular para determinar los
valores de pertenencia para todos los términos linguísticos. Cada valor linguístico
Aij se representa con tres valores aj; bj; cj, donde unj y cj son los valores menos
posibles, mientras que bj es el más
Arboles de decisión difusos 243
1 a1 xb1
80 x aj
ð Þ ð
ij < x aj = bj ajÞ aj\x\bj ðÞ
>
lA ðxÞ ¼ ðc xÞ=ðc b Þ b \x\cj ; 1\j\ni 19
jjjj
>>:0 xcj
El algoritmo ID3 difuso y sus variantes son los algoritmos de inducción más
utilizados en la literatura porque no requiere mucho esfuerzo computacional para
generar árboles de decisión difusos y es adecuado para problemas de aprendizaje a
gran escala [43]. La idea principal de ID3 difuso es la misma con el ID3 clásico.
La principal diferencia entre dos algoritmos es el cálculo de los valores de entropía
de la siguiente manera:
M
á á
Eátá 1x4 Xk1/4K1 p1 pátkálog2 p tká1/4 Xk1/4K1 PkK1/41áMtk t
á á a
kCák Cakaregistro2PkKM1/41áMtk s tkCak Cak
21
Arboles de decisión difusos 245
3:22:61:8
PáSbajo; C-alto riesgoá1/4 0:9[b 1/4 0:7; la rama baja se termina y todos los objetos
de esta rama classified como high_risk. El nivel de verdad de las clases para rama
P-S-moderado; C-riesgomoderado : 1/4 0:585; yP-S-moderado; C-alto riesgo1/4 0:66: Dado que
Cada rama de raíz a hoja se puede convertir en una regla. Los nodos de decisión en
una ruta de acceso proporcionan las características de los atributos que representan
Arboles de decisión difusos 249
una condición determinada, mientras que la hoja al final de una ruta es la decisión
final. Las reglas extraídas del árbol de decisión dado por Fig. 8 son los siguientes:
1. si los ingresos son altos y el historial de crédito es bueno, entonces el riesgo es
bajo -P 1/4 0:778
2. si los ingresos son altos y el historial de crédito es malo, entonces el riesgo es
moderado -P 1/4 0:736
3. si los ingresos son altos y se desconoce el historial de crédito, entonces el riesgo
es bajo -P 1/4 0:706
4. si los ingresos son moderados y la deuda es alta y el historial de crédito es bueno
y la garantía es ninguna, entonces el riesgo es moderado -P 1/4 0:533
5. si los ingresos son moderados y la deuda es alta y el historial de crédito es
bueno y la garantía es adecuada, entonces el riesgo es alto -P 1/4 0:8
6. si los ingresos son moderados y la deuda es alta y el historial de crédito es
malo, entonces el riesgo es alto -P 1/4 1
7. si los ingresos son moderados y la deuda es alta y se desconoce el historial de
crédito, entonces el riesgo es moderado -P 1/4 0:833
8. si los ingresos son moderados y la deuda es baja, entonces el riesgo es alto -
P 1/4 0:784
9. si los ingresos son bajos, entonces el riesgo es alto -P 1/4 0:9.
Quinlan [34] investigó los métodos que están simplificando los árboles de
decisión no difusos sin comprometer su precisión. Yuan y Shaw [46] aplicaronla
técnica de simulación de reglas a los árboles dedecisión difusos. En esta técnica,
una regla es simplified quitando un término de atributo de la partede condición (if).
Para una regla, se quita un atributo de la regla y el nivel de verdad se obtiene en
cada momento. Laregla simplified que tiene el mayor nivel de verdad que la regla
ginalorise sustituye por la original. En el ejemplo de evaluación de riesgos cresit,
sólola regla 4 y la regla 5 pueden ser simplified. Simplified versión de las reglas y
sus niveles de verdad se dan enlo siguiente:
4. si los ingresos son moderados y el historial de crédito es bueno, entonces el
riesgo es moderado -P 1/4 0:696
5. si los ingresos son moderados y la deuda es alta y la garantía es adecuada,
entonces el riesgo es alto -P 1/4 0:929.
El algoritmo SLIQ ha sido fuzzified por Chandra y Verghese [6]. En el caso nítido,
los puntos medios de los valores en los que cambian las clases se determinan como
puntos de división. Según to Chandra y Verghese, el mareo reside en la elección
del punto de división, y la distancia al punto de división junto con la desviación
estándar de los valores de atributo determinan la salida. Los valores de pertenencia
difusa se calculan utilizando el ion desviado estándar, el punto de división y
losparámetros deespecificaciónde usuario b; a como se indica a continuación:
Tabla 6 Resultados del algoritmo ID3 difuso para el ejemplo de evaluación del riesgo
crediticio
# Real classificatión Resultados de ID3 difuso
lval ¼ 1 lpvalrp
> rw
: valrp árw val[rp
rw 1/4 a r 29
donde r es la desviación estándar de los valores de atributo. Los parámetros lw y
rw controlan la pendiente de las funciones de pertenencia y dependen de la
desviación estándar, y en varias aplicaciones b 2 1/20; 1: Sin embargo, para
mayores spreads de los datos, es posible que b[1: Como se indica en el algoritmo
SLIQ en Sect. 2.6, los puntos dedivisión se desbany los valores de membresía se
calculanutilizando estos puntos de división. En este caso, la impureza GINI utiliza
valores de pertenencia difusas; por lo tanto, la impureza GINI es fuzzified de
lasiguiente manera:
V NðvÞ K NwðvkÞ 2
indicando N2a1x 1/4 0:294 3 1/4 0:882: La impureza GINI para esa partición
(rama) es
8:760 2 0:882 2
GINI-S; A2x67a 1/4 1 á a 1/4 0:166
9:642 9:642
5:436 22
GINIðS;A2[67Þ ¼ 1 ð Þ ð Þ¼0
5:436
El GINI total sobre la división A2 es
Las impurezas GINI sobre todos los atributos y todos los puntos de división se
indican en la Tabla 8. La mayor disminución de la impureza GINI es proporcionada
por el atributo A2 con una división en el punto 67.
254 A. Altay y D. Cinar
4 Resultados computacionales
Secta 3.2. Las reglas ylos resultados de classification sonlos mismos que los
obtenidos por Yuan y Shaw [46] donde se utilizó lamedida de ambiguedad en lugar
de la entropía.
Dado que el número de resultados es de tres en Yuan y Shaw's ejemplo,
algoritmo SLIQ difuso no es capaz de decir qué deporte para jugar. Sin embargo,
en función de los valores de pertenencia de atributo, puede decidir si una persona
puede jugar voleibol o no para diferentes valores de pertenencia de las condiciones
climáticas. Para generar un tree de este tipo, se deben hacerdos modifications en los
datos: Los valores de membresía de las condiciones climáticas se pueden asumir
como un valor numérico que representa la condición meteorológica relacionada El
resultado de este ejemplo es numérico, debe convertirse en resultados binarios. Con
el fin de generar resultados binarios, se supone que si el valor de pertenencia del
resultado es mayor que 0.5, entonces se juega el deporte determinado.
Probablemente, si el valor de la membresía es menor que 0.5, el deporte no se juega.
Para el voleibol, el atribut es, lospuntos divididos y la impureza GINI difusa se
determina como se indica en la Tabla 11.
El resultado para el clima ventoso y no ventoso en las divisiones 0.05 y 0.95
tienen el mismo valor GINI. Este resultado se espera ya que los atributos ventosos
y no ventosos son atributos complementarios cuyos valores de pertenencia suelen
1. Se puede elegir un atributo para la bifurcación. Supongamos que la primera
ramificación se hace queel tiempo difícilsea ventoso con un valor de membresía
que es menor que 0.05. La bifurcación da como resultado 3 objetos en el nodo "lwindy
-0:05" (todos con un valor de pertenencia de 0) y 13 en el otro nodo. El nodo "l ventoso
0:05" tiene un valor GINI de 0 (todos los objetos sugieren que la persona juega
voleibol). Por lo tanto, este nodo se termina como una hoja. El otro nodo (lventoso [
0:05), tiene un valor GINI de 0,26. La división adicional proporciona el Cuadro 12.
La impureza GINI difusa mínima es proporcionada por el clima siendo suave
con un valor de membresía de 0.5. Por lo tanto, dos ramas son "lsuave -0:50" y
"lsuave [ 0:50". Si el valor de la membresía del clima es suave es menor que 0.5,
entonces la decisión es no jugar voleibol para todos los objetos, por lo tanto este
nodo también se termina como una hoja. La otra rama, sin embargo, tiene un GINI
de 0,5 y puede ser ramificada. Los valores de la tercera división se indican en el
Cuadro 13.
258 A. Altay y D. Cinar
SLIQ difuso obtiene mejor classificatión que el algoritmo ID3 difuso para el
Todos los algoritmos tienen sus ventajas y desventajas. El algoritmo ID3 difuso es
fácil de aplicar y tiene una fuerte capacidad de aprendizaje; sin embargo, es sensible
al ruido, no puede controlar la bifurcación en varios atributos a la vez y no puede
controlar los valores de atributo continuos. También es propenso a atribuir el
problema de sesgo, es decir, el algoritmo
262 A. Altay y D. Cinar
13 Árbol de decisión 1 obtenido por algoritmo SLIQ difuso para levantamiento de pesas
14 Árbol de decisión 2 obtenido por algoritmo SLIQ difuso para levantamiento de pesas
Dados los algoritmos más fundamentales para la decisión difusa tress, algunos
enfoques recientes se resumenen esta sección. Uno de los enfoques más recientes
es desarrollado por Tusor et al. [41] y utiliza la inferencia codiciosa y los
mecanismos de inferencia completa para la decisión dividida.
El estado de la técnica en los árboles de decisión difusos son los árboles deci
sion difusos intuicionistas;sin embargo, desembocan sus raíces en el algoritmo ID3
[5]. Los conjuntos difusos intuicionistas ofrecen un enfoque que considera un valor
o función que no es de pertenencia además de la función de pertenencia
convencional. La diferencia entre losvalores de cadera de pertenencia y
nomiembros se defined como margen devacilación. El algoritmo ID3 se aplica a los
valores de pertenencia y no pertenencia y la división se considera en el grado de un
punto de datos que pertenece a una clase y no pertenece a los demás de una manera
que maximiza la reducción de la entropía difusa.
Los algoritmos antes mencionados, especialmente el algoritmo ID3, es con los
avances de los algoritmos de Machine Learning, también hay una nueva rama para
árboles de decisión difusos donde se hibridan y sintonizan con la red neuronal. Este
enfoque tiene sus raíces desde principios de la década de 2000 [30]. Sin embargo,
los últimos enfoques implican redes neuronales con estructuras más complicadas
[39].
6 Conclusión
1.