Está en la página 1de 44

Arboles de decisión difusos

Ayca Altay y Didem Cinar

Los árboles de decisión abstractason una de las técnicas de catión de clase más
utilizadas debido a su representación fácilmente comprensible. En la literatura, se
han desarrollado varios métodos para generar árboles de decisión útiles. Los
algoritmos ID3 y SLIQ son dos de los algoritmos importantes que generan árboles
de decisión. Aunque se han aplicado para varios problemas de la vida real, son
inadecuados para representar la ambiguedad y la vaguedad del pensamiento y la
percepción humanas. En este estudio, se discuten los algoritmos ID3 difusos y SLIQ
difusos, que generan árboles de decisión difusos, así como sus versiones mejoradas.
Sus actuaciones también se prueban utilizando simples conjuntos de entrenamiento
de la literatura.

Palabras clave árboles de decisióndifusos Algoritmos de inducción Classification

1 Introducción a los árboles de decisión

Los árboles de decisión son modelos predictivos diseñados para la minería de datos
supervisada que analizan los datos de forma multivariante y arbórea [25]. Logranel
objeto classification a través dela división de las ramas de un árbol donde cada
división presenta una prueba a través de un atributo o un criterio. Cada división se
denomina nodo y la primeradivisión se denomina raíz del árbol. Cuando finaliza la
división o el proceso de bifurcación, cada uno de los últimos nodos se denomina
nodo terminal o hoja del árbol. Cada secuenciade rama proporciona una regla para
laclasificación de objetos [26]. En Fig se proporciona un ejemplo de un árbol de
decisión. 1 [26]. En Higuera. 1, la decisión de jugar al tenis se logra teniendo en
cuenta factores relacionados con el clima como la perspectiva del clima, la humedad
y el viento. La primera división se logra a través de la perspectiva que constituye

A. Altay (&) D. Cinar


Departamento de Ingeniería Industrial,Universidad Técnica de Estambul,
34367 Stanbul, Turquía e-
mail: altaya@itu.edu.tr
D. Cinar
222 A. Altay y D. Cinar

e-mail: cinard@itu.edu.tr

© Springer International Publishing Suiza 2016221


C. Kahraman y. Kabak (eds.), Fuzzy Statistical Decision-Making,
Estudios en Fuzziness and Soft Computing 343,
DOI 10.1007/978-3-319-39014-7_13
1 Un árbolde decisión de
muestra [26]

la raíz del árbol. Si el cielo está nublado, entonces se toma la decisión de jugar al
tenis haciendo de esto ladivisión fi nal de una cierta perspectiva condicional. La
decisión de jugar al tenis es la hoja o el nodo terminal del árbol. Sin embargo, si el
clima es soleado o lluvioso, no se puede tomar una decisión directa sin tener en
cuenta la humedad o las condiciones del viento. Por lo tanto, en tales casos, el nodo
terminal no se puede alcanzar únicamente en la perspectiva.
Los árboles de decisión dividen un complejo proceso de decisión en un conjunto
de decisiones más sencillas para clasificar los objetos dados con una representación
fácilmente comprensible [27]. Esta es la razón por la que los árbolesde decisión son
herramientas importantes en la literatura de minería de datos [31]. Se han propuesto
muchos algoritmos para construir árboles de decisión. Aunque estos métodos han
generado árboles de decisión útiles paraproblemas de clasión declase, son
inadecuados para representar la ambiguedad y la vaguedad del pensamiento y la
percepción humanas
[46].
En la teoría de conjuntos clásicos, un elemento pertenece a un determinado
conjunto o no. Por ejemplo, en el árbol de decisión indicado en la Fig. 1, se supone
que la humedad de un objeto se conoce precisamente porque es alta o normal.
Supongamos que hay un cierto límite, 20 %, que se utiliza para determinar la
humedad de un objeto, es decir, si la humedad está por encima de ese límite,
entonces pertenece a alto, de lo contrario pertenece a lo normal. Si un objeto tiene
un 21 % de humedad, ¿debemos clasificar el objeto como no jugar al tenis?
Los conjuntos crujientes pueden no ser realistas para los problemas del mundo
real, incluida la vaguedad y la subjetividad. Por lo tanto, los conjuntos difusos se
han integrado en los árboles de decisión para mejorar la capacidad de manejo de la
incertidumbre. En este capítulo, se discuten algoritmos de inducción clásicos para
construir árboles de decisión difusos.
Arboles de decisión difusos 223

El recordatorio de este capítulo se organiza de la siguiente manera. Los


algoritmos de inducción de árboles de decisión nítidos bien conocidos de la
literatura se explican en la siguiente sección. Los algoritmos de inducción para
árboles de decisión difusos y la revisión de la literatura correspondiente se dan en
la Sección 3. Los algoritmos se aplican a un conjunto de entrenamiento de muestra
de la literatura y los resultados se discuten en Sect. 4. Por último, en la Secta se
presenta un breve resumen de los enfoques recientes. 5 y las observaciones finales
se presentan en la Secta. 6.
2 Árboles de decisión yproblemas de Classi fication

Unadefinición formal de un problema típico declassification se puede describir de


la siguientemanera. S es el conjunto de objetos de un conjunto de entrenamiento en
el que cada objeto se describe mediante los atributos A 1/4 fA1;...; ANg. El dominio
de cada atributoi Ai está representado por un conjunto de términos linguísticos
discretos L-Aia 1x4 fA1i ;...; Ani g. Cada objeto s 2 S es classified por un conjunto
declases C 1/4 fC1;...; CKg. Let n denota el número de objetos en los que esx1;
y1[;...;axn; yn [ ser los objetos de los datos, xs e ys siendo las entradas y salidas del
objeto s; respectivamente. El conjunto de clases puede ser valores numéricos,
factores ordenados o desordenados. La construcción de un árbol de decisión implica
las siguientes decisiones: (i) qué atributo dividir, (ii) cuándo dejar de dividir y (iii)
cómo asignar nodos de terminal a una clase.
En el Cuadro 1se imparte una pequeña formación sobre el procedimiento de
evaluación del riesgo crediticio [23]. Cada cliente es evaluado de acuerdo con el
potencial de riesgo. Como unproblema de classification, cada cliente es un objeto
de S: Hay tres decisiones posibles para la evaluación de riesgos: alta, moderada y
baja. El historial de crédito, la deuda, las garantías y los ingresos son los atributos
que se utilizan para decidir el potencial de riesgo de un cliente. Las evaluaciones de
atributos para 14 clientes se muestran en la Tabla 1. Los atributos y sus valores se
dan de la siguiente manera:

• Historial de crédito: "bueno, malo, "desconocido"


• Deudas ,alta,baja , baja,
• Colateral ,adecuado, nuno, n,
• Ingresos: bajo ($0 a $15 K), moderado ($15 a $35 K), alto (más de $35 K)

Cuadro 1 A Datos de formación sobre evaluación de riesgos


# Historial de Deuda Colateral Ingresos Riesgo
crédito
1 Malo Alto Ninguno $0 a $15K Alto
2 Desconocido Alto Ninguno $15 a $35K Alto
3 Desconocido Bajo Ninguno $15 a $35K Moderado
224 A. Altay y D. Cinar

4 Desconocido Bajo Ninguno $0 a $15K Alto


5 Desconocido Bajo Ninguno más de $35K Bajo
6 Desconocido Bajo Adecuado más de $35K Bajo
7 Malo Bajo Ninguno $0 a $15K Alto
8 Malo Bajo Adecuado más de $35K Moderado
9 bien Bajo Ninguno más de $35K Bajo
10 bien Alto Adecuado más de $35K Bajo
11 bien Alto Ninguno $0 a $15K Alto
12 bien Alto Ninguno $15 a $35K Moderado
13 bien Alto Ninguno más de $35K Bajo
14 Malo Alto Ninguno $15 a $35K Alto
En este estudio, se investigan los algoritmos de inducción utilizados para
construir árboles de decisión. Dado que la construcción de árboles dedecisión
binaria óptima es un problema NP-completo, se ha desarrollado heurística de gran
eficiencia para generar árboles dedecisión casi óptimos [20]. Los algoritmos ID3,
CART y SLIQ se analizan en el contexto de este capítulo. Ejemplo de evaluación
de riesgo de crédito dado anteriormente se utilizará para explicar los algoritmos ID3
y CART, mientras que el algoritmo SLIQ proporcionará su propio ejemplo.

2.1 Algoritmo ID3

ID3 (Interactive Dichotomizer 3) algoritmo, que es desarrollado por Quinlan [33,


34] en 1986, es uno de los algoritmos de inducción de árbol de decisión más
conocidos. Básicamente, utiliza una medida teórico de la entropía para evaluar el
poder discriminatorio de cada atributo. ID3 utiliza la ganancia de información de
cada atributo para crear un árbol de decisión. El atributo que agrega la mayor
información sobre la decisión se selecciona primero[32]. La mayor ganancia de
información significa la mayor disminución de la entropía que se calcula para el
conjunto S de la siguiente manera:

E-S1/4 Xk1/4K1 pákálog2 páká1/4 Xk1/4K1 jjCSkjjlog2 jCjSkjjá1?

wherei.e. p -kEesla relación de losobjetos en la clase Srepresenta la entropía y p-


kka toda la frecuencia relativa setis de las clases: En todos los cálculos,k enel
conjunto S;
Arboles de decisión difusos 225

0 el registro20 se asume como 0. Si las decisiones para todos los objetos son las
mismas, entonces la entropía será cero. Esto significa que no es necesario
dividir el nodo en el nivel de decisión correspondiente. Deje que T i sea el
conjunto de subconjuntos creados a partir dela división del conjunto S por el
atributo Ai: La ganancia de información para cada atributo se calcula de la
siguiente manera:

IG-S; Ai1/4 EáSá Xt2T i pátá tát á tá1/4 EáSáXt2Ti jjStjjEátá2

Eá t á1/4 Xk1/4K1 pátkálog2 pátká1/4 Xk1/4K1 jjttkjjlog2 jjttkjj á3

K
donde t 1/4 [ k1/41tk: En cada iteración del algoritmo ID3, el atributo que tiene la
mayor ganancia de información se selecciona como el nivel de decisión. Un
pseudocódigo que incluye los pasos principales del algoritmo ID3 se da en el
algoritmo 1.
Algoritmo 1: Algoritmo ID3
Entrada: Datos de clasificación
1 Calcular p(k),E(S)
2 Calcular IG(S,Aj)- maxi-SIG(S,Ai)
3 Rama para el atributo Aj
4 Actualización S
5 si E(S) á0 o ningún atributo queda para dividir, a continuación, terminar esta rama;
6 si todas las ramas terminadas, termina el algoritmo;
7 Más
8 GotoStep1
Salida: Decisiontree

El algoritmo ID3 puede generar un árbol de decisiones para los datos de


evaluación de riesgos de crédito de la siguiente manera. En el conjunto de datos,
hay 6 clientes classified como alto riesgo, 3 clientes como riesgo moderado y 5
clientes como bajo riesgo. La entropía para el conjunto S se calcula de la siguiente
manera:

66335
E-Sá 1/4 log2 log2 log2 1/4 1:531
1414141414
226 A. Altay y D. Cinar

Para calcular la ganancia de información de un atributo, se debe calcular el valor


de entropía para cada subconjunto t de ese atributo. Para el historial de crédito de
atributos, se deben calcular los valores de entropía para buenos, malos y
desconocidos. Entre los 14 clientes, 5 de ellos tienen un buen historial crediticio
con 1 alto riesgo, 1 riesgo moderado y 3 bajos niveles de riesgo. El valor de la
entropía para un buen historial de crédito se puede obtener de la siguiente manera:

113
EðbienN.o 1/4 Registro2 Registro2 Registro2 ¼ 1:371
5

Del mismo modo, los valores de entropía para otras características se encuentran
como E-maloá 1/4 0:811 y Edesconocido1/4 1:522: En el conjunto de datos, hay
clientes con 5 buenos, 4 malos y 5 historial de crédito desconocido. Por lo tanto, la
ganancia de información para el historial de crédito de atributos se puede obtener
de la siguiente manera:

545
IG-S; historial crediticio1/4 1:531 1:317 0:811 1:522 1/4 0:266
141414

La ganancia de información para otros atributos se encuentra como IG-S;


deudas.o 1/4 0:063; IG-S; garantía1/4 0:207 e IG-S; ingresos1/4 0:967: Dado que
los ingresos de atributos son los más grandes con ganancia de información de 0.967,
se convierte en el nodo raíz del árbol de decisión con tres ramas tan altas, moderadas
y bajas.
En primer lugar, se manejará la rama alta para construir el siguiente nivel de
árbol de decisión. Los clientes con ingresos altos constituyen el nuevo conjunto
Salto: Se obtienen nuevos valores de ganancia de información para el resto de
atributos dado que los clientes tienen altos ingresos. Hay 6 clientes de altos ingresos
en el conjunto de datos de los cuales 5 es de bajo riesgo y 1 es de riesgo moderado.
No hay uno de alto riesgo entre los clientes de altos ingresos. La entropía para Shigh
se calcula de la siguiente manera:

51
EðSAltoN.o 1/4 Registro2 Registro2 ¼ 0:65
6

Encontraremos valores de ganancia de información para el historial decrédito de


atributos, deuda y garantía, porque aún no se han colocado en el árbol de decisión.
Vamos a calcular la ganancia de información para el historial de crédito. Puesto que
todos los clientes que tienen ingresos altos y buen historialde crédito es classified
Arboles de decisión difusos 227

como bajo riesgo, E-bueno1/4 0: Debido a la misma razón E,y E,desconocido,


también son cero. La ganancia de información para el historial de crédito de
atributos se obtiene de la siguiente manera:

IgðSAlto; credithistoryN.o 1/4 0:65 0


¼ 0:65
6 6

WithsimilarcomputationwehaveIGðShigh; debtÞ ¼ 0:109and

IG-Salto; garantía1/4 0:191: Dado que la ganancia de información para el historial


de crédito es la mayor, se convierte en el siguiente nivel de la rama correspondiente.
Se agrega un nodo de decisión para el historial de crédito al árbol de decisiones con
tres ramas tan buenas, malas y desconocidas. Dado que la entropía para cada rama
es cero, el árbol ya no crece de esta rama. Los cálculos proceden de forma similar
para el resto de ramas para los ingresos de nodo (moderados y bajos) hasta que la
entropía de cada rama se encuentra cero o no queda ningún atributo por dividir.
Todo el árbol de decisión obtenido por el algoritmo ID3 se da en Fig. 2.
Una vez construido el árbolde decisión, se derivan las reglas de catión declase.
Por ejemplo, una de las reglas obtenidas del árbol de decisión indicado en Fig. 2 es

2 Árbol de decisión obtenido mediante algoritmo ID3


"si los ingresos son altos (más de 35$) y el historial de crédito es bueno, entonces
el objeto (cliente) está en el grupode bajo riesgo". Los objetos nuevos se pueden
clasificar fácilmentecon las reglas obtenidas por árbol dedecisión.
La simplicidad y la comprensión son las características más importantes de un
árbol de decisiones. En el algoritmo ID3, un atributo aparece solo una vez en una
ruta de decisión que es importante para satisfacer la comprensión. Por otro lado,
puede resultar con las clases superpuestas en las que ID3 no puede proporcionar
ninguna información sobre las regiones de intersección [27].
228 A. Altay y D. Cinar

2.2 Otra información Ganancia Measures

La heterogeneidad en un resultado por atributo classification también se denomina


impureza [1]. Para encontrar la variable dedivisión óptima, el algoritmo ID3 utiliza
la entropía que intenta encontrar la ganancia máxima de informaciónen la
heterogeneidad decreciente de los datos. Dependiendo del resultado de los objetos,
diferentes medidas de ganancia se vuelven adecuadas para el proceso de división.
A continuación se presentan otras medidas de ganancia de información.

2.2.1 GINI Impurity

La impureza GINI se utiliza principalmente en los árboles de Classification, donde


el resultado es binario o categórico. Se calcula como [1]
K

GINIðtÞ ¼ 1 X½ptðkÞ2 ð4Þ


k1/41

donde GINI -t-representa la impureza GINI del nodo t y pt-kes la frecuencia


relativa dela clase k en el nodo t: La impureza GINI de una división se calcula
jtj
como

GINIðS;AiÞ ¼j jGINI t 5
S
t2Ti

En cuanto al ejemplo antes mencionado, el historial de crédito es buenos


resultados en 3bajos; 1 decisión de riesgo moderado y 1 alto.

GINIábueno1/4 1 1/2 a3a2 ,1,2, 1, 1 4 14 1,4


0:560 55525

De manera similar, la impureza GINI para el historial de crédito es desconocida


y mala se calcula como 0.640 y 0.375, respectivamente. La impureza total de la
historia crediticia es de 55
GINI-S; historial crediticiode la ginción de la ginción de la ginción de la
gincióndela ginita.
1414
4
þ GINIðbadÞ ¼ 0:536
14
Arboles de decisión difusos 229

La impureza gindel para deuda, garantía e ingresos se calcula como 0,612, 0,563
y 0,262, respectivamente. Una mayor impureza GINI indica un mayor nivel de
heterogeneidad y un nivel de determinación más bajo en una decisión; mientras que
una impureza GINI inferior indica una regla más decidida sobre una decisión.
Puesto que la impureza GINI más baja pertenece al atributo income, este atributo
se convierte en la raíz del árbol con tres ramas que son bajas, moderadas y altas.

2.2.2 Error deerror decatión

Error decatologíaerrónea es también una medida deimpureza que evalúa el número


de resultados en diferentes clases para resultados binarios y categóricos [40]. Latasa
de error de caciónde clase incorrecta del nodo t se calcula como [1]

MEðtÞ ¼ 1 maxk½pðtkÞð6Þ

Para el ejemplo de riesgo de crédito, ramificar el árbol en buenos resultados en


3 riesgos bajos, 1 riesgo alto y 1 riesgo moderado, haciendo que las fracciones de
respuestas 0.6, 0.2 y 0.2. El error de cación de claseincorrectapara un buen historial
de crédito se calcula de lasiguiente manera:

ME-bueno, 1/4 1 máx.0:6; 0:2; 0:2x 1/4 1 0:6 1/4 0:4

El valor máximo de fracción de respuestas (la clase a la que pertenecen la


mayoría de las respuestas) también proporciona la clase para ese nodo. En ese
sentido, si una persona tiene un buen historial crediticio, se espera que esté en la
clase de bajo riesgo. Del mismo modo,elerror de fi cation de un historial de crédito
desconocido da como resultado 2 riesgos bajos, 2 riesgos altos y 1 riesgo moderado.
Por lo tanto,

ME-Desconocido1/4 1 máx.0:4; 0:4; 0:2x 1/4 1 0:4 1/4 0:6

La clase para el riesgo de crédito desconocido no se puede determinar


completamente a partir de este nodo, ya que las fracciones o la frecuencia de los
riesgos bajos y altos son los mismos. Sin embargo, el error deficciónde clase
incorrectasigue siendo el mismo que se elija en la clase. Elerror decatión de
misclasifise calcula para el historial de crédito

ME-maloá 1/4 1 máx.0:75; 0:25; 01/4 0:25

Por lo tanto, la clase besomes alto riesgo, ya que la mayoría de las personas con
malos historiales de crédito pertenecen al grupo de alto riesgo. El error de error de
cálculo para estaprimera división se calcula a travésde todos los datos de
claseincorrecta. Elnúmero erróneode objetos para personas conbuenos; historial de
crédito desconocido y malo es 2, 3 y 1, respectivamente. En un total de 14 objetos,
6 de ellos se colocan incorrectamente. Por lo tanto, ME-S; credithistoryá 1/4 6a14
230 A. Altay y D. Cinar

1/4 0:428: Latasa de error de fi cation se calculacomo 0.5, 0.428 y 0.214 para la
deuda; garantías y atributos de ingresos. Por lo tanto, la primeradivisión se logra a
través de los ingresos:
La comparación de la entropía, la impureza GINI y el error de fi catión
declaseincorrectase resume en la Fig. 3. El nivel máximo de impureza puede ser 0,5
parael error de impureza yficatocente de clase incorrecta de GINI y 1 para
laentropía, que indica el caso de máxima heterogeneidad en los datos. Como se
puede ver en Fig. 3, la entropía tiene un aumento no lineal y más accelarated a
medida que aumenta la heterogeneidad.

2.2.3 Goodman y Kruskal índice

Generalmente utilizado en clustering no supervisado, Goodman-Kruskal Index es


una medida de la ficción de claseerróneaque compara las distancias entre los
elementos [14]. El índice Goodman-Kruskal se basa en comparaciones a distancia
de componentes de clústeres. Dejar p; q; r; sser cuatro elementos diferentes que se
agrupan y se denomina un cuádruple. En la agrupación en clústeres, es esencial que
los elementos de un clúster estén cerca uno del otro y que los elementos de
diferentes clústeres estén separados. De esa manera, se asigna un cuádruple
concordante si satisfies una de lassiguientes condiciones:

• dap; qá[dár; s; p y q están en clústeres diferentes, y r y s están en el mismo


clúster.
• dap; qdár; s; p y q son n mismos clústeres, y r y s están en clústeres diferentes.

donde d signifies distancia. Por otro lado, se asigna un cuádruple consensuador si


satisfies una de las condiciones que se indicana continuación:

3 La comparación entre la
entropía, la impureza GINI yel
error deficatión de clase
incorrecta

• dap; qá[dár; s; p y q
están en el mismo
clúster, y r y s están en
clústeres diferentes.
Arboles de decisión difusos 231

• dap; qdár; s; p y q están en un clúster diferente y r y s están en el mismo clúster.


Todas las condiciones de concordancia y discordia significan dentro de dos
parejas, las más cercanas pueden estar en el mismo clúster, mientras que otras deben
estar en grupos diferentes. El índice Goodman-Kruskal calcula la relación de
concordancia de todos los cuadruplitos posibles para la agrupación en clústeres.
Está formulado como en la siguiente ecuación.

GK ¼ ðQC QDÞ=ðQC þQDÞð7Þ

donde QC es el número de cuádruples concordantes y QD es el número de


cuadrúpedos discordantes. Según la fórmula, en el caso de muchos cuádruples
concordantes y pocos cuádruples discordantes, la relación Goodman-Kruskal
aumenta. Por lo tanto, un gran valor del índice indica un classificatión másrobusto.
Sin embargo, la métricade distancia requiere valores numéricos para la clase
ficatión. Aunque los valores categóricos se pueden presentar en representación
binaria de varios niveles, la precisión de este índice requiere entradas numéricas y
salidas categóricas. Por lo tanto, este no es un índice adecuado para elejemplo de
classification de riesgo de créditomencionado anteriormente.

2.2.4 Desviación

La desviación es otra medida de impureza que se calcula como


K

DðtÞ ¼ 2X½ntkðlnðptkÞÞð8Þ
k1/41

donde ntk es el número de objetos observados en el nodo t de la clase k y p tk es la


probabilidad de estar en la clase k en el nodo t [26]. Análoga a la desviación
estándar, la desviación es una medida de la desviación de los objetos de una clase.
Por lo tanto, para una clase con el fin de ser más homogénea, la desviación debe ser
lo más pequeña posible. Para el ejemplo de riesgo de crédito, el nodo raíz tiene 5
valores de riesgo bajo, 3 de riesgo moderado y 6 de alto riesgo. Dejar k 1/4 1; 2; 3
indican clasesbajas; clases moderadas y altas, respectivamente. Por lo tanto, la
probabilidad de un objeto de riesgo bajo es de pa1x 1 x 1 4 5a14 14 0 0:357:
Probablemente, la probabilidad de un objetode riesgo moderado es pá1x 1 x 4 3a14
14 14 0 0 :214 y un riesgo alto es pá3a 1/4 6a14 1/4 0:429: La desviación total
del nodo raíz se calcula como

Dá1 x1x 4 2a5 lna0:357,3 ln,0:214,6ln,0:429, 1 x4 29:71


232 A. Altay y D. Cinar

Si la primeradivisión se realiza dividiendo a través del historial decréditos, la


división da como resultado 4 objetos defectuosos, 5 objetos desconocidos y 5
objetos desconocidos. De 4 objetos malos, 3 de ellos terminan en alto riesgo y uno
de ellos termina en riesgo moderado. De 5 objetos desconocidos, 2 de ellos terminan
en bajo riesgo, 2 de ellos terminan en alto riesgo, y uno de ellos termina en riesgo
moderado. Por último, de 5 buenos objetos, 3 de ellos terminan en bajo riesgo, uno
de ellos termina en riesgo moderado, y uno de ellos termina en alto riesgo. Por lo
tanto, la desviación de esa división sería

3122
Dá2x 1x 4 2a 3lna4,1ln,4, 2,2,2, 2,2,2, 2, 2, 2, 2, 2,5, 5,5, 5, 5, 5, 5, 5, 5,
5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5,
5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5,

1311
1lná5s 2 1/2 a3 lna5,1ln,5 ,1 ln , 5 ,1 ln,1 , 1 , 1, 24 :55

Con tal división, la desviación se reduciría de 29,71 a 24,55, lo que supone una
disminución de 5,24 unidades de impureza. Si el atributo split fuera deuda, el nuevo
valor de desviación de la división sería 28,49, lo que supone una disminución de
1,22. El valor de desviación de la división sería de 25,71, en caso de garantía y
10,95 en caso de ingresos. Puesto que el valor de desviación más pequeño se logra
por ingresos, se selecciona como elprimer atributo para la división del árbol.

2.3 Tree Pruning

Con el fin de evitar el problema de exceso defitting, la poda es el proceso de evitar


los nodos abundantes de un árbol. En este caso, la definición matemática deun
sobrefitting es lasiguiente:

Erðh;DÞ\Erðh0;DÞandErðhÞ[Erðh0Þð9Þ

donde h y h0 son diferentes subconjuntos de un conjunto de objetos del conjunto D;


H es el conjunto universal y Er es la tasa de error [19]. Si la tasa de error global de
h es superior a h0; sin embargo, la relaciónde tasa de error se invierte cuando el
árbol construido sobre los datos que D proporciona, se dice que el árbol sobrefits
D: Con el fin de evitar sobreelfitting, los árboles se eliminan de los nodos que
causan sobreelfitting. La poda se aplica de dos maneras: (i) Prepruning: el nodo se
elimina antes de su adición al árbol, (ii) Post-podar: el nodo se elimina después de
su adición al árbol. En la literatura se analizan diferentes métodos de poda. Al podar
previamente, se determina un umbral para construir el árbol y cuando se alcanza
este umbral, se detiene la generación de nuevos nodos. Un umbral es limitar el
número de ramas máximas del árbol y cancelar el crecimiento cuando se alcanza
este número [21]. El principal inconveniente de este enfoque es la tendencia a
Arboles de decisión difusos 233

recopilar atributos menos relevantes en el árbol y perder atributos vitales debido al


tamaño limitado del árbol. En la poda previa, el principal desafío es determinar el
umbral óptimo para la poda.
En la poda posterior, el árbol se deja crecer completa y perfectamente. Una vez
que se genera el árbol, otro conjunto de datos que el entrenamiento se alimentan en
el árbol con el fin de encontrarel " árbolpodado mejor". Por lo tanto, las técnicas
posteriores a la poda requieren que los datos se dividan en dos: datos de
entrenamiento y datos de prueba. Los datos de entrenamiento se utilizan para la
generación de árboles y los datosde prueba se utilizan para el proceso de poda [21].
Hay varios algoritmos post-poda en la literatura, dos de los cuales se explican a
continuación.

2.3.1 Poda de complejidad de costos

Una vez que se genera un árbol base (T 0), varios subárboles (T 1; T2;...; Tt) de este
árbol seconstruyen secuencialmente de forma que se minimice la tasade error por
nodo hoja utilizando la siguiente fórmula [37].

Podarenpoda-T; t; Sá e -T; Sá á a 1/4 j á j j á á j 10


hojas de T podadas T; t
donde e -T; Ses la tasa de error del árbol T sobrela muestra S:jhojas-T-j es el
número de hojas en el árbol T. podado-T; t- speci fies cualquier árbol quitando el
nodo t y volviendo a conectar los nodosrestantes. Por lo tanto, por tasade error (a)
minimización, se selecciona el nodo t que se va a eliminar. Por una recursividad de
ese enfoque, se obtiene el árbol podado mejor. El árbol obtenido en el algoritmo
ID3 tiene 0 tasa de error debido a datos pequeños y limpios; por lo tanto, no es
apropiado para la poda.

2.3.2 Pouna mínima de errores

Propuesto por Niblett [28], la poda de errores mínimos intenta podar el árbol
utilizando una medida de tasa de error propuesta que se compara entre elárbol
podado y el original. Esta comparación se logra mediante la comparación de las
tasas de error que implican si la tasa de error disminuye cuando se poda cada ruta
no terminal. La fórmula de tasa de error para el árbol podado se muestra a
continuación:

n nc ák1
Erp 1/4o 11 nk

donde n es el número de objetos que cumplen las condiciones del nodo no terminal
relacionado, nc es el número máximo de elementos que pertenecen a la misma clase
234 A. Altay y D. Cinar

de n objetos y k es el número de clases. Supongamos que la tasa de error se calcula


para el nodo credithistory en caso de un ingreso moderado (entre 15 y 35 K) (Tenga
en cuenta que la tasade error no se puede calcular para el nodo de historial de crédito
bajo los ingresos bajos (0–15 K), ya que se trata de un nodo terminal). Deje que Erp
sea la tasa de error del árbol podado. Si el árbol se extrae de ese nodo, es decir, si
se eliminan las divisiones que se originan en el historial de crédito y el historial de
crédito se convierte en un nodo terminal, se dejan un total de 4 objetos (los objetos
que satisfacen un ingreso moderado). 2 de estos objetos pertenecen a clase de alto
riesgo y 2 de ellos pertenecen a clase de riesgo moderado. Por lo tanto, el número
de objetos en la clase más concurrida (nc)es 2. Hay 3 clases en total (k 1/4 3). La
tasade error es de Erp 1/4 a42a3 a3a4a3a1x4 4a7 1/4 0:571.
Cuando se trata del término de error para el árbol no podado, hay otra deuda de
nodo con tres ramas. Una rama pertenece a una deuda alta que tiene 3 objetos, 2 de
los cuales tienen un alto riesgo y uno de los cuales tiene un riesgo moderado. Otra
rama pertenece a una deuda baja con un objeto que resulta en un riesgo moderado.
La tasa de error de un subárbol no podado se calcula como
K

1/4nk nn cá k1
Eru½12 n n K k¼1

donde nk es el número de elementos que cumplen las condiciones de la rama que


conduce a la clase kth. La tasa de error del árbol no podado se convierte en

3 323 1 11 1 3
1
Eru 1/4 á 1/4 0:375

4 33 4 1 3

Puesto que la tasa de error es menor en el árbol no podado, el árbol no se debe


podar. En este punto, surge la importancia de los objetos de entrenamiento y prueba
independientes, ya que el árbol se construye utilizando objetos de entrenamiento
con el objetivo de minimizar el error.

2.4 C4.5 Algoritmo

Aunque el algoritmo ID3 es un método muy eficiente para lacertificaciónde datos


simbólicos, requiere un procedimiento de discretización antes de la selección
deatributos para datos no simbólicos (numéricos, continuos) [27]. Classification y
RegressionTrees (CART) [4]y C4.5 [35] son algoritmos de inducción de árbol
esdecirque no requieren particionamiento previo. En estos algoritmos, los umbrales
se calculan dinámicamente y un atributo se puede utilizar varias veces con
diferentes umbrales. A pesar de una mejora en la precisión, estos métodos pueden
resultar en una reducción de la comprensión.
Arboles de decisión difusos 235

El algoritmo C4.5, también propuesto por Quinlan [36], supera algunas


desventajas del algoritmo ID3. El algoritmo C4.5

• puede manejar atributos tanto numéricos como categóricos • puede manejar


datos con valores de atributo que faltan
• poda de árboles después del entrenamiento.
Para manejar los valores numéricos de los atributos, se incluyen los siguientes
pasos:

• ordenar los valores de atributo numérico (ai) en orden ascendente


• determinar los valores adyacentes que la decisión invierte o cambia (por
ejemplo, b y c donde b; c 2 R)

• calcular la media de estos valores (por ejemplo, d 1/4 - a-b-2)

• categorizar y reasignar los valores de atributo controlando si son menores o


mayores o iguales que la media (las clases son "d" y "d").
Los pasos del algoritmo se enumeran a continuación:
1. Los datos de entrenamiento y los datos de prueba están separados.
2. El número mínimo de objetos para una clase se determina como un umbral.
3. Los valores numéricos se clasifican.
4. Los valores de atributo que faltan se predicen de una manera que proporciona la
ganancia de la mayor cantidad de información.
5. Al seleccionar una medida de impureza adecuada, el árbol se genera como en el
algoritmo ID3. La generación del árbol se detiene cuando se alcanza el número
de umbral.
6. El árbol se poda utilizando una de las técnicas de poda apropiadas.

2.5 Classification y árboles de regresión (CART)

CART es desarrollado por Breimen et al. [4] para la construcción de árboles


dedecisión binarios que se denominanárboles de catión classifiy árboles dedecisión
numérica que se denominan árbolesde regresión [4]. Los árboles de classification
utilizan laimpureza GINI para dividir, mientras que el algoritmo C4.5 generalmente
tiene derecho a medidas relacionadas con la ganancia de información (entropía).
Otra diferencia es que para el proceso de poda, CART utiliza el método de error de
complejidad de costo, mientras que C4.5 no utiliza métodos recursivos. Además,
enlos árboles de catión declase, cada división es binaria. Es probable que el árbol
de decisión se pueda dividir utilizando el mismo atributo más de una vez. El
pseudocódigo que incluye los pasos principales de CART se indica en el algoritmo
2.
En el caso del ejemplo de riesgo de la tarjeta de crédito, laprimera división se
había hecho sobre los ingresos utilizando la impureza GINI. La primera división
236 A. Altay y D. Cinar

conduce a una hoja en términos de bajos ingresos. Por lo tanto, la primeradivisión


binaria implica si los ingresos son bajos o no, y la primera rama se convierte enuna
hoja. En CART, la segunda división no tiene que estar en ingresos de nuevo.
Continuando con el ejemplo de riesgo de crédito, tenemos 14 datos para la
evaluación del riesgo crediticio. Aunque el tamaño de los datos es pequeño,
usaremos losprimeros 10 datos para el entrenamiento y los últimos 4 datos para las
pruebas. Las impurezas de GINI para todos los nodos se calculan como GINI-
bueno1/4 0; GINI-Desconocido1/4 0:64; GINI-Malo1/4 0:444; GINI-Alto1/4
0:444; GINI-Bajo1/4 0:653; GINI-Ninguno1/4 0:571; GINI-Adecuado1/4 0:444;
GINI á0 15Ká 1/4 0; GINI15K 35Ká 1/4 0:5; GINIá másde35Ka1/4 0:32: El
atributo
Las impurezas GINI son G-S; historia de crédito1/4 0:453; G-S; deudas.o 1/4 0:59; GINI-
S; garantía1/4 0:533; GINI-S; ingresos1/4 0:26: La impureza GINI para todos los
objetos es 0.62. Por lo tanto, la mayor reducción de la impureza se logra por los
ingresos en una disminución de 0,62 a 0,26 a 0,36. Puesto que el árbol debe ser
binario en CART, los nodos para los ingresos deben decidirse. La impureza GINI
más pequeña pertenece a 0 15K; que disminuye la impureza a 0. Por lo tanto, la
primeradivisión se logra a través de los ingresos dividiendo los que son menos de
15 K y que son más de15 K. La impureza de la rama 0 15K es 0, por lo tanto no se
realiza más división después de este nodo, haciendo de este nodo un terminal uno
o una hoja. La otra rama incluye objetos con valores de ingresos por encima de 15
K. La impureza GINI de ese nodo se calcula como 0,571. Para ver si se requiere
una mayor división, calculamos las impurezas GINI de todos los demás nodos, que
se calculan como GINI (bueno) a 0, GINI(Desconocido) a 0,625, GINI(Bad) a 0,
GINI(Alto) a 0,444, GINI(Bajo) a 0,5, GINI(Ninguno) a 0,565, GINI(Adecuado) a
0,444, GINI (15K – 35K) a 0,5, GINI (más de 35K) a 0,32. El atributo Deimitades
GINI son G-S; historia de crédito1/4 0:358; G-S; deudas.o 1/4 0:484; GINI-S;
garantía:1/4 0 :513; GINI-S; ingresos1/4 0:371: La mayor contribución a la
disminución de la impureza GINI se logra de nuevo por los ingresos y el árbol se
divide en dos nodos más en función de si el ingreso está entre 15 y 35K o superior
a 35K.

Algoritmo 2: Algoritmo CART


Entrada: Datos de entrenamiento
1 Calcular GINI(t)para todos losnodos
2 Calcular GINI(S,Aj)á mín.
3 if atributo Aj tiene dos nodos y, a continuación, rama para el atributo Aj;
4 Más
Arboles de decisión difusos 237

5Calcular GINI(tl) - mint-AjIG(t)


6Crear dos ramas como (t1,...,tl) y(tl+1,...,tn)donde t1,...,n a aj

7 si GINI de la rama es 0, termina esta rama; 8 si todas las


ramas terminan, termine el algoritmo;
9 más
10 Actualizacion
11 GotoStep1
es
Salida: Decisiontree

Si el ingreso está entre 15 y 35 K, la impureza de ese nodo es 0,5. Dado que


todos los atributos de ingresos se han cubierto de antemano, no es posible seguir
dividiendo los ingresos. Las impurezas GINI de los nodos son GINI-
desconocidos1/4 0:5; GINI-alto1/4 0; GINI-bajo- 1/4 0; GINI-Ninguno1/4 0:5:
El atributo de impurezas GINI son GINI -S; historia de crédito1/4 0:5; GINI-S;
deudas.o 1/4 0; GINI-S; garantías 1/4 0:5: Por lo tanto, otra división se logra a través
de la deuda alta o baja. Esta división produce en dos nodos con un objeto en cada
uno. Por lo tanto, los nodos se declaran terminales.
Si el ingreso es superior a 35 K, la impureza de este nodo es 0.32. Las impurezas
de todos los nodos son GINI(good) a 0, GINI(unknown) a 0, GINI(bad) a 0,
GINI(high) a 0, GINI(low) a 0.375, GINI(none) a 0, GINI(adequate) a 0.444. El
atributo Deimitades GINI son GINI-S; historia de crédito1/4 0; GINI-S; deudas.o
1/4 0:3; GINI-S; garantía1/4 0:267: Por lo tanto, la división se logra teniendo en
cuenta el historial de crédito que tiene tres valores de atributo con todas las
impurezas 0. Suponiendo que la división se logra en si el historial de crédito es malo
o no, el nodo con historial de crédito incorrecto se deja con un objeto y, por lo tanto,
es una hoja. El otro nodo que implica objetos con un historial no incorrecto tiene
una impureza GINI de 0, y no es necesaria ninguna división más para ese nodo. De
esa manera, el árbol de decisión se construye como en Fig. 4. Las reglas se derivan
del árbol de decisiones de la siguiente manera:
238 A. Altay y D. Cinar

4 Árbol de cationes Classifidel ejemplo de riesgo crediticio

1. si los ingresos son inferiores a 15 K, entonces el riesgo esalto;


2. si los ingresos son superiores a 15 K y entre 15 K y 35 K y la deuda esalta;
entonces el riesgo esalto;
3. si los ingresos son superiores a 15 K y entre 15 K y 35 K y la deuda esbaja;
entonces el riesgo esmoderado;
4. si el ingreso es superior a 35 K y el historial de crédito esmalo; entonces el riesgo
esmoderado:
5. si el ingreso es superior a 35 K y el historial de crédito no es malo, entonces el
riesgo esbajo:
El árbol se genera utilizando 10 datos, el resto de los datos se utilizarán para la
poda, utilizando la poda de complejidad de costos. El primer objeto de prueba tiene
un ingreso inferior a 15 K, por lo tanto, según el árbol, el objeto debe indicar un alto
riesgo que lo hace. Probablemente, los otros tres datos también fits al árbol y la tasa
de error del árbol no podado es 0. Para ver si podemos benefit dela poda, es
necesario comprobar si alguna poda también produce una tasa de error de 0, ya que
es una tarea imposible superar dicha tasa de error. Por ejemplo, permite podar el
nodo de deuda. En este caso, hay 1 objetos moderados y 1 objetos de alto riesgo en
los datos de entrenamiento. La asignación de cualquier clase a ese nodo daría lugar
a la misma tasa de error, ya que los datos de prueba también contienen 1 objetos de
riesgo moderado y 1 alto. Esto produce que si se realiza alguna poda, la tasa de error
aumentará. Por lo tanto, el árbol se deja sin podar en términos de nodo de deuda.
Del mismo modo, cualquier poda conduce a una tasa de error más alta que 0, lo que
significa que no se debe hacer ninguna poda sobre el árbol generado.
Al igualque los árboles de catión classi, los árboles deregresión utilizan la misma
estructura. Sin embargo, en este caso, las salidas numéricas son classified, es decir,
las reglas dan como resultado un número continuo. El objetivo del árbol es
minimizar el error entre la salida real y la clase pronosticada de la salida en términos
de una medida de error (es decir, error al cuadrado) [10].
2.6 Aprendizaje supervisado en misión (SLIQ)

Este algoritmo es propuesto por Mehta et al. [24] para árboles dedecisión binarios
que implican valores numéricos o categóricos. Utiliza la impureza GINI y un límite
dividido con unenfoque inicial. Durante el proceso de creación de árboles, se deben
tomar dos decisiones principales: (i) evaluación de divisiones para cada atributo y
la selección de la mejor división y (ii) creación de particiones utilizando la mejor
división. La división a través de atributos numéricos tiene la forma de Aáv, donde
A es el valor del atributo y v es el valor de división y un número real. El
pseudocódigo que incluye los pasos principales de SLIQ se da en el algoritmo 3.

Algoritmo 3: Algoritmo SLIQ


Arboles de decisión difusos 239

Entrada: Datos numéricos o categóricos 1


Ordenar datos con respecto al atributo
Ai
2 Determinar puntos de división vij para Ai
3 Calcular GINI(S,Ai,vil)á minjGINI(S,Ai,vij)
4 Crear dos ramas como < vil y > vil
5 si GINI de la rama es 0, termina esta rama; 6 si todas las ramas terminadas, termina el
algoritmo;
7 más
8 Actualizacion
9 Ⅰes← Ⅰ +1
10 GotoStep1
Salida: Binarydecisiontree

El siguiente ejemplo de la Tabla 2 se utilizará para SLIQ. En este ejemplo, todos


los valores son numéricos y hay dos clases de salida. El primerpaso de este
algoritmo es determinar un valor divididopara atributos numéricos. Para lograrlo,
se ordenan los valores numéricos y se enumeran las salidas de clase. Ordenpara el
primeratributo A1, se obtiene laTabla 3.
Los puntos de división se determinan como los puntos donde cambia la salida.
Por ejemplo, observando la Tabla 3, el primer cambioparece producirse cuando el
valor de atributo de A1 cambia de 46 a 47, ya que el objeto con el valor 46 pertenece
a la clase 2 y el objeto con el valor de 47 pertenece a la clase 1. Su media se
selecciona como punto de división. Por lo tanto, una división podría ocurrir en la
forma de A1a46:5 yA1 [ 46:5: Otras opciones de punto de división incluyen el
interruptor de 51 a 52 en la forma A1a51:5 yA1 [ 51:5. Otros puntos divididos son
53, 54,5, 55,5 y 58,5. Tenga en cuenta que para el valor de 55, dos objetos
pertenecen a la clase 1 y un objeto pertenece a la clase 2. Sin embargo, una división
determinada no se puede lograr cuando dos clases diferentes tienen el mismo valor
de atributo; como resultado, 55 no se elige como un valor dividido. Para encontrarla
división correcta, se utiliza la impureza GINI. El nodo raíz implica diez objetos de
clase 1 y diez objetos de clase 2, lo que hace que la impureza GINI 0.5. El GINI
para la primera división se refiere a dosramas GINI-A1a46:5x1/4 0 ya que todos
los objetos pertenecen a la misma
240 A. Altay y D. Cinar

Tabla 2 Tabla de ejemplo para # A1 A2 A3 Clase


SLIQ
1 38 69 21 2
2 42 69 1 2
3 43 58 52 2
4 44 58 9 2
5 46 69 3 2
6 46 58 2 2
7 47 66 12 1
8 48 66 0 1
9 49 66 0 1
10 50 66 1 1
11 51 66 1 1
12 52 69 3 2
13 54 66 0 1
14 54 68 7 2
15 55 66 0 1
16 55 66 18 1
17 55 68 15 2
Clase. La impureza GINI 18 56 66 1 1
para la rama A1 [ 46:5 se 19 56 66 2 1
calcula como0.408. La 20 61 68 1 2
impureza GINI de la división es G-S; A1; 46:5x 1/4 0:286: Otros valores divididos
son GINI-S; A1; 51:5x 1/4 0:495; GINI-S; A1; 53x 1/4 0:490; GINI-S; A1; 54:5x
1/4 0:476; GINI-S; A1; 55:5x 1/4 0:490andGINI-S; A1; 58:5x1/4 0:474: La
disminución máxima en el GINI se logra por el punto de división 46.5; es decir, si
la primera división se eligiera a travésde A1; el punto dividido sería 46,5. Sin
embargo, se debe llevar a cabo un enfoque similar para todos los atributos. GINI-
S; Un1o se convierte en la impureza GINI más pequeña, por lo tanto, 0.286.
Arboles de decisión difusos 241

Del mismo modo para A2; los puntos de división son 62 y 67 donde las impurezas
GINI son GINI-S; A2; 62x 1/4 0:412 y GINIs; A2; 671/4 0:231. El segundo punto
de división proporciona una disminución de 0,269 y GINIaS; A2x 1/4 0:231. En

términos de A3, las opciones de punto dividido son 0.5, 2.5, 10.5, 13.5, 16.5 y 19.5
con impurezas GINI 0.375, 0.374, 0.493, 0.469, 0.490 y 0.444. Por lo tanto, GINIS;
A3x 1/4 0:374 por el punto 2.5. Considerando A1; A2 y A3; la disminución máxima
de la impureza GINI es proporcionada por A2 dividiendo del valor de 67. La rama
izquierda A2[67 implica una impureza GINI de 0, por lo tanto, todos los objetos
pertenecen a la misma clase, haciendo de este nodo una hoja. Sin embargo, la
impureza GINI de la rama A2a67 tiene un GINI de 0,355 y necesita datos
clasificados de la Tabla 3 A1 para la división adicional de SLIQ en 13 objetos. La
división adicional proporciona dos árboles alternativos. Sobre la división A 2á67;
tanto GINIcomoS; A1; 46:5 oGinis; A2; 62tiene valores de 0. Dos árboles generados
por el algoritmo SLIQ se dan en Figs. 5 y 6.
5 Segundo árbol generado por el algoritmo SLIQ

6 Primer árbol generado por el algoritmo SLIQ

3 Arboles de decisión difusos

Los conjuntos difusos se integran en algoritmos de inducción para mejorar su


comprensión combinando con incertidumbres cognitivas [46]. Un árbol de decisión
difuso se puede considerar como una versión generalizada de la caja nítida [43].
242 A. Altay y D. Cinar

Los árboles de decisión difusos fueron mencionados por primera vez por Chang y
Pavlidis [8]en 1977. Desde entonces, muchos algoritmos de inducción de árboles
de decisión difusos se han propuesto en la literatura. En Chiang y Hsu [9], se puede
encontrar una revisión exhaustiva de los árboles de decisión difusos. En esta
sección,se discuten los algoritmos de inducción difusa ampliamente utilizados—
ID3 difuso y algoritmos SLIQ difusos— y se da una breve revisión de la literatura
sobre estudios recientes utilizando estos algoritmos.
Antes de discutir los árboles de decisión difusos, algunas operaciones difusas
fundamentales relacionadas con el proceso de inducción del árbol de decisión difusa
se dan como la siguiente. S seaun conjunto difuso de n objetos en un conjunto de
entrenamiento. Un subconjunto difuso parala clase k se puede representar con C.
La frecuencia relativa pk para la clase k se puede calcular de la siguiente manera:

M 13o

páká1/4 PKk1-MCákáCák

¼
x2S
MáCaka1/4 Xa lCak xxa 14

M
donde -C-ká es la cardinalidad del subconjunto C-k y lC-k xá es el valor de

pertenencia del objeto x ala clase k: Para cada atributo Ai; hay términos ni
linguísticos que están
representados por A1i á t
kM Mátká kCáká;[ Kk1/41átk 1/4t
;...; A n
i
i
: Deje que T 15o
p át á 1/4 ?
-i
sea el conjunto de 16o
Má tk áCáká 1/4 Xá mín.
subconjuntos creados
s
a partir del conjunto de división por el atributo Ai: Frecuencia relativa de la clase

k en el subconjunto dela clase 2 T i es


x2S

3.1 Representación de entrada

En este estudio, se utiliza una función de pertenencia triangular para determinar los
valores de pertenencia para todos los términos linguísticos. Cada valor linguístico
Aij se representa con tres valores aj; bj; cj, donde unj y cj son los valores menos
posibles, mientras que bj es el más
Arboles de decisión difusos 243

j se produjo el valor de Ai : Permitir que x sea un valor


numérico para el atributo Ai: Función de pertenencia para cada término linguístico
Aijaj 1/4 1;...; nise puededefined delasiguiente manera:

1 a1 xb1

lA1Ⅰ ðx1/4 8oc1 x•c1 b1Þ b1\x\c1 ð17Þ


0 xc1

: lAi x 8<ox a ni á bni a ni á ni áxáx ánni á18ni á 1/4 0 xani


:1 ni xcni

80 x aj

ð Þ ð
ij < x aj = bj ajÞ aj\x\bj ðÞ

>
lA ðxÞ ¼ ðc xÞ=ðc b Þ b \x\cj ; 1\j\ni 19
jjjj

>>:0 xcj

La selección de la función de membresía es de una importancia crucial. Sin


embargo, la forma más común de determinar la función de pertenencia ha llegado
a ser trial-and-error [2]. Es un enfoque frecuente que la selección y el ajuste de
parámetros de la función de pertenencia se ajustan hasta que se alcanza un
comportamiento más deseable [18]. Para muchas otras aplicaciones de lógica
offuzzy, se utilizan enfoques metaheurísticos para ajustarlos parámetros de la
función de pertenencia [13, 28, 38].
La representación gráfica de la función de membresía utilizada en este estudio
se puede ver en la Fig. 7. Los parámetros de cada atributo para el ejemplo de
evaluación del riesgo de crédito se indican en el Cuadro 4. Suponemos que cada
cliente es evaluado usando una escala entre 0 y 10 para el historial de crédito,
atributos de deuda y garantía y decisión de riesgo.
Los valores de pertenencia aproximada se indican en la Tabla 5.

7 Función de pertenencia para el atributo Ai


244 A. Altay y D. Cinar

Cuadro 4 Parámetros de pertenencia triangular para el problema de la evaluación del


riesgo crediticio
Atributo Término linguístico (a, b, c)
historial crediticio bien (4, 8, 10)
Malo (0, 2, 6)
Desconocido (2, 5, 8)
Deuda Bajo (0, 3, 8)
Alto (3, 8, 10)
Colateral Ninguno (0, 3, 8)
Adecuado (3, 8, 10)
Ingresos Bajo (0, 10K, 30K)
Moderado (10K, 25K, 40K)
Alto (20K, 40K, 60K)
Riesgo Bajo (4, 8, 10)
Moderado (2, 5, 8)
Alto (0, 2, 6)
3.2 Algoritmo Id3 difuso

El algoritmo ID3 difuso y sus variantes son los algoritmos de inducción más
utilizados en la literatura porque no requiere mucho esfuerzo computacional para
generar árboles de decisión difusos y es adecuado para problemas de aprendizaje a
gran escala [43]. La idea principal de ID3 difuso es la misma con el ID3 clásico.
La principal diferencia entre dos algoritmos es el cálculo de los valores de entropía
de la siguiente manera:

Ess 1/4 Xk1/4K1 p1 pákálog2 páká1/4 Xk1/4K1 PKkM1/41-MCakaCak,log2 PKkM 1/41-


MCákáCáká 20

M
á á
Eátá 1x4 Xk1/4K1 p1 pátkálog2 p tká1/4 Xk1/4K1 PkK1/41áMtk t
á á a
kCák Cakaregistro2PkKM1/41áMtk s tkCak Cak

21
Arboles de decisión difusos 245

Además, la ganancia de información se calcula de la siguiente manera:


246 A. Altay y D. Cinar

IGð~S;AiÞ ¼ Eð~SÞ X~t2T~i pð~tÞEð~tÞ ð22Þ

En cada iteración offuzzy ID3, el nivel de verdad de la clasificación de objetos


dentro de la rama en cada clase se calcula de la siguiente manera [46]:

Pt; Cáká 1/4 MáMát átCáká 23?

donde el nivel de una rama es mayor que un parámetro de umbral predeterminadoP-


t; Cák es el nivel de verdad de la clase k en la rama, incluyendo set át:bSi laverdad;
entonces el

rama se termina como una hoja. De lo contrario, se investiga el siguiente atributo


que tiene la mayor ganancia de información para dividir la rama. Todos los objetos
de una hoja son classified to the class con el nivel de verdad más alto[46].
El algoritmo ID3 difuso se puede aplicar a los datos de evaluación de riesgo de
crédito difuso de la siguiente manera. Sea 0.7. En primer lugar, el atributo que
tiene la mayor entropía se selecciona como el nodo de decisión principal utilizando
Eq. (20).

Ess 1/4 4 16 :9log2 416:9log2 616:2log2 1/4 1:576

3:22:61:8

E-bueno1/4 5:7log2 5 :7log2 5:7log2 1 1/4


1:509

:314Del mismo modo, yE-entropíadesconocida- 1/4valores1:502: La ganancia de


información para otrascaracterísticasson el historial
decréditoque seencuentracomo se da enEámalo1/4
1 lo siguiente:

IG-S; historial crediticio1/4 1:576 1:509 1:314 1:502 1/4 0:129


Arboles de decisión difusos 247

La ganancia de información para los otros atributos se encuentra como;


colateral1/4 0:052 eIG-S; ingresos1/4 0:301: Desde el atributoIG-S;
debtincome1/4 0:esel037;
IG-S
mayor de una con ganancia de información 0.301, se convierte en el nodo raíz del
árbol de decisión con tres ramas como alta, moderada y baja. El nivel de verdad
de cada clase k 1/4 fbajoriesgo; riesgo moderado; g de altoriesgo para la rama
baja se calcula de la siguiente manera:
Pð~Slow;C~low riskÞ ¼ 0:4 ¼ 0:1
4

P-Sbajo; C- riesgomoderadoá 1/4 0:3a0:2a0:2a0:4 1/4 0:3


4

Pð~Slow;C~high riskÞ ¼ 0:8þ0:2þ0:9þ0:8þ0:7þ0:1þ0:1 ¼ 0:9


4

Pt; Cák - representa el nivel de la verdad de la clase k para el set : Desde

PáSbajo; C-alto riesgoá1/4 0:9[b 1/4 0:7; la rama baja se termina y todos los objetos

de esta rama classified como high_risk. El nivel de verdad de las clases para rama

moderada en el primer nivel se encuentran como P-Smoderado; C-bajo riesgoá1/4 0:264;

P-S-moderado; C-riesgomoderado : 1/4 0:585; yP-S-moderado; C-alto riesgo1/4 0:66: Dado que

ninguno de ellos es mayor que el parámetro b, el procedimiento de división se


realiza para la rama moderada de la siguiente manera. En primer lugar, se calcula
la entropía del conjunto sSmoderado.

Esmoderado1/4 1:4log2 3 :1log2 3 :5log2 1/4


1:492
888

El cálculo recursivo realizado para calcular la ganancia de información de cada


atributo como IG-Smoderado; historial crediticio1/4 0:236; IG-S-moderado; deudas.o 1/4
0:249; IG Smoderado; garantía1/4 0:226: Dado que la deuda de ganancia de
información es la mayor, se convierte en el nodo de decisión de segundo nivel de
esta rama. Los cálculos continúan hasta que todos los objetos son classified. El árbol
de decisión obtenido mediante el algoritmo ID3 difuso se indica en Fig. 8. Las
248 A. Altay y D. Cinar

decisiones de evaluación de riesgos se dan al final de cada hoja con su nivel de


verdad correspondiente P.
Se han propuesto muchas mejoras para el algoritmo ID3 difuso en la literatura.
[42] y Janikow [16] son los primeros queextienden algoritmos ID3 con el uso de
conjunto difusos. Hayashi [15] propuso un algoritmo ID3 difuso con mecanismo de
ajuste del operador AND/OR. [7]hibridado difuso ID3 algoritmo con algoritmos
genéticos para optimizar los parámetros de la regla en el proceso de ajuste. Bartczuk
y Rutkowska [3] desarrollaron una nueva versión del algoritmo ID3 difuso que
permite utilizar más de un valor de atributo en las hojas. De esta manera, los árboles
de decisión contienen menos número de nodos que los construidos por algoritmos
clásicos. [44]obtuvieron varios reductoresde attributedifusos, que son subconjuntos
de atributos que son necesarios y sufficient para representar los datos dados, y
generaron un árbol de decisión difuso para cada reducto de atributo difuso mediante
un algoritmo ID3 difuso. [17] propusieron un algoritmo ID3 basado en la entropía
departición difusa generalizada que considera el impacto de las características no
lineales del grado de membresía de conjuntos difusos. También hay varias
aplicaciones del algoritmo ID3 difuso en la literatura, comola evaluación del
rendimiento [22], elanálisisdel comportamiento deronroneo en línea[45], el
procesamiento deimágenes [11] y eldiagnóstico médico [12].

8 Árbol de decisión obtenido por algoritmo ID3 difuso

3.2.1 Generación de las reglas deClassi fication

Cada rama de raíz a hoja se puede convertir en una regla. Los nodos de decisión en
una ruta de acceso proporcionan las características de los atributos que representan
Arboles de decisión difusos 249

una condición determinada, mientras que la hoja al final de una ruta es la decisión
final. Las reglas extraídas del árbol de decisión dado por Fig. 8 son los siguientes:
1. si los ingresos son altos y el historial de crédito es bueno, entonces el riesgo es
bajo -P 1/4 0:778
2. si los ingresos son altos y el historial de crédito es malo, entonces el riesgo es
moderado -P 1/4 0:736
3. si los ingresos son altos y se desconoce el historial de crédito, entonces el riesgo
es bajo -P 1/4 0:706
4. si los ingresos son moderados y la deuda es alta y el historial de crédito es bueno
y la garantía es ninguna, entonces el riesgo es moderado -P 1/4 0:533
5. si los ingresos son moderados y la deuda es alta y el historial de crédito es
bueno y la garantía es adecuada, entonces el riesgo es alto -P 1/4 0:8
6. si los ingresos son moderados y la deuda es alta y el historial de crédito es
malo, entonces el riesgo es alto -P 1/4 1
7. si los ingresos son moderados y la deuda es alta y se desconoce el historial de
crédito, entonces el riesgo es moderado -P 1/4 0:833
8. si los ingresos son moderados y la deuda es baja, entonces el riesgo es alto -
P 1/4 0:784
9. si los ingresos son bajos, entonces el riesgo es alto -P 1/4 0:9.

Quinlan [34] investigó los métodos que están simplificando los árboles de
decisión no difusos sin comprometer su precisión. Yuan y Shaw [46] aplicaronla
técnica de simulación de reglas a los árboles dedecisión difusos. En esta técnica,
una regla es simplified quitando un término de atributo de la partede condición (if).
Para una regla, se quita un atributo de la regla y el nivel de verdad se obtiene en
cada momento. Laregla simplified que tiene el mayor nivel de verdad que la regla
ginalorise sustituye por la original. En el ejemplo de evaluación de riesgos cresit,
sólola regla 4 y la regla 5 pueden ser simplified. Simplified versión de las reglas y
sus niveles de verdad se dan enlo siguiente:
4. si los ingresos son moderados y el historial de crédito es bueno, entonces el
riesgo es moderado -P 1/4 0:696
5. si los ingresos son moderados y la deuda es alta y la garantía es adecuada,
entonces el riesgo es alto -P 1/4 0:929.

Se puede observar que los niveles de verdad de la regla 4 y 5 de simplified son


mayores que las reglas obtenidas por ID3 difuso.
250 A. Altay y D. Cinar

3.2.2 Classification con Reglas

El catión classideun objeto con reglas de árbol dedecisión se puede resumirde la


siguiente manera [46]:
1. El valor de pertenencia del objeto se calcula para cada regla.
2. Si varios resultados rul es con la misma clase, el valor depertenencia máximo
entre las reglas se considera como el valor de pertenencia del objeto a la clase
correspondiente.
3. Si el objeto pertenece a varias clases con valores de pertenencia diferentes, se
asigna a la clase having el valor de pertenencia más grande.
Este procedimiento se aplica a todos los objetos del conjunto de datos. El
resultado de classification de los datos de formación establecidos en el ejemplo de
evaluación delriesgo crediticio se muestra en el Cuadro 6. Losresultados de
Classification obtenidos por el algoritmo ID3 difuso son exactly los mismos con las
clases dadas en los datos de entrenamiento.

3.3 Algoritmo Fuzzy SLIQ

El algoritmo SLIQ ha sido fuzzified por Chandra y Verghese [6]. En el caso nítido,
los puntos medios de los valores en los que cambian las clases se determinan como
puntos de división. Según to Chandra y Verghese, el mareo reside en la elección
del punto de división, y la distancia al punto de división junto con la desviación
estándar de los valores de atributo determinan la salida. Los valores de pertenencia
difusa se calculan utilizando el ion desviado estándar, el punto de división y
losparámetros deespecificaciónde usuario b; a como se indica a continuación:
Tabla 6 Resultados del algoritmo ID3 difuso para el ejemplo de evaluación del riesgo
crediticio
# Real classificatión Resultados de ID3 difuso

Valores de Decisión Valores de pertenencia Decisión


pertenencia
Bajo Moderado Alto Bajo Moderado Alto
1 0 0.3 0.8 Alto 0 0 0.8 Alto
2 0 0.2 0.9 Alto 0 0.2 0.8 Alto
3 0.1 0.8 0.4 Moderado 0.1 0.5 0.4 Moderado
4 0 0.2 0.9 Alto 0 0 0.9 Alto
5 0.8 0.3 0 Bajo 0.8 0.3 0 Bajo
6 0.9 0.2 0 Bajo 0.7 0.2 0 Bajo
7 0 0 1 Alto 0 0 0.8 Alto
8 0.3 1 0.3 Moderado 0.2 0.6 0.3 Moderado
Arboles de decisión difusos 251

9 0.6 0.5 0 Bajo 0.6 0 0 Bajo


10 0.8 0.3 0 Bajo 0.8 0 0 Bajo
11 0 0 1 Alto 0 0 0.7 Alto
12 0.4 0.8 0.1 Moderado 0.1 0.8 0.1 Moderado
13 1 0 0 Bajo 0.8 0 0 Bajo
14 0 0.3 0.8 Alto 0 0.3 0.7 Alto
8 lw
>< lpálw val val

lval ¼ 1 lpvalrp

> rw
: valrp árw val[rp

Si la rama tiene la forma de Aávo Av; se llama división izquierda y si la rama


tiene la forma de A[vo Av; se llama una división derecha. El cálculo de los
parámetros lp y rp son los mismos para las divisiones izquierda y derecha.
lp 1/4 punto de división b 24

rp 1/4 punto de división b 25


o25
El cálculo de lw y rw para la división izquierda se da a continuación:
lw 1/4 a r 26
o26
rw 1/4 0 27
o27
En caso de una división derecha, la fórmula cambia de la siguiente manera:
lw 1/4 0 28o

rw 1/4 a r 29
donde r es la desviación estándar de los valores de atributo. Los parámetros lw y
rw controlan la pendiente de las funciones de pertenencia y dependen de la
desviación estándar, y en varias aplicaciones b 2 1/20; 1: Sin embargo, para
mayores spreads de los datos, es posible que b[1: Como se indica en el algoritmo
SLIQ en Sect. 2.6, los puntos dedivisión se desbany los valores de membresía se
calculanutilizando estos puntos de división. En este caso, la impureza GINI utiliza
valores de pertenencia difusas; por lo tanto, la impureza GINI es fuzzified de
lasiguiente manera:

V NðvÞ K NwðvkÞ 2

GINIðxjÞ ¼ Xv¼1 uÞ ½1 Xk¼1ð NðvÞÞ ð30Þ


N-
252 A. Altay y D. Cinar

donde K es el número total de clases, V es el número total de particiones, N ues la


suma de los valores de pertenencia de los objetos en el conjunto de datos antes de
dividir si se elige xj como el punto de división, N ves la suma de los valores de

pertenencia en la partición vth y es Nwvk la suma del producto de los valores de
pertenencia difusa del atributo y los valores de pertenencia difusa de los registros
correspondientes para la clase wk en la partición vth. Para el ejemplo dado en el
Cuadro 2,supongamosque la división está a punto de realizarse para el atributo A2
y el punto dedivisión es 67, un 1/4 1 y b 1/4 0:5: La desviación estándar (r) para
este atributo se calcula como3.54. Para la rama izquierda A 2á67; lw 1/4 3:54; rw
1/4 0; lp 1/4 66:5; rp 1/4 67:5: Dado que hay 2 clases, K 1/4 2

Tabla 7 Tabla de ejemplo para A2 Valores de pertenencia Clase


SLIQ difuso
y cualquier división sobre 69 0.702 2
69 0.702 2
A2 produciría 2 ramas V
58 0.294 2
1/4 2; Los valores de
58 0.294 2
pertenencia difusa se 69 0.702 2

indican en el Cuadro 7. 58 0.294 2


66 0.876 1
La suma de todos los
66 0.876 1
valores de pertenencia, es 66 0.876 1
decir, Nu 15
15:078: La 66 0.876 1

suma de valores de 66 0.876 1


69 0.702 2
pertenencia difusas con
66 0.876 1
1x
particiones son N 1/4 68 0.876 2

0:876 10a0:294 3 1/4 66 0.876 1


66 0.876 1
9:642 (para la división
68 0.876 2
izquierda) y N 2 1/4 0:702 66 0.876 1

4x0:876 3 1/4 5: 436 (para 66 0.876 1


68 0.876 2
la división derecha). Para la

división izquierda, 10 objetos pertenecen a la clase 1, y sus sumas de valor de

membresía difusa son


Arboles de decisión difusos 253

N1x1x 1/4 0:876 10 1/4 8:760: Probablemente, 3 objetos pertenecen a la clase 2;

indicando N2a1x 1/4 0:294 3 1/4 0:882: La impureza GINI para esa partición

(rama) es

8:760 2 0:882 2
GINI-S; A2x67a 1/4 1 á a 1/4 0:166
9:642 9:642

En cuanto a la división derecha, es decir, A[67; los siete objetos pertenecen a la


clase 2
N1x1 x1x 1/4 0 y N2a1x 1 a 1 x 4 5:436; Por lo tanto,

5:436 22
GINIðS;A2[67Þ ¼ 1 ð Þ ð Þ¼0
5:436
El GINI total sobre la división A2 es

GINI-S; A2x 1/4 0:166a 0 1/4 0:106

Las impurezas GINI sobre todos los atributos y todos los puntos de división se
indican en la Tabla 8. La mayor disminución de la impureza GINI es proporcionada
por el atributo A2 con una división en el punto 67.
254 A. Altay y D. Cinar

Tabla 8 GINI difusa Atributo Punto dividido Gini


impurezas para diferentes
divisiones A1 46.5 0.220
La división izquierda es A1 51.5 0.490
defined como A67y la
división derecha se A1 53 0.479
desencajacomo A[67. 13 A1 54.5 0.463
objetos conducen a la A1 55.5 0.463
división izquierda. La
división derecha tiene un A1 58.5 0.440
GINI de 0, por lo tanto se A2 62 0.374
termina un nodo hoja. Sin A2 67 0.106
embargo, el lado derecho
A3 0.5 0.362
tiene 13 objetos que deben
estar más particionados. A3 2.5 0.369
Para los 13 objetos A3 10.5 0.500
restantes, la tabla de
A3 13.5 0.478
posibles particiones ay sus
impurezas GINI se A3 16.5 0.500
muestran en la Tabla 9. A3 19.5 0.435
Según la tabla, hay dos
opciones en la segunda división. Una división se puede lograr a través de A1 siendo
menor o mayor que 46.5 y otra división se puede lograr a travésde A2 siendo menor
o mayor que 62. Los mismos árboles que se muestran en Higos. 6 y 5 se obtienen
por algoritmo SLIQ difuso.

4 Resultados computacionales

Los algoritmos discutidos en este estudio se evalúan utilizando un pequeño conjunto


de datos de entrenamiento de Yuan y Shaw [46]. Una actividad deportiva se decide
de acuerdo conlas condicionesclimáticas de un día determinado. Los valores de
membresía para los datos meteorológicos y las actividades se indican en el Cuadro
10. Voleibol, natación y levantamiento de pesas (w_lifting) son actividades que uno
de los cuales se decide jugar teniendo en cuenta el panorama, la temperatura, la
humedad yel viento. El árbol de decisión obtenido por algoritmo ID3 difuso se
indica en Fig. 9. Las reglas obtenidas por el algoritmo ID3 difuso son las siguientes:
1. si la temperatura es caliente y el panorama es soleado, entonces elija nadar ,P
1/4 0:854
2. si la temperatura está caliente y el panorama está nublado lan elegir la natación
-P 1/4 0:722
3. si la temperatura es caliente y el pronóstico es lluvia, entonces escoja w_lifting
P 1/4 0:727
Arboles de decisión difusos 255

4. si la temperatura es suave y el viento es ventoso, entonces elija w_lifting P


1/4 0:813a 5. si la temperatura es suave y el viento es not_windy entonces
elegir voleibol -P 1/4 0:784
6. Si la temperatura es fría, elija w_lifting p 1/4 0:884.

La regla 3 puede ser simplified con la técnica de laregla simplification de


lasiguiente manera: 3. Si la perspectiva es lluvia, elija w_lifting deP 1/4 0:889:
Los resultados de Classification se indican en laTabla 14. Los objetos 2 y 8 son
classified en clases incorrectas y elobjeto 16 se puede asignar a una de dos clases
con el mismo valor de pertenencia. Losresultados del árbol de decisión y de la
claseficatión se obtienen utilizando la medida de entropía difusa

Tabla 9 Fuzzy GINI Atributo Punto dividido Gini


impurezas para la segunda
división A1 46.5 0.000
A2 62 0.000
A3 1.5 0.185
A3 5.5 0.281
A3 10.5 0.341
A3 35 0.253
256 A. Altay y D. Cinar
Arboles de decisión difusos 257

9 Árbol de decisión obtenido por algoritmo ID3 difuso

Secta 3.2. Las reglas ylos resultados de classification sonlos mismos que los
obtenidos por Yuan y Shaw [46] donde se utilizó lamedida de ambiguedad en lugar
de la entropía.
Dado que el número de resultados es de tres en Yuan y Shaw's ejemplo,
algoritmo SLIQ difuso no es capaz de decir qué deporte para jugar. Sin embargo,
en función de los valores de pertenencia de atributo, puede decidir si una persona
puede jugar voleibol o no para diferentes valores de pertenencia de las condiciones
climáticas. Para generar un tree de este tipo, se deben hacerdos modifications en los
datos: Los valores de membresía de las condiciones climáticas se pueden asumir
como un valor numérico que representa la condición meteorológica relacionada El
resultado de este ejemplo es numérico, debe convertirse en resultados binarios. Con
el fin de generar resultados binarios, se supone que si el valor de pertenencia del
resultado es mayor que 0.5, entonces se juega el deporte determinado.
Probablemente, si el valor de la membresía es menor que 0.5, el deporte no se juega.
Para el voleibol, el atribut es, lospuntos divididos y la impureza GINI difusa se
determina como se indica en la Tabla 11.
El resultado para el clima ventoso y no ventoso en las divisiones 0.05 y 0.95
tienen el mismo valor GINI. Este resultado se espera ya que los atributos ventosos
y no ventosos son atributos complementarios cuyos valores de pertenencia suelen
1. Se puede elegir un atributo para la bifurcación. Supongamos que la primera
ramificación se hace queel tiempo difícilsea ventoso con un valor de membresía
que es menor que 0.05. La bifurcación da como resultado 3 objetos en el nodo "lwindy
-0:05" (todos con un valor de pertenencia de 0) y 13 en el otro nodo. El nodo "l ventoso
0:05" tiene un valor GINI de 0 (todos los objetos sugieren que la persona juega
voleibol). Por lo tanto, este nodo se termina como una hoja. El otro nodo (lventoso [
0:05), tiene un valor GINI de 0,26. La división adicional proporciona el Cuadro 12.
La impureza GINI difusa mínima es proporcionada por el clima siendo suave
con un valor de membresía de 0.5. Por lo tanto, dos ramas son "lsuave -0:50" y
"lsuave [ 0:50". Si el valor de la membresía del clima es suave es menor que 0.5,
entonces la decisión es no jugar voleibol para todos los objetos, por lo tanto este
nodo también se termina como una hoja. La otra rama, sin embargo, tiene un GINI
de 0,5 y puede ser ramificada. Los valores de la tercera división se indican en el
Cuadro 13.
258 A. Altay y D. Cinar

El Cuadro 13 ofrece cuatro alternativas con impurezas GINI de 0. La decisión


puede depender de que el clima sea húmedo; normal; ventosoo no ventoso: Desde
húmedo y
Tabla 11 Impurezas GINI Atributo Punto dividido Gini
difusas para Yuan y Shaw's
fiprimera división Soleado 0.10 0.3661
Soleado 0.45 0.4264
Soleado 0.85 0.4182
Nublado 0.05 0.4089
Nublado 0.15 0.3942
Nublado 0.25 0.4194
Nublado 0.50 0.3875
Nublado 0.65 0.4281
Nublado 0.80 0.4276
Nublado 0.95 0.3708
Lluvia 0.15 0.4281
Caliente 0.25 0.4294
Caliente 0.65 0.3229
Suave 0.25 0.3317
Suave 0.35 0.3801
Suave 0.75 0.4425
Suave 0.95 0.4066
Fresco 0.75 0.4120
Fresco 0.90 0.3693
Húmedo 0.05 0.4054
Húmedo 0.25 0.4214
Húmedo 0.40 0.3949
Húmedo 0.95 0.3795
Normal 0.60 0.3303
Normal 0.85 0.4386
Normal 0.95 0.4097
normales son atributos
ventosas 0.05 0.2356
complementarios al igual
ventosas 0.25 0.4049
que los ventóryas y no
ventosas 0.35 0.2411
ventosos; el número de
Not_windy 0.65 0.2411
árboles alternativos puede
Not_windy 0.75 0.4049
reducirse a dos. En caso de
lventoso [0:05 y lleve [0:50; si Not_windy 0.95 0.2356
Arboles de decisión difusos 259

lhúmedo0:15; entonces se sabe que la persona no juega voleibol y si l húmedo [0:15; la


persona es conocida por jugar voleibol. Dos árboles de decisión se dan en Higos.
10 y 11.
El mismo proceso aplicado a la natación y w elevando los rendimientos a los
árboles que se muestran en los higos. 12, 13 y 14. Para la decisión delevantar
w, existen dos árboles alternativos. Las clases para cada object obtenidas por id3
difuso y algoritmos SLIQ difusos se muestran
Cuadro 12 Segunda división Atributo Punto dividido Gini
para
Fuzzy SLIQ para Yuan y Soleado 0.10 0.2009
Shaw
Soleado 0.45 0.2326
Nublado 0.50 0.1816
Lluvia 0.15 0.2907
Caliente 0.50 0.2308
Suave 0.50 0.1538
Suave 0.90 0.1941
Fresco 0.05 0.2626
Húmedo 0.15 0.2402
Húmedo 0.40 0.2272
Normal 0.60 0.2272
Normal 0.80 0.2402
ventosas 0.25 0.2586
ventosas 0.35 0.1918
Not_windy 0.65 0.1918
Not_windy 0.75 0.2586
260 A. Altay y D. Cinar

Cuadro 13 Tercera división Atributo Punto dividido Gini


Fuzzy SLIQ para Yuan y Shaw
Soleado 0.10 0.2480
Soleado 0.55 0.3163
Nublado 0.35 0.3136
Nublado 0.80 0.2639
en la Tabla 14. De acuerdo
Lluvia 0.05 0.3333
Lluvia 0.15 0.3333
Caliente 0.10 0.5000
Caliente 0.25 0.3333

con los resultados de la Suave 0.75 0.3333


Suave 0.95 0.3333
Fresco 0.05 0.3333
Húmedo 0.15 0.0000
Normal 0.85 0.0000
Tabla 14,elalgoritmo ventosas 0.50 0.0000
Not_windy 0.50 0.0000

SLIQ difuso obtiene mejor classificatión que el algoritmo ID3 difuso para el

problema dedecisión deportiva.

Para una comparación detallada de los algoritmos del árbol de decisión,


remitimos a los lectores al estudio de Niuniu y Yuxun [29]. Esta comparación se
logra para casos nítidos; sin embargo, los resultados obtenidos también se mantiene
para losárboles dedecisión difusos. Con un breve resumen, se podría afirmar que el
teorema "NoFree Lunch" es válido para casos de árboles de decisión difusos.
Arboles de decisión difusos 261

10 Árbol de decisión 1 obtenido por algoritmo SLIQ difuso para voleibol

11 Árbol de decisión 2 obtenido poralgoritmo SLI Q difuso para voleibol

12 Árbol de decisión obtenido por


algoritmo SLIQ difuso para nadar

Todos los algoritmos tienen sus ventajas y desventajas. El algoritmo ID3 difuso es
fácil de aplicar y tiene una fuerte capacidad de aprendizaje; sin embargo, es sensible
al ruido, no puede controlar la bifurcación en varios atributos a la vez y no puede
controlar los valores de atributo continuos. También es propenso a atribuir el
problema de sesgo, es decir, el algoritmo
262 A. Altay y D. Cinar

13 Árbol de decisión 1 obtenido por algoritmo SLIQ difuso para levantamiento de pesas

14 Árbol de decisión 2 obtenido por algoritmo SLIQ difuso para levantamiento de pesas

Tabla 14 Resultados del algoritmo ID3 difuso para el ejemplo deportivo


# Real classificatión Resultados de ID3 difuso Resultados de SLIQ
difuso
1 Natación Natación Natación
2 Voleibol Natación voleibol-natación
3 Natación Natación Natación
4 Voleibol Voleibol Voleibol
5 w_lifting w_lifting w_lifting
6 w_lifting w_lifting w_lifting
7 w_lifting w_lifting w_lifting
8 Voleibol w_lifting Voleibol
9 Natación Natación Natación
10 w_lifting w_lifting w_lifting
11 Natación Natación Natación
12 Voleibol Voleibol Voleibol
13 w_lifting w_lifting w_lifting
Arboles de decisión difusos 263

14 w_lifting w_lifting w_lifting


15 w_lifting w_lifting w_lifting
16 Voleibol voleibol-natación voleibol-natación
favors atributos con tienen un valor de atributo más grande establecido, pero es
insignificant que otros. El algoritmo C4.5 difuso intenta superar este problema, pero
el usode la ganancia de información y puede manejar los val ues de
atributocontinuo. Ambos algoritmos no consideran la multicolinealidad, es decir, la
correlación entre atributos. La eficaciadel C4.5 difuso es limitada, ya que lleva a
cabo un algoritmode búsqueda lineal para determinar los valores de umbral y no
puede manejar grandes conjuntos dedatos. El algoritmo CART difuso puede
manejar datos no lineales con ruido con una mayor precisión; pero para conjuntos
de datos complejos con muchos atributos, la precisión se reduce. El algoritmo SLIQ
fuzzy puede controlar los valores predeterminados de atributo que ID3 difuso no
puede y proporciona una mayor velocidad de implementación. Sin embargo, en aras
de la velocidad de implementación es necesario asignar una gran memoria.

5 Un resumen de los enfoques recientes deClassi fication

Dados los algoritmos más fundamentales para la decisión difusa tress, algunos
enfoques recientes se resumenen esta sección. Uno de los enfoques más recientes
es desarrollado por Tusor et al. [41] y utiliza la inferencia codiciosa y los
mecanismos de inferencia completa para la decisión dividida.
El estado de la técnica en los árboles de decisión difusos son los árboles deci
sion difusos intuicionistas;sin embargo, desembocan sus raíces en el algoritmo ID3
[5]. Los conjuntos difusos intuicionistas ofrecen un enfoque que considera un valor
o función que no es de pertenencia además de la función de pertenencia
convencional. La diferencia entre losvalores de cadera de pertenencia y
nomiembros se defined como margen devacilación. El algoritmo ID3 se aplica a los
valores de pertenencia y no pertenencia y la división se considera en el grado de un
punto de datos que pertenece a una clase y no pertenece a los demás de una manera
que maximiza la reducción de la entropía difusa.
Los algoritmos antes mencionados, especialmente el algoritmo ID3, es con los
avances de los algoritmos de Machine Learning, también hay una nueva rama para
árboles de decisión difusos donde se hibridan y sintonizan con la red neuronal. Este
enfoque tiene sus raíces desde principios de la década de 2000 [30]. Sin embargo,
los últimos enfoques implican redes neuronales con estructuras más complicadas
[39].

6 Conclusión

Los puntos principales de este capítulo se resumen de la siguiente manera:


264 A. Altay y D. Cinar

• Los árboles de decisión son herramientas elementales para problemas


decesoclase. Varios algoritmos algorse han desarrollado para mantener la
precisión de un árbol evitando la abundancia de ramas.
• El algoritmo ID3 y sus variantes se consideran los algoritmos más básicos para
la construcción de árboles de decisión. Sin embargo, los algoritmos de ID son
muy capaces de procesar valores categóricos, no producen resultados numéricos
y propensos a másdefit alos datos.
• Existen numerosas medidas de impureza que miden la homogeneidad de la
información. Los más utilizados son entropía, impureza GINIy error decatología
de clase incorrecta.
• El método another para superar eldesafío desobrefitting, la poda de árboles es el
enfoque más común. Con el fin de podar árboles, se han propuesto varios
métodos. Se sabe que los métodos de complejidad de costos y errores son
métodos ampliamente utilizados para la poda.
• Losmétodos de poda están implicados en algoritmos como C4.5, CART o SLIQ.
Para producir resultados numéricos como clases, se ofrecen árboles de regresión.
• Con el finde mejorar la precisión de lacatión classi, los árboles se combinan con
incertidumbres cognitivas, lo que conduce a Fuzzy Decision Trees.
• Al igual que en el caso de los árboles de decisión nítidos, las versiones fuzzified
de losalgoritmos ID3 son ampliamente explotadas. Los algoritmos ID3 difusos
ofrecen valores de pertenencia para entradas y salidas e intentan explorar los
efectos de la vaguedad.
• El árbol de decisiones difuso de uniritmoritmo genera generalmente reglas que
implican un grado de verdad relacionado con cada regla que indica el nivel de
generalizabilidad de la regla relacionada.
• En términos de índices de impureza, sus versiones difusas utilizan membresías
en lugar de cardinalidades.
• Fuzzy SLIQ algorithm utiliza variables linguísticas e intenta encontrar el valor
dedivisión óptimo para atributos numéricos.
Los algoritmos de cación Classipuedentener un rendimiento diferente
dependiendo de los datos deentrada. La relación entre el rendimiento de la
metodología y los datos de entrada se puede investigar en estudios posteriores.
Además,los algoritmos de aprendizaje automático se han vuelto muy importantes
en la literatura de classification. Las metodologías mencionadas en este capítulo se
pueden hibridar con algoritmos de aprendizaje automático y se puede detectar el
efecto del aprendizaje dinámico en los algoritmos.

1.

También podría gustarte