Está en la página 1de 9

Instituto Politécnico Nacional

UPIICSA
Algoritmos Computacionales
Profesor: José Mario Rodríguez Aparicio
Secuencia: 3CM32

Algoritmo ID3
Presenta: Méndez Rodríguez Cristopher J.
Fecha de Entrega: 23/Mayo/2020
Contenido
Introducción.............................................................3
Algoritmo ID3............................................................4
Entropía..................................................................4
Ganancia de Información.......................................5
Ejemplos....................................................................6
Conclusiones.............................................................8
Bibliografia................................................................9
Introducción
El algoritmo ID3 es utilizado dentro del ámbito de la inteligencia artificial. Su uso se engloba en
la búsqueda de hipótesis o reglas en él, dado un conjunto de ejemplos.
ID3 (Iterative Dichotomiser 3) es un algoritmo constructivo greedy para obtener árboles de
decisión propuesto por Ross Quinlan.

Hace uso de la Teoría de la Información, desarrollada por Shannon en 1948.

Construye un árbol de arriba a abajo, de forma directa, sin hacer uso de backtracking.
Se usa el concepto de Ganancia de Información para seleccionar el atributo más útil en cada
paso.

Recordemos que el árbol de decisión consta de reglas para clasificar datos usando los atributos
que tienen.

El árbol estará formado por nodos de decisión, y nodos-hojas:

◦ Un nodo de decisión está asociado a uno de los atributos, y tiene 2 o más ramas, cada
una representando posibles valores del atributo.

◦ Los nodos-hoja están asociados al atributo objetivo que se quiere clasificar (todos al
mismo) y, por tanto, es el resultado de la decisión del árbol.
Algoritmo ID3
Ya vimos que el algoritmo ID3 emplea un procedimiento de arriba a abajo haciendo un
recorrido voraz por el espacio de las posibles ramificaciones sin backtracking. Para ello, ID3
hace uso de conceptos como entropía y ganancia de información.

ID3 realiza esta labor mediante la construcción de un árbol de decisión

Los elementos son:

Nodos: Los cuales contendrán atributos.


Arcos: Los cuales contienen valores posibles del nodo padre.
Hojas: Nodos que clasifican el ejemplo como positivo o negativo

La elección del mejor atributo se establece mediante la entropía. Eligiendo aquel que
proporcione una mejor ganancia de información.

Entropía
Permite calcular el grado de incertidumbre de una muestra:
◦ Una muestra completamente homogénea tiene entropía 0.
◦ Una muestra igualmente distribuida tiene entropía 1.
La fórmula de la entropía es:

Entropía(S) = - P log2 (P) – N log2 (N), donde P son los ejemplos positivos y N los negativos.

Visto de otra forma más sencilla:

donde P y N son, resp., los subconjuntos de ejemplos positivos y negativos de D

Notación: Ent ( [ p+, n−] ), donde p = |P| y n = |N|

 Intuición:
o Mide la ausencia de “homogeneidad” de la clasificación
o Teoría de la Información: cantidad media de información (en bits) necesaria para
codificar la clasificación de un ejemplo de D

Ejemplos:

o Ent([9+, 5−]) = − 9 14 · log2 9 14 − 5 14 · log2 5 14 = 0.94


o Ent([k+, k−]) = 1 (ausencia total de homogeneidad)
o Ent([p+, 0]) = Ent([0, n−]) = 0 (homogeneidad total)

Ganancia de Información
La Ganancia de Información se basa en el decremento de la entropía cuando el conjunto de
datos se divide en los valores de un atributo.

¿Qué atributo crea las ramas más homogéneas?


◦ Se calcula la entropía del total.
◦ Se divide el conjunto de datos en función de los diferentes atributos.
◦ Se calcula la entropía de cada rama y se suman proporcionalmente las ramas para calcular la
entropía del total.
◦ Se resta este resultado de la entropía original.
◦ El resultado es la Ganancia de Información (descenso de entropía).
◦ El atributo con mayor Ganancia es selecciona como nodo de decisión.
◦ Una rama con entropía 0 se convierte en hoja (todos sus casos están ya clasificados).
◦ Si no es así, la rama debe seguir subdividiéndose (para poder clasificar mejor sus nodos).
◦ El algoritmo ID3 se ejecuta recursivamente en nodos que no son hojas, hasta que se llegue a
nodos-hoja.

Preferimos nodos con menos entropía (árboles pequeños)

Entropía esperada después de usar un atributo A en el árbol:

donde Dv es el subconjunto de ejemplos de D con valor del atributo A igual a v

Ganancia de información esperada después de usar un atributo A:

En el algoritmo ID3, en cada nodo usamos el atributo con mayor ganancia de información
(considerando los ejemplos correspondientes al nodo)
Ejemplos
Conclusiones
El algoritmo ID3 es un algoritmo muy rápido, construye un árbol pequeño y solo necesita
comprobar unos cuantos datos, hasta que todos estén clasificados. Se obtienen reglas
comprensibles, usa todo el conjunto de datos que se le den y al encontrar nodos-hoja, el
algoritmo no continua, esto quiere decir que se reduce el total de comprobaciones.

Sin embargo, hay que tener cuidado al manejar esta técnica ya que es fácil incurrir en una
sobre clasificación. Y aunque sólo se comprueba un atributo en cada paso, se hace de manera
rápida.
Bibliografia

 Caparrini, F. (2013, diciembre 14). Algoritmo ID3. Recuperado 21 de mayo de 2020, de


http://www.cs.us.es/~fsancho/?e=38
 Colaboradores de Wikipedia. (s. f.). Algoritmo ID3. Recuperado 21 de mayo de 2020,
de https://es.wikipedia.org/wiki/Algoritmo_ID3
 Expósito, C., Expósito, A., López, I., Melián, B., & Moreno, J. (s. f.). Árboles de decisión.
Recuperado 21 de mayo de 2020, de
https://campusvirtual.ull.es/ocw/pluginfile.php/15311/mod_resource/content/7/arbo
les-de-decision.pdf?forcedownload=1
 Morales, E., & Escalante, H. (s. f.). Árboles de decisión. Recuperado 21 de mayo de
2020, de https://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/Acetatos/sbl.pdf
 Alonso, J., Gutiérrez, M., Martín, F., & Ruiz, J. (2002). Aprendizaje de árboles de
decisión. Recuperado 21 de mayo de 2020, de
http://150.214.140.135/~jalonso/cursos/ia2-02/temas/tema-7.pdf
 Caparrini, F. S. (2013, enero 5). Arboles decision id3. Recuperado 21 de mayo de 2020,
de https://es.slideshare.net/FernandoCaparrini/arboles-decision-id3
 Mitchell, T.M. Machine Learning (McGraw-Hill, 1997) Cap. 3: “Decision tree learning”
 Russell, S. y Norvig, P. Inteligencia artificial (Un enfoque moderno) (Prentice–Hall
Hispanoamericana, 1996) Cap. 18: “Aprendiendo de observaciones”
 Witten, I.H. y Frank, E. Data mining (Morgan Kaufmann Publishers, 2000)

Cap. 3: “Output: Knowledge representation”

Cap. 4: “Algorithms: The basic methods”

Cap. 5: “Credibility: Evaluating what’s has been learned”

Cap. 6: “Implementations: Real machine learning schemes”

También podría gustarte