Está en la página 1de 7

ID3, C4.

5, Y CART: ALGORITMOS DE CLASIFICACION DE TAREAS


BASADAS EN OPERADORES ALGEBRAICOS

Este artículo es el resultado de la investigación sobre:” Algoritmos de clasificación de tareas


basadas en operadores algebraicos” trabajo investigativo de la asignatura inteligencia
artificial del programa ingeniería en sistemas, línea de investigación: Educación y
Tecnología. Fecha de inicio investigación: febrero 2019. Fecha de finalización: marzo 2019.
Autores: arboleda, @gmail.com Valencia, Estudiantes de Ingeniería de Sistemas de la
Universidad del Pacifico.

Resumen

Estas tareas basadas en arboles de decisión son unas de las más utilizadas ya que poseen
unos modelos que por su simplicidad se les facilidad su entendimiento. En realidad, para
hallar esta métrica no se necesitan datos, sino las estadísticas reunidas de los registros en
los cuales se combinan los atributos en condición de atributos clases con los algoritmos de
clasificación de árboles los cuales son: ID3, C4.5, Y CART.

ID3, C 4.5 Y CART: ALGEBRAIC OPERATOR-BASED

TASK CLASSIFICATION ALGORITHMS

Abstract

These tasks based on decision trees are one of the most used ones because they have some
models that by their simplicity they ease their understanding. In fact, to find this metric no
data is needed, but the collected statistics of the records in which the attributes are
combined in the condition of attributes classes with tree classification algorithms which are:
ID3, C 4.5, and CART.

Palabras claves: Algoritmos, Métrica, Atributos, Arboles, Simplicidad.

Keyword: Algorithms, metrics, attributes, trees, simplicity.

Línea de Investigación: Educación y Tecnología

Research Line: Education and Technology

Tipo de Articulo: Investigación Científica y Tecnológica

Introducción

Los algoritmos de clasificación de tareas y generación de árboles de decisiones como lo son


el ID3, C4.5, Y CART, son utilizado dentro del ámbito de la inteligencia artificial. Su uso se
engloba en la búsqueda de hipótesis o reglas en él, dado un conjunto de ejemplos.

El conjunto de ejemplos deberá estar conformado por una serie de tuplas de valores, cada
uno de ellos denominados atributos, en el que uno de ellos, ( el atributo a clasificar ) es el
objetivo, el cual es de tipo binario ( positivo o negativo, sí o no, válido o inválido, etc. ).

De esta forma el algoritmo trata de obtener las hipótesis que clasifiquen ante nuevas
instancias, si dicho ejemplo va a ser positivo o negativo.

ID3 realiza esta labor mediante la construcción de un árbol de decisión.

Los elementos son: Nodos: Los cuales contendrán atributos, Arcos: Los cuales contienen
valores posibles del nodo padre, Hojas: Nodos que clasifican el ejemplo como positivo o
negativo. “

“La minería de datos consta de diferentes tareas, cada una de las cuales puede considerarse
como un tipo de problema a ser resuelto por un algoritmo de minería de datos, afirma
Adamo (2001) y Hernández, Ramírez & Ferri (2005), donde la tarea de clasificación por
arboles de Decisión es una de ellas.
Se han propuesto varias alternativas para dar con las soluciones para aquellos problemas.
Para Wang, lyer & Scott (1998), el cálculo del valor de la métrica que permite seleccionar,
en cada nodo, el atributo que tenga una mayor potencia para clasificar sobre el conjunto
de valores del atributo clase, es la parte más costosa del algoritmo utilizado. Los algoritmos
ID3 (Quinlan, 1986) y c4.5 (Quinlan, 1993) utilizan como métrica, para seleccionar el
atributo candidato en cada nodo del árbol, la reducción de la entropía denominada
ganancia de información, Para el cálculo de estas métricas, no se necesitan los datos en sí,
sino las estadísticas acerca del número de registros en los cuales se combinan los atributos
condición con el atributo clase. Un operador algebraico relacional para clasificación basado
en arboles de decisión debe facilitar estas combinaciones, que conjuntamente con
operadores agregados, permita el cálculo de estas métricas. “

Materiales y métodos

Este proyecto de investigación se enfoca inicialmente en los 3 algoritmos de clasificación de


tareas y generación de árboles de decisiones como lo son el ID3, C4.5, Y CART. Estos
algoritmos se engloban en la búsqueda de hipótesis , reglas y tomar decisiones con gran
precisión .

Descripción: Conceptos

1.1 Tarea de clasificación

La clasificación de los datos es el proceso por medio el cual se encuentran propiedades


comunes entre un conjunto de objetos de una base de datos y se los clasifica en
diferentes clases, se realiza en dos pasos:
-Caso 1: construcción de modelo, donde cada dupla, de un conjunto de tuplas de base
de datos, tiene una clase conocida, determinada por uno de los atributos de la base de
datos, llamado atributo clase, según Witten & Frank (2000). El conjunto de tuplas que
sirve para construir el modelo se denomina conjunto de entrenamiento, siendo, de
acuerdo con Han & Kamber (2001), cada tupla de este conjunto un ejemplo de
entrenamiento.

-Caso 2: En este caso se usa el modelo para clasificar. Inicialmente, se estima la exactitud
del modelo utilizando un conjunto de tuplas de la base de datos, generalmente
diferente al de entrenamiento, cuya clase es conocida, denominado conjunto de
prueba, según afirman Witten & Frank (2000). A cada tupla de este conjunto, consideran
Han & Kamber (2001), se le denomina ejemplo de prueba.
1.2 Clasificación de los árboles de decisión

La clasificación por aboles de decisión es, probablemente, el modelo más utilizado y por
su simplicidad y facilidad para su entendimiento, de acuerdo con Han & Kamber (2001)
y Sattler & Dunemann (2001). El conocimiento obtenido en el proceso de aprendizaje
se representa mediante un árbol en el cual cada nodo interior contiene una pregunta
sobre un atributo concreto (con un hijo por cada posible respuesta) y cada hoja se
refiere a una decisión (una clasificación). Durante la etapa de construcción del árbol, en
forma recursiva, cada conjunto de datos se divide en subconjuntos de acuerdo a un
criterio de particionamiento es la parte de la construcción del árbol que mayor tiempo
consume (Sattler & Dunemann, 2011).

2. Operadores algebraicos para la clasificación

Para lograr eficiencia en las operaciones de minería de datos, un nuevo operador


algebraico debe facilitar los procesos de minería de datos computacionalmente más
costosos. Los operadores algebraicos propuestos por Timaran & Millán (2006), con los
que se extiende el álgebra relacional facilitan estos procesos en el descubrimiento de
reglas de clasificación.

3. Pruebas

Se realizaron 3 pruebas para los diferentes tipos de algoritmos, ID3, C4.5, Y CART.

En el “Anexo adicional al formato” ( ) podremos apreciar algunos ejemplos con sus


respectivos resultados de los siguientes algoritmos:

 ID3
 C4.5
 CART
5. Discusión o análisis de resultado
En esta fase podemos ver la importancia de los algoritmos en los procesos de
clasificación, generación de árboles a la hora de tomar la mejor decisión en
clasificación. implementando métodos y técnicas para la realización de procesos
inteligentes, representando así el conocimiento y el aprendizaje, con el propósito de
automatizar tareas.

6. Conclusión
Es de mucha importancia conocer los Algoritmos como arboles de decisión, en el
área de inteligencia artificial, ya que nos ofrecen unos excelentes métodos de
clasificación y toma de decisiones muy exactas en cuanto a los procesos que
requerimos.

7. Agradecimientos
Ante mano agradecerles a las fuentes como internet (google, wiki,) y otras fuentes
por permitirle conseguir la información requerida para poder desarrollar este
articulo
8. Referencias Bibliográficas

Algoritmos ID3 (ing. Bruno lopez)


http://www.itnuevolaredo.edu.mx/takeyas/apuntes/Inteligencia%20Artificial/Apu
ntes/IA/ID3.pdf

httpwww.itnuevolaredo.edu.mxtakeyasapuntesInteligencia%20ArtificialApuntestar
eas_alumnosC4.5C4.5(2005-II-B).pdf
http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t10arboles.pdf
Mitchell, T.M. Machine Learning (McGraw-Hill, 1997)
https://www.uv.es/capgeminiuv/documents/UX_Sprint.pdf

http://www.itnuevolaredo.edu.mx/takeyas/apuntes/Inteligencia%20Artificial/Apu
ntes/tareas_alumnos/C4.5/C4.5(2005-II-B).pdf

Algoritmo ID3 https://es.wikipedia.org/wiki/Algoritmo_ID3

http://ceal.fing.uncu.edu.ar/data_mining/Algoritmos/algoritmo1.pdf
http://mineriac45.blogspot.com/
1. Rokach, Lior; Maimon, O. (2008). Data mining with decision trees: theory and
applications. World Scientific Pub Co Inc. ISBN 978-9812771711.
2. ↑ Quinlan, J. R., (1986). Induction of Decision Trees. Machine Learning 1: 81-106,
Kluwer Academic Publishers
3. ↑ Saltar a:a b c d Breiman, Leo; Friedman, J. H.; Olshen, R. A.; Stone, C. J.
(1984). Classification and regression trees. Monterey, CA: Wadsworth &
Brooks/Cole Advanced Books & Software.

Aprendizaje automáticos mediante arboles de decisión


https://www.nebrija.es/~cmalagon/inco/apuntes_mios/arboles_de_decision.pdf

Pedro larrgana, inaki, inza


http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t10arboles.pdf

Jesús García herrera de la Universidad Carlos III Madrid


http://ocw.uc3m.es/ingenieria-informatica/analisis-de-
datos/transparencias/InduccionII.pdf

9. Anexo
9.1 Información adicional al formato

Elección del mejor atributo


La elección del mejor atributo se establece mediante la entropía. Eligiendo aquel que
proporcione una mejor ganancia de información. La función elegida puede variar, pero en su
forma más sencilla es como esta:
Donde p es el conjunto de los ejemplos positivos, n el de los negativos y d. el total de ellos. Se
debe establecer si el logaritmo es positivo o negativo
En ese caso el árbol finalmente
obtenido sería así:

También podría gustarte