Árboles de Clasificación

UNIVERSIDAD TCNICA PARTICULAR DE LOJA
Roberth Pal Bravo Castro Mara Esther Ruilova Rojas RBOLES DE CLASIFICACIN (INTELIGENCIA ARTIFICIAL AVANZADA)
INTRODUCCIN Los rboles de clasificacin son uno de los ms utilizados en el tema de aprendizaje automtico. Su rapidez a la hora de la clasificacin, su fcil implementacin, etc. son factores que influyen en su propagacin. Entran dentro de los mtodos de clasificacin supervisada, formados por una variable dependiente (clase), cuyo objetivo es averiguar dicha clase para casos nuevos. El modelo as obtenido puede servir para clasificar casos cuyas clases se desconozcan o, simplemente, para comprender mejor la informacin de la que disponemos. Se abarca un poco el tema de los algoritmos ms conocidos que se aplican en el tema como son el algoritmo CART que basa su criterio por defecto en el Gini index para la clasificacin, el IDE3 que realiza divisiones sobre los posibles valores de la clase predoctora y usa un criterio de ganancia en informacin como funcin de divisin, otro algoritmo es el C4.5 que es el sucesos del IDE3, el J4.8 que es una implementacin del C4.5 entre otros. Todos estos algoritmos nos han ayudado al proceso de clasificacin segn han ido apareciendo y nos siguen ayudando gracias a las nuevas versiones de los mismos. caractersticas en regiones mutuamente excluyentes, de tal forma que cada regin est asociada a una clase y, dado un patrn particular, decidir a que clase de las disponibles pertenece. Aprendizaje supervisado: Estas tcnicas disponen para su ejecucin, de un conjunto de patrones, integrado en lo que se conoce como muestra de entrenamiento o conjunto de datos de entrenamiento (CE). Este conjunto de datos es recolectado por un experto humano en el campo de estudio y agrupa en clases o categoras, de acuerdo a las propiedades que cada uno posee, los casos resueltos previamente. El clasificador es entrenado con este CE y realiza la identificacin de la clase correspondiente para nuevos patrones, empleando el conocimiento ya 1
DESARROLLO DE CONTENIDOS Patrn: Es una unidad de informacin, integrada de tal forma que capture la esencia descriptiva de un objeto, teniendo como meta principal la representacin de cualquier entidad del mundo real a la que se le pueda dar un nombre y sea descriptible. Puede ser representativo de caracteres escritos, smbolos, imgenes, firmas, huellas dactilares, espectrogramas, etc. Patrn ruidoso: Es aquel patrn que puede confundir al clasificador debido a que guarda cierto parecido con objetos de otras clases. Clasificacin: Se puede interpretar como la particin del espacio de
adquirido y tratando de realizar esa identificacin con el menor error posible. Clasificador: funcin d(x) definida en es espacio de clasificacin X, que relaciona a cada patrn o ejemplo x del espacio de clasificacin con una sola clase del conjunto de posibles valores a los que puede pertenecer Cm (m=1, , M). Clase o categora: Grupo de patrones que guardan un alto grado de similitud entre s y un alto grado de disimilitud entre los patrones de otros grupos. Generalmente las clases representan la (s) solucin (es) en que se divide el problema. Conjunto de entrenamiento: Conjunto de objetos previamente etiquetados y separados en clases utilizados durante el proceso de aprendizaje supervisado. Sobreajuste: El modelo est demasiado ajustado a las instancias de entrenamiento, y no funciona adecuadamente con las nuevas instancias. Producido por fronteras de decisin muy complejas. Entropa: Medida del grado de incertidumbre asociado a una distribucin de probabilidad.
verdadero valor de otra Y (clase a la que pertenece el ejemplo).
RBOLES DE CLASIFICACIN Todo rbol de clasificacin comienza con un nodo al que pertenecen todos los casos de la muestra que se quiere clasificar (nodo raz), el resto de nodos se dividen en nodos intermedios y nodos terminales. A la hora de clasificar cada patrn, el punto de partida es el nodo raz y, dependiendo de los valores de la clase predoctora por la que se pregunta, los casos se van distribuyendo por los nodos hijo. El proceso se repite en cada nodo hasta llegar a los nodos hoja. Al nmero de nodos hoja que tiene un rbol se le suele denominar complejidad de rbol.
pk: probabilidad de que un ejemplo est en la clase k:
con nk = nmero de ejemplos en la clase k. Ganancia de Informacin: Medida de cuanto ayuda el conocer el valor de una variable aleatoria X (atributo de un ejemplo dado) para conocer el Se puede decir que los rboles de clasificacin, adems de clasificar, son capaces de extraer una estructura que
representa, en cierta medida, el concepto o el patrn de comportamiento que hay asociado a la muestra sobre la que se ha inducido. Para su construccin se definen tres procedimientos: cmo se realiza la seleccin de divisiones? cmo se toma la decisin de de declarar un nodo como intermedio o como hoja? cmo se asigna la pertenencia de cada nodo hoja a las posibles clases?
entrenamiento, generalmente son eliminados debido a que las coincidencias suelen no estar presentes en el conjunto de validacin. Existen varias razones para la poda de los rboles: la sobre-generalizacin, la evaluacin de variables poco importantes o significativas y el gran tamao del rbol obtenido. En el primer caso, un rbol puede haber sido construido a partir de ejemplos con ruido, con lo cual algunas ramas del rbol pueden ser engaosas; en cuanto a la evaluacin de variables no relevantes, stas deben podarse ya que slo agregan niveles en el rbol y no contribuyen a la ganancia de informacin. Por ltimo, si el rbol obtenido es demasiado profundo o demasiado frondoso se dificulta la interpretacin por parte del usuario, con lo cual hubiera sido lo mismo utilizar un mtodo de caja negra. Existen dos enfoques para podar los rboles: la pre-poda (preprunning) y la post-poda (postprunning). En el primer caso se detiene el crecimiento del rbol cuando la ganancia de informacin producida al dividir un conjunto no supera un umbral determinado; en la postpoda se podan algunas ramas una vez que se ha terminado de construir el rbol.
A los rboles de clasificacin se les aplica un procedimiento que los hace parsimoniosos que se denomina poda. La poda consiste en eliminar todo el subrbol que tiene como raz el nodo en cuestin, convirtindolo as en una hoja, cuya clase corresponde a valor mas comn de los ejemplares asociados a ese nodo. Un nodo solo es eliminado si el rbol podado que resulta de ello, no presenta un desempeo peor que el rbol original sobre el conjunto de validacin. El efecto de esto, es que los nodos que se han colocado en el rbol por coincidencias fortuitas en los datos del Algoritmo Bsico
La idea subyacente al algoritmo TDIDT es que mientras que todos los patrones que se correspondan con una determinada rama del rbol de clasificacin no pertenezcan a una misma clase, se seleccione la variable que de entre las no seleccionadas en esa rama sea la ms informativa o la ms idnea con respecto de un criterio previamente establecido. La eleccin de esta variable sirve para expandir el rbol en tantas ramas como posibles valores toma dicha variable. Finalmente, se expresa el rbol de clasificacin por medio de un conjunto de reglas.
LGORITMOS Algoritmo ID3 Introducido por Quinlan (1986). El algoritmo ID3 genera rboles de decisin a partir de a partir de ejemplos de partida. cls (Hunt, Marin, y Stone, 66) fue el precursor de id. El tan slo utilizaba atributos binarios y tena heursticas para decidir qu atributo escoger. La terminologa usada en este contexto para denominar a la cantidad de informacin mutua es la de ganancia en informacin. El algoritmo de ID3 es el siguiente:
1. Seleccionar el atributo Ai que maximice la ganancia, e.d, el que tenga menor entropia. 2. Crear un nodo para ese atributo, con tanto sucesores como valores tenga. 3. Introducir los ejemplos en los sucesores segn el valor que tenga el atributo Ai. 4. Por cada sucesor: SI slo hay ejemplos de una clase ck. Entonces etiquetarlo con ck. SINO, llamar al id3 con una tabla formada por los ejemplos de ese nodo, eliminando la columna del atributo Ai. ID3 intenta encontrar el rbol ms sencillo que separa mejor los ejemplos. Para ello utiliza la entropa para elegir o tomar decisiones. Algoritmo C4.5 Es una mejora del IDE3. Se basa en la utilizacin del criterio ratio de ganancia. De esta manera se consigue evitar que las variables con mayor nmero de posibles valores salgan beneficiadas en la seleccin. Adems el algoritmo C4.5 incorpora una poda del rbol de clasificacin una vez que ste ha sido inducido. La poda est basada en la aplicacin de un test de hiptesis que trata de responder a la pregunta de si merece la pena expandir o no una determinada rama.
Algoritmo CART Utiliza el criterio basado en Gini index para el caso de la clasificacin. Cuando se pretende construir un rbol de regresin, los criterios se basan en la mnima suma de las desviaciones cuadrticas. Para realizar la post-poda realiza una estimacin del error, bien mediante un conjunto de datos diferente del que se ha utilizado para construir el rbol, o bien aplicando una metodologa de validacin cruzada. Algoritmo J4.8 Implementacin del C4.5. Permite establecer ciertos parmetros, como obligar a realizar divisiones binarias sobre variables discretas, o cambiar el mtodo de post-poda que utiliza el C4.5 por un mtodo basado en la reduccin de error. Algoritmo CHAID No realiza una fase de post-poda para evitar el sobreentrenamiento, sino que es en la misma fase de construccin del rbol cuando se decide parar. Slo es capaz de tratar con variables predoctoras discretas. AVANCES EN LA TOMA DE DECISIONES EN PROYECTOS DE DESARROLLO DE SOFTWARE. Autor: Javier Aroba Pez Universidad de Sevilla. Uso de tcnicas de aprendizaje supervisado (algoritmo C4.5) para la obtencin de reglas de gestin para la
REAS DE APLICACIN DE LOS RBOLES DE CLASIFICACIN Estos son los temas de algunas tesis previas la obtencin del Ttulo de Ing. en Sistemas.
estimacin de costes en el desarrollo de software. El conocimiento de estas reglas de gestin sirve de ayuda en la toma de decisiones para estimar automticamente los resultados deseados por el responsable del proyecto (coste, tiempo de entrega, calidad, productividad, etc.). Adems, la obtencin de reglas de gestin permite al director del proyecto analizar cules son las polticas de gestin ms significativas para conseguir los objetivos del Proyecto Software. Adems el uso de aprendizaje no supervisado, aplicacin de redes neuronales, red neuronal modular. CONFRONTACIN DE DOS TCNICAS DE MINERAS DE DATOS APLICADAS A UN DOMINIO ESPECFICO Autor: Mario Galvis, Fabricio Martnez. Pontificia Universidad Javeriana. Pretende mostrar las principales diferencias entre dos tcnicas de mineras de datos, rboles de decisin y reglas de asociacin. El uso de la herramienta WEKA para hacer un anlisis entre los algoritmos y determinar cuales son ms ptimos tomando en cuenta aspectos como: velocidad de ejecucin, precisin para clasificacin de datos de origen, precisin para prediccin de datos futuros, escalabilidad, robustez. OPTIMIZACIN DE REDES BAYESIANAS BASADO EN TCNICAS DE APRENDIZAJE POR INDUCCIN. Autor: Pablo Felgaer Universidad de Buenos Aires.
Tomando un conjunto de bases de datos las cuales las cuales ayudaron a determinar las posibles causas de algunas enfermedades. DESARROLLO DE SISTEMAS INTELIGENTES PARA CLASIFICACIN Y DIAGNSTICO EN MEDICINA. Autor: Suhail Musa Issa Odeh. Universidad de Granada Este trabajo se centra en el desarrollo de esquemas de diagnstico automtico y flexible. Para ello se exploran distintas alternativas capaces de utilizar eficientemente la informacin de un grupo de casos etiquetados para el diagnstico de otros casos nuevos. La clasificacin es la atribucin de una clase especfica a un objeto, la cual necesita un cierto grado de abstraccin para poder extraer generalidades a partir de los ejemplos disponibles. Aplicado a aplicaciones biomdicas genricas y diagnstico de cncer en la piel.
CONCLUSIONES Los rboles de clasificacin se aplican a varias ramas de estudio junto con los algoritmos de decisin y las redes neuronales y redes bayesianas, su estudio ayuda a poder obtener resultados ms acertados de clasificacin dependiendo del aspectos o aspectos a clasificar. Como aspecto fundamental aplica el proceso de poda: pre-poda y post-poda para obtener rboles parsimoniosos. Es importante establecer su aplicacin en algunos proyectos de tesis aplicados a desarrollo de software, minera de datos, medicina.
Gracias al aprendizaje supervisado, podemos construir patrones que nos ayuden a establecer soluciones para problemas complejos y para los cuales se aplica el conocimiento de la Inteligencia Artificial.
BIBLIOGRAFIA http://www.spss.com/es/classification_tr ees/analysis.htm http://www.sc.ehu.es/ccwbayes/docenci a/mmcc/docs/t10arboles.pdf http://isa.umh.es/asignaturas/iarp/transp arencias/criterios_seleccion_modelos.pd f http://www.gsi.dit.upm.es/~gfer/ssii/arb oles.pdf http://www.ucm.es/BUCM/cee/doc/04009/04009.pdf

Árboles de Clasificación

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Árboles de Clasificación

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

verdadero valor de otra Y (clase a la que pertenece el ejemplo).

pk: probabilidad de que un ejemplo est en la clase k:

También podría gustarte