Está en la página 1de 8

UNIVERSIDAD TCNICA PARTICULAR DE LOJA

Roberth Pal Bravo Castro


Mara Esther Ruilova Rojas

RBOLES DE CLASIFICACIN (INTELIGENCIA ARTIFICIAL
AVANZADA)


INTRODUCCIN

Los rboles de clasificacin son uno de los ms utilizados en el tema de aprendizaje
automtico. Su rapidez a la hora de la clasificacin, su fcil implementacin, etc. son
factores que influyen en su propagacin.

Entran dentro de los mtodos de clasificacin supervisada, formados por una variable
dependiente (clase), cuyo objetivo es averiguar dicha clase para casos nuevos. El
modelo as obtenido puede servir para clasificar casos cuyas clases se desconozcan o,
simplemente, para comprender mejor la informacin de la que disponemos.

Se abarca un poco el tema de los algoritmos ms conocidos que se aplican en el tema
como son el algoritmo CART que basa su criterio por defecto en el Gini index para la
clasificacin, el IDE3 que realiza divisiones sobre los posibles valores de la clase
predoctora y usa un criterio de ganancia en informacin como funcin de divisin, otro
algoritmo es el C4.5 que es el sucesos del IDE3, el J 4.8 que es una implementacin del
C4.5 entre otros. Todos estos algoritmos nos han ayudado al proceso de clasificacin
segn han ido apareciendo y nos siguen ayudando gracias a las nuevas versiones de los
mismos.


DESARROLLO DE CONTENIDOS

Patrn: Es una unidad de informacin,
integrada de tal forma que capture la
esencia descriptiva de un objeto,
teniendo como meta principal la
representacin de cualquier entidad del
mundo real a la que se le pueda dar un
nombre y sea descriptible.
Puede ser representativo de caracteres
escritos, smbolos, imgenes, firmas,
huellas dactilares, espectrogramas, etc.

Patrn ruidoso: Es aquel patrn que
puede confundir al clasificador debido a
que guarda cierto parecido con objetos
de otras clases.

Clasificacin: Se puede interpretar
como la particin del espacio de
caractersticas en regiones mutuamente
excluyentes, de tal forma que cada
regin est asociada a una clase y, dado
un patrn particular, decidir a que clase
de las disponibles pertenece.

Aprendizaje supervisado: Estas
tcnicas disponen para su ejecucin, de
un conjunto de patrones, integrado en lo
que se conoce como muestra de
entrenamiento o conjunto de datos de
entrenamiento (CE). Este conjunto de
datos es recolectado por un experto
humano en el campo de estudio y
agrupa en clases o categoras, de
acuerdo a las propiedades que cada uno
posee, los casos resueltos previamente.
El clasificador es entrenado con este CE
y realiza la identificacin de la clase
correspondiente para nuevos patrones,
empleando el conocimiento ya
1
adquirido y tratando de realizar esa
identificacin con el menor error
posible.

Clasificador: funcin d(x) definida en
es espacio de clasificacin X, que
relaciona a cada patrn o ejemplo x del
espacio de clasificacin con una sola
clase del conjunto de posibles valores a
los que puede pertenecer Cm (m=1, ,
M).

Clase o categora: Grupo de patrones
que guardan un alto grado de similitud
entre s y un alto grado de disimilitud
entre los patrones de otros grupos.
Generalmente las clases representan la
(s) solucin (es) en que se divide el
problema.

Conjunto de entrenamiento: Conjunto
de objetos previamente etiquetados y
separados en clases utilizados durante el
proceso de aprendizaje supervisado.

Sobreajuste: El modelo est demasiado
ajustado a las instancias de
entrenamiento, y no funciona
adecuadamente con las nuevas
instancias. Producido por fronteras de
decisin muy complejas.

Entropa: Medida del grado de
incertidumbre asociado a una
distribucin de probabilidad.

pk: probabilidad de que un ejemplo est
en la clase k:

con nk = nmero de ejemplos en la
clase k.

Ganancia de Informacin: Medida de
cuanto ayuda el conocer el valor de una
variable aleatoria X (atributo de un
ejemplo dado) para conocer el
verdadero valor de otra Y (clase a la que
pertenece el ejemplo).



RBOLES DE CLASIFICACIN

Todo rbol de clasificacin comienza
con un nodo al que pertenecen todos los
casos de la muestra que se quiere
clasificar (nodo raz), el resto de nodos
se dividen en nodos intermedios y
nodos terminales.

A la hora de clasificar cada patrn, el
punto de partida es el nodo raz y,
dependiendo de los valores de la clase
predoctora por la que se pregunta, los
casos se van distribuyendo por los
nodos hijo. El proceso se repite en cada
nodo hasta llegar a los nodos hoja.

Al nmero de nodos hoja que tiene un
rbol se le suele denominar complejidad
de rbol.


Se puede decir que los rboles de
clasificacin, adems de clasificar, son
capaces de extraer una estructura que
2
representa, en cierta medida, el
concepto o el patrn de comportamiento
que hay asociado a la muestra sobre la
que se ha inducido.

Para su construccin se definen tres
procedimientos:

cmo se realiza la seleccin de
divisiones?
cmo se toma la decisin de de
declarar un nodo como
intermedio o como hoja?
cmo se asigna la pertenencia
de cada nodo hoja a las posibles
clases?

A los rboles de clasificacin se les
aplica un procedimiento que los hace
parsimoniosos que se denomina poda.

La poda consiste en eliminar todo el
subrbol que tiene como raz el nodo en
cuestin, convirtindolo as en una hoja,
cuya clase corresponde a valor mas
comn de los ejemplares asociados a
ese nodo.

Un nodo solo es eliminado si el rbol
podado que resulta de ello, no presenta
un desempeo peor que el rbol original
sobre el conjunto de validacin. El
efecto de esto, es que los nodos que se
han colocado en el rbol por
coincidencias fortuitas en los datos del
entrenamiento, generalmente son
eliminados debido a que las
coincidencias suelen no estar presentes
en el conjunto de validacin.

Existen varias razones para la poda de
los rboles: la sobre-generalizacin, la
evaluacin de variables poco
importantes o significativas y el gran
tamao del rbol obtenido. En el primer
caso, un rbol puede haber sido
construido a partir de ejemplos con
ruido, con lo cual algunas ramas del
rbol pueden ser engaosas; en cuanto a
la evaluacin de variables no relevantes,
stas deben podarse ya que slo agregan
niveles en el rbol y no contribuyen a la
ganancia de informacin. Por ltimo, si
el rbol obtenido es demasiado
profundo o demasiado frondoso se
dificulta la interpretacin por parte del
usuario, con lo cual hubiera sido lo
mismo utilizar un mtodo de caja negra.

Existen dos enfoques para podar los
rboles: la pre-poda (preprunning) y la
post-poda (postprunning). En el primer
caso se detiene el crecimiento del rbol
cuando la ganancia de informacin
producida al dividir un conjunto no
supera un umbral determinado; en la
postpoda se podan algunas ramas una
vez que se ha terminado de construir el
rbol.

Algoritmo Bsico

3


La idea subyacente al algoritmo TDIDT es que mientras que todos los patrones que se
correspondan con una determinada rama del rbol de clasificacin no pertenezcan a una
misma clase, se seleccione la variable que de entre las no seleccionadas en esa rama sea
la ms informativa o la ms idnea con respecto de un criterio previamente establecido.
La eleccin de esta variable sirve para expandir el rbol en tantas ramas como posibles
valores toma dicha variable.

Finalmente, se expresa el rbol de clasificacin por medio de un conjunto de reglas.


LGORITMOS

Algoritmo ID3

Introducido por Quinlan (1986). El algoritmo ID3 genera rboles de decisin a partir de
a partir de ejemplos de partida. cls (Hunt, Marin, y Stone, 66) fue el precursor de id. El
tan slo utilizaba atributos binarios y tena heursticas para decidir qu atributo escoger.
La terminologa usada en este contexto para denominar a la cantidad de informacin
mutua es la de ganancia en informacin.

El algoritmo de ID3 es el siguiente:

4


1. Seleccionar el atributo A
i
que maximice la ganancia, e.d, el que tenga menor
entropia.
2. Crear un nodo para ese atributo, con tanto sucesores como valores tenga.
3. Introducir los ejemplos en los sucesores segn el valor que tenga el atributo A
i
.
4. Por cada sucesor:

SI slo hay ejemplos de una clase c
k
.
Entonces etiquetarlo con c
k
.
SINO, llamar al id3 con una tabla formada por los ejemplos de ese nodo,
eliminando la columna del atributo A
i
.

ID3 intenta encontrar el rbol ms sencillo que separa mejor los ejemplos. Para ello
utiliza la entropa para elegir o tomar decisiones.

Algoritmo C4.5

Es una mejora del IDE3. Se basa en la utilizacin del criterio ratio de ganancia. De esta
manera se consigue evitar que las variables con mayor nmero de posibles valores
salgan beneficiadas en la seleccin. Adems el algoritmo C4.5 incorpora una poda del
rbol de clasificacin una vez que ste ha sido inducido. La poda est basada en la
aplicacin de un test de hiptesis que trata de responder a la pregunta de si merece la
pena expandir o no una determinada rama.

5



Algoritmo CART

Utiliza el criterio basado en Gini index para el caso de la clasificacin. Cuando se
pretende construir un rbol de regresin, los criterios se basan en la mnima suma de las
desviaciones cuadrticas. Para realizar la post-poda realiza una estimacin del error,
bien mediante un conjunto de datos diferente del que se ha utilizado para construir el
rbol, o bien aplicando una metodologa de validacin cruzada.

Algoritmo J4.8

Implementacin del C4.5. Permite establecer ciertos parmetros, como obligar a realizar
divisiones binarias sobre variables discretas, o cambiar el mtodo de post-poda que
utiliza el C4.5 por un mtodo basado en la reduccin de error.

Algoritmo CHAID

No realiza una fase de post-poda para evitar el sobreentrenamiento, sino que es en la
misma fase de construccin del rbol cuando se decide parar.
Slo es capaz de tratar con variables predoctoras discretas.


REAS DE APLICACIN DE LOS
RBOLES DE CLASIFICACIN

Estos son los temas de algunas tesis
previas la obtencin del Ttulo de Ing.
en Sistemas.

AVANCES EN LA TOMA DE
DECISIONES EN PROYECTOS DE
DESARROLLO DE SOFTWARE.

Autor: J avier Aroba Pez
Universidad de Sevilla.
Uso de tcnicas de aprendizaje
supervisado (algoritmo C4.5) para la
obtencin de reglas de gestin para la
6
estimacin de costes en el desarrollo de
software.

El conocimiento de estas reglas de
gestin sirve de ayuda en la toma de
decisiones para estimar
automticamente los resultados
deseados por el responsable del
proyecto (coste, tiempo de entrega,
calidad, productividad, etc.). Adems, la
obtencin de reglas de gestin permite
al director del proyecto analizar cules
son las polticas de gestin ms
significativas para conseguir los
objetivos del Proyecto Software.

Adems el uso de aprendizaje no
supervisado, aplicacin de redes
neuronales, red neuronal modular.

CONFRONTACIN DE DOS
TCNICAS DE MINERAS DE
DATOS APLICADAS A UN
DOMINIO ESPECFICO

Autor: Mario Galvis, Fabricio Martnez.
Pontificia Universidad J averiana.

Pretende mostrar las principales
diferencias entre dos tcnicas de
mineras de datos, rboles de decisin y
reglas de asociacin.

El uso de la herramienta WEKA para
hacer un anlisis entre los algoritmos y
determinar cuales son ms ptimos
tomando en cuenta aspectos como:
velocidad de ejecucin, precisin para
clasificacin de datos de origen,
precisin para prediccin de datos
futuros, escalabilidad, robustez.

OPTIMIZACIN DE REDES
BAYESIANAS BASADO EN
TCNICAS DE APRENDIZAJ E POR
INDUCCIN.

Autor: Pablo Felgaer
Universidad de Buenos Aires.

Tomando un conjunto de bases de datos
las cuales las cuales ayudaron a
determinar las posibles causas de
algunas enfermedades.

DESARROLLO DE SISTEMAS
INTELIGENTES PARA
CLASIFICACIN Y DIAGNSTICO
EN MEDICINA.

Autor: Suhail Musa Issa Odeh.
Universidad de Granada

Este trabajo se centra en el desarrollo de
esquemas de diagnstico automtico y
flexible. Para ello se exploran distintas
alternativas capaces de utilizar
eficientemente la informacin de un
grupo de casos etiquetados para el
diagnstico de otros casos nuevos.
La clasificacin es la atribucin de una
clase especfica a un objeto, la cual
necesita un cierto grado de abstraccin
para poder extraer generalidades a partir
de los ejemplos disponibles.

Aplicado a aplicaciones biomdicas
genricas y diagnstico de cncer en la
piel.


CONCLUSIONES

Los rboles de clasificacin se aplican a
varias ramas de estudio junto con los
algoritmos de decisin y las redes
neuronales y redes bayesianas, su
estudio ayuda a poder obtener
resultados ms acertados de
clasificacin dependiendo del aspectos
o aspectos a clasificar.

Como aspecto fundamental aplica el
proceso de poda: pre-poda y post-poda
para obtener rboles parsimoniosos.

Es importante establecer su aplicacin
en algunos proyectos de tesis aplicados
a desarrollo de software, minera de
datos, medicina.
7
Gracias al aprendizaje supervisado,
podemos construir patrones que nos
ayuden a establecer soluciones para
problemas complejos y para los cuales
se aplica el conocimiento de la
Inteligencia Artificial.


BIBLIOGRAFIA

http://www.spss.com/es/classification_tr
ees/analysis.htm
http://www.sc.ehu.es/ccwbayes/docenci
a/mmcc/docs/t10arboles.pdf
http://isa.umh.es/asignaturas/iarp/transp
arencias/criterios_seleccion_modelos.pd
f
http://www.gsi.dit.upm.es/~gfer/ssii/arb
oles.pdf
http://www.ucm.es/BUCM/cee/doc/04-
009/04009.pdf

8

También podría gustarte