Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Arboles de Decisi N 1 PDF
Arboles de Decisi N 1 PDF
Carlos Hurtado L.
Depto de Ciencias de la
Computación, Universidad de
Chile
Clasificación: Tipos de
Modelos
• Enfoque Discriminante
– Arboles de Decisión
– Reglas de Decisión
– Discriminantes lineales
• Enfoque Generativo
– Redes Bayesianas
– Modelos paramétricos
• Enfoque de Regresión
– Redes Neuronales
– Regresión Logística
Arboles de Decisión
Arboles de Decisión
• Fáciles de construir
• Fáciles de interpretar
• Buena precisión en muchas
aplicaciones
Construcción de árboles de
decisión: algoritmos
• Algritmos de Memoria Principal
– Manejan miles de datos
– Algoritmo de Hunt (CLS, 1960´s)
– ID3 (Quinlin 70’s and 80’s), C4.5 (Quinlin
90’s)
• Algritms Escalables
– Manejas millones de datos
– SLIQ, SPRINT
Split
• Definición: un split es una variable
(atributo) más una lista de
condiciones sobre la variable.
….
A=a1 A=an
Split para variables
categóricas
• Split Simple vs. Split Complejo
A A
Nodo interior
Nodo hoja
Algoritmo de Hunt (II)
Nodos interiores
Nodo hoja
Algoritmo de Hunt (III)
Algoritmo de Hunt
• Main(Conjunto de Datos T)
– Expandir(T)
• Expandir(Conjunto de Datos S)
– If (todos los datos están en la misma
clase) then return
– Encontrar el mejor split r
– Usar r para particonar S en S1 y S2
– Expandir(S1)
– Expandir(S2)
Algoritmo de Hunt:
observaciones
• Las operaciones de expansión se
realizan “primero en profundidad”
• Lo complejo es encontrar el mejor
split en cada operación de expansión
• Número de splits a buscar depende
del tipo de split que consideramos.
¿Cuál es el mejor split?
• Buscamos splits que generen nodos hijos
con la menor impureza posible (mayor
pureza posible)
• Existen distintos métodos para evaluar
splits. Criterios de Selección:
– Indice Gini
– Entropía (Ganancia de información)
– Test Chi-cuadrado
– Proporción de Ganancia de Información
Selección de splits usando
índice Gini
• Recordemos que cada nodo del árbol
define un subconjunto de los datos
de entrenamientos
• Dado un nodo t del árbol, Ginit mide
el grado de impureza de t con
respecto a las clases
– Mayor Ginit implica mayor impureza
– Ginit = 1 – Prob. De sacar dos registros
de la misma clase
Indice Gini
• Recordar que el nodo
t tiene
asociado un subconjunto de los datos
Gini
0.5
0.5 pt ,c
Selección de Splits: GiniSplit
• Criterio para elegir un split:
selecciónar el split con menor gini
ponderado (GiniSplit)
• Dado un split S={s1,…,sn} de t
∣s∣
GiniSplitt , s=∑s∈S Gini s
∣t∣
Ejemplo: weather.nominal