Amul Arboles de Decision

Análisis Multivariante
Arboles de decisión
Decision Trees
Facultad de Ciencias Matemáticas

Agenda
Ø Introducción al modelo de árboles de decisión

Ø Introducción y motivación
Ø Ejemplos
Ø Árboles de regresión y clasificación
Ø Conceptos básicos de los árboles de decisión
Ø Cómo funciona?
Ø Medidas de selección de atributos
Ø Ganancia de información
Ø Entropía
Ø Impureza de Gini
Agenda

Ø Ejemplos
Ø Cómo funciona?
Ø Entropía
Ø Impureza de Gini
Introducción
• Los árboles de decisión utilizados para regresión y clasificación estratifican

o segmentan el espacio de las variables predictoras en un número simple
de regiones con el objetivo de realizar una predicción dada una nueva
observación.
• Como el conjunto de reglas de clasificación utilizadas para segmentar el

espacio predictor puede ser resumido en un árbol, esta aproximación se
denomina métodos de árboles de decisión.
• Este procedimiento fue desarrollado por Breiman y Friedman en 1984. No

utilizaba un método estadístico formal sino que era un algoritmo para
clasificar utilizando particiones binarias sucesivas utilizando los valores de
una variable cada vez.
UN ARBOL DE DECISION SE ASEMEJA A LAS DECISIONES
QUE TOMAMOS DURANTE EL DIA A DIA A LA HORA DE
ORGANIZARNOS.
AL FINAL SE SEGMENTA TODO EL ESPACIO DE ESTADOS.
VAMOS A TENER QUE VER QUÉ VARIABLE Y CON QUÉ
VALOR NOS VA A SEPARAR EL ESPACIO DE ESTADOS EN
DOS. NO
Introducción
• Los métodos basados en árboles son sencillos y muy útiles para la

interpretación de los resultados. texto
• Sin embargo, no son competitivos con los mejores algoritmos de

aprendizaje en términos de precisión de la predicción.
• Nuevos métodos basados en la combinación de árboles de decisión sí que

están permitiendo obtener algoritmos con una tremenda mejora en la
predicción a cambio de algo de pérdida en la interpretación.
• Métodos como bagging, random forests y boosting son muy utilizados en

el entorno del machine learning y la ciencia de datos.
• A diferencia de los modelos lineales, mapean bastante bien las relaciones

no lineales y son adaptables a cualquier tipo de problema.
Agenda

Ø Ejemplos
Ø Cómo funciona?
Ø Entropía
Ø Impureza de Gini
Tipos de problemas
• Problemas de tipo regresión

• Son aquellos en los que intentamos predecir los valores de una variable
continua a partir de una o más variables predictoras.
• Ejemplo: Queremos predecir los precios de venta de casas unifamiliares

(variable dependiente continua) a partir de varios predictores continuos
(superficie m2,…) así como predictores categóricos (barrio, …)
• Si utilizamos la regresión múltiple o algún modelo lineal general (GLM)

para predecir los precios de venta de viviendas unifamiliares,
determinaríamos una ecuación lineal para estas variables que puede
usarse para calcular los precios de venta pronosticados.
Tipos de problemas
• Problemas de tipo clasificación

• Son aquellos en los que intentamos predecir los valores de una variable
dependiente categórica (clase, pertenencia a grupos, etc.) a partir de una
o más variables predictoras.
• Ejemplos: Queremos predecir quien renovará o no una suscripción o quien

aprobará o no una asignatura.
• Estos ejemplos serían problemas simples de clasificación binaria, donde

las variable dependiente categórica solo puede asumir dos valores
distintos y mutuamente excluyentes.
• Pero de igual modo podríamos estar interesados en predecir cuál de las

múltiples marcas de una categoría de producto decide comprar una
persona o qué tipo de fallo se produce con diferentes tipos de motores,...
• En este caso, tendríamos múltiples categorías.

Agenda

Ø Ejemplos
Ø Cómo funciona?
Ø Entropía
Ø Impureza de Gini
Conceptos básicos
• Un árbol de decisión en Machine Learning es una estructura de árbol

similar a un diagrama de flujo donde un nodo interno representa una
característica (o atributo), la rama representa una regla de decisión y
cada nodo hoja representa el resultado.
• El nodo superior en un árbol de decisión en Machine Learning se

conoce como el nodo raíz. Aprende a particionar en función del valor
del atributo. Divide el árbol de una manera recursiva llamada partición
recursiva.
• Esta estructura tipo diagrama de flujo lo ayuda a tomar decisiones. Es

una visualización como un diagrama de flujo que imita fácilmente el
pensamiento a nivel humano. Es por eso que los árboles de decisión
son fáciles de entender e interpretar.
Conceptos básicos
• Los árboles de decisión clasifican los ejemplos clasificándolos

por el árbol desde la raíz hasta algún nodo hoja, con el nodo
hoja proporcionando la clasificación al ejemplo, este enfoque
se llama Enfoque de arriba hacia abajo.
• Cada nodo en el árbol actúa como un caso de prueba para

algún atributo, y cada borde que desciende de ese nodo
corresponde a una de las posibles respuestas al caso de
prueba. Este proceso es recursivo y se repite para cada
subárbol enraizado en los nuevos nodos.
Conceptos básicos
• Nodo raíz (nodo de decisión superior ): Representa a toda la población o

muestra y esto se divide en dos o más conjuntos homogéneos.
• División: Es un proceso de división de un nodo en dos o más subnodos.
• Nodo de decisión: Cuando un subnodo se divide en subnodos

adicionales, se llama nodo de decisión.
• Nodo de hoja / terminal: Los nodos sin hijos (sin división adicional) se
llaman Hoja o nodo terminal.
• Poda: Cuando reducimos el tamaño de los árboles de decisión

eliminando nodos (opuesto a la división), el proceso se llama poda.
• Rama / Subárbol: Una subsección del árbol de decisión se denomina

rama o subárbol.
• Nodo padre e hijo: Un nodo, que se divide en subnodos se denomina

nodo principal de subnodos, mientras que los subnodos son hijos de un
nodo principal.
Agenda

Ø Ejemplos
Ø Cómo funciona?
Ø Entropía
Ø Impureza de Gini
Cómo funciona?
Cómo funciona el algoritmo del árbol de decisión?
La idea básica detrás de cualquier algoritmo de árbol de decisión es:
1. Selecciona el mejor atributo utilizando Medidas de selección de atributos

(ASM) para dividir las observaciones.
2. Considera ese atributo como un nodo de decisión y divide el conjunto de

datos en subconjuntos más pequeños. recursivamente para cada nodo hijo
hasta que una de las condiciones coincida:
• Todas las tuplas pertenecen al mismo valor de atributo.
• No quedan más atributos.
• No hay más instancias.
Cómo funciona?
Cómo funciona el algoritmo del árbol de decisión?

Agenda

Ø Ejemplos
Ø Cómo funciona?
Ø Entropía
Ø Impureza de Gini
Medidas de selección de atributos
Medidas de selección de atributos (ASM)
• La medida de selección de atributos es una heurística para seleccionar el

criterio de división que divide los datos de la mejor manera posible.
También se conoce como reglas de división porque nos ayuda a
determinar puntos de interrupción para tuplas en un nodo dado.
• ASM proporciona un rango para cada característica (o atributo) al explicar

el conjunto de datos dado. El atributo de mejor puntuación se seleccionará
como un atributo de división.
• En el caso de un atributo de valor continuo, los puntos de división para las

ramas también deben definirse.
• Las medidas de selección más populares son:

• Ganancia de información, Proporción de ganancia.
• Entropía
• Índice de Gini.
Agenda

Ø Ejemplos
Ø Cómo funciona?
Ø Entropía
Ø Impureza de Gini
Ganancia de información
• La ganancia de información es una propiedad estadística que mide qué tan

bien un atributo dado separa los ejemplos de entrenamiento de acuerdo
con sus clasificación objetivo.
• Si la siguiente figura representa los nodos y los colores las observaciones.
¿qué nodo se puede describir más fácilmente?
• Se utilizan los términos de pureza

Ganancia de información
• Qué sucede en estos ejemplos donde vemos resultados con alta y baja
ganancia de información
• Una alternativa natural al RSS (de la regresión) es el ratio de error en la

clasificación. Podríamos asignar una observación a una región dada como
a la clase mas habitual y el error en la clasificación es la fracción de
observaciones menos frecuentes en dicha región.
! = 1 − max()! )
!
• Este indicador no es muy sensible en árboles grandes y en la práctica se
trabaja con 2 indicadores: entropía e índice de Gini
Agenda

Ø Ejemplos
Ø Cómo funciona?
Ø Entropía
Ø Impureza de Gini
Entropía
• En el ámbito de la teoría de la información la entropía, también

llamada entropía de la información y entropía de Shannon (en honor
a Claude E. Shannon), mide la incertidumbre de una fuente de
información.
• La entropía también se puede considerar como la cantidad de información

promedio que contienen los símbolos usados. Los símbolos con menor
probabilidad son los que aportan mayor información. Ejemplo de sistema
de símbolos: las palabras de un texto.
• El concepto entropía es usado en termodinámica, mecánica

estadística y teoría de la información. En todos los casos la entropía se
concibe como una «medida del desorden» o la «peculiaridad de ciertas
combinaciones». La entropía puede ser considerada como una medida de
la incertidumbre y de la información necesaria para, en cualquier proceso,
poder acotar, reducir o eliminar la incertidumbre
Entropía
• La idea detrás de la entropía es la siguiente: Imagina que tienes una urna

que incluye 100 bolas verdes. Se puede decir que el conjunto de bolas
dentro de la urna es totalmente puro porque solo se incluyen bolas verdes.
Para expresar esto en la terminología de entropía, este conjunto de bolas
tiene una entropía de 0 (también podemos decir impureza cero).
• Considera ahora, 30 de estas bolas son reemplazadas por 50 bolas rojas y

20 por bolas azules.
Entropía
• La medida de entropía es no negativa y mide la diversidad.

• Con 2 grupos la entropía de define como:
!+,-.)í0 = 1 , = −) log ) − 1 − ) log 1 − )
• Se elige la división que tiene la entropía más baja en comparación con el

nodo principal y otras divisiones. Cuanto menor sea la entropía, mejor
será.
• La ganancia de información calcula la diferencia entre la entropía antes de

la división y la entropía promedio después de la división del conjunto de
datos en función de los valores de atributo dados:
Ganancia de información=Entropía (nodo padre)-[Promedio Entropía (nodo hijo)]

Entropía
• La función de entropía en relación con una clasificación booleana es la

siguiente:
• Y se ve que es máxima cuando p=0.5 y tiende a cero cuando p se aproxima

a cero o a uno
Entropía
• Con G grupos la impureza del nodo se define como:

$
1 , = − 5 ) 6 , log )(6|,)
!"#
• Con G grupos, si en el nudo t todas las observaciones pertenecen al grupo
g, de manera que ) 6 , = 1, y ) 8 , = 0, 8 ≠ 6, la entropía o impureza
del nudo es 1 , = 0 (tomando 0 log 0 = 0, que es su valor límite).
• En otro caso, la impureza será positiva y será máxima cuando

) 6 , = < %#
Entropía
• La variable utilizada para realizar la división de los datos en un nudo se

selecciona minimizando la heterogeneidad o impureza resultante de la
división.
• El procedimiento es el siguiente:
• Se define un conjunto de preguntas q del tipo:
=& < 0, 8 = 1, … ) y 0 ∈ (−∞, +∞)
• Para cada pregunta se calcula la disminución de impureza o entropía que
implica y se escoge aquella pregunta que maximice la impureza resultante
medida por
Δ1 ,, D = 1 , − )' 1 ,( − )) 1 ,)
siendo )' , )) las proporciones de las observaciones del nudo t que irán a los
nudos resultantes de responder “Sí” a la pregunta q (nudo ,( ) y responder
“No” (nudo ,) )
Entropía
• La clasificación en los nudos terminales se hace asignando todas las

observaciones del nudo al grupo más probable en ese nudo, es decir,
aquel grupo con máxima ) 6 , .
• Si la impureza del nudo es cero, todas las observaciones pertenecen al

mismo grupo, y la clasificación de las observaciones podría hacerse sin
error, en otro caso, si la impureza del nudo no es cero, la clasificación
tendrá un cierto error.
• Este proceso de construcción del árbol puede generar muchos nudos

cuando el número de variables es grande y se plantea el problema de
cómo simplificar o podar el árbol para hacerlo más manejable con poca
pérdida de información.
Agenda

Ø Ejemplos
Ø Cómo funciona?
Ø Entropía
Ø Impureza de Gini
Gini
• El coeficiente de Gini es una medida de la desigualdad ideada por el

estadístico italiano Corrado Gini. Se utiliza para medir la desigualdad en los
ingresos, dentro de un país, pero puede utilizarse en otros contextos.
• No confundir con la impureza de Gini que es la que vamos a utilizar y que

mide cuán a menudo un elemento elegido aleatoriamente del conjunto
sería etiquetado incorrectamente si fue etiquetado de manera aleatoria de
acuerdo a la distribución de las etiquetas en el subconjunto.
• Para calcular la impureza de Gini de un conjunto de elementos,

supongamos i toma valores {1,2,…,G} y sea E& la fracción de elementos
etiquetados con valor i en el conjunto:
F* G = ∑-
+", I+ J − I+ = ∑ $
&"# E& − E&
.
= ∑ $
&"# E& − ∑ $
(E
&"# &
.
)=1- ∑ $ .
&"# & )
(E
Gini
• Es una medida de la varianza a través de las G clases.

• Toma un valor pequeño cuando todas las E& son próximas a 0 o 1.
• Funciona con la variable objetivo categórica “Éxito” o “Fracaso” “.

• Realiza solo divisiones binarias
• Cuanto mayor sea el valor de Gini, mayor será la homogeneidad.
• CART (árbol de clasificación y regresión) utiliza el método Gini para crear
divisiones binarias.
• El procedimiento para calcular Gini para una división es:
• Calcular Gini para subnodos, utilizando (). + 1 − ) . )

• Calcular Gini para la división utilizando la puntuación ponderada de Gini de
cada nodo de esa división

Amul Arboles de Decision

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Amul Arboles de Decision

Cargado por

Copyright:

Formatos disponibles

Análisis Multivariante

Facultad de Ciencias Matemáticas

Ø Introducción al modelo de árboles de decisión

Ø Introducción al modelo de árboles de decisión

• Los árboles de decisión utilizados para regresión y clasificación estratifican

• Como el conjunto de reglas de clasificación utilizadas para segmentar el

• Este procedimiento fue desarrollado por Breiman y Friedman en 1984. No

• Los métodos basados en árboles son sencillos y muy útiles para la

• Sin embargo, no son competitivos con los mejores algoritmos de

• Nuevos métodos basados en la combinación de árboles de decisión sí que

• Métodos como bagging, random forests y boosting son muy utilizados en

• A diferencia de los modelos lineales, mapean bastante bien las relaciones

Ø Introducción al modelo de árboles de decisión

• Problemas de tipo regresión

• Ejemplo: Queremos predecir los precios de venta de casas unifamiliares

• Si utilizamos la regresión múltiple o algún modelo lineal general (GLM)

• Problemas de tipo clasificación

• Ejemplos: Queremos predecir quien renovará o no una suscripción o quien

• Estos ejemplos serían problemas simples de clasificación binaria, donde

• Pero de igual modo podríamos estar interesados en predecir cuál de las

• En este caso, tendríamos múltiples categorías.

Ø Introducción al modelo de árboles de decisión

• Un árbol de decisión en Machine Learning es una estructura de árbol

• El nodo superior en un árbol de decisión en Machine Learning se

• Esta estructura tipo diagrama de flujo lo ayuda a tomar decisiones. Es

• Los árboles de decisión clasifican los ejemplos clasificándolos

• Cada nodo en el árbol actúa como un caso de prueba para

• Nodo raíz (nodo de decisión superior ): Representa a toda la población o

• División: Es un proceso de división de un nodo en dos o más subnodos.

• Nodo de decisión: Cuando un subnodo se divide en subnodos

• Poda: Cuando reducimos el tamaño de los árboles de decisión

• Rama / Subárbol: Una subsección del árbol de decisión se denomina

• Nodo padre e hijo: Un nodo, que se divide en subnodos se denomina

Ø Introducción al modelo de árboles de decisión

Cómo funciona el algoritmo del árbol de decisión?

La idea básica detrás de cualquier algoritmo de árbol de decisión es:

1. Selecciona el mejor atributo utilizando Medidas de selección de atributos

2. Considera ese atributo como un nodo de decisión y divide el conjunto de

Cómo funciona el algoritmo del árbol de decisión?

Ø Introducción al modelo de árboles de decisión

Medidas de selección de atributos (ASM)

• La medida de selección de atributos es una heurística para seleccionar el

• ASM proporciona un rango para cada característica (o atributo) al explicar

• En el caso de un atributo de valor continuo, los puntos de división para las

• Las medidas de selección más populares son:

Ø Introducción al modelo de árboles de decisión

• La ganancia de información es una propiedad estadística que mide qué tan

• Se utilizan los términos de pureza

• Una alternativa natural al RSS (de la regresión) es el ratio de error en la

Ø Introducción al modelo de árboles de decisión

• En el ámbito de la teoría de la información la entropía, también

• La entropía también se puede considerar como la cantidad de información

• El concepto entropía es usado en termodinámica, mecánica

• La idea detrás de la entropía es la siguiente: Imagina que tienes una urna

• Considera ahora, 30 de estas bolas son reemplazadas por 50 bolas rojas y

• La medida de entropía es no negativa y mide la diversidad.

!+,-.)í0 = 1 , = −) log ) − 1 − ) log 1 − )

• Se elige la división que tiene la entropía más baja en comparación con el

• La ganancia de información calcula la diferencia entre la entropía antes de

Ganancia de información=Entropía (nodo padre)-[Promedio Entropía (nodo hijo)]

• La función de entropía en relación con una clasificación booleana es la

• Y se ve que es máxima cuando p=0.5 y tiende a cero cuando p se aproxima

• Con G grupos la impureza del nodo se define como: