Está en la página 1de 31

Análisis Multivariante

Arboles de decisión
Decision Trees

Facultad de Ciencias Matemáticas


Agenda

Ø Introducción al modelo de árboles de decisión


Ø Introducción y motivación
Ø Ejemplos
Ø Árboles de regresión y clasificación
Ø Conceptos básicos de los árboles de decisión
Ø Cómo funciona?
Ø Medidas de selección de atributos
Ø Ganancia de información
Ø Entropía
Ø Impureza de Gini
Agenda

Ø Introducción al modelo de árboles de decisión


Ø Introducción y motivación
Ø Ejemplos
Ø Árboles de regresión y clasificación
Ø Conceptos básicos de los árboles de decisión
Ø Cómo funciona?
Ø Medidas de selección de atributos
Ø Ganancia de información
Ø Entropía
Ø Impureza de Gini
Introducción

• Los árboles de decisión utilizados para regresión y clasificación estratifican


o segmentan el espacio de las variables predictoras en un número simple
de regiones con el objetivo de realizar una predicción dada una nueva
observación.

• Como el conjunto de reglas de clasificación utilizadas para segmentar el


espacio predictor puede ser resumido en un árbol, esta aproximación se
denomina métodos de árboles de decisión.

• Este procedimiento fue desarrollado por Breiman y Friedman en 1984. No


utilizaba un método estadístico formal sino que era un algoritmo para
clasificar utilizando particiones binarias sucesivas utilizando los valores de
una variable cada vez.
UN ARBOL DE DECISION SE ASEMEJA A LAS DECISIONES
QUE TOMAMOS DURANTE EL DIA A DIA A LA HORA DE
ORGANIZARNOS.
AL FINAL SE SEGMENTA TODO EL ESPACIO DE ESTADOS.
VAMOS A TENER QUE VER QUÉ VARIABLE Y CON QUÉ
VALOR NOS VA A SEPARAR EL ESPACIO DE ESTADOS EN
DOS. NO
Introducción

• Los métodos basados en árboles son sencillos y muy útiles para la


interpretación de los resultados. texto

• Sin embargo, no son competitivos con los mejores algoritmos de


aprendizaje en términos de precisión de la predicción.

• Nuevos métodos basados en la combinación de árboles de decisión sí que


están permitiendo obtener algoritmos con una tremenda mejora en la
predicción a cambio de algo de pérdida en la interpretación.

• Métodos como bagging, random forests y boosting son muy utilizados en


el entorno del machine learning y la ciencia de datos.

• A diferencia de los modelos lineales, mapean bastante bien las relaciones


no lineales y son adaptables a cualquier tipo de problema.
Agenda

Ø Introducción al modelo de árboles de decisión


Ø Introducción y motivación
Ø Ejemplos
Ø Árboles de regresión y clasificación
Ø Conceptos básicos de los árboles de decisión
Ø Cómo funciona?
Ø Medidas de selección de atributos
Ø Ganancia de información
Ø Entropía
Ø Impureza de Gini
Tipos de problemas

• Problemas de tipo regresión


• Son aquellos en los que intentamos predecir los valores de una variable
continua a partir de una o más variables predictoras.

• Ejemplo: Queremos predecir los precios de venta de casas unifamiliares


(variable dependiente continua) a partir de varios predictores continuos
(superficie m2,…) así como predictores categóricos (barrio, …)

• Si utilizamos la regresión múltiple o algún modelo lineal general (GLM)


para predecir los precios de venta de viviendas unifamiliares,
determinaríamos una ecuación lineal para estas variables que puede
usarse para calcular los precios de venta pronosticados.
Tipos de problemas

• Problemas de tipo clasificación


• Son aquellos en los que intentamos predecir los valores de una variable
dependiente categórica (clase, pertenencia a grupos, etc.) a partir de una
o más variables predictoras.

• Ejemplos: Queremos predecir quien renovará o no una suscripción o quien


aprobará o no una asignatura.

• Estos ejemplos serían problemas simples de clasificación binaria, donde


las variable dependiente categórica solo puede asumir dos valores
distintos y mutuamente excluyentes.

• Pero de igual modo podríamos estar interesados en predecir cuál de las


múltiples marcas de una categoría de producto decide comprar una
persona o qué tipo de fallo se produce con diferentes tipos de motores,...

• En este caso, tendríamos múltiples categorías.


Agenda

Ø Introducción al modelo de árboles de decisión


Ø Introducción y motivación
Ø Ejemplos
Ø Árboles de regresión y clasificación
Ø Conceptos básicos de los árboles de decisión
Ø Cómo funciona?
Ø Medidas de selección de atributos
Ø Ganancia de información
Ø Entropía
Ø Impureza de Gini
Conceptos básicos

• Un árbol de decisión en Machine Learning es una estructura de árbol


similar a un diagrama de flujo donde un nodo interno representa una
característica (o atributo), la rama representa una regla de decisión y
cada nodo hoja representa el resultado.

• El nodo superior en un árbol de decisión en Machine Learning se


conoce como el nodo raíz. Aprende a particionar en función del valor
del atributo. Divide el árbol de una manera recursiva llamada partición
recursiva.

• Esta estructura tipo diagrama de flujo lo ayuda a tomar decisiones. Es


una visualización como un diagrama de flujo que imita fácilmente el
pensamiento a nivel humano. Es por eso que los árboles de decisión
son fáciles de entender e interpretar.
Conceptos básicos

• Los árboles de decisión clasifican los ejemplos clasificándolos


por el árbol desde la raíz hasta algún nodo hoja, con el nodo
hoja proporcionando la clasificación al ejemplo, este enfoque
se llama Enfoque de arriba hacia abajo.

• Cada nodo en el árbol actúa como un caso de prueba para


algún atributo, y cada borde que desciende de ese nodo
corresponde a una de las posibles respuestas al caso de
prueba. Este proceso es recursivo y se repite para cada
subárbol enraizado en los nuevos nodos.
Conceptos básicos

• Nodo raíz (nodo de decisión superior ): Representa a toda la población o


muestra y esto se divide en dos o más conjuntos homogéneos.

• División: Es un proceso de división de un nodo en dos o más subnodos.

• Nodo de decisión: Cuando un subnodo se divide en subnodos


adicionales, se llama nodo de decisión.

• Nodo de hoja / terminal: Los nodos sin hijos (sin división adicional) se
llaman Hoja o nodo terminal.

• Poda: Cuando reducimos el tamaño de los árboles de decisión


eliminando nodos (opuesto a la división), el proceso se llama poda.

• Rama / Subárbol: Una subsección del árbol de decisión se denomina


rama o subárbol.

• Nodo padre e hijo: Un nodo, que se divide en subnodos se denomina


nodo principal de subnodos, mientras que los subnodos son hijos de un
nodo principal.
Agenda

Ø Introducción al modelo de árboles de decisión


Ø Introducción y motivación
Ø Ejemplos
Ø Árboles de regresión y clasificación
Ø Conceptos básicos de los árboles de decisión
Ø Cómo funciona?
Ø Medidas de selección de atributos
Ø Ganancia de información
Ø Entropía
Ø Impureza de Gini
Cómo funciona?

Cómo funciona el algoritmo del árbol de decisión?

La idea básica detrás de cualquier algoritmo de árbol de decisión es:

1. Selecciona el mejor atributo utilizando Medidas de selección de atributos


(ASM) para dividir las observaciones.

2. Considera ese atributo como un nodo de decisión y divide el conjunto de


datos en subconjuntos más pequeños. recursivamente para cada nodo hijo
hasta que una de las condiciones coincida:
• Todas las tuplas pertenecen al mismo valor de atributo.
• No quedan más atributos.
• No hay más instancias.
Cómo funciona?

Cómo funciona el algoritmo del árbol de decisión?


Agenda

Ø Introducción al modelo de árboles de decisión


Ø Introducción y motivación
Ø Ejemplos
Ø Árboles de regresión y clasificación
Ø Conceptos básicos de los árboles de decisión
Ø Cómo funciona?
Ø Medidas de selección de atributos
Ø Ganancia de información
Ø Entropía
Ø Impureza de Gini
Medidas de selección de atributos

Medidas de selección de atributos (ASM)

• La medida de selección de atributos es una heurística para seleccionar el


criterio de división que divide los datos de la mejor manera posible.
También se conoce como reglas de división porque nos ayuda a
determinar puntos de interrupción para tuplas en un nodo dado.

• ASM proporciona un rango para cada característica (o atributo) al explicar


el conjunto de datos dado. El atributo de mejor puntuación se seleccionará
como un atributo de división.

• En el caso de un atributo de valor continuo, los puntos de división para las


ramas también deben definirse.

• Las medidas de selección más populares son:


• Ganancia de información, Proporción de ganancia.
• Entropía
• Índice de Gini.
Agenda

Ø Introducción al modelo de árboles de decisión


Ø Introducción y motivación
Ø Ejemplos
Ø Árboles de regresión y clasificación
Ø Conceptos básicos de los árboles de decisión
Ø Cómo funciona?
Ø Medidas de selección de atributos
Ø Ganancia de información
Ø Entropía
Ø Impureza de Gini
Medidas de selección de atributos

Ganancia de información

• La ganancia de información es una propiedad estadística que mide qué tan


bien un atributo dado separa los ejemplos de entrenamiento de acuerdo
con sus clasificación objetivo.
• Si la siguiente figura representa los nodos y los colores las observaciones.
¿qué nodo se puede describir más fácilmente?

• Se utilizan los términos de pureza


Medidas de selección de atributos

Ganancia de información

• Qué sucede en estos ejemplos donde vemos resultados con alta y baja
ganancia de información

• Una alternativa natural al RSS (de la regresión) es el ratio de error en la


clasificación. Podríamos asignar una observación a una región dada como
a la clase mas habitual y el error en la clasificación es la fracción de
observaciones menos frecuentes en dicha región.
! = 1 − max()! )
!
• Este indicador no es muy sensible en árboles grandes y en la práctica se
trabaja con 2 indicadores: entropía e índice de Gini
Agenda

Ø Introducción al modelo de árboles de decisión


Ø Introducción y motivación
Ø Ejemplos
Ø Árboles de regresión y clasificación
Ø Conceptos básicos de los árboles de decisión
Ø Cómo funciona?
Ø Medidas de selección de atributos
Ø Ganancia de información
Ø Entropía
Ø Impureza de Gini
Medidas de selección de atributos

Entropía

• En el ámbito de la teoría de la información la entropía, también


llamada entropía de la información y entropía de Shannon (en honor
a Claude E. Shannon), mide la incertidumbre de una fuente de
información.

• La entropía también se puede considerar como la cantidad de información


promedio que contienen los símbolos usados. Los símbolos con menor
probabilidad son los que aportan mayor información. Ejemplo de sistema
de símbolos: las palabras de un texto.

• El concepto entropía es usado en termodinámica, mecánica


estadística y teoría de la información. En todos los casos la entropía se
concibe como una «medida del desorden» o la «peculiaridad de ciertas
combinaciones». La entropía puede ser considerada como una medida de
la incertidumbre y de la información necesaria para, en cualquier proceso,
poder acotar, reducir o eliminar la incertidumbre
Medidas de selección de atributos

Entropía

• La idea detrás de la entropía es la siguiente: Imagina que tienes una urna


que incluye 100 bolas verdes. Se puede decir que el conjunto de bolas
dentro de la urna es totalmente puro porque solo se incluyen bolas verdes.
Para expresar esto en la terminología de entropía, este conjunto de bolas
tiene una entropía de 0 (también podemos decir impureza cero).

• Considera ahora, 30 de estas bolas son reemplazadas por 50 bolas rojas y


20 por bolas azules.
Medidas de selección de atributos

Entropía

• La medida de entropía es no negativa y mide la diversidad.


• Con 2 grupos la entropía de define como:

!+,-.)í0 = 1 , = −) log ) − 1 − ) log 1 − )

• Se elige la división que tiene la entropía más baja en comparación con el


nodo principal y otras divisiones. Cuanto menor sea la entropía, mejor
será.

• La ganancia de información calcula la diferencia entre la entropía antes de


la división y la entropía promedio después de la división del conjunto de
datos en función de los valores de atributo dados:

Ganancia de información=Entropía (nodo padre)-[Promedio Entropía (nodo hijo)]


Medidas de selección de atributos

Entropía

• La función de entropía en relación con una clasificación booleana es la


siguiente:

• Y se ve que es máxima cuando p=0.5 y tiende a cero cuando p se aproxima


a cero o a uno
Medidas de selección de atributos

Entropía

• Con G grupos la impureza del nodo se define como:


$
1 , = − 5 ) 6 , log )(6|,)
!"#
• Con G grupos, si en el nudo t todas las observaciones pertenecen al grupo
g, de manera que ) 6 , = 1, y ) 8 , = 0, 8 ≠ 6, la entropía o impureza
del nudo es 1 , = 0 (tomando 0 log 0 = 0, que es su valor límite).

• En otro caso, la impureza será positiva y será máxima cuando


) 6 , = < %#
Medidas de selección de atributos

Entropía

• La variable utilizada para realizar la división de los datos en un nudo se


selecciona minimizando la heterogeneidad o impureza resultante de la
división.

• El procedimiento es el siguiente:
• Se define un conjunto de preguntas q del tipo:
=& < 0, 8 = 1, … ) y 0 ∈ (−∞, +∞)
• Para cada pregunta se calcula la disminución de impureza o entropía que
implica y se escoge aquella pregunta que maximice la impureza resultante
medida por
Δ1 ,, D = 1 , − )' 1 ,( − )) 1 ,)
siendo )' , )) las proporciones de las observaciones del nudo t que irán a los
nudos resultantes de responder “Sí” a la pregunta q (nudo ,( ) y responder
“No” (nudo ,) )
Medidas de selección de atributos

Entropía

• La clasificación en los nudos terminales se hace asignando todas las


observaciones del nudo al grupo más probable en ese nudo, es decir,
aquel grupo con máxima ) 6 , .

• Si la impureza del nudo es cero, todas las observaciones pertenecen al


mismo grupo, y la clasificación de las observaciones podría hacerse sin
error, en otro caso, si la impureza del nudo no es cero, la clasificación
tendrá un cierto error.

• Este proceso de construcción del árbol puede generar muchos nudos


cuando el número de variables es grande y se plantea el problema de
cómo simplificar o podar el árbol para hacerlo más manejable con poca
pérdida de información.
Agenda

Ø Introducción al modelo de árboles de decisión


Ø Introducción y motivación
Ø Ejemplos
Ø Árboles de regresión y clasificación
Ø Conceptos básicos de los árboles de decisión
Ø Cómo funciona?
Ø Medidas de selección de atributos
Ø Ganancia de información
Ø Entropía
Ø Impureza de Gini
Medidas de selección de atributos

Gini

• El coeficiente de Gini es una medida de la desigualdad ideada por el


estadístico italiano Corrado Gini. Se utiliza para medir la desigualdad en los
ingresos, dentro de un país, pero puede utilizarse en otros contextos.

• No confundir con la impureza de Gini que es la que vamos a utilizar y que


mide cuán a menudo un elemento elegido aleatoriamente del conjunto
sería etiquetado incorrectamente si fue etiquetado de manera aleatoria de
acuerdo a la distribución de las etiquetas en el subconjunto.

• Para calcular la impureza de Gini de un conjunto de elementos,


supongamos i toma valores {1,2,…,G} y sea E& la fracción de elementos
etiquetados con valor i en el conjunto:

F* G = ∑-
+", I+ J − I+ = ∑ $
&"# E& − E&
.
= ∑ $
&"# E& − ∑ $
(E
&"# &
.
)=1- ∑ $ .
&"# & )
(E
Medidas de selección de atributos

Gini

• Es una medida de la varianza a través de las G clases.


• Toma un valor pequeño cuando todas las E& son próximas a 0 o 1.

• Funciona con la variable objetivo categórica “Éxito” o “Fracaso” “.


• Realiza solo divisiones binarias
• Cuanto mayor sea el valor de Gini, mayor será la homogeneidad.
• CART (árbol de clasificación y regresión) utiliza el método Gini para crear
divisiones binarias.

• El procedimiento para calcular Gini para una división es:

• Calcular Gini para subnodos, utilizando (). + 1 − ) . )


• Calcular Gini para la división utilizando la puntuación ponderada de Gini de
cada nodo de esa división

También podría gustarte