Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Los árboles de decisión son una forma de aprendizaje supervisado que se utiliza
en una variedad de formas para resolver problemas de regresión y clasificación.
Imaginemos que estás jugando un juego de Veinte Preguntas. Tu oponente ha
elegido secretamente un tema, y debes descubrir qué eligió. En cada turno,
puedes hacer una pregunta de sí o no, y tu oponente debe responder con
sinceridad. ¿Cómo descubrir el secreto con la menor cantidad de preguntas?
Debería ser obvio que algunas preguntas son mejores que otras. Por ejemplo,
preguntando "¿Puede volar?" ya que es probable que la primera pregunta sea
infructuosa, mientras que si pregunta "¿Está vivo?" es un poco más útil.
Intuitivamente, se desea que cada pregunta reduzca significativamente el espacio
de posibles secretos, lo que eventualmente conduce a su respuesta.
Esa es la idea básica detrás de los árboles de decisión. En cada punto, se considera un conjunto
de preguntas que pueden dividir su conjunto de datos. Elegimos la pregunta que proporciona la
mejor división y nuevamente buscamos las mejores preguntas para las siguientes particiones.
Paramos una vez que todos los puntos que se consideran son de la misma clase. Entonces la tarea
de clasificación es fácil. Simplemente puedes empezamos por un punto y empezamos el árbol.
Las preguntas nos guiarán a la clase apropiada.
.
Generalidades
El árbol de decisión es un tipo de algoritmo de
aprendizaje supervisado que se puede usar tanto
en problemas de regresión como de clasificación.
Funciona para variables de entrada y salida
categóricas y continuas.
Identifiquemos las terminologías más importantes en Árboles de decisión, en la imagen de
arriba:
• El nodo raíz representa a toda la población o muestra. Además, se divide en dos o más
conjuntos homogéneos.
• La partición es un proceso de dividir un nodo en dos o más subnodos.
• Cuando un subnodo se divide en subnodos adicionales, se llama nodo de decisión.
• Los nodos que no se dividen se denominan nodos terminales u hojas.
• Cuando se eliminan subnodos, de un nodo de decisión, el proceso se denomina poda. Lo
contrario de la poda es la división.
• Una subsección de un árbol completo se llama Rama.
• Un nodo, que se divide en subnodos, se denomina nodo principal de los subnodos; mientras
que los subnodos se denominan hijos del nodo primario.
Tipos de árboles de decisión
Árboles de regresión
Echemos un vistazo a la imagen de abajo, que ayuda a visualizar la naturaleza de la partición
realizada por un árbol de regresión. Esto muestra un árbol sin podar y un árbol de regresión
ajustado a un conjunto de datos aleatorio. Ambas visualizaciones muestran una serie de reglas
de división, comenzando en la parte superior del árbol. Observe que cada división del dominio
está alineada con uno de los ejes de características.
• Entropía cruzada: una tercera alternativa, que es similar al índice de Gini, se conoce como
entropía cruzada o desviación:
La entropía cruzada tomará un valor cercano a cero si el 𝜋ො mc si todos están cerca de 0 o cerca de
1. Por lo tanto, al igual que el índice de Gini, la entropía cruzada tendrá un valor pequeño si el
nodo mth es puro. De hecho, resulta que el índice de Gini y la entropía cruzada son
numéricamente bastante similares.
Cuando se construye un árbol de clasificación, el índice de Gini o la entropía cruzada
generalmente se usan para evaluar la calidad de una división particular, ya que son más sensibles
a la pureza de nodo que la tasa de error de clasificación. Cualquiera de estos 3 enfoques podría
usarse al podar el árbol, pero la tasa de error de clasificación es preferible si el objetivo es la
precisión de la predicción del árbol podado final.