Reporte Árboles de Decisión

Reporte escrito: Arboles de Decisión.
Drug acurrate prediction for patience
Shari Michel Garduño Muñoz A01424199, Miranda González Cue A01423538,

and Mariana Chávez Pineda A01274566
Tecnológico de Monterrey, Cuernavaca, Morelos, 08544, México

A01424199@tec.mx
A01423538@tec.mx
A01274566@tec.mx
Abstract. Decision trees are non-parametric supervised learning sta-

tistical algorithms considered machine learning techniques for building
predictive models for data analytics. These algorithms are based on the
classification of characteristics between variables to predict the value
of another under a hierarchy model and tend to be used especially in
strategy and marketing campaigns. In this practice, we sought to im-
plement a decision tree to find out which drug is the most effective for
a patient, taking into account various variables such as age, sex, blood
pressure, cholesterol, and the relationship between sodium and potas-
sium. A dataset was analyzed, the algorithm was implemented and an
optimal result for the problem was obtained.
Keywords: Patience · Acurrate Prediction · Drugs · Drugs
1 Introducción
Los árboles de decisión son algoritmos estadı́sticos de aprendizaje supervisado no

paramétrico considerados técnicas de machine learning para la construcción de
modelos predictivos para la analı́tica de datos. Estos algoritmos están basados en
clasificación de caracterı́sticas entre variables para predecir el valor de otra bajo
un modelo de jerarquı́a y tienden a ser utilizados especialmente en campañas
de estrategia y marketing. En esta práctica se buscó implementar un árbol de
decisión para conocer que droga es la más efectiva para un paciente, tomando
en cuenta diversas variables como lo son la edad, el sexo, la presión arterial, el
colesterol y la relación entre sodio y potasio. Se analizó un dataset, se implementó
el algoritmo y se obtuvo un resultado óptimo para la problemática.
2 M. Garduño, M. González, M. Chavez
2 Marco Teórico
Los árboles de decisión son algoritmos estadı́sticos de aprendizaje supervisado

no paramétrico considerados técnicas de machine learning para la construcción
de modelos predictivos para la analı́tica de datos. Estos algoritmos están basados
en clasificación de caracterı́sticas entre variables para predecir el valor de otra
bajo un modelo de jerarquı́a. Los árboles de decisión son una estructura que está
formada por ramas y nodos de diversas categorı́as:
• Nodos internos: Representan cada una de las caracterı́sticas o propiedades a

considerar para tomar una decisión.
• Nodos finales: Representan el resultado de la decisión
• Ramas: Representan la decisión en función de una condición determinada.
El aprendizaje del árbol de decisiones emplea una estrategia de divide y

vencerás mediante la realización de una búsqueda codiciosa para identificar los
puntos de división óptimos dentro de un árbol. Este proceso de división se repite
de forma recursiva de arriba hacia abajo hasta que todos o la mayorı́a de los
registros se hayan clasificado bajo etiquetas de clase especı́ficas. Que todos los
puntos de datos se clasifiquen o no como conjuntos homogéneos depende en gran
medida de la complejidad del árbol de decisión. Generalmente se emplea en el
Big Data para predecir la probabilidad de conseguir cierto resultado bajo ciertas
condiciones (incertidumbres). Algunos ejemplos de la utilización de este tipo de
algoritmos son: Realizar estimaciones de las primas de seguros para cobrar a
los asegurados, predecir si se le debe ofrecer un determinado producto a cierta
persona, determinar si una persona aplica o no para adquirir un crédito, etc.
El algoritmo utiliza determinados criterios de decisión bajo incertidumbre,
tales como:
• Maximax o “criterio optimista” : Opción que brinda el mejor resultado final
• Maximin o “criterio pesimista” : Opción que brinda el peor resultado posible
• Frustración mı́nima: Clasificación de los posibles caminos para calcular la

diferencia entre caminos y el mejor camino posible para cada situación. Con
el fin de minimizar el resultado.
Los árboles de decisión son algoritmos fácilmente entendibles y que funcionan

bien en modelos analı́ticos basados en clasificación o regresión para obtener re-
sultados a un problema Son ampliamente utilizados para trabajar con el Big
Data, especialmente en campañas de estrategia y marketing.
Drugs prediction, Decision Tree 3
3 Desarrollo
A continuación se explicarán las lı́neas del código y los resultados de la ejecución:
• Con el primer bloque de código importamos todas las librerı́as que necesita-
mos para que nuestro código pueda cumplir con su función.
Fig. 1.
• Con la siguiente lı́nea de código buscamos el archivo csv que contiene los
datos y lo guardamos en la variable “drogas”
Fig. 2.
• En esta lı́nea de código imprimimos la información que contiene la variable

“drogas”
Fig. 3.
• En este bloque de código lo que buscamos es convertir las variables que tienen
texto por valores numéricos para que de esa manera se puedan realizar las
operaciones pertinentes.
Fig. 4.
• Esta lı́nea de código nos ayuda a dividir nuestra base de datos, para marcar
el porcentaje de datos que utilizaremos para entrenar nuestro modelo, en
este caso se tiene un valor de 0.2 lo que representa el 20 por ciento de los
datos.
Fig. 5.
• En las siguientes lı́neas lo que hacemos es definir el tamaño de ramas

que tendrá nuestro árbol, en este caso le estamos marcando un tamaño
de dos ramas.
Fig. 6.
• En este bloque de código lo que hacemos es importar una función que

nos ayudará a graficar nuestro árbol de decisiones, ası́ como de generar
un archivo pdf de nuestro árbol de decisión sin considerar el nombre de
las columnas en nuestra de datos
Fig. 7.
• Este bloque de código nos muestra los encabezados de las columnas de

la base de datos
Fig. 8.
• Este bloque de código exporta y gráfica un árbol de decisión en

formato DOT donde toma los features de los nombres de las columnas
para mejor entendimiento de los resultados.
Fig. 9.
Fig. 10.
• Finalmente, se imprime el valor de accuracy de la regresión logı́stica

dando como resultado 0.95 por ciento.
Fig. 11.
4 Conclusión
Finalmente podemos concluir que si el Sodium to Potassium ratio es menor o

igual a 14.829 se clasifica como clase d de igual forma si es falso. Sin embargo,
si la presión sanguı́nea es menor o igual a 0.5 serı́a clasificada como a. Dichas
letras son la clasificación de la mejor droga para suministrar a un paciente.
No considera los demás features de la base de datos porque se limita el
crecimiento del árbol de decisión para evitar el overfitting. La entropı́a en los
nodos hoja aún es mayor a 0 por lo que aún se podrı́a conseguir información
de los mismos, a diferencia del nodo hoja naranja que ya es un nodo puro.
References
1. Vive. (2021, mayo 7). Árboles de decisión: en qué consisten y aplicación en Big
Data. UNIR. https://www.unir.net/ingenieria/revista/arboles-de-decision/
2. What is a decision tree. (s/f). Ibm.com. Recuperado el 14 de noviembre de 2022,
de https://www.ibm.com/topics/decision-trees
3. Galarnyk, M. (2019, July 31). Understanding Decision Trees
for Classification (Python). Medium; Towards Data Science.
https://towardsdatascience.com/understanding-decision-trees-for-
classification-python-9663d683c952

Reporte Árboles de Decisión

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Reporte Árboles de Decisión

Cargado por

Copyright:

Formatos disponibles

Reporte escrito: Arboles de Decisión.

Drug acurrate prediction for patience

Shari Michel Garduño Muñoz A01424199, Miranda González Cue A01423538,

Tecnológico de Monterrey, Cuernavaca, Morelos, 08544, México

Abstract. Decision trees are non-parametric supervised learning sta-

Keywords: Patience · Acurrate Prediction · Drugs · Drugs

Los árboles de decisión son algoritmos estadı́sticos de aprendizaje supervisado no

Los árboles de decisión son algoritmos estadı́sticos de aprendizaje supervisado

• Nodos internos: Representan cada una de las caracterı́sticas o propiedades a

• Nodos finales: Representan el resultado de la decisión

• Ramas: Representan la decisión en función de una condición determinada.

El aprendizaje del árbol de decisiones emplea una estrategia de divide y

• Maximax o “criterio optimista” : Opción que brinda el mejor resultado final

• Maximin o “criterio pesimista” : Opción que brinda el peor resultado posible

• Frustración mı́nima: Clasificación de los posibles caminos para calcular la

Los árboles de decisión son algoritmos fácilmente entendibles y que funcionan

A continuación se explicarán las lı́neas del código y los resultados de la ejecución:

• En esta lı́nea de código imprimimos la información que contiene la variable

• En las siguientes lı́neas lo que hacemos es definir el tamaño de ramas

• En este bloque de código lo que hacemos es importar una función que

• Este bloque de código nos muestra los encabezados de las columnas de

• Este bloque de código exporta y gráfica un árbol de decisión en

• Finalmente, se imprime el valor de accuracy de la regresión logı́stica

Finalmente podemos concluir que si el Sodium to Potassium ratio es menor o

También podría gustarte