Está en la página 1de 8

Reporte escrito: Arboles de Decisión.

Drug acurrate prediction for patience

Shari Michel Garduño Muñoz A01424199, Miranda González Cue A01423538,


and Mariana Chávez Pineda A01274566

Tecnológico de Monterrey, Cuernavaca, Morelos, 08544, México


A01424199@tec.mx
A01423538@tec.mx
A01274566@tec.mx

Abstract. Decision trees are non-parametric supervised learning sta-


tistical algorithms considered machine learning techniques for building
predictive models for data analytics. These algorithms are based on the
classification of characteristics between variables to predict the value
of another under a hierarchy model and tend to be used especially in
strategy and marketing campaigns. In this practice, we sought to im-
plement a decision tree to find out which drug is the most effective for
a patient, taking into account various variables such as age, sex, blood
pressure, cholesterol, and the relationship between sodium and potas-
sium. A dataset was analyzed, the algorithm was implemented and an
optimal result for the problem was obtained.

Keywords: Patience · Acurrate Prediction · Drugs · Drugs

1 Introducción

Los árboles de decisión son algoritmos estadı́sticos de aprendizaje supervisado no


paramétrico considerados técnicas de machine learning para la construcción de
modelos predictivos para la analı́tica de datos. Estos algoritmos están basados en
clasificación de caracterı́sticas entre variables para predecir el valor de otra bajo
un modelo de jerarquı́a y tienden a ser utilizados especialmente en campañas
de estrategia y marketing. En esta práctica se buscó implementar un árbol de
decisión para conocer que droga es la más efectiva para un paciente, tomando
en cuenta diversas variables como lo son la edad, el sexo, la presión arterial, el
colesterol y la relación entre sodio y potasio. Se analizó un dataset, se implementó
el algoritmo y se obtuvo un resultado óptimo para la problemática.
2 M. Garduño, M. González, M. Chavez

2 Marco Teórico

Los árboles de decisión son algoritmos estadı́sticos de aprendizaje supervisado


no paramétrico considerados técnicas de machine learning para la construcción
de modelos predictivos para la analı́tica de datos. Estos algoritmos están basados
en clasificación de caracterı́sticas entre variables para predecir el valor de otra
bajo un modelo de jerarquı́a. Los árboles de decisión son una estructura que está
formada por ramas y nodos de diversas categorı́as:

• Nodos internos: Representan cada una de las caracterı́sticas o propiedades a


considerar para tomar una decisión.

• Nodos finales: Representan el resultado de la decisión

• Ramas: Representan la decisión en función de una condición determinada.

El aprendizaje del árbol de decisiones emplea una estrategia de divide y


vencerás mediante la realización de una búsqueda codiciosa para identificar los
puntos de división óptimos dentro de un árbol. Este proceso de división se repite
de forma recursiva de arriba hacia abajo hasta que todos o la mayorı́a de los
registros se hayan clasificado bajo etiquetas de clase especı́ficas. Que todos los
puntos de datos se clasifiquen o no como conjuntos homogéneos depende en gran
medida de la complejidad del árbol de decisión. Generalmente se emplea en el
Big Data para predecir la probabilidad de conseguir cierto resultado bajo ciertas
condiciones (incertidumbres). Algunos ejemplos de la utilización de este tipo de
algoritmos son: Realizar estimaciones de las primas de seguros para cobrar a
los asegurados, predecir si se le debe ofrecer un determinado producto a cierta
persona, determinar si una persona aplica o no para adquirir un crédito, etc.
El algoritmo utiliza determinados criterios de decisión bajo incertidumbre,
tales como:

• Maximax o “criterio optimista” : Opción que brinda el mejor resultado final

• Maximin o “criterio pesimista” : Opción que brinda el peor resultado posible

• Frustración mı́nima: Clasificación de los posibles caminos para calcular la


diferencia entre caminos y el mejor camino posible para cada situación. Con
el fin de minimizar el resultado.

Los árboles de decisión son algoritmos fácilmente entendibles y que funcionan


bien en modelos analı́ticos basados en clasificación o regresión para obtener re-
sultados a un problema Son ampliamente utilizados para trabajar con el Big
Data, especialmente en campañas de estrategia y marketing.
Drugs prediction, Decision Tree 3

3 Desarrollo

A continuación se explicarán las lı́neas del código y los resultados de la ejecución:

• Con el primer bloque de código importamos todas las librerı́as que necesita-
mos para que nuestro código pueda cumplir con su función.

Fig. 1.

• Con la siguiente lı́nea de código buscamos el archivo csv que contiene los
datos y lo guardamos en la variable “drogas”

Fig. 2.

• En esta lı́nea de código imprimimos la información que contiene la variable


“drogas”

Fig. 3.
4 M. Garduño, M. González, M. Chavez

• En este bloque de código lo que buscamos es convertir las variables que tienen
texto por valores numéricos para que de esa manera se puedan realizar las
operaciones pertinentes.

Fig. 4.

• Esta lı́nea de código nos ayuda a dividir nuestra base de datos, para marcar
el porcentaje de datos que utilizaremos para entrenar nuestro modelo, en
este caso se tiene un valor de 0.2 lo que representa el 20 por ciento de los
datos.

Fig. 5.

• En las siguientes lı́neas lo que hacemos es definir el tamaño de ramas


que tendrá nuestro árbol, en este caso le estamos marcando un tamaño
de dos ramas.

Fig. 6.
Drugs prediction, Decision Tree 5

• En este bloque de código lo que hacemos es importar una función que


nos ayudará a graficar nuestro árbol de decisiones, ası́ como de generar
un archivo pdf de nuestro árbol de decisión sin considerar el nombre de
las columnas en nuestra de datos

Fig. 7.

• Este bloque de código nos muestra los encabezados de las columnas de


la base de datos

Fig. 8.

• Este bloque de código exporta y gráfica un árbol de decisión en


formato DOT donde toma los features de los nombres de las columnas
para mejor entendimiento de los resultados.

Fig. 9.
6 M. Garduño, M. González, M. Chavez

Fig. 10.

• Finalmente, se imprime el valor de accuracy de la regresión logı́stica


dando como resultado 0.95 por ciento.

Fig. 11.
Drugs prediction, Decision Tree 7

4 Conclusión

Finalmente podemos concluir que si el Sodium to Potassium ratio es menor o


igual a 14.829 se clasifica como clase d de igual forma si es falso. Sin embargo,
si la presión sanguı́nea es menor o igual a 0.5 serı́a clasificada como a. Dichas
letras son la clasificación de la mejor droga para suministrar a un paciente.
No considera los demás features de la base de datos porque se limita el
crecimiento del árbol de decisión para evitar el overfitting. La entropı́a en los
nodos hoja aún es mayor a 0 por lo que aún se podrı́a conseguir información
de los mismos, a diferencia del nodo hoja naranja que ya es un nodo puro.
8 M. Garduño, M. González, M. Chavez

References

1. Vive. (2021, mayo 7). Árboles de decisión: en qué consisten y aplicación en Big
Data. UNIR. https://www.unir.net/ingenieria/revista/arboles-de-decision/
2. What is a decision tree. (s/f). Ibm.com. Recuperado el 14 de noviembre de 2022,
de https://www.ibm.com/topics/decision-trees
3. Galarnyk, M. (2019, July 31). Understanding Decision Trees
for Classification (Python). Medium; Towards Data Science.
https://towardsdatascience.com/understanding-decision-trees-for-
classification-python-9663d683c952

También podría gustarte