de decisión. Prediction, analysis and forecasting of covid-19 using a decision tree model Jefferson Castellanos Maldonado – Xavier Haro Guerrero. Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas
ABSTRACT Artificial (IA) utilizando el algoritmo de aprendizaje
supervisado, árbol de decisión. Además, la creación • The spread of the SARS-CoV-2 virus, which y estructuración de una base de datos que nos causes the Covid-19 disease as it is known permita predecir, analizar y pronosticar el grado de worldwide, has generated a series of studies and afectación en los pacientes contagiados de Covid- investigations to try to counteract its effects 19 para su correspondiente hospitalización o throughout the planet, with artificial intelligence aislamiento domiciliario. La metodología utilizada en being one of the most important tools used for this este proyecto se encuentra dirigida al método purpose by applying the different machine learning científico el cual nos permitió indagar y examinar algorithms. The present work aims to develop a todo tipo de estudios, resultados e investigaciones. machine learning model based on Artificial Los dataset utilizados fue obtenido de los Intelligence (AI) using the supervised learning repositorios de la universidad norteamericana Johns algorithm, decision tree. In addition, the creation and Hopkins, que posee información actualizada sobre structuring of a database that allows us to predict, el Covid-19, provenientes de gobiernos, agencias analyze and forecast the degree of affectation in nacionales y subnacionales de todo el mundo. Se patients infected with Covid-19 for their utilizó el 90% de los registros de la base de datos corresponding hospitalization or home isolation. The para el entrenamiento del algoritmo y el 10% para methodology used in this project is directed to the realizar las pruebas correspondientes, dando como scientific method which allowed us to investigate resultado un porcentaje de precisión del 95%. and examine all kinds of studies, results and investigations. The database used was obtained from the repositories of the North American Johns Palabra’s clave: covid-19, inteligencia Hopkins University, which has updated information artificial, aprendizaje automático, árboles de on Covid-19, from governments, national and sub- decisión, análisis, predicción, pronóstico. national agencies around the world. 90% of the 1. INTRODUCCIÓN database records were used for algorithm training and 10% to perform the corresponding tests, Las repercusiones que ha tenido el virus covid-19 resulting in a 95% precision percentage. en todo el planeta han sido alarmantes, debido a esto, la comunidad científica en el área de la • Key words: Covid 19 - Artificial Intelligence biomedicina, ha trabajado de manera intensiva en - Machine learning - Decision Trees – desarrollar soluciones que permitan conocer a Analysis -Prediction and Forecast profundidad la forma en la que se propaga esta enfermedad.
RESUMEN Las técnicas de aprendizaje automático
son el principal eje de la inteligencia artificial. Estas La propagación del virus SARS-CoV-2, causante de tecnologías posibilitan analizar gran cantidad de la enfermedad Covid-19 como es conocida datos de manera rápida, para identificar patrones o mundialmente, ha generado una serie de estudios e modelos, los cuales se pueden emplear para tomar investigaciones para tratar de contrarrestar sus decisiones óptimas o predecir situaciones. Aplicando efectos en todo el planeta, siendo la inteligencia estos conocimientos en el área médica sería posible artificial una de las herramientas más utilizadas para predecir el número de personas afectadas por covid- dicho fin mediante la aplicación de los diferentes 19 de un género, edad y país específicos, debido al algoritmos de aprendizaje automático. El presente gran volumen de datos estudiados. trabajo tiene como objetivo elaborar un modelo de Esta investigación tiene como objetivo analizar bases aprendizaje automático basado en Inteligencia de datos con registros actualizados sobre el COVID- 19 y extraer la información necesaria en base a los 1.1. Predicción y pronóstico síntomas que presentan las personas para así poder determinar la gravedad de los pacientes contagiados. Las predicciones eficientes son las consecuencias de un tipo de decisión. “Éstos Para el desarrollo del proyecto se proponen las vienen en una variedad de estilos; el más común siguientes etapas: es el modelo de elección discreta. Básicamente, este tipo de modelo funciona haciendo una serie a) Obtención de datos de preguntas que pueden utilizarse para priorizar b) Extracción de Características un conjunto de decisiones” c) Entrenamiento La palabra “pronosticar”, cuando se la utiliza refiriendo a un análisis delictual táctico Las etapas pueden modificarse en base a individualmente, narra la causa de formar una circunstancias, por ejemplo, que los datos no sean predicción de cuándo y dónde los futuros sucesos actualizados o validados. de un esquema, una cadena o una tendencia En la etapa de resultados se aplicarán metodologías delictuales, sucederán. Los pronósticos se crean de aprendizaje automático que permitirán predecir la experimentando eventos conocidos en una serie gravedad del paciente a través de características con la finalidad de identificar patrones que basadas en su sintomatología. puedan ser adivinados. La gran parte de los investigadores delictuales llevan un estudio Covid-19 táctico durante sus carreras para intentar El covid-19 fue declarado en diciembre del año 2019, pronosticar una serie, un patrón o un instinto inmediatamente se reveló que “era causado por un delictual (Jorquera & Rivera, 2012). nuevo coronavirus que está relacionado La fase inicial para efectuar pronósticos, estructuralmente con el virus que genera el síndrome es la compilación de datos efectivos y confiables. respiratorio agudo severo (SARS)” (Calvo et al., “Un pronóstico no puede ser más preciso que los 2020). datos en que se basa. Cuando se mide una variable a lo largo del tiempo, las observaciones En la ciudad de Wuhan se dio aviso sobre la en diferentes periodos con frecuencia están aparición de un brote epidemiológico de un relacionadas o correlacionadas” (Ruelas Santoyo, padecimiento respiratorio grabe pronto se reconoció 2014). el agente: apareció un reciente coronavirus, conocido como covid-19 (Villegas-Chiroque, n.d.). 2. INTELIGENCIA ARTIFICIAL El comportamiento del virus no está del todo La inteligencia artificial tiene como destreza que esclarecido, el covid-19 al ser una enfermedad los ordenadores realicen funciones que reciente, varios estudios recomiendan que el sistema normalmente requiere que un humano lo haga. inmunológico no podría protegernos de este Pero para brindar una teoría más precisa, adversario mortal, el sistema nervioso podría ser podemos decir que la IA es la habilidad que también delicado al SARS CoV2 o agravar la tienen las máquinas para usar algoritmos, reacción del sistema inmunológico, lo que lleva a aprenden de un bloque de información y utilizan consecuencias graves de afectaciones respiratorias lo aprendido para poder tomar decisiones como centrales, cerebrovasculares, convulsiones y otras lo haría un ser humano. Pero existen diferencias afecciones como perdida de olfato y gusto (Pérez, entre un ser humano y una maquina basada en 2020). IA estas no necesitan descansar y pueden revisar grandes cantidades de datos al mismo tiempo. La nueva aparición de esta enfermedad por También el margen de error es sumamente coronavirus nuevo (COVID-19), originado por el menor en los equipos que realizan la misma tarea síntoma respiratorio agudo grave coronavirus 2 que un ser humano (Lasse Rouhiainen, 2018). (SARS-CoV-2), se presenta un rápido crecimiento de La (IA) tienen como objetivo que los pacientes infectados en todo el mundo. La refutación computadores realicen tareas que puedan ser inmune del infectado por SARS-CoV-2 parece hechas por la mente. Como lo es el raciocinio se presentar un papel crítico en la patogénesis de la las puede denominar “inteligentes”. Otras como enfermedad y las manifestaciones clínicas. El SARS- percepción, visión, asociación, predicciones y CoV-2 no solo pone en marcha las respuestas planificación que hacen que seres humanos y inmunitarias antivirales, también puede causar animales tomen decisiones. La inteligencia no es respuestas inflamatorias incontroladas con la un espacio en específico, sino un amplio espacio particularidad de una liberación marcada de citocinas estructurado lleno de diferentes destrezas para proinflamatorias en pacientes con COVID-19 grave, procesar información. De la misma manera la lo que lleva a una linfopenia, disfunción de linfocitos inteligencia artificial usa diferentes técnicas para y anomalías de granulocitos y monocitos (Yang et al., realizar varias tareas. Es una tecnología que 2020). podemos encontrar en todas partes en el hogar, vehículos, oficinas, entidades bancarias, hospitales, aviones, también en el internet de las El problema cosas que cada vez se conectan a más sensores físicos de los aparatos, ropa etc. Algunos se Es esencial en situaciones donde se encuentran fuera de nuestro planeta, como robots necesite identificar patrones y realizar predicciones satélites que están orbitando en el espacio de comportamientos apoyados en datos reales. (Margaret A. Boden, 2016). Identificar semejanzas podría representar cualquier El termino de inteligencia artificial se basan en la cosa, desde reconocer caracteres hasta el doctrina de las metodologías, filosofías aquellos sostenimiento predictivo y la sugerencia de artículos que laboran en la solución de problemas de a las personas de cosas que hayan comprado con raciocinio, juegos de intelecto predicciones etc. anterioridad. De igual manera la computadora no Mediante equipos informáticos en general tareas entiende la información y el problema. Una persona que sean relacionadas con inteligencia que debe enseñarle a la computadora utilizando comúnmente es realizadas por humanos. Esto ha aprendizajes anteriores, si la persona no le plantea servido para cubrir un amplio tramo en la de una forma concreta el problema, así tengamos el investigación que de una forma u otra se dedican algoritmo mejor capacitado y con bases de datos a indagar en el área de la automatización de las muy extensas no obtendremos los resultados decisiones que toma el intelecto humano. Es deseados. complicado encontrar una serie de características que abarque conceptualmente todas las áreas en La data la que practica. No existe una definición clara de Es la variedad de datos que se recopilan inteligencia artificial. por cada autor lleva una el último año. Esta parte es clave porque es donde propia interpretación de su investigación se realiza el entrenamiento de los algoritmos (Alan (Delgado, 1996). T. Norman, 2021). El aprendizaje es basado en el 2.1. Aportes a la medicina incremento de conocimientos y habilidades para cumplir con tareas asignadas. Una alegoría habitual Los aprendizajes automáticos han sido utilizados en en el área del aprendizaje automático es estimar la la medicina desde el principio de la informática solución de problemas. Después de que haya legado al recóndito arraigo en el campo de la culminado con la solución del problema, debe estar innovación, pero al pasar el tiempo existe más apto para hacer un reconocimiento de la información relacionada con las ciencias de la problemática y utilizar estrategias que hayan salud, de esta forma se da a conocer un nuevo aprendido con anterioridad. El agente autónomo campo de las ciencias de la computación llamado debe tener la destreza de hacer distintas tareas de big data. Información médica de grandes cantidades diferentes formas, si se puede y esto va a depender están conformadas como bases de datos que de las circunstancias. Debe ser autosuficiente para pueden estar estructuradas como no estructuradas tomar decisiones y buscar el camino que más si sus datos son válidos y bien interpretados pueden convenga y así solucionar un problema y brindar grandes beneficios al optimizar y disminuir personalizar las decisiones si así lo requiere. Es por los costos y los tiempos de servicio en el área de la esto que unos de los objetivos principales es salud, pero también pueden ser utilizados para construir sistemas que sean capaces de adaptarse realizar predicciones sobre enfermedades, para sin que tengan que ser entrenados con anterioridad mejorar los tratamientos, capacitar a los médicos en si se presentan nuevos problemas para resolver. El lugares de difícil acceso y mejorar la calidad de mecanismo de un aprendizaje humano manera que vida. no admita replicar esta conducta con un ordenador El día de mañana, el vínculo entre hombre-máquina es un logro muy anhelado (Moreno -Eva et al., en el campo de le medicina será más angosto; de 1994). esta manera las máquinas tendrán la labor de 2.2.1. Uso del aprendizaje automático extracción, barrido y búsquedas de correlaciones, la en la medicina tarea del médico seria solo de interpretar estas correlaciones y hallar nuevos tratamientos para En el área médica podría beneficiarse de mejorar su efectividad en (Arias et al., 2019). una relación cercana a la informática, de esta forma se mejoran los procesos que son complejos y que tienen errores como la valoración diferencial. Esto 2.2. Aprendizaje automático es realizado por el aprendizaje automático, una de la rama de la inteligencia artificial está constituida El aprendizaje automático es utilizado en diferentes por sistemas que son idóneos para aprender que acontecimientos mientras haya información arrancan de un bloque de datos de entrenamiento y relevante que podamos examinar, el aprendizaje mejorar las técnicas de clasificación y predicciones. automático le dará entendimiento. Cada aprendizaje En otros países los últimos años ha evolucionado la es distinto. Estas se dividen en lo siguiente: implementación de registros electrónicos y los realiza una comparación con los nuevos datos institutos nacionales de la salud tienen datos ingresados y procede a clasificarlos en uno de los clínicos muy importante almacenados. Para que grupos y de esta manera puede hacer una toda esta información se transforme en predicción de que se trata. Las variables que vayan conocimiento, necesitan ser ejecutados y a ser utilizadas para la predicción pueden ser analizados mediante técnicas estadísticas directas o categóricas. Las cuales son: complejas, como se realizan en diferentes países 1. Binaria: (si, no) (negro, blanco) etc. utilizando: razonamientos basados en sucesos, redes neuronales, clasificadores bayesianos, 2. Múltiples: comparaciones (articulo1, regresión o máquinas de soporte vectorial, esto articulo,2, articulo3…) etc. permite que sea más fácil el diagnóstico de 3. Ordenado: (mínimo, intermedio, máximo) enfermedades como: apendicitis, cáncer de mama, etc. hepatopatía crónica (Lugo-Reyes et al., 2014). De esta manera se identifican los distintos tipos de 2.3. Aprendizaje supervisado variables que podemos encontrar en estos modelos También conocido como tarea predictiva es el más de algoritmos(Sandoval Serrano, 2018). utilizado en la actualidad, se da inicio desde un 2.3.1.2. Regresión grupo de datos que se encuentra etiquetado, esto nos indica que se encuentra conformado por Los modelos de regresión de variables múltiples son información que contiene la variable que nos muy importantes en el área de la investigación interesa predecir. Con el uso de algoritmos de clínica, pueden ser tan como para la creación de Machine learning se produce un modelo de puntuaciones o para realizar predicciones o en predicción el cual es entrenado con este grupo de hacer investigaciones que estén relacionadas a datos. Y cuando este ya haya aprendido se procede producir nuevas teorías. En la innovación de estos a realizar una medición de rendimiento del modelo modelos, hay que considerar: a) el manejo con el que se está trabajando. Este tipo de adecuado de las técnicas estadísticas, debe estar aprendizaje supervisado se lo puede utilizar para conforme al tipo de información utilizable: b) tener hacer predicciones o clasificaciones (Ávila en cuenta la cantidad de variables por cada evento Bernabeu et al., 2018). no puede superar 10:1 para no tener una sobresaturación en el modelo, c) tener en cuenta los El Aprendizaje supervisado necesita de un problemas de los procesos automáticos al escoger monitor como maestro. El aprendizaje supervisado las variables, d) probar el modelo terminado es un modelo al cual tenemos que enseñarle relacionando las cualidades de calibración y mediante un conjunto de datos que estén discriminación. Deberá ser probada estas mismas debidamente etiquetados, lo que nos indica que medidas, pero con un grupo de registros distintos ciertos datos ya se encuentran etiquetados con la (Núñez et al., 2011). respuesta verdadera. Luego de esto, el equipo recibe un nuevo conjunto de datos para que el 2.4. Aprendizaje no supervisado algoritmo de aprendizaje supervisado evalúe los Se torna un problema cuando el modelo toma una datos con los cuales fue entrenado y de esta forma decisión al seleccionar las características entre los obtener los resultados correctos a partir de los datos datos proporcionados. Es el modelo el que debe etiquetados (García Cambronero & Moreno Gomez, llegar a la conclusión de que clase se obtendrá los 2006). patrones. En la toma de decisiones también se 2.3.1. Tipos de aprendizaje vuelve un problema, si son correcta o no, la lógica supervisado difusa entra hacer su trabajo, el uso de agrupamiento difuso. Los agrupamientos se encargan de particionar un grupo de datos en un El aprendizaje supervisado se divide de la siguiente grupo de subclases y están son llamadas clusters. forma: El grupo es una recopilación de objetos que tienen las mismas características que otros y así pueden ser considerados conjuntamente como un grupo 2.3.1.1 Clasificación (Cáceres Tello, 2014). Tenemos la expectativa de que este algoritmo nos 2.5. Semi supervisado dé como resultado a qué grupo pertenece el Se puede determinar que este aprendizaje es un elemento estudiado. El trabajo de estos algoritmos hibrido entre el supervisado y no supervisado que es encontrar similitudes en los datos que le mencionamos anteriormente, ya que trabaja en los brindamos y clasificarlos en grupos. Después datos que se encuentran etiquetados y los que no de igual manera. De esta forma, se posiciona ente programación de Python cumple con buenas aprender de forma supervisada o no supervisada. expectativas y es tomado en cuenta para el En la vida real, esta información etiquetada puede desarrollo de softwares. Esto quiere decir que ser rara en diferentes entornos y los datos que no lo puede ser utilizado para cualquier evento que se son en numerosos, este aprendizaje es útil. Para presente, podrá ser ejecutado en cualquier dar un resultado más óptimo de la predicción que el entorno, es adaptable y podrá ser modificado las que nos da solo usando los que se encuentran veces que sean necesarias si así lo necesita. En etiquetados en el modelo. el pasado surgieron algunas eventualidades que fueron relevantes que dejaron una huella en el 2.6. Refuerzo futuro del desarrollo de softwares, como cuando Este tipo de aprendizaje automático les admite a los fue lanzada la primera versión de Linux y no equipos analizar automáticamente cómo se demoro mucho y en salir la versión del lenguaje comporta en diferentes entornos para poder de programación de Python. optimizar su eficiencia, eso significa, que es un Son herramientas esenciales para la elaboración enfoque potenciado por el entorno. Este modelo de de programas como lo es el papel y lápiz para un aprendizaje es basado en la compensación o escritor “Python ha ido ganando en adeptos en penalización, esta potente herramienta se la utiliza comunidades como la de software libre, científica para entrenar modelos de inteligencia artificial para y educacional, por su sencillez y posibilidad de mejorar la eficiencia de trabajo de sistemas concentrarse en los problemas actuales” (Holguín sofisticados como los que son empleados en la et al., 2014). robótica (Sarker, 2021). El lenguaje de programación Python es de altas prestaciones y multifuncional. En el trascurso del 2.7. Usabilidad de los datos tiempo el uso de esta tecnología ha ido incrementado al punto de convertirse en uno de En conclusión, para poder entrenar el modelo, el los más utilizados para el desarrollo de softwares. conjunto de los datos va a ser dividido en la Este leguaje es compatible con plataformas y siguiente relación de 80:20, esto nos indica que el sistemas operativos distintos. Como los que ya 80% de los datos son entrenamiento y el porcentaje conocemos Linux, Windows y Mac. Pero también, restante para las pruebas. La información que fue son utilizados en dispositivos inteligentes, la seleccionada para el entrenamiento es utilizada compañía Nokia utilizo este lenguaje para para datos de entrada y de salida del algoritmo. El desarrollar su sistema operativo Symbian. Python modelo aprenderá de la información de es un lenguaje que no tiene un ámbito en entrenamiento. Utilizamos técnicas de medición específico como lo son otras plataformas que para observar la precisión del algoritmo (Delgado solamente se dedica a la creación de páginas Castillo et al., 2016). web o aplicaciones móviles. Esta herramienta es multipropósito y puede ser utilizada para aplicaciones científicas, telecomunicaciones, 3. HERRAMIENTAS UTILIZADAS interfaces gráficas y juegos para equipos móviles. Entre las herramientas utilizadas se encuentra “Empresas y organizaciones del calibre de Google Colaboratory, también conocido como industrial Light & Magic, Walt Disney, la Nasa, Colab, el cual es un servicio de notebook que Google, Yahoo!, Red Hat y Nokia hacen uso posibilita la escritura y ejecución de código en el intensivo de este lenguaje para desarrollar sus lenguaje de programación Python para múltiples productos y servicios” (Fernández Arturo, 2013). usuarios. Hay diferentes lenguajes de programación, Para la investigación y consulta de términos se pero Python tiene algunas ventajas que lo hacen utilizó el gestor de búsqueda académica Google muy interesante, ya sea en el ámbito educativo o Scholar, obteniendo la fundamentación teórica de profesional. A continuación, mencionamos las fuentes científicas y fidedignas. siguientes: El lenguaje de programación empleado fue •El código en Python es mucho más comprimido Python debido al óptimo desempeño en su a diferencia de los demás y es denominado como sintaxis, además de ser multiplataforma orientado un lenguaje de alto nivel. a objetos. Se trata de un software libre que es •La sintaxis de este lenguaje de programación es muy popular en la actualidad demostrando un muy legible y fácil de entender. impacto tecnológico considerable. Para poder •Tiene una interfaz que es interactiva con el trabajar con esta tecnología va a ser necesario un usuario y esto nos ayuda al momento de hacer grupo de herramientas que hagan efectivo su uso las pruebas y contestar ciertas interrogantes que y sencillo de comprender. El lenguaje de tengamos a cerca del lenguaje. •Python identifica los errores de sintaxis que (Assaf et al., 2020) desarrolla en su investigación cometen los programadores y brindan un modelo de árbol de decisión de clasificación y información para ser solucionados. regresión (CRT) para predecir con precisión el •Puede ser utilizado como un lenguaje orientado riesgo de Covid-19 construido en la interfaz a objeto. SPSS 25. Además, utilizó el método de •Cuentan con estructuras de datos que pueden clasificación iterativa CRT para la selección ser modificados de una forma sencilla. automática de características y prediciendo la Python es una herramienta que está en variable objetivo, dividiendo reglas para clasificar constante cambio y es cada vez mejor por que la población en clases homogéneas. El modelo utilizó la medida de impurezas de Gini para los desarrolladores hacen el lanzamiento de una probar la ganancia de cada división y la selección nueva versión cada 6 meses. Estas a su vez automática de cortes óptimos de variables mejoran la compatibilidad de los programas de continuas. Se utilizó una validación cruzada de versiones anteriores (Marzal & Gracia, 2002). diez veces para la prueba y validación del Para realizar el presente trabajo investigativo modelo. usamos Python como lenguaje de programación, por las ventajas anteriormente mencionadas, por (Hao et al., 2020) en su investigación, predicción la facilidad de comprensión de su y por la temprana de los requisitos de nivel de atención variedad de información que podemos encontrar en pacientes con Covid-19, buscó predecir en para el desarrollo eficiente del código. algunos hospitales de Massachusetts, (USA), los requisitos del nivel de atención en función de los 4. TRABAJOS RELACIONADOS datos clínicos y de laboratorio. Se aplicaron (Gerevini et al., 2020) propone en su varios métodos de clasificación y los datos se investigación el uso de herramientas poderosas dividieron en un entrenamiento (80%) y un de aprendizaje automático para ayudar en la conjunto de prueba (20%). Se emplearon lucha contra Covid-19. En su trabajo presenta un múltiples árboles de decisión en paralelo durante estudio y una herramienta concreta basada en el la fase de entrenamiento, donde cada árbol se aprendizaje automático para predecir el riesgo de entrena utilizando un conjunto de muestras muerte de un paciente en diferentes momentos aleatorias del conjunto de entrenamiento original. de la hospitalización, en base a alguna En la fase de prueba, RF utilizaron los información demográfica, puntuaciones de clasificadores de árboles de decisión entrenados radiografías de tórax y varios hallazgos de para clasificar una muestra de prueba y luego laboratorio. Nuestros modelos de aprendizaje combina todos los clasificadores por mayoría de automático utilizan conjuntos de árboles de votos. decisión entrenados y probados con datos de 5. Árboles de decisión más de 2000 pacientes. Una evaluación experimental de los modelos muestra un buen Los árboles de decisión tienen la particularidad desempeño en la resolución de la tarea de graficar de forma analítica y representar todos abordada. los sucesos que puedan partir de una decisión que se presente en un determinado momento. (Ma et al., 2020) presentó en su estudio para el Esto nos facilita escoger una decisión de una desarrollo y validación de modelo pronóstico de manera más acertada basado desde el punto de riesgo de mortalidad en pacientes contagiados de vista de la probabilidad, ante un conjunto de COVID-19, el uso de clasificadores supervisados opciones que podrían ser una posible decisión. de Random Forest y XGBoost como modelos Los árboles facultan la revisión de resultados y predictores para las variables de clasificación. definir de forma gráfica como fluye el modelo. los Tanto Random Forest como XGBoost son resultados de manera gráfica facilitan la algoritmos de aprendizaje automático basados en modelos de clasificación basados en árboles de búsqueda de subgrupos específicos y decisión. Random Forest utiliza embolsado en el características que probablemente no se entrenamiento, mientras que XGBoost hace uso encuentre con estadística tradicional. Las de re-etiquetas en el entrenamiento. Sin técnicas estadísticas de segmentación de los embargo, sus modelos de caja negra son difíciles árboles de decisión tienen como función: extraer, de interpretar el riesgo de mortalidad en los predecir, reducir los datos y filtrar las variables, pacientes. Aquí solo los usamos para calcular la identificar interacciones, la combinación de importancia relativa de cada variable en el categorías y modificación de variables continuas, modelo discriminativo para las dos etiquetas esto con el fin de identificar relaciones entre los sobreviviente y no sobreviviente de los pacientes grupos y realizar predicciones en sucesos futuros de la muestra. (Berlanga et al., 2013). Los árboles de decisión son modelos de través de los árboles y, segundo, la simplificación predicción y la misión principal es aprender de de las reglas de lenguaje natural. forma inductiva a partir de sugerencias y construcción lógica. Tienen un parecido a los 5.1. Clasificación basada en sistemas que realizan predicciones árboles de decisión fundamentados en reglas. Son útiles para graficar Los modelos de árboles decisión por y categorizar condiciones que se presentan de clasificación es quizás uno de los más utilizados. manera subsecuente para la resolución de Estos son conocidos como modelos predictivos, problemas. El modelo de clasificación es uno de estos pertenecen a un conjunto de modelos los más utilizados y quizás más conocido. La analíticos que son utilizados para hacer inteligencia que obtuvo durante el aprendizaje predicciones, dicha técnica procede a clasificar inductivo se lo grafica en la forma de un árbol. Un un grupo de datos en ramificaciones que forman árbol que se encuentra representado por un la estructura de un árbol invertido, y después este grupo de nodos, hojas y ramificaciones. El primer modelo es usado para realizar predicciones de nodo con el cual se inicia el árbol es conocido una variable en específico. Tiene como ventaja como nodo raíz, escoge uno de los atributos de que pueden manejar extensos conjuntos de datos prueba y divide el grupo de entrenamiento en y de complejidad considerables, y también, es diferentes subconjuntos; para cada segmento se sencillo de usar y los resultados son fáciles de produce un nodo nuevo y así consecutivamente. interpretar. El algoritmo particiona los datos en Existen nodos con objetos que tienen más de una dos, hay que tomar en cuenta que cada parte clase se produce un nodo interno; Cuando estos debe estar representada por las mejores clases objetos tienen una sola clase, se crea una hoja potenciales para su respectiva clasificación. La en la que se le va asignar la etiqueta de la clase. respuesta que recibiremos será el grafico de un En la fase dos del algoritmo los nuevos objetos árbol invertido, los nodos internos muestran los son clasificados por el árbol; luego el árbol es valores de los atributos de cada uno de los datos desplazado desde el nodo raíz hasta una de las y las hojas son las decisiones de una clase en hojas, a partir de la membresía del objeto de una específico. Para realizar nuevas clasificaciones a de las clases. El árbol será el que determine el futuro, cada nuevo escenario que se presente va camino a seguir y tomen las decisiones en cada a ser evaluado por dicho árbol. Existen nodo interno, en relación al atributo que se interrogantes al momento de crear el árbol como encuentre presente(Ramírez et al., 2009). hasta donde hacer la división de los datos y adonde me voy a detener. Una de las metas de Figura 1: Árbol de decisión. esta técnica es conseguir el árbol más pequeño para que sea fácil interpretar los datos y de esta forma tener menos errores al momento de predecir nuevos registros a diferencia de árboles más complejos (Ramírez et al., 2018).
Figura 2: tipos de árboles. Tomado de (Freddy
Hernández, 2021).
Los árboles de decisión están formados por
nodos y su lectura se realiza de arriba hacia El desempeño de un árbol de decisión se mide a abajo. Tomado de (Sempere, 1993). través de la siguiente fórmula:
Los árboles de clasificación y regresión son
herramientas que nos brindan modelos que 𝟏 𝒏
satisfacen objetivos de predicción y explicativos. 𝑳𝒏 (𝑻) = ∑ 𝟏𝑻(𝒙 𝒊 )≠𝒀𝒊
𝒏 Dos de las características más relevantes de este 𝒊=𝟏 método son, primera, el fácil análisis gráfico a En la ecuación presentada, 1 representa una los temas tratados previamente, además, revisar función que se analiza como 1, cuando la y analizar diferentes bases de datos con registros situación de valuación que se ha especificado es médicos para generar el modelo. Se realizó el verdadera, o 0 si es falsa: 𝑻(𝑿𝟏 ) simboliza la estado del arte en donde se determina etiqueta especificada por el árbol T al vector 𝑿𝒊 . gradualmente la utilización de técnicas de Por esta razón, 𝑳𝒏 (𝑻) cuenta la cantidad de clasificación a través de algoritmos de árboles de errores que T comete clasificando 𝑫𝒏 . Pese a decisión. que el árbol conseguido es apropiado para el Para el levantamiento de información en base a conjunto de entrenamiento 𝑫𝒏 , suele dar expedientes y registros médicos, se analizaron resultados deficientes para otros conjuntos de diferentes bases de datos públicas (locales y datos. Este evento que se lo denomina como extranjeras) que se adaptaron a las métricas overfitting se crea, por ejemplo, cuando el grupo preestablecidas fundamentadas por la que pertenece al entrenamiento 𝑫𝒏 es distribuido sintomatología de un paciente infectado por el hasta que todas las hojas de T son puras, es virus. decir cuando 𝑳𝒏 (𝑻) = 𝟎. Tabla 1: Escala de advertencia temprana NEWS 2 Para reducir este inconveniente se utiliza el (National Early Warning Score 2). proceso de poda del árbol (también conocido como BFOS) para encontrar un sub árbol de T que reduce el error de clasificación para un segundo grupo de datos llamado corpus set, incluso luego de a ver podado el algoritmo pude ser demasiado grande y muy específico. El objetivo es construir un sistema de clasificación de árbol de decisión que no tenga el problema de overfitting, y de esta forma haga uso de un grupo reducido de características de clasificación y tenga un mejor rendimiento cuando el número de clases sea muy elevado(Minguillón & Pujol, 2002). En la tabla se detallan los valores para clasificar e 6. METODOLOGÍA identificar los pacientes que necesiten atención medica inmediata. Recuperado de “Protocolo de En los estudios verificados sobre algoritmos atención para COVID-19 (SARS-CoV-2) de la de predicción de COVID-19 mediante árboles de Sociedad Mexicana de Medicina de decisión, son significativos los siguientes Emergencias”(Sofía Romero Hernández et al., n.d.), argumentos: la base de datos de registros Vol., pp. 11-12. actualizados constituida por los casos confirmados de COVID-19 a nivel mundial, la selección de características, y el entrenamiento de los datos. La base de datos antes mencionada contiene los registros que serán utilizados para el entrenamiento del algoritmo de aprendizaje supervisado por clasificación; árboles de decisión. Las características y variedad de los registros de COVID-19 se incorporarán en la exactitud y sensibilidad del algoritmo a estudiar. Tabla 2: En la tabla se define el rango de valores en 6.1. PROCESAMENTO Y ANÁLISIS cuanto al nivel de gravedad que presenten los pacientes. Recuperado de “Protocolo de atención 6.1.1 Técnicas de recolección de datos para COVID-19 (SARS-CoV-2) de la Sociedad Para poder realizar una óptima recopilación Mexicana de Medicina de Emergencias”(Sofía de los datos se utilizaron diferentes instrumentos Romero Hernández et al., n.d.), Vol., pp. 11-12. de investigación para artículos científicos, enciclopedias y libros vinculados con el asunto o argumento de consulta: aprendizaje automático, árboles de decisión, aprendizaje supervisado, covid-19 y técnicas de clasificación. De esta manera se consiguió reunir información acerca de 11.Pérdida de olfato (representada por 0 = no; 1 = sí) 12.Pérdida de apetito (representada por 0 = no; 1 = sí)
Figura 4: Diagramas de tendencias de análisis de las
características.
Tabla 3: Respuesta ante escala CURB-65 y CRB-65
(Sofía Romero Hernández et al., n.d.).
Las tablas mostradas previamente contienen la
información necesaria para reconocer el nivel de gravedad de un paciente de COVID-19 en base a su sintomatología. La selección de características fue de gran relevancia en la elaboración del modelo, debido a que influyó en el momento de generar resultados óptimos de manera que podemos conseguir 6.3. Entrenamiento información de entrada para determinar la gravedad de las personas infectadas por este Para determinar la gravedad de las personas virus. contagiadas de COVID-19 se desarrolló un prototipo aplicando el algoritmo de aprendizaje supervisado, árboles de decisión. El dataset que fue utilizado contiene 1400 registros de pacientes atendidos en el hospital público, este prototipo tomó el 80% de los registros, determinados en la base de datos para su entrenamiento y el valor de porcentaje faltante fue orientado a pruebas. La técnica de clasificación empleó la extracción de características, para el entrenamiento y para las pruebas. En esta técnica se definieron los parámetros “criterion=gini”; para especificar la función de impureza, la cual, valida el desempeño en la división de los datos, y “max_depth=3” para Figura 3: Diagrama del Proceso de Clasificación especificar la profundidad máxima del árbol. 6.2.1 Estructura del data set 1.Dificultad para respirar (representada por 0 = 7. PRUEBAS no; 1 = sí) Al momento de realizar la división de los datos 2.Saturación: Cantidad de oxígeno disponible en adquiridos se determinó que el 20% de los la sangre. mismos se destinaría para las pruebas del 3.Dolor de cabeza (representada por 0 = no; 1 = algoritmo, mientras que el valor restante se sí) utilizaría para realizar el entrenamiento. 4.Dolor abdominal (representada por 0 = no; 1 = Verificación del algoritmo “Árboles de decisión” sí) A continuación, se visualiza la matriz de 5.Dolor muscular (representada por 0 = no; 1 = confusión resultante de las pruebas desarrolladas sí) por el modelo. Esta herramienta también es 6.Dolor de garganta (representada por 0 = no; 1 = conocida como “matriz de error o tabla de sí) contingencia; los elementos que aparecen en la 7.Tos (representada por 0 = no; 1 = sí) diagonal nos indican el número de clasificaciones 8.Temperatura: Valor en C°. realizadas correctamente, y aquellos que 9.Diarrea (representada por 0 = no; 1 = sí) aparecen fuera suponen migraciones o fugas” 10. Fatiga (representada por 0 = no; 1 = sí) (Muñoz, 2016). Figura 5: Se muestran los resultados obtenidos del algoritmo árboles de decisión.
En la Figura se puede visualizar la precisión
alcanzada con el algoritmo de árboles de decisión, la cual es: 0.9571428571428572. En la Tabla se presenta la matriz de confusión con las siguientes cifras: 98 resultados que predice el modelo, 170 resultados que predice correctamente la clase negativa, 9 resultados que predice incorrectamente negativos cuando es positivo y 3 Figura 7: Curva de sensibilidad resultados que predice incorrectamente positivos cuando es negativo. De esta manera es posible A través de la librería sklearn se obtuvo la curva de verificar la precisión con un 95%. precisión-sensibilidad y sus valores asociados. Luego fue empleada la función precision_recall_curve(), que elige como indicadores las salidas reales y las posibilidades alcanzadas para la clase positiva. Esta función retorna vectores de precisión, sensibilidad y las entradas para los valores mencionados. La función auc() selecciona como entradas la sensibilidad y la precisión regresando el valor del área bajo la curva, el cual puede ser tomado como síntesis del desempeño del modelo. Para conseguir el valor de AUC, se emplea la función roc_auc_score() (dato de entrada conocido Figura 6: Curva ROC. previamente). En esta ocasión retorna la La curva ROC es un instrumento estadístico estimación de AUC, contenida entre 0.5 empleado en el estudio de ordenación del volumen (clasificador al azar) y 1.0 (clasificador óptimo). discriminante de un examen diagnóstico dicotómico. Esto es, un test fundamentado en una variable de decisión, cuyo propósito es distribuir a 8. CONCLUSIONES los sujetos de una población en dos conjuntos: Se determino y se ha comprobado, que referente uno que represente un acontecimiento en al estudio y a los análisis experimentales que han particular y otro que no (Valle Benavides, 2017). sido efectuados en otros modelos de predicción, En otras palabras, las curvas ROC son “gráficos que el modelo de árboles de decisión a diferencia en los cuales se representa la sensibilidad en de otros nos devolvió resultados muy función de los falsos positivos (1-especificidad) de prometedores. En repercusión, logramos obtener la prueba diagnóstica, donde cada punto de la una precisión de 0.95, por lo visto podríamos decir curva representa un par Sensibilidad/(1- que es un buen resultado para conseguir la especificidad) correspondiente a un nivel de clasificación y predicción si un paciente necesita decisión determinado” (Armesto & España, 2011) . ser hospitalizado o mandarlo con aislamiento domiciliario. . Identificar la gravedad de un paciente de covid-19 Higueras, M., Javier Muñoz Vico, F., … Ángel mediante árboles de decisión es un trabajo que Molina, M. (2018). 3 Presentación Revisión: 4 muestra obstáculos en su proceso, por esta razón Aprendizaje Automático en Medicina 15 no se puede determinar la certeza del modelo Osteoporosis Corticoidea LiTeRATURA entrenado, ni afirmar con total seguridad la COMenTADA: 23 Artritis Reumatoide 29 síndrome gravedad de cada paciente contagiado, debido a Antifosfolipídico 32 esclerodermia 34 vasculitis 37 que existen personas asintomáticas. síndrome de sjögren 39 nefrología 40 Hipertensión Pulmonar 43 Miopatías inflamatorias 45 sarcoidosis Para determinar los síntomas característicos del 47 Oftalmología 48 inmunología 50 Pediatría 51 covid-19 se efectuó un análisis de diferentes Dermatología 53 Digestivo 55 enfermedad de fuentes bibliográficas en “Google Scholar” Behçet. fundamentadas en estudios, investigaciones, Berlanga, V., Rubio Hurtado, M. J., & Vilà Baños, R. revistas científicas e historiales clínicos de acceso (2013). Cómo aplicar árboles de decisión en SPSS. público para su correspondiente examen. REIRE. Revista d’Innovació i Recerca En Educació, Para desarrollar el modelo se seleccionó la técnica 6(1), 65–79–79. de aprendizaje supervisado, árboles de decisión, https://doi.org/10.1344/REIRE2013.6.1615 debido a que no existía un algoritmo previo Cáceres Tello, J. (2014). Reconocimiento de enfocado al reconocimiento e identificación del patrones y el aprendizaje no supervisado. nivel de gravedad de pacientes infectados con http://www- covid-19. etsi2.ugr.es/depar/ccia/rf/www/tema1_00- 01_www/node6.html. El algoritmo de árboles de decisión tuvo como Calvo, C., García López-Hortelano, M., de Carlos resultado un porcentaje de precisión de 95,7%, Vicente, J. C., Vázquez Martínez, J. L., Ramos, J. demostrando la efectividad del modelo, en el cual T., Baquero-Artigao, F., Navarro, M. L., Rodrigo, C., se determinaron los parámetros “criterion=gini”; Neth, O., Fumadó, V., Menendez Suso, J. J., para expresar la función de impureza y Slocker Barrio, M., Bustinza Arriortua, A., Jordán “max_depth=3” para especificar la profundidad García, I., & Pilar Orive, J. (2020). máxima del árbol. Recommendations on the clinical management of the COVID-19 infection by the «new coronavirus» SARS-CoV2. Spanish Paediatric Association 9. BIBLIOGRAFÍA working group. Anales de Pediatria, 92(4), 241.e1- 241.e11. https://doi.org/10.1016/J.ANPEDI.2020.02.001 Alan T. Norman. (2021). Aprendizaje Automático En Cerda, J., & Cifuentes, L. (2012). Uso de curvas Acción - Alan T. Norman - Google Libros. ROC en investigación clínica: Aspectos teórico- https://books.google.com.ec/books?hl=es&lr=&id=iTI prácticos. Revista Chilena de Infectología, 29(2), REAAAQBAJ&oi=fnd&pg=PT14&dq=Aprendizaje+A 138–141. https://doi.org/10.4067/S0716- utomático+En+Acción&ots=hVScAnf7K0&sig=eA3O 10182012000200003 8OPKjwCM- Delgado Castillo, D., Rainer Martín Pérez, I., JuIpGjtmvDXKas&redir_esc=y#v=onepage&q=Apre Leonardo Hernández Pérez, I., Rubén Orozco ndizaje Automático En Acción&f=false Morález, I., & Juan Lorenzo Ginori, I. V. (2016). Arias, V., Salazar, J., Garicano, C., & Contreras, J. Algoritmos de aprendizaje automático para la (2019). na introducción a las aplicacionesde la clasificación de neuronas piramidales afectadas por inteligencia artificial en Medicina:Aspectos el envejecimiento Machine learning algorithms for históricos. Revista Latinoamericana de classification of pyramidal neurons affected by Hipertensión. Vol. 14 - No 5, . aging. Revista Cubana de Informática Médica, Assaf, D., Gutman, Y., Neuman, Y., Segal, G., Amit, 2016(3), 559–571. http://scielo.sld.cu S., Gefen-Halevi, S., Shilo, N., Epstein, A., Mor- Delgado, M. (1996). La Inteligencia Artificial realidad Cohen, R., Biber, A., Rahav, G., Levy, I., & Tirosh, de un Mitomoderno. A. (2020). Utilization of machine-learning models to http://hera.ugr.es/honoriscausa/16912512.pdf accurately predict the risk for critical COVID-19. Fernández Arturo. (2013). Python 3 al descubierto. Internal and Emergency Medicine, 15(8), 1435– https://books.google.com.ec/books?hl=es&lr=&id=f4 1443. https://doi.org/10.1007/s11739-020-02475-0 BNDAAAQBAJ&oi=fnd&pg=PT3&dq=python&ots=U Ávila Bernabeu, A., del Mar Ayala Gutiérrez, M., biiX6I4uB&sig=XSn7jM0UKK7_q6iiYdqhctYD6IA&re Celia Barnosi Marín, A., Luis Callejas Rubio, J., dir_esc=y#v=onepage&q=python&f=false Camacho Lovillo, M., Jesús Castillo Palma, M., Freddy Hernández. (2021). Modelos Predictivos. Cordero Coma, M., de Ramón Garrido, E., Javier https://fhernanb.github.io/libro_mod_pred/index.html García Hernández, F., García Madrid, A., García #estructura-del-libro Robles, A., González León, R., Jiménez Rodríguez, García Cambronero, C., & Moreno Gomez, I. E., José Lirola Cruz, M., Martín Gómez, A., Martín (2006). ALGORITMOS DE APRENDIZAJE: KNN & Ibañez, J., del Pilar Martínez Tirado, M., Moreno KMEANS. http://www.it.uc3m.es/~jvillena/irc/practicas/08- estadísticos de regresión. Revista Española de 09/06.pdf Cardiología, 64(6), 501–507. Gerevini, A. E., Maroldi, R., Olivato, M., Putelli, L., & https://doi.org/10.1016/J.RECESP.2011.01.019 Serina, I. (2020). Prognosis Prediction in Covid-19 Pérez, L. C. V. (2020). La COVID-19: reto para la Patients from Lab Tests and X-ray Data through ciencia mundial | Velázquez Pérez | Anales de la Randomized Decision Trees. Academia de Ciencias de Cuba. Hao, B., Sotudian, S., Wang, T., Xu, T., Hu, Y., http://www.revistaccuba.sld.cu/index.php/revacc/arti Gaitanidis, A., Breen, K., Velmahos, G. C., & cle/view/763/792 Paschalidis, I. C. (2020). Early prediction of level-of- Ramírez, Cruz, R. E. B. M. N., Mesa, Acosta, H. G., care requirements in patients with COVID-19. ELife, Suárez, Rabatte, I., León, Pavón, Patricia, Morales, 9, 1–23. https://doi.org/10.7554/eLife.60519 & Blázquez, S. L. (2009). Árboles de decisión como Holguín, C., Díaz-Ricardo, Y., & Antonio Becerra- herramienta en el diagnóstico médico. García, R. (2014). El lenguaje de programación www.uv.mx/rm Python/The programming language Python. Ramírez, P. E., Grandón, E. E., Ramírez, P. E., & http://www.linuxjournal.com/article/2959 Grandón, E. E. (2018). Predicción de la Deserción Jorquera, F. V., & Rivera, G. M. (2012). Análisis Académica en una Universidad Pública Chilena a delitual técnicas y metodologías para la reducción través de la Clasificación basada en Árboles de del delito. Decisión con Parámetros Optimizados. Formación Lasse Rouhiainen. (2018). INTELIGENCIA Universitaria, 11(3), 3–10. ARTIFICIAL 101 COSAS QUE DEBES SABER HOY https://doi.org/10.4067/S0718-50062018000300003 SOBRE NUESTRO FUTURO INTELIGENCIA Ruelas Santoyo, E. A. L. G. (2014). Comparación de ARTIFICIAL. www.planetadelibros.com predicción basada en redes neuronales contra Lugo-Reyes, S. O., Maldonado-Colín, G., & Murata, métodos estadísticos en el pronóstico de ventas. 1– C. (2014). Inteligencia artificial para asistir el 16. diagnóstico clínico en medicina. Revista Alergia https://www.redalyc.org/pdf/2150/215037911008.pdf México, 61(2), 110–120. Sandoval Serrano, L. J. (2018). Algoritmos de https://doi.org/10.29262/RAM.V61I2.33 aprendizaje automático para análisis y predicción de Ma, X., Ng, M., Xu, S., Xu, Z., Qiu, H., Liu, Y., Lyu, datos. Revista Tecnológica, 11, 36–40. J., You, J., Zhao, P., Wang, S., Tang, Y., Cui, H., Sarker, I. H. (2021). Machine Learning: Algorithms, Yu, C., Wang, F., Shao, F., Sun, P., & Tang, Z. Real-World Applications and Research Directions. (2020). Epidemiology and Infection SN Computer Science 2021 2:3, 2(3), 1–21. cambridge.org/hyg Original Paper Development and https://doi.org/10.1007/S42979-021-00592-X validation of prognosis model of mortality risk in Sempere, J. M. (1993). Aprendizaje de árboles de patients with COVID-19. decisión. J.R. Quinlan. C, 4. https://doi.org/10.1017/S0950268820001727 Sofía Romero Hernández, A., Saavedra Uribe, J., Margaret A. Boden. (2016). Inteligencia Artificial - Iván Zamarrón López, E., Rubén Pérez Nieto, O., Margaret A. Boden - Google Libros. Flavio Figueroa Uribe, A., Alberto Guerrero https://books.google.com.ec/books?hl=es&lr=&id=L Gutiérrez, M., López Fermín, J., Elena Uribe Moya, CnYDwAAQBAJ&oi=fnd&pg=PT3&dq=inteligencia+ S., Soriano Orozco, R., Antonio Morgado Villaseñor, artificial+&ots=drRsAT8Ho7&sig=dCGQrU2d5L9qU L., Flores Ramírez, R., David Salmerón, J., Carlos AfK3paa_l6SxWA&redir_esc=y#v=onepage&q=inteli Gasca Aldama, J., Salvador Sánchez Diaz, J., gencia artificial&f=false Deloya Tomas, E., Madrigal Sánchez, D., Jaziel Marzal, A., & Gracia, I. (2002). Introducción a la López Pérez, F., de Guadalupe Villa Cortés, P., programación con Python. Luisa Saucedo Barrientos, A., … Alfredo Díaz Minguillón, J., & Pujol, J. (2002). Árboles de Martínez, M. (n.d.). Protocolo de atención para decisión. COVID-19 (SARS-CoV-2) de la Sociedad Mexicana https://idus.us.es/bitstream/handle/11441/75448/Árb de Medicina de Emergencias. oles de decisión.pdf?sequence=1 Villegas-Chiroque, M. (n.d.). Editorial COVID-19 Moreno -Eva, A., Béjar, A.-J., Belanche, L., Cortés, pandemic: fight or flight R E M Pandemia de U., Gavaldà, R., Manuel, J., López, G.-B., Martín, COVID-19: pelea o huye. M., & Sànchez, M. (1994). Aprendizaje automático. https://doi.org/10.3390/jcm9020575 www.edicionsupc.es Yang, L., Liu, S., Liu, J., Zhang, Z., Wan, X., Huang, Muñoz, J. M. S. (2016). Análisis de Calidad B., Chen, Y., & Zhang, Y. (2020). COVID-19: Cartográfica mediante el estudio de la Matriz de immunopathogenesis and Immunotherapeutics. Confusión. Pensamiento Matemático. Signal Transduction and Targeted Therapy 2020 Núñez, E., Steyerberg, E. W., & Núñez, J. (2011). 5:1, 5(1), 1–8. https://doi.org/10.1038/s41392-020- Estrategias para la elaboración de modelos 00243-2