Está en la página 1de 12

Pronóstico del índice de contagios por COVID-19 entre hombres y

mujeres por regiones del Perú, aplicando machine learning para la


prevención de casos positivos
Luis Enrique Lunarejo Apontea,1, Marissel Fabiola Mio Antayhuaa,2, Armando Fuertes Marceloa,3, and
Shalóm Adonai Huaraz Moralesa,4
a
Department of Systems Engineering and Informatics, Universidad de Ciencias y Humanidades, Los Olivos, Lima, 15314, Perú
E-mail: 1 luislunarejoaponte@gmail.com; 2 marmioa@uch.pe; 3 Leo_22_2010@hotmail.com; 4 shahuarazm@uch.pe

Abstract— La pandemia originada por el COVID-19 en el Perú ha provocado una crisis sin precedentes en la economía, en la sanidad
y en lo social, en consecuencia a esta pandemia se han perdido la vida de muchas personas y cada día se registran nuevos casos de
contagios y de muertes en las diferentes regiones del país. En esta investigación se utilizó la metodología de ciencia de datos para
pronosticar el índice de contagios por COVID-19 entre hombres y mujeres por regiones del Perú, esto se realizó tomando como base
los datos de contagios por COVID-19 recogidos de la Plataforma Nacional de Datos Abiertos hasta el 23 de marzo del 2021 que
proviene del Instituto Nacional de Salud(INS) y del Centro Nacional de Epidemiologia, Prevención y Control de Enfermedades(CDC)
del Ministerio de Salud (MINSA), en el cual se aplicó el Árbol de decisión en Machine Learning utilizando el lenguaje de
programación conocido como Python. Los resultados arrojados por esta investigación demuestran que en la gran mayoría de
departamentos los hombres son los más afectados por el COVID-19, además de que departamentos como Lima, Arequipa y la
provincia constitucional del Callao son los que demuestran un mayor índice de contagios. Estos resultados pueden ayudar a las
organizaciones y entidades del estado peruano encargadas de dictaminar las medidas sanitarias de seguridad (MSS) a tener una
visión más clara y exacta frente a una situación de contagio generado por el COVID-19, esto servirá para que se tomen las mejores
medidas frente a decisiones a nivel regional, departamental y distrital de esta manera se evitara el incremento de contagio y muerte de
muchas personas.

Keywords— Contagio; COVID-19; Machine learning; Prevención; Pronóstico.

Manuscript received 15 Oct. 2020; revised 29 Jan. 2021; accepted 2 Feb. 2021. Date of publication 17 Feb. 2021.
IJASEIT is licensed under a Creative Commons Attribution-Share Alike 4.0 International License.

I. INTRODUCTION posteriormente ocasiona una infección, en la cual, el sistema


El presente trabajo de investigación se realizó en inmune empieza a librar una batalla, si este virus logra vencer
consecuencia a los estragos que está produciendo el COVID- la persona termina en una fulminante pulmonía, de lo
19 en los países. Como se sabe este nuevo virus se inició en la contrario la persona queda con secuelas.
República Popular China, este virus se presentó en la ciudad La Organización Mundial de la Salud manifestó que [2] la
de Wuhan, para luego extenderse rápidamente hacia todos los emergencia sanitaria se ha propagado de una manera muy
países sin discriminar ninguno, llegando a declararlo como rápida en todo el mundo por lo tanto se realizó un estudio
una pandemia desde el día 11 de marzo del año 2020. donde se preguntaron ¿Qué tan riesgoso puede ser el COVID-
El COVID-19 apareció como una nueva enfermedad [1] 19 en el mundo? para responder esta pregunta usaron muestras
que se inició a finales del 2019, que ha desolado a todo el nacionales (NTOTAL = 6.99 1) de 10 países de Asia, Europa
mundo y ha provocado innumerables muertes y contagios con y América, en la cual se encontró que el riesgo más alto era en
este virus, que mayormente se da a través del aire y el Reino Unido como primer lugar y Italia como segundo
principalmente afecta al sistema respiratorio, también se lugar.
observó casos menores de otros órganos afectados, este virus Por parte de las Instituciones de Salud Mundial y por los
empieza a contagiar la mayoría de células dentro del gobiernos de distintos países [3] no ha salido ningún estudio
organismo iniciando de esta manera su invasión que de afectados en base al género por el COVID-19, por lo cual
no hay nada que establezca de qué manera distinta afecta este género, de la cual se logre aplicar los niveles de alerta
virus a las mujeres y a los hombres, el cual si se estableciera sanitaria y medidas preventivas según el nivel de alerta.
sería de suma importancia y utilidad. El objetivo de esta investigación es pronosticar el índice de
La Universidad Johns Hopkins y otros foros hicieron un [4] contagiados por COVID-19 para la prevención de los casos
estudio de investigación de 425 casos, de las cuales se muestra positivos de las regiones del Perú y así lograr aminorar que
que la cifra de gente que afecta el COVID-19 se puede doblar siga avanzando la propagación del virus COVID-19 e infecte
cada 7 días y que cada 2.2 personas son contagiadas por a más personas.
personas infectadas por el virus. Estos estudios señalan que las En la sección II se explica el material y método a utilizar,
personas con más de 60 años corren más peligro que los niños, en la sección III los resultados y discusiones, y finalmente en
ya que si estos últimos llegaran a contraer el virus solo la sección IV las conclusiones.
mostrarían síntomas muy leves.
Estos estudios demuestran lo que el COVID-19 ha II. THE MATERIALS AND METHOD
provocado a todo el mundo y lo que sigue afectando a todos
los países que todavía siguen luchando para que esta
pandemia acabe.
Hasta la fecha 23 de marzo del 2021, revisando los datos
abiertos publicados por la Universidad Johns Hopkins, esta
enfermedad cuenta con más de 144 millones de casos
positivos y más de 3 millones de muertes en todo el mundo.
El 6 de marzo del 2020 a través de un anuncio del
presidente de turno, se confirmó el primer caso de COVID-19
en el Perú, tras ello se decretaron varias medidas y protocolos
sanitarios, como el lavado de manos, distanciamiento social,
uso de mascarilla, cierre de fronteras y una cuarentena total
que paralizó a todo el país, todo esto con el fin de detener los
casos positivos y no saturar el sistema de salud. Las medidas
no fueron suficientes y los contagios aumentaron al pasar de
los días.
Se realizo un análisis planteado por Saaty, en el cual [5] se
usó un procedimiento de teledetección y un sistema de
información geográfica para indicar que regiones del Perú Fig. 1 Metodología de ciencia de datos para el pronóstico del índice de
contagios por COVID-19
estaban en alto riesgo, por lo tanto, los resultados arrojaron
que el 68% tienen la probabilidad de contraer el COVID-19 y
En esta sección, se explica la metodología que se llevó a
los principales distritos identificados están ubicados en el
cabo en el pronóstico del índice de contagios por COVID-19,
centro del País, tales como Lima y Callao que poseen el
para la prevención de casos positivos, logrando así los
mayor crecimiento de casos por COVID-19, también se
objetivos propuestos con el apoyo de esta metodología que se
encuentra identificado el extremo norte del país donde se
muestra en la Fig.1.
considera a la amazonia como una de las más afectadas
teniendo a Loreto con una de las tasas de contagios más alta A. Enfoque Analítico
del Perú solo por detrás de Lima. Esta primera etapa [8] de la metodología se enfoca en la
En el Perú debido al mal manejo que han tenido las firmeza de hacer un análisis enorme y detallado, posibilitando
autoridades con respecto a las medidas adoptadas para el desarrollo para encontrar un enfoque eficaz en base al
contener la pandemia del COVID-19, tanto el gobierno central problema planteado, y de esta manera lograr dar una solución
como los gobiernos regionales, al no considerar que más del efectiva, gracias a este enfoque analítico es de donde nace la
70% de los peruanos trabaja en el sector informal y que la propuesta analítica.
mayor parte de la población no cuenta con servicios básicos
en su hogar, por esa razón no pudieron cumplir con la B. Requerimientos de Datos
cuarentena y las normas sanitarias establecidas por el gobierno Esta segunda etapa [9] de la metodología se establecen las
central siendo esta la razón de que la enfermedad se halla siguientes preguntas: ¿Qué datos serán necesarios? y ¿De
extendido por todo el territorio peruano, llegando a los más dónde obtendremos estos datos?, una vez obtenido las
vulnerables de la población [6], dejando un conjunto de respuestas de estas preguntas se traza el camino para
personas afectadas que para la fecha 23 de abril del 2021 se responder las preguntas de las siguientes etapas: ¿De qué
calculan en 1 millón 700 mil 200 casos positivos y 57 mil 974 manera se recolectarán estos datos?, ¿Como se logrará
muertes. entender estos datos? y por último ¿De qué forma se tratarán
En el país de Perú la tasa de infección y fallecimiento por el estos datos para que cumplan con la propuesta analítica? Aquí
nuevo coronavirus es mayor en hombre que en mujeres [7], es donde se tiene que contar con un conocimiento y dominio
debido a este suceso y todo lo que está pasando en la del problema, ya que esta parte es crucial para obtener una
actualidad, el alcance de este trabajo radica en obtener mayor descripción detallada de los datos que se necesitarán.
conocimiento con respecto a pronosticar por regiones donde
se propaga más infectados por COVID-19 con relación al C. Recolección de Datos
Esta tercera etapa [10] de la metodología nos dice que resolución de este se eligió o seleccionó el modelo de Árbol
luego de haber encontrado los datos que serán necesarios y las de decisión, el cual es un conjunto de elementos de los
fuentes de donde se obtendrán estos datos se tiene que pasar a posibles resultados de una serie de decisiones relacionadas
recolectar los datos de esas distintas fuentes encontradas en la que permite comparar posibles “acciones” entre sí, con el
investigación, es aquí donde se obtendrá una descripción del objetivo de anticipar la mejor opción. Este Árbol de decisión
origen de los datos y la estrategia utilizada para recolectarlos. comienza con un nodo y luego se ramifica en resultados
posibles, cada uno de estos resultados crean nodos, que se
D. Entendimiento de Datos ramifican en otras posibilidades, este Árbol de decisión cuenta
Esta cuarta etapa [11] de la metodología nos dice que luego con tres tipos de nodos, el primero conocido como nodo de
de haber obtenido todos los datos que se necesitarán para la decisión el cuál muestra una decisión que se tomará, el
resolución de la problemática, se tendrá que centrarse en el segundo conocido como nodo de probabilidad el cuál muestra
análisis de estos datos, logrando comprender sus valores las probabilidades de ciertos resultados, y, por último, pero no
atípicos y patrones, esto nos sirve para entender los datos que menos importante el nodo terminal el cuál muestra el
tenemos y así tomar decisiones acertadas en base a su calidad. resultado definitivo de una ruta de decisión. Estas partes del
Árbol de decisión nombrados se pueden visualizar en la Fig.
E. Preparación de Datos
2.
Esta quinta etapa [12] de la metodología es más compleja
que las anteriores etapas, ya que aquí se tendrá que limpiar los
datos, refinándolos y mejorándolos, en este proceso de
limpieza, refinamiento y mejora se encontrará con problemas
de datos faltantes, valores no permitidos, valores duplicados,
los cuales se tienen que resolver, ya que de aquí es de donde
se obtendrá un conjunto de datos limpio y listo para ser usado
en el modelo.
F. Preparación del Modelo
Esta sexta etapa [13] de la metodología nos dice que luego
de tener el conjunto de datos limpio y listo para ser usado en
el modelo, se busca y se construye el modelo, el cual tiene que
solucionar la problemática en cuestión, además de encajar con
los datos de la manera más “buena” o mejor posible; en esta
etapa es donde se define el modelo con la realización del
machine learning de los datos, además de ajustar el modelo en
base a su objetivo y características.
G. Evaluación del Modelo Fig. 2 Árbol de decisión
Esta séptima [14] y última etapa de la metodología es la
más importante ya que nos dice que se tiene que evaluar el B. Requerimientos de Datos
modelo poniéndolo a prueba con nuevos datos y observar lo Para empezar el desarrollo de esta etapa [16], cabe
que ocurra, esto quiere decir que esta etapa determina que tan mencionar que los pasos que se realizan aquí son importantes,
efectivo o no es el modelo en base a los resultados de la ya que de estos depende la solución del problema, esta etapa
evaluación. nos dice que se tiene que buscar los datos para que en base a
esto las siguientes etapas de recolectar, entender y preparar los
III. RESULTS AND DISCUSSION datos se puedan realizar y de esta manera se pueda solucionar
el problema en cuestión. En esta etapa de la metodología de
A. Enfoque Analítico ciencia de datos, se identificó el contenido, los formatos y las
En esta etapa de la metodología de ciencia de datos [15], fuentes de datos necesarios; para este propósito se empleó la
luego de determinar el problema, se resolvió una pregunta, la Plataforma Nacional de Datos Abiertos del Perú que en
cual es ¿Que enfoque analítico es perfecto para la solución del palabras simples es una página de recopilación de datos, está
problema?, para responder esta pregunta, se realizó una página cuenta con tres menús desplegables, el primero
búsqueda para seleccionar el enfoque analítico adecuado para llamado categorías el cual nos muestra un conglomerado de
la resolución del problema, en este caso se tiene que clasificación según el criterio deseado, el segundo llamado
pronosticar el índice de contagios por el nuevo coronavirus etiquetas el cuál sirve para dar un orden y un sentido que el
2019 (2019-nCoV o COVID-19), el cual nos infiere que se menú desplegable categoría no ofrece, esto quiere decir que
tiene que realizar un modelo predictivo, para decirlo de forma las etiquetas muestran el contenido más interesante, y por
breve, un modelo predictivo es un conjunto de procesos último pero no menos importante el llamado formato el cual
ejercidos a través de técnicas computacionales que ayuda a sirve para conocer la forma en que la información se organiza
determinar la probabilidad que ocurran determinadas y se codifica en un archivo informático. Ya mencionado esto
situaciones anteriores o predecesoras a su “resultado”. se puede explicar que esta Plataforma Nacional de Datos
Después de esta breve pero importante mención de ¿Qué es un Abiertos con instrumentos técnicos y normativos de la
modelo predictivo?, se relata en esta investigación que para la Administración Pública y ser el único punto de contacto
digital del Estado Peruano se seleccionó ya que gracias a su
manera de “organización” es perfecto para los requerimientos
de datos de esta investigación, ya que para la solución de esta
investigación se utilizó el formato Valores Separados por
Comas (CSV), además de que la fuente de datos proviene del
Fig. 5 Primeras filas del Dataframe
Instituto Nacional de Salud (INS) y del Centro Nacional de
Epidemiologia, prevención y Control de Enfermedades (CDC)
del Ministerio de Salud del Perú (MINSA). Y con esto ya se Finalmente se utilizó la función shape() para mostrar las
tiene definido el contenido, el formato y las fuentes de los dimensiones del Dataframe, esto quiere decir que el conjunto
datos. de datos seleccionado llamado “positive_covid_data” consta
de 1 590 209 filas con 9 columnas. Esto se puede observar en
C. Recolección de Datos la Fig. 6.
Una vez que ya se posee la recolección de datos [17] se
determinó si se tenía todo lo necesario para dar solución al
problema, por lo cual se tuvo que revisar los requerimientos
de datos para preguntarse si no se necesitaban más o menos
datos de los datos ya obtenidos. Como ya se mencionó el
recurso de los datos para la solución de esta investigación, Fig. 6 Dimensiones del Dataframe
será un archivo CSV de la Plataforma Nacional de Datos
Abiertos del Perú, cabe resaltar que este archivo contiene D. Entendimiento de Datos
datos estructurados. Ahora que ya se cuenta con los datos En esta etapa de la metodología [18] se buscó tener una
disponibles se empezó a programar, para lo cual se utilizó el idea clara de los datos, que se vieron en la recolección de
software de distribución libre y abierta conocida como datos. Aquí se buscó familiarizarse con los datos para
Anaconda en el cual se puede programar en lenguaje Python, encontrar problemas y obtener conocimiento en cuanto a la
junto a este software también se trabajó con Jupyter Notebook información, en este caso no se encontraron problemas, pero
el cual es un entorno portátil informático interactivo. Lo si se obtuvo conocimiento sobre los datos. En la programación
primero que se hizo fue descargar la biblioteca “pandas”y se observa que se utilizó “import re”el cual es una biblioteca
asignarle el alias “pd” esto se utilizó para leer los datos del para expresiones regulares esto se puede observar en Fig. 3,
Dataframe, luego se guardó la ruta de archivo en una variable luego se utilizó el bucle “for” anidado el cual es un bucle que
para un acceso más fácil; luego se leyó y almaceno los datos se encuentra en el cuerpo del bucle de otro bucle, para el
en un Dataframe titulado positive_covid_data, además de primer bucle se usó una variable llamada “header” con el
separar los argumentos con el parámetro “sep”; y por último elemento iterable llamado “headers” el cual es una lista de los
se usó la función print() para imprimir un mensaje en esta encabezados que se tiene en el Dataframe y para el segundo
ocasión ”Data read into dataframe!”. Esto se puede observar bucle se usó una variable llamada “match” con el elemento
en la Fig. 3. iterable [(re.compile(".*(D).*")).search(header)] en el cual
“search()” es una función que busca coincidencias con valores
que tengan la letra “D” y el cuerpo del bucle tiene una
sentencia condicional “if” con la condición de “match” y con
la orden de la función “print()” el cual es imprimir
“match.group(0)” el cual imprime la variable “match”
localizando la expresión de coincidencia completa con
“group(0)”. Esto se puede observar en la Fig. 7 y Fig. 8 en
código largo y corto respectivamente.

Fig. 3 Lectura de datos

Luego se utilizó “columns” para mostrar las etiquetas de las


columnas del Dataframe “positive_covid_data”. Esto se puede
observar en la Fig. 4.

Fig. 7 Bucle anidado del Dataframe (Largo)

Fig. 4 Etiquetas de las columnas del Dataframe

Después se utilizó la función head() para mostrar las


primeras 5 filas del Dataframe “positive_covid_data”. Esto se
logra visualizar en la Fig. 5. Fig. 8 Bucle anidado del Dataframe (Corto)
E. Preparación de Datos
En esta etapa de la metodología de ciencia de datos [19] se
eliminó elementos no deseados, cabe resaltar que esta etapa
junto a la etapa de recolección de datos y entendimiento de
datos son las etapas que más tiempo abarcaron en esta
investigación. En esta etapa se realizó la transformación de los
datos, esto se realizó para trabajar con los datos de una manera
más eficaz, por lo cual es aquí donde se explica la manera en
que se prepararon los datos con respecto a los valores
faltantes, valores no válidos y valores duplicados con el fin de
garantizar los datos para que estén listos para el modelo.
También en esta etapa se va a establecer las características ya Fig. 10 Corrección del nombre de la columna
que ellas son importantes porque se usan en el modelo, el cual
es el artefacto para la solución del problema planteado, y para Luego se corrigió los valores de las filas, esto se realizó
culminar esta etapa es la que establece todo lo necesario para mediante “loc” el cual accede a un grupo de filas por etiqueta,
la etapa de preparación del modelo, ya que esta asegura los estas filas por etiqueta se establecieron dentro del corchete de
datos que se usaron en el algoritmo de machine learning el loc “[positive_covid_data[‘SEX’] = = ‘FEMENINO’, ‘SEX’]”
cual es el Árbol de decisión. Para empezar, se observó los el cual dice que el grupo de filas al que accedió es “SEX” por
datos para determinar si es necesario limpiarlos para lo cual se la etiqueta “[positive_covid_data[‘SEX’] = =
usó “value_counts()” el cual muestra una serie que contiene ‘FEMENINO’]”, luego se empezó a corregir los valores de las
recuentos en orden descendente de valores únicos, cabe filas esto se puede observar en la Fig. 11.
resaltar que “value_counts()” no realiza el recuento de valores
NA. Al observar la tabla de frecuencia se puede observar que
el nombre del encabezado esta expresado en otro lenguaje por
lo cual es inexacto, también se observa que la “forma” en que
están “escritos” los valores no son inconsistentes ya que todos
están en mayúscula, también se observa que existen valores
duplicados, y por último se observa muy pocas personas por
distrito lo cual puede dar como resultado un pronóstico
incorrecto. Esto se puede observar en la Fig. 9.

Fig. 11 Corrección de valores de la columna SEX


Luego se corrigió la “forma” en que están escritos los
valores para que sean consistentes, en este caso se optó por
poner la primera letra de cada palabra en mayúscula para lo
cual se usó “str” acompañado del método title(). Esto se puede
observar en la Fig. 12.

Fig. 9 Tabla de frecuencia

Desde aquí se empezará a mostrar la manera en que se


solucionó los problemas presentados en la Fig. 9 primero se
corrigió el nombre de los encabezados, para esto se utilizó
“columns” y “values” el cual en conjunto muestra en un
arreglo los valores de los encabezados de las columnas del
Fig. 12 Corrección de valores no consistentes
Dataframe “positive_covid_data”, esto se guardó en una
variable “column_names” que luego se utilizó para obtener Después se corrigió los valores duplicados que existían,
sus elementos, esto se hizo por medio de sus índices, ya esto se realizó mediante “loc” el cual accede a un grupo de
ubicados los índices se pasó a corregir los nombres de los filas por etiqueta, estas filas por etiqueta se establecieron
encabezados, esto se puede observar en la Fig. 10. dentro del corchete de loc
“[positive_covid_data(‘DEPARTAMENT’) = = ‘Lima
Region’, ‘DEPARTAMENT’]” el cual dice que el grupo de
filas al que accedió es “DEPARTAMENT” por la etiqueta
“[positive_covid_data(‘DEPARTAMENT’) = = ‘Lima
Region]’” luego se empezó a corregir los valores duplicados
de las filas en este caso “Lima Region” por “Lima” que son lo
mismo solo expresado de manera distinta. Esta corrección se
puede observar en la Fig. 13.

Fig. 15 Eliminación de valores faltantes

Más tarde se convirtió los valores de las columnas en datos


numéricos ya que el algoritmo de machine learning que se usó
funciona con datos numéricos es por eso que se necesitó
generar una representación numérica compatible con el
Fig. 13 Corrección de valores duplicados modelo para lo cual se usó el enfoque de codificación llamado
“Label encoding” que lo que hace es reemplazar el valor de la
En la programación se observa que se utilizó “import columna con un valor numérico entre 0 y el número máximo
numpy as np”el cual es una biblioteca que ayudo en el proceso de valores únicos de la columna menos 1 en orden alfabético.
de generar una lista nueva de distritos con más de 50 personas En la programación con la ayuda de “info()”se observa un
contagiadas esto se puede observar en Fig. 3, una vez resumen del Dataframe llamado “positive_covid_data” este
importando “numpy” se guardó en la variable muestra sus tipos de datos donde se visualiza que algunas
“positive_covid_data_counts” cuantas personas hay por columnas tienen valores que no son numéricos por lo cual fue
distrito, luego en la variable “district_indices” se estableció necesario el uso de “Label encoding” esto se observa en la
con ‘True’ los distritos que tienen más de 50 personas y con Fig. 16.
“False” los distritos que tienen menos de 50 personas, luego
en la variable “district_to_keep” se guardó la lista de distritos
para mantener. El proceso de la creación de esta nueva lista se
puede observar en la Fig. 14. Esta misma figura muestra el
número de filas del dataframe original, el número de filas del
marco procesado (nuevo) y el número de filas que se
removieron.

Fig. 14 Nueva lista de distritos con alto contagio

Fig. 16 Tipos de datos del Dataframe


Posteriormente se observó que la data de contagios por
COVID-19 tenía valores faltantes, por lo cual aquí se mostrara Una vez visualizado los tipos de datos del Dataframe se
como se trabajó con estos valores faltantes. Lo que se hizo utilizó la forma “Category codes” para aplicar “Label
fue eliminar valores faltantes, ya que estos al no estar encoding”. Para utilizar la forma “Category codes” primero se
disponibles bloquean el funcionamiento de la programación. convirtio los tipos de datos en tipo categoría. Esta “mutación”
Esta eliminación de valores faltantes se puede observar en la se logra visualizar en la Fig. 17.
Fig. 15.
Fig. 17 Conversión de valores del Dataframe

Más adelante de la conversión de los valores a tipo


categoría se pudo utilizar la forma “Category codes” el cual
genero una representación numérica compatible con el
modelo. La aplicación de “Label encoding” en la forma de Fig. 21 Modelo de Árbol de decisión
“Category codes” se puede visualizar en la Fig. 18.
En la Fig. 22 se logra visualizar que se realizó un
pronóstico para los siguientes cinco casos positivos (0, 1, 2, 3
y 4) y también se logra visualizar los pronósticos de estos
cinco casos positivos, donde se usó la función round() que
devuelve el número entero más cercano, esto se utilizó para
mostrar con claridad a que sexo pertenece cada pronóstico.
Entonces se puede decir que si el resultado es “0” el sexo es
femenino y si el resultado es “1” el sexo es masculino

Fig. 18 Aplicación de la forma Category codes

Finalmente se almaceno el objetivo del pronóstico en la


variable “y” esto se puede observar en la Fig. 19, después de
establecer el objetivo se seleccionó una lista de columnas que
se ingresaron en el modelo para que se usen para el
pronóstico, a esto se le conoce como “features” el cual se
Fig. 22 Pronostico de los datos de entrenamiento
almaceno en la variable “X” esto se puede observar en la Fig.
20.
Para conocer los valores de texto que representan estos
valores numéricos se utilizó la hoja de cálculo Microsoft
Excel, para esto se duplico el CSV que sirvió para el
pronóstico y se eliminó duplicados de las columnas
enumerando las filas por cada valor. Esto se realizó gracias a
Fig. 19 Objetivo del pronóstico la herramienta de datos para quitar duplicados y a la función
FILA de la hoja de cálculo Microsoft Excel. El resultado de
esto se puede observar en la Fig. 23.

Fig. 20 Features del pronostico

F. Preparación del Modelo


En esta etapa de la metodología de ciencia de datos [20] se
utilizó la biblioteca “scikit-learn” para crear el modelo, cabe
resaltar que esta biblioteca se escribe “sklearn”, una vez
establecido la biblioteca “scikit-learn” se definió el modelo y
se especificó un número “int” para “random_state” el cual
garantiza los mismos resultados en cada ejecución cuando se
le establece un número “int” y por último se ajustó el modelo
en base a las “Features” y el objetivo. En la Fig. 21 se muestra
el modelo definido y ajustado.
Fig. 25 Dataframe para evaluar los resultados

Como se mencionó la variable “dataframe_to_evaluate”


sirvió como base para comparar los resultados del pronóstico
obtenido de los datos del índice del 100 al 101 con los datos
del dataframe llamado “dataframe_to_evaluate”, y esto es
porque gracias a esta variable se pudo realizar el código visto
y ejecutado en la Fig. 26 que lo que hace es mostrar la
cantidad de personas de sexo femenino ubicados en el
Departamento 14, en la Provincia 111 y en el Distrito 178 la
cual es perteneciente al índice 100 del pronóstico.

Fig. 23 Representación de los valores numéricos

G. Evaluación del Modelo


En esta última etapa de la metodología de ciencia de datos
[21] se evaluó el modelo con nuevos datos, lo primero que se
hizo antes de realizar la evaluación fue observar el pronosticó
que se realizó en la etapa de preparación del modelo donde el
pronóstico se basó en los datos del índice del 0 al 4, por lo Fig. 26 Dataframe para evaluar en base al sexo femenino
cual la evaluación tiene que diferir de ese rango de índices, es
por eso que en esta etapa se utilizó los datos del índice del 100 También gracias a la variable llamada
al 101 para determinar la efectividad del modelo en base a los “dataframe_to_evaluate” se pudo realizar el código visto y
resultados de la evaluación. En la Fig. 24 se muestra la ejecutado en la Fig. 27 que lo que hace es mostrar la cantidad
evaluación del modelo. de personas de sexo masculino ubicados en el Departamento
14, en la Provincia 111 y en el Distrito 178 la cual es
perteneciente al índice 100 del pronóstico.

Fig. 24 Nuevos datos para comparar

Para evaluar los resultados se tuvo que crear una variable


llamada “dataframe_to_evaluate” que se puede observar en la
Fig. 25 la cual sirvió como base para comparar los resultados Fig. 27 Dataframe para evaluar en base al sexo masculino
del pronóstico obtenido de los datos del índice del 100 al 101
con los datos del dataframe llamado “dataframe_to_evaluate”. Los resultados de esta evaluación fueron positivos ya que al
comparar el pronóstico obtenido de los datos del índice 100
que dice que el sexo es masculino con los datos del dataframe
llamado “dataframe_to_evaluate” que dice que hay 151
personas del sexo femenino y 178 personas del sexo
masculino en el Departamento 14 en la Provincia 111 y en el
Distrito 178 se obtuvo los mismos resultados lo cual quiere
decir que la efectividad del modelo es óptima.
Para finalizar se utilizó el módulo “sklearn.metrics”, una se tuvo que tomar como base el conocimiento de la etapa de
vez establecido el módulo se guardó Entendimiento de Datos para luego utilizarlo en la Etapa de
“positive_covid_data_model.predict(X)” en la variable Preparación de Datos, lo que se hizo en esta etapa fue agrupar
“predicted_positive_cases_sex” para luego implementar la los valores de los departamentos duplicados con esto se quiere
función “mean_absolute_error” que como su nombre lo indica decir que existían departamentos “extras” que en realidad eran
calcula el error absoluto medio (MAE), es en esta función los mismos departamentos que ya estaban en el Dataframe
donde se colocó como primer parámetro el objetivo del solo que el nombre de estos departamentos estaban expresados
pronóstico y como segundo parámetro el pronóstico de los de manera distinta por lo cual se tuvo que agrupar estos
casos positivos por sexo, esta función se usó para evaluar la departamentos al departamento correspondiente y así lograr
calidad del pronóstico del modelo y así poder corroborar que formar un departamento que contenga todos sus valores
tan cerca está el pronóstico del modelo con respecto a lo que respectivos los cuales inicialmente se encontraban repartidos.
realmente sucede. Este MAE se puede observar en la Fig. 28. Esta solución se puede observar en la Fig. 30 que muestra que
la cantidad de departamentos del Dataframe procesado es 25 y
no 26 como era en el Dataframe original.
Asimismo se logra ver en la Fig. 29 que el departamento de
Lima inicialmente contaba con una cantidad de 689 177
personas contagiadas por COVID-19 lo cual era incorrecto
Fig. 28 MAE del modelo porque al departamento de Lima le faltaban valores los cuales
estaban como departamentos “extras” en este caso parte de los
En el gráfico de barras que se muestra en la Fig. 29 se
puede observar el título del eje x llamado valores del departamento de Lima estaba en un departamento
“extra” llamado “Lima Region” que contaba con una cantidad
“DEPARTAMENTO” el cual está escrito en lenguaje español
que no es correcto ya que para un entendimiento conjunto se de 52 779 personas contagiadas por COVID-19 lo que quiere
decir que en realidad el departamento de Lima contaba con
tuvo que establecer el lenguaje escrito en ingles por lo cual al
compararlo con la Fig. 30 se puede notar el cambio en ese 741 956 personas contagiadas por COVID-19 pero en la etapa
de Preparación de Datos la cantidad de personas contagiadas
aspecto ya que no está escrito “DEPARTAMENTO” sino
“DEPARTMENT” y esta corrección es gracias a la etapa de por COVID-19 en el departamento de Lima se redujo a 740
252 personas contagiadas por COVID-19 este resultado de la
Preparación de Datos.
Preparación de Datos con respecto al departamento de Lima
se puede observar en la Fig. 30.

Fig. 29 Departamentos del Dataframe original

Fig. 30 Departamentos del Dataframe procesado

Igualmente, en el gráfico de barras que se muestra en la


Fig. 29 se pueden observar los nombres de los departamentos
del Dataframe original lo cual no es correcto ya que para la
etapa de Preparación del Modelo se necesitan que los valores
sean numéricos por lo cual al compararlo con la Fig. 30 se
puede notar el cambio en ese aspecto y esto es gracias a la
etapa de Preparación de Datos que genero una representación
numérica para cada nombre de los departamentos.
De igual importancia en el gráfico de barras mostrado en la
Fig. 29 se pueden observar barras duplicadas solo que esto no
se nota a simple vista por lo cual requiere un análisis de los
datos para lograr una comprensión adecuada, esto se realizó
gracias a la etapa de Entendimiento de Datos ya que para Fig. 31 Visualización del Árbol de decisión
lograr solucionar el problema de las barras duplicadas primero
En esta visualización que se muestra en la Fig. 31 se puede Fig. 32 Departamentos del Dataframe procesado en base al sexo femenino
observar el árbol de decisión con respecto al Departamento de
Lima y a la Provincia de Lima en base a los Distritos del En este gráfico de barras que se muestra en la Fig. 32 se
Dataframe procesado por lo cual al compararlo con la Fig. 22 puede observar un aumento masivo de casos positivos de
se puede notar que el pronóstico del índice 1 se realizó en base COVID-19 en el departamento de Lima en base al sexo
a esta visualización del árbol de decisión ya que el índice 1 femenino el cual ocupa el primer lugar con un total cercano a
dice que el pronóstico del Departamento 14, la Provincia 111 los 350 000, siendo esto un factor riesgoso por el gran
y el Distrito 178 será de sexo masculino y la visualización del incremento de contagios. También se observa que el
árbol de decisión dice lo mismo pero este lo expresa de forma departamento del Callao registra un número cercano a los 40
gráfica. Para empezar a interpretar la visualización del Árbol 000, ocupando el segundo lugar en los departamentos más
de decisión se tiene que saber lo que hace esta visualización y afectados por el COVID-19. Asimismo, el tercer
esto es que la visualización muestra el proceso de cómo se departamento de más infectados sería Arequipa el cual registra
llegó a pronosticar el sexo del índice 1 donde el Distrito tiene casi un total de 30 000. De igual importancia se puede
como representación numérica el número 178, este proceso de observar en la parte intermedia del gráfico que los
la visualización empieza por establecer una condición que departamentos como Loreto, San Martín, Ucayali y Huánuco
luego se evalúa según sea VERDADERA o FALSA, si la poseen una cantidad de 10 000 casos notando que ninguno de
condición es VERDADERA continuaría por el lado izquierdo, estos llega a los 50 000, lo cual sería algo positivo para la
si la condición es FALSA continuaría por el lado derecho. El población de mujeres de esta región. Además de estos
Árbol de decisión empieza con la condición que dice que departamentos de alto y medio riesgo también se puede
“DISTRICT <= 57.0” en este caso continuaría por el lado observar departamentos de bajo riesgo donde la cantidad de
derecho, luego establece otra condición que dice que contagiados es casi la misma logrando un empate en este
“DISTRICT <= 371.0” en este caso continuaría por el lado sentido entre los departamentos de Apurímac, Pasco, Madre
izquierdo, luego establece otra condición que dice que de Dios y Huancavelica donde se observó un menor índice de
“DISTRICT <= 217.0” en este caso continuaría por el lado casos con una cantidad menor a 5 000. Para finalizar los
izquierdo, luego establece otra condición que dice que resultados de este gráfico afirman que el departamento de
“DISTRICT <= 91.5” en este caso continuaría por el lado Lima sobrepasa la cantidad de afectados por el virus en base a
derecho, luego establece otra condición que dice que los demás departamentos.
“DISTRICT <= 158.5” en este caso continuaría por el lado
derecho, luego establece otra condición que dice que
“DISTRICT <= 195.5” en este caso continuaría por el lado
izquierdo, luego establece otra condición que dice que
“DISTRICT <= 183.5” en este caso continuaría por el lado
izquierdo es aquí donde se llegó a la profundidad máxima del
Árbol de decisión con un valor de 0.52 que con la función
round() que se utilizó en la preparación del modelo devolvió
el número entero más cercano en este caso “1” por lo cual se
pronostica que el Departamento 14, la Provincia 111 y el
Distrito 178 será masculino ya que el sexo masculino tiene la
representación numérica de “1”.

Fig. 32 Departamentos del Dataframe procesado en base al sexo masculino

En este gráfico de barras que se muestra en la Fig. 33 se


muestra el índice de contagios en base al sexo masculino
desde el departamento con más casos de COVID-19 hasta el
departamento con menor infección, siendo el departamento de
Lima el de mayores casos con una cantidad de casi 400 000
hombres contagiados y Huancavelica el de menor casos con
una cantidad menor a 5 000 casos. También se observa que el
departamento del Callao registra un número cercano a los 50 con el fin de pronosticar el índice de contagios por COVID-19
000 ocupando el segundo lugar en los departamentos más con base a los nuevos estándares del software propuesto.
afectados por el COVID-19. Asimismo, el tercer
departamento de más infectados sería Arequipa el cual registra REFERENCES
casi un total de 40 000 casos. Además, se puede observar que [1] S. M. Hassan, M. J. Jawad, S. W. Ahjel, R. B. Singh, J. Singh, S. M.
el resto de departamentos tales como Ancash, Cusco, Loreto, Awad, N. R. Hadi, “The Nrf2 activator (DMF) and covid-19: is there a
Huánuco y otros no registran un alto índice de contagios possible role?” Medical Archives, 74(2), 134, 2020,
doi:10.5455/medarh.2020.74.134-138.
poseyendo estos una cantidad que no superan los 50 000 [2] S. Dryhurst, C. R. Schneider, J. Kerr, A. L. Freeman, G. Recchia, A.
casos. De igual importancia se observa en el gráfico con M. Van Der Bles, D. Spiegelhalter, S. van der Linden, “Risk
respecto al caso de hombres que el departamento de Lima perceptions of COVID19 around the world,” Journal of Risk Research,
muestra un incremento masivo de contagiados por COVID-19 23(7-8), 994–1006, 2020, doi:10.1080/13669877.2020.1758193.
[3] C. Wenham, J. Smith, R. Morgan, “COVID-19: the gendered impacts
que supera fuertemente al resto de departamentos del Perú. of the outbreak,” The lancet, 395(10227), 846–848, 2020,
Después de analizar los dos gráficos anteriores se observa doi:10.1016/S0140-6736(20) 30526-2.
que en el departamento de Lima a ocurrido la mayor infección [4] T. P. Velavan, C. G. Meyer, “The COVID-19 epidemic,” Tropical
en hombres que mujeres, ya que el género masculino cuenta medicine & international health, 25(3), 278, 2020,
doi:10.1111/tmi.13383.
con 400 000 casos a diferencia del género femenino que [5] E. Badillo-Rivera, A. Fow-Esteves, F. Alata-Lopez, P. Vir ´ u-V´
cuenta con 350 000 casos de contagios. También se pudo asquez, ´ M. Medina-Acuna, “Environmental and social analysis as risk
visualizar que en los departamentos del Callao, Arequipa, factors for ˜ the spread of the novel coronavirus (SARS-CoV-2) using
Piura y La Libertad que el índice de contagios tanto de remote sensing, GIS and analytical hierarchy process (AHP): Case of
Peru,” medRxiv, 2020, doi:10.1101/2020.05.31.20118653.
hombres como mujeres no llega a los 50 000, dando como [6] C. Munayco, G. Chowell, A. Tariq, E. A. Undurraga, K. Mizumoto,
resultado un empate en este aspecto. Donde se pudo apreciar “Risk of death by age and gender from CoVID-19 in Peru, March-May,
una diferencia es en la parte intermedia de los gráficos que 2020,” Aging (Albany NY), 12(14), 13869, 2020,
muestra una diferencia mínima en los departamentos de doi:10.18632/aging.103687.
[7] W. Cabanillas-Rojas, “BEHAVIOR AND SPREAD OF COVID-19 IN
Loreto, San Martín, Ucayali y Puno ya que en el género PERU: A FRAMEWORK FOR THE DESIGN BEHAVIORAL
femenino hay una cantidad no mayor a 10 000 casos y en el PUBLIC HEALTH INTERVENTIONS,” in BEHAVIOR AND
género masculino hay una cantidad no menor a 12 000 casos, SPREAD OF COVID-19 IN PERU: A FRAMEWORK FOR THE
generando como resultado que la población de mujeres tengan DESIGN BEHAVIORAL PUBLIC HEALTH INTERVENTIONS,
2020, doi:10.1590/SciELOPreprints.868.
menor cantidad de contagios que la población de hombres. [8] F. Foroughi, P. Luksch, “Data science methodology for cybersecurity
Asimismo, se pudo observar que había menos casos de projects,” arXiv preprint arXiv:1803.04219, 2018.
contagios en los departamentos de Apurímac, Madre de Dios, [9] M. Khalaf, A. J. Hussain, D. Al-Jumeily, T. Baker, R. Keight, P.
Pisco y Huancavelica los cuales no sobrepasan la cantidad de Lisboa, P. Fergus, A. S. Al Kafri, “A data science methodology based
on machine learning algorithms for flood severity prediction,” in 2018
5 000 casos en el género femenino y 4 000 casos en el género IEEE Congress on Evolutionary Computation (CEC), 1–8, IEEE, 2018,
masculino, generando como respuesta que los hombres sufren doi:10.1109/CEC.2018.8477904.
menor contagio que las mujeres. Para finalizar la discusión [10] P. R. Sharadkumar, S. S. Narayan, “Comparative analysis between
entre la Fig. 32 y la Fig. 33 se observa en ambos gráficos que theoretical and simulatory learning methods by data science
methodology approach,” in Journal of Physics: Conference Series,
el género masculino es el que más está expuesto al contagio volume 1767, 012027, IOP Publishing, 2021, doi:10.1088/1742-
del COVID-19 que el género femenino. 6596/1767/1/012027.
[11] S. N. Brohi, M. Marjani, I. A. T. Hashem, T. R. Pillai, S. Kaur, S. S.
Amalathas, “A Data Science Methodology for Internet-of-Things,” in
IV. CONCLUSION International Conference for Emerging Technologies in Computing,
Este pronóstico del índice de contagios por COVID-19 se 178–186, Springer, 2019, doi:10.1007/978-3-030-23943-5 13.
desarrolló logrando resultados óptimos, esto se puede observar [12] F. Mart´ınez-Plumed, L. Contreras-Ochando, C. Ferri, J. H. Orallo, M.
Kull, N. Lachiche, M. J. R. Quintana, P. A. Flach, “CRISP-DM twenty
en el proceso de transformación de los datos donde se muestra years later: From data mining processes to data science trajectories,”
que Lima empezó con 689 177 casos de contagio y termino IEEE Transactions on Knowledge and Data Engineering, 2019,
con 740 252 casos confirmados donde se observa un cambio doi:10.1109/TKDE.2019.2962680.
significativo; igualmente en la comprobación del modelo se [13] M. Spruit, M. Lytras, “Applied data science in patient-centric
healthcare: Adaptive analytic systems for empowering physicians and
pudo observar que el pronóstico se realizó en base al modelo patients,” 2018, doi: 10.1016/j.tele.2018.04.002.
establecido y termino con la evaluación del modelo dando [14] C. J. Costa, J. T. Aparicio, “POST-DS: A Methodology to Boost Data
como resultado un margen de error de 0.4. También se Science,” in 2020 15th Iberian Conference on Information Systems and
Technologies (CISTI), 1–6, IEEE, 2020,
observó el proceso detallado del Árbol de decisión en
doi:10.23919/CISTI49556.2020.9140932.
Machine Learning con el cual se logró el propósito del [15] A. Rizk, A. Elragal, “Data science: developing theoretical
objetivo el cual fue pronosticar los casos de contagios del contributions in information systems via text analytics,” Journal of Big
COVID-19 por regiones del Perú en base al sexo masculino y Data, 7(1), 1–26, 2020, doi:10.1186/s40537-019-0280-6.
[16] J. Lu, L. Cairns, L. Smith, “Data science in the business environment:
femenino. customer analytics case studies in SMEs,” Journal of Modelling in
En investigaciones futuras se sugiere tomar como base Management, 2020, doi:10.1108/JM2-11-2019-0274.
distintas metodologías predictivas con la finalidad de [17] J. Saltz, K. Crowston, et al., “Comparing data science project
seleccionar y fusionar los mejores procesos; y de esta manera management methodologies via a controlled experiment,” 2017.
[18] A. Y. Zadeh, M. Shahbazy, “A Review into Data Science and Its
lograr una nueva y optimizada metodología. También se Approaches in Mechanical Engineering,” arXiv preprint
implementaría un software en el cual se logre su adaptación a arXiv:2012.15358, 2020.
cualquier país, ya que no todos tienen la misma división [19] C. O. Dumitru, G. Schwarz, F. Castel, J. Lorenzo, M. Datcu, “Artificial
política (regiones, ciudades, estados y etc.), esto se realizaría intelligence data science methodology for Earth Observation,” in
Advanced Analytics and Artificial Intelligence Applications, 1–20,
IntechOpen, 2019, doi:10.5772/intechopen.86886.
[20] J. Saltz, A. Suthrland, “SKI: An Agile Framework for Data Science,”
in 2019 IEEE International Conference on Big Data (Big Data), 3468–
3476, 2019, doi:10.1109/BigData47090.2019.9005591.
[21] A. P. Sone, K. S. Moe, M. T. Myint, “COMPARISON OF DATA
SCIENCE METHODS FOR CYBER-SECURITY,” .

También podría gustarte