Informe PPPE - Cotrina Santos Milton Angeles

UNIVERSIDAD NACIONAL
“SANTIAGO ANTÚNEZ DE
MAYOLO”
FACULTAD DE CIENCIAS
ESCUELA PROFESIONAL DE ESTADÍSTICA E

INFORMÁTICA
INFORME DE PRÁCTICA PRE-PROFESIONAL EN ESTADÍSTICA
MINERIA DE DATOS SOBRE LOS CASOS QUE CUENTAN

CON SEGUIMIENTO CLÍNICO E INICIAN TRATAMIENTO
Y LAS DEFUNCIONES POR COVID-19 EN ANCASH, 2020 -
2022.
COTRINA SANTOS MILTON ANGELES
Asesor: Dr. Norabuena Figueroa Roger Pedro
Huaraz – Perú
2022
ÍNDICE
I. INTRODUCCIÓN ......................................................................................................................... 7
II. DESCRIPCIÓN Y FUNCIONES GENERALES DE LA INSTITUCIÓN .......................... 8
2.1. Descripción ............................................................................................................................. 8
2.2. Organigrama.......................................................................................................................... 8
2.3. Nombre de la Institución ...................................................................................................... 8
2.4. Unidad de Practica ................................................................................................................ 9
2.5. Representante Legal .............................................................................................................. 9
2.6. Misión y Visión de la Organización ..................................................................................... 9
2.6.1. Visión .............................................................................................................................. 9
2.6.2. Misión ............................................................................................................................. 9
2.7. Ubicación Geográfica ............................................................................................................ 9
2.8. Funciones del Área de Estadística e Informática ............................................................. 10
2.9. Horario de Practicas ........................................................................................................... 11
III. OBJETIVOS PROPUESTOS ................................................................................................ 12
3.1. Objetivo General. ................................................................................................................ 12
3.2. Objetivos Específicos........................................................................................................... 12
IV. ALCANCES Y LIMITACIONES .......................................................................................... 13
4.1. Alcances ................................................................................................................................ 13
4.2. Limitaciones ......................................................................................................................... 13
4.2.1. Limitación Técnica ...................................................................................................... 13
4.2.2. Limitación Cronológica............................................................................................... 13
4.2.3. Limitación Tecnológica ............................................................................................... 13
4.2.4. Limitación Económica ................................................................................................ 13
V. DESCRIPCIÓN DE LAS ACTIVIDADES DESARROLLADAS .......................................... 15
5.1. Actividades encomendadas o requerimiento específico solicitado por el responsable de
la institución o empresas. ................................................................................................................ 15
5.2. Justificación de que la actividad desarrollada guarda relación con la Práctica en
Estadística. ....................................................................................................................................... 16
VI. MATERIALES, MÉTODOS Y PROCEDIMIENTOS........................................................ 17
6.1. Materiales ............................................................................................................................. 17
6.1.1. Hardware ..................................................................................................................... 17
6.1.2. Hardware ..................................................................................................................... 17
6.2. Métodos ................................................................................................................................ 17
6.2.1. Tipo de investigación. .................................................................................................. 18
6.2.2. Diseño de la investigación ........................................................................................... 18
6.2.3. Población ...................................................................................................................... 18
6.2.4. Muestra......................................................................................................................... 18
6.3. Técnicas de Procedimientos ................................................................................................ 19
6.3.1. Procesamientos de Datos............................................................................................. 19
6.3.2. Técnicas de análisis de Datos ...................................................................................... 19
VII. CONCEPTOS TEÓRICOS DE LA ESPECIALIDAD, APLICADOS .............................. 20
7.1. Marco Teórico...................................................................................................................... 20
7.2. Marco Conceptual ............................................................................................................... 32
VIII. RESULTADOS, APLICACIÓN O IMPLEMENTACIÓN ............................................. 36
8.1. Preparación de los datos. .................................................................................................... 36
8.2. Modelado de los datos. ........................................................................................................ 36
8.3. Análisis de los datos............................................................................................................. 39
8.3.1. Análisis de la BB.DD - Defunciones .................................................................................. 39
8.3.2. Análisis de la BB.DD - Sospechosos .................................................................................. 42
8.3.3. Análisis de la BB.DD - Confirmados ................................................................................ 43
8.3.4. Análisis de la BB.DD - Seguimiento .................................................................................. 45
8.3.5. Análisis de la BB.DD - Tratamiento ................................................................................. 48
8.4. Análisis de clúster. ............................................................................................................... 50
8.4.1. Identificación del número óptimo de Clúster............................................................ 51
8.4.2. Método de K-means..................................................................................................... 51
8.4.3. Combinación K-means y PCA.................................................................................... 53
8.5. Análisis factorial confirmatorio. ........................................................................................ 54
8.5.1. Identificación del número óptimo de factores ........................................................... 54
8.6. Regresión lineal múltiple .................................................................................................... 56
8.6.1. Linealidad ........................................................................................................................... 56
8.6.2. Independencia ..................................................................................................................... 57
8.6.3. Homocedasticidad. ............................................................................................................. 58
8.6.4. Normalidad. ........................................................................................................................ 59
8.6.5. Multicolinealidad................................................................................................................ 60
8.6.6. Modelo estimado................................................................................................................. 60
8.7. Soluciones al no cumplimiento de los supuestos ............................................................... 61
8.7.1. Transformación de Box-Cox ...................................................................................... 61
IX. CONCLUSIONES ................................................................................................................... 62
X. APRENDIZAJES OBTENIDOS................................................................................................ 63
10.1. Aprendizajes obtenidos. .................................................................................................. 63
10.2. Cursos teóricos aplicados ................................................................................................ 63
XI. RECOMENDACIONES ......................................................................................................... 64
XII. REFERENCIAS BIBLIOGRÁFICAS .................................................................................. 65
XIII. ANEXOS .............................................................................................................................. 67
ÍNDICE DE FIGURAS
Figura 1. Organigrama Dirección Regional de Salud Ancash ............................................... 8
Figura 2. Ubicación satelital de la DIRES ANCASH ............................................................ 10
Figura 3. Definición de minería de datos. ............................................................................. 20
Figura 4. El proceso KDD. .................................................................................................... 21
Figura 5. Técnicas de la minería de datos ............................................................................. 23
Figura 6. Ciclo de vida de la Ciencia de Datos..................................................................... 29
Figura 7. Procesos del análisis factorial ............................................................................... 30
Figura 8. Comportamiento de las defunciones a causa del Covid – 19 desde 2020 – 2022, en
la región Ancash....................................................................................................................... 39
Figura 9. Defunciones a causa del Covid – 19 desde 2020 – 2022, según provincia en la
región Ancash. .......................................................................................................................... 40
Figura 10. Defunciones a causa del Covid – 19 desde 2020 – 2022, según provincia en la
región Ancash. .......................................................................................................................... 40
Figura 11. Defunciones a causa del Covid – 19 desde 2020 – 2022, según grupos de edad
en la región Ancash. ................................................................................................................. 41
Figura 12. Casos sospechosos a causa del Covid – 19 desde 2020 – 2022 ........................ 42
Figura 13. Casos sospechosos de Covid – 19 desde 2020 – 2022, según provincia en la
región Ancash ........................................................................................................................... 43
Figura 14. Casos confirmados de Covid – 19 desde 2020 – 2022, en la región Ancash..... 43
Figura 15. Casos confirmados de Covid – 19 desde 2020 – 2022, según provincia en la
región Ancash ........................................................................................................................... 44
Figura 16. Casos confirmados de Covid – 19 desde 2020 – 2022, según provincia en la
región Ancash ........................................................................................................................... 45
Figura 17. Pacientes que cuentan con seguimiento clínico a distancia o presencial contra
Covid – 19 desde 2020 – 2022, en la región Ancash. .............................................................. 45
Covid – 19 desde 2020 – 2022, según provincias en la región Ancash. .................................. 46
Figura 19. Tratamiento contra Covid – 19 desde 2020 – 2022, en la región Ancash. ........ 48
Covid – 19 desde 2020 – 2022, según provincias en la región Ancash. .................................. 49
Figura 21. Numero óptimo de clúster .................................................................................. 51
Figura 22. Clúster de las provincias de Áncash .................................................................. 52
Figura 23. Dendograma de las provincias de Áncash ......................................................... 52
Figura 24. Agrupamiento de las provincias de Áncash ....................................................... 53
Figura 25. Número óptimo de factores ................................................................................ 54
Figura 26. Factores de las variables de estudio .................................................................. 55
Figura 27. Factores y clúster de las provincias de Ancash ................................................. 56
Figura 28. Análisis de la regresión ...................................................................................... 57
Figura 29. Análisis de Durbin Watson ................................................................................. 58
Figura 30. Análisis de Bartlett ............................................................................................. 58
Figura 31. Q-Q e Histograma de normalidad ..................................................................... 59
Figura 32. Factor de la Inflación de la Varianza ................................................................ 60
Figura 33. Modelo transformado Box-Cox .......................................................................... 61

ÍNDICE DE TABLAS
Tabla 1. Defunciones a causa del Covid – 19 desde 2020 – 2022, según género en la región
Ancash. ................................................................................................................................ 39
Tabla 2. Casos sospechosos de Covid – 19 desde 2020 – 2022, según género en la región
Ancash. ................................................................................................................................ 42
Tabla 3. Casos confiramdos de Covid – 19 desde 2020 – 2022, según género en la región
Ancash. ................................................................................................................................ 44
Tabla 4. Pacientes que cuentan con seguimiento clínico a distancia o presencial contra
Covid – 19 desde 2020 – 2022, según género en la región Ancash. ........................................ 46
Covid – 19 desde 2020 – 2022, según tipo de monitoreo en la región Ancash. ...................... 47
Covid – 19 desde 2020 – 2022, según evolución en la región Ancash. ................................... 47
Tabla 7. Tratamiento contra Covid – 19 desde 2020 – 2022, según género en la región
Ancash. ................................................................................................................................ 48
Tabla 8. Tratamiento contra Covid – 19 desde 2020 – 2022, según tipo de entrega en la
región Ancash. .......................................................................................................................... 49
Tabla 9. Distritos de la región Áncash ................................................................................ 50
Tabla 10. Prueba de KMO y Bartlett ..................................................................................... 54
Tabla 11. Matriz de componente rotado ................................................................................ 55

I. INTRODUCCIÓN
La crisis sanitaria de la lucha contra el coronavirus ha puesto en evidencia la gran necesidad de

tener acciones de prevención como como la identificación de casos confirmados con
coronavirus, seguimiento clínico, tratamientos y suministros de medicamentos para prevenir las
defunciones además de contar con sistemas robustos, de recolección, procesamiento y difusión
de datos, con reportes e indicadores que indiquen los factores o variables que influyen en el
descenso a causa de este virus, todo ello desglosados al menos a nivel regional.
La importancia de fortalecer los sistemas de análisis estadísticos nacionales se ha enfatizado y

crear objetivos de Desarrollo Sostenible de salud en todos los países es de suma importancia.
Específicamente, tenemos que destacar la creación de la capacidad estadística de los países en
desarrollo, donde se señala la importancia de alcanzar la completitud de factores y
comportamientos que causan defunciones por el coronavirus, y establecer metas e indicadores
concretos. Los países con una compilación y un procesamiento rápidos de información de
calidad han tenido más recursos para definir los planes de acción ante el COVID-19 y mejores
herramientas para monitorear la enfermedad. Al mismo tiempo, aquellos con sistemas menos
informatizados y sin plan de contingencia para garantizar el mantenimiento el sistema operativo
de los registros civiles se vio más afectados (Naciones Unidas, 2020).
La necesidad de saber cuáles son los factores para que una persona fallezca respecto a otras, es
preocupación de los investigadores, por lo que es relevante la comparación de mortalidad en
las diferentes regiones de este país, teniendo en cuenta que presenta múltiples factores
influyentes.
Los pacientes registrados como casos confirmados o sospechosos que cuentan con seguimiento
clínico a distancia o presencial e inician tratamiento diagnosticado e identificados las variables
que influyen en su descenso a tiempo es muy relevante para que pueda vivir, el problema radica
en que las personas especialistas en este campo no cuentan con la información de dichas
variables influyentes y tampoco en el comportamiento de estas, todo esto es un problema muy
grande nuestro país y región.
No determinamos matemáticamente la causa de defunciones, ya que no tenemos en cuenta o no

sabemos que variables intervienen en la defunción. Causas como la poca tecnología y descuido
de localizar al paciente, además de no identificarlo a tiempo y de brindar un tratamiento
adecuado, es muy importante para que la probabilidad de que una persona viva, sea lo sumo
posible.
II. DESCRIPCIÓN Y FUNCIONES GENERALES DE LA INSTITUCIÓN
2.1. Descripción
La Dirección Regional de Salud – Ancash, es la Autoridad Sanitaria Regional que

dirige, implementa y evalúa las Políticas de Atención Integral de Salud en condiciones de
calidad y oportunidad, en el marco de los derechos en salud de todos los habitantes de la
Región Ancash.
2.2. Organigrama
Figura 1.
Organigrama Dirección Regional de Salud Ancash
Fuente: DIRES ANCASH
2.3. Nombre de la Institución
Dirección Regional de Salud – Áncash (DIRESA - Áncash)

2.4. Unidad de Practica
El área de ESTADÍSTICA E INFORMÁTICA.
2.5. Representante Legal
El Lic. POLO ZALAZAR CRISTIAN ALFREDO, quien es el director de la dirección

de estadística e informática. Siendo quien verifica el cumplimiento de las actividades a
realizarse durante el periodo que dura la práctica.
2.6. Misión y Visión de la Organización
2.6.1. Visión
Al 2016 la Dirección Regional de Salud Áncash es una Institución líder a nivel

nacional, que garantiza el acceso de la población a los servicios de Salud, con
enfoque integral, calidad e investigación, contribuyendo a su desarrollo,
mediante la articulación multisectorial y la participación ciudadana.
2.6.2. Misión
La Dirección Regional de Salud Áncash tiene la MISIÓN de promover y

garantizar la Atención Integral de Calidad en los servicios de Salud a la
población, con personal competente, equipamiento e infraestructura adecuada,
promoviendo la participación e integración de todos los actores sociales de la
Región
2.7. Ubicación Geográfica
La Dirección Regional de Salud Áncash está ubicada en Av. Confraternidad

Internacional Oeste 1544.
✓ Teléfono: (043) 421321

✓ Distrito: Huaraz.
✓ Provincia: Huaraz.
✓ Departamento: Ancash.
Figura 2.
Ubicación satelital de la DIRES ANCASH
Fuente: DIRES ANCASH
2.8. Funciones del Área de Estadística e Informática
• Implementar el monitoreo para el cumplimiento de aplicación de códigos

estandarizados e instrumentos de recolección a la información en la Red de Salud
de Ancash
• Automatizar periódicamente la información de salud con el objetivo del
planeamiento, ejecución, monitoreo y evaluación de todos los servicios de salud
de Ancash.
• Brindar la información estadística necesaria para el proceso de análisis de datos
de la salud y una toma de decisiones adecuadas.
• Automatizar los flujos información de los procesos de la Red de Salud de
Ancash, con soporte en sistemas integrados de información.
• Brindar provisión informática, sistemas de información, telecomunicaciones y
telemática estando en coordinación con la red de Salud de Ancash.
• Gestionar la implementación y ejecución de los proyectos de desarrollo de los SI
y telecomunicaciones.
• Brindar seguridad a los datos e información adquiridas o producidas en la red de
Salud de Ancash.
• Gestionar eficazmente los sistemas de información y telecomunicaciones en la
institución.
• Brindar asistencia técnica e información en el campo informático y de
telecomunicaciones, así como también mantenimiento del centro de cómputo y
de telecomunicaciones de la Red de Salud Ancash
• Publicar continuamente el diseño, actualización y mantenimiento del Portal Web
de la red de Salud Ancash.
• Diseñar y ejecutar encuestas orientadas con la finalidad de la captación y
generación de información estadística para la planeación y toma de decisiones
futuras.
• Analizar y brindar la información estadística confiable y necesaria para el
proceso de análisis de en la red de Salud Ancash.
• Difundir la información confiable de salud e implementar los servicios
necesarios para su utilización ene estudios o resolución de problemas.
2.9. Horario de Practicas
Horario de prácticas pre – profesionales.
HORARIO LUNES MARTES MIERCOLES JUEVES VIERNES
08:00 am a
09:00 am
09:00 am a PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE
10:00 am PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES
01:00 pm PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES
01:00 pm a
02:00 pm
✓ Duración: 3 meses.
✓ Fecha de inicio: 31 de Enero del 2022.
✓ Fecha óptima para la culminación: 13 de Mayo del 2022.
III. OBJETIVOS PROPUESTOS
3.1. Objetivo General.
✓ Realizar minería de datos de los casos confirmados o sospechosos que cuentan con
seguimiento clínico a distancia o presencial e inician tratamiento y las defunciones por
covid-19 en la región Ancash, periodo 2020 - 2022.
3.2. Objetivos Específicos.
✓ Describir el agrupamiento de las provincias de la región Ancash a los casos confirmados

o sospechosos que cuentan con seguimiento clínico a distancia o presencial e inician
tratamiento y las defunciones por covid-19 en la región Ancash, periodo 2020 - 2022,
mediante el clúster jerárquico.
✓ Realizar el análisis factorial confirmatorio sobre los casos confirmados o sospechosos
que cuentan con seguimiento clínico a distancia o presencial e inician tratamiento y las
defunciones por covid-19 en la región Ancash, periodo 2020 - 2022, mediante la
Minería de datos.
✓ Describir el modelo de asociación entre los casos confirmados o sospechosos que
cuentan con seguimiento clínico a distancia o presencial e inician tratamiento y las
defunciones por covid-19 en la región Ancash, periodo 2020 - 2022, mediante el análisis
de regresión lineal múltiple.
IV. ALCANCES Y LIMITACIONES
4.1. Alcances
El alcance que se presente lograr será de gran importancia para el sector de salud y en especial
para la dirección región de salud – Ancash, para una adecuada toma de decisiones, pues
mediante la minería de datos se determinara anomalías, patrones y correlaciones en grandes
conjuntos de datos que corresponde a pacientes afectados por el corona virus.
Por otro lado, es de gran importancia este estudio ya que se va analizar los similaridad, las
correlaciones, segmentaciones por momentos, demográficos, redes de salud entre otros. Esto es
de gran importancia las decisiones epidemiológicas, y sobre todo para saber el comportamiento
del dicho virus.
4.2. Limitaciones
4.2.1. Limitación Técnica
La limitación técnica que se encontró es la falta de capacitación o especialización en los

encargados de esta labor, en cuanto a una guía de sobre estos temas de análisis
univariante o multivariante, además de la ejecución de ciencia de datos en softwares
especializados en la Dirección Regional de Salud- Ancash.
4.2.2. Limitación Cronológica
La limitación más evidente que se pudo observar es la del tiempo, ya que el

tiempo empleado para la obtención de estos resultados, fue relativamente muy rápido,
en el futuro hay que tener en cuenta que los resultados varían en función al tiempo, por
otro lado, la necesidad del tiempo no permitió realizar otras técnicas de minería de datos.
4.2.3. Limitación Tecnológica
La limitación tecnológica viene de la mano con la limitación técnica, además de no tener

especialistas en el tema, tampoco se cuenta con el equipo informático necesario
(software y hardware)., equipos o dispositivos muy obsoletos, ya el uso de sftwares
como Sql server, Rstudio, Spss, Access y Excel, con más de ###### de datos, sin un
buen equipo es muy difícil trabajar.
4.2.4. Limitación Económica
La limitación más recurrente en las investigaciones, siendo además una entidad pública,
es lo económico, ello afecta al practicante, así como también a todo el equipo de trabajo
de la obtención de información, ya que por cuenta propia y para obtener información
mediante la minera de datos el gasto tiene que correr por cuenta propia y del equipo de
trabajo.
V. DESCRIPCIÓN DE LAS ACTIVIDADES DESARROLLADAS
5.1. Actividades encomendadas o requerimiento específico solicitado por el

responsable de la institución o empresas.
Actividad Procedimiento
Descargar semanalmente los nuevos datos que conciernen a los

nacimientos en nuestra región y todo tipo de dato concerniente a ello,
Analizar los datos de padrón nominal luego subir a nuestro servidor, analizar y sacar reportes para compartir
la información con los colaboradores de la Diresa, así como también
actualizar el Dashboard que es visible para todos ciudadanos.
Analizar reportes mensuales que

Descargar todos los reportes de la página HIS - MINSA y actualizar la
corresponde a desnutrición crónica,
base de datos de nuestro servidor, esta página actualiza diariamente y
prevalencia de anemia en gestantes, en niños
cada fin de ciclo temporal se consolida, es por ello que tenemos que
menores de 5 años, reportes de tuberculosis
consolidar los datos mensualmente, trimestralmente, semestral y
y planificación familia, etc.
anualmente.
Analizar reportes del progreso de Descargar y actualizar la base de datos de nuestro servidor,
vacunación contra el COVID, así como semanalmente los datos obtenidos de estas enfermedades, medir la
también los tratamientos de VIH, etc. evolución del tratamiento y lucha en contra de estas.
Se expone el análisis y procesamiento de datos (Data Science)

explicando los reportes e indicadores obtenidos, se detalla como fue el
Desarrollo continuamente de ponencias y
procesamiento y análisis de los datos, para poder transformar en
exposiciones
información confiable, y finalmente indicar la influencia e importancia
de la información obtenida.
Las actividades mencionadas, es de gran importancia desarrollarlas de manera efectiva, ya que

es de gran importancia para las diferentes oficinas de la Diresa - Ancash, ya que, con esos
indicadores y reportes obtenidos y actualizados, se le permite tomar decisiones adecuadas y
contemplar el panorama de la salud de la población en región.
Dichos reportes se pueden visualizar en la página de la Diresa – en la página que concierne al
Área de estadística e informática, son Dashboard en Power Bi.
5.2. Justificación de que la actividad desarrollada guarda relación con la Práctica en

Estadística.
Como se especificó en las actividades desarrolladas, se hizo ciencia de datos ya que para
analizar y determinar indicadores o reportes se tuvo que involucrar este campo interdisciplinario
que implica métodos científicos, procesos y sistemas para extraer conocimiento o un mejor
entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados.
Todo ello aplica los estudios realizados en campos de análisis de datos de la estadística, la
minería de datos, el aprendizaje automático, y la analítica predictiva.
Como se sabe, los conocimientos aplicados adquiridos en la universidad, fueron de importancia

para poder aplicar técnicas analíticas avanzadas y principios científicos para extraer
información valiosa de los datos para la toma de decisiones adecuadas, la planificación
estratégica y otros usos.
Las decisiones en el sector salud que tienen la Diresa en nuestra región, son muy criticas para
contemplar y tomar decisiones, es por ello que la información que se genera con la aplicación
de la ciencia de datos ayuda a la Diresa a aumentar la eficiencia operativa, identificar nuevas
oportunidades, amenazas y mejorar los programas de supervisión y poder controlar las
enfermedades o acciones de salud, entre otros beneficios.
VI. MATERIALES, MÉTODOS Y PROCEDIMIENTOS
6.1. Materiales
6.1.1. Hardware
Código Unidad Cantidad Equipos/dispositivos Especificaciones
-Disco Solido de 1TB
Computadora de -Memoria Ram 24 GB o superior

0001 Und. 1
escritorio (PC). -Sistema operativo Windows
-Tipo de sistema 64 bits
-Disco Duro de 1 TB o superior
-Disco solido de 500 GB o superior

002 Und. 1 Laptop
-Sistema operativo (Cualquiera)
-Tipo de sistema 64 bits
3 Und. 1 Pendrive -Tipo de sistema 64 bits
6.1.2. Hardware
Código SW/Programas Versión Tipo
Microsoft office
Sw001 professional 16.0.14326 Licencia/Prueba
plus 2019
2022.02.1-
Sw002 Rstudio Libre
461
Sql Server -
Sw003 15 Libre
SSMS
Sw004 Power Bi 3 Libre
6.2. Métodos
Para realizar el presente informe se utilizó métodos de la minería de datos, puesto que los
datos de las variables que se estudió en la investigación se consiguieron de la página del Sis
Covid – Minsa (https://siscovid.minsa.gob.pe/bandeja-consultor/)
El análisis e interpretación estadística de los datos para la presente investigación se realizará
por medio de las medidas de tendencia central y dispersión, presentados en gráficos estadísticos
y organizados en los cuadros estadísticos.
6.2.1. Tipo de investigación.
• Según su propósito o finalidad: Aplicada, porque nos permitió conocer el la

evolución y cambio de los fenómenos a estudiar.
• Según su carácter: Cuantitativa
• Según el alcance temporal: Longitudinal, porque se estudió un periodo de
2020 - 2022.
• Según su nivel de conocimientos que se adquieren o profundidad:
Correlacional
• Según el método utilizado: descriptivo
6.2.2. Diseño de la investigación
La presente investigación es de diseño no experimental, ya que no hay

manipulación de variables, además es de método longitudinal dado que se
analizará datos en un lapso temporal de dos años (2020 - 2022) y tipo descriptivo
correlacional.
6.2.3. Población
Para este trabajo de investigación la población o universo fueron todos los

pacientes registrados como casos confirmados o sospechosos que cuentan con
seguimiento clínico a distancia o presencial e inician tratamiento y las
defunciones a causa del Covid - 19
6.2.4. Muestra
Para realizar este estudio no se tomó ninguna muestra, es decir se utilizó todos
los registros obtenidos de la página SIS Covid – Minsa, ente el periodo 2020 –
2022.
6.3. Técnicas de Procedimientos
6.3.1. Procesamientos de Datos
Para la minería de datos se utilizó el software Sql server, Access, Excel y

Rstudio, para el análisis de regresión y clasificación se utilizó el Spss y
nuevamente el Rstudio. C
6.3.2. Técnicas de análisis de Datos
Para el análisis de los datos se utilizó métodos estadísticos multivariantes cuyo

propósito principal fue analizar la estructura de las interrelaciones
(correlaciones) entre un gran número de variables.
Para identificar el modelo, se utilizó la regresión lineal múltiple.
El análisis descriptivo e inferencial, así como también la interpretación

estadística de los datos para la presente investigación serán presentados en
gráficos estadísticos y organizados en los cuadros estadísticos.
VII. CONCEPTOS TEÓRICOS DE LA ESPECIALIDAD, APLICADOS
7.1. Marco Teórico
Ola pandémica
La Organización Mundial de la Salud (OMS) ha tratado de definirlo, afirmando que, para

decretar el fin de una ola pandémica, "el virus debe estar bajo control y los casos deben reducirse
sustancialmente. Para decretar una segunda ola es necesario un crecimiento sostenido de casos".
Minería de Datos
La minería de datos puede definirse inicialmente como un proceso de descubrimiento de nuevas

y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos
mediante el uso de métodos automatizados. La disponibilidad de grandes volúmenes de
información y el uso generalizado de herramientas informáticas ha transformado el análisis de
datos orientándolo hacia determinadas técnicas especializadas englobadas bajo el nombre de
minería de datos o Data Mining. Las técnicas de minería de datos persiguen el descubrimiento
automático del conocimiento contenido en la información almacenada de modo ordenado en
grandes bases de datos. Estas técnicas tienen como objetivo descubrir patrones, perfiles y
tendencias a través del análisis de los datos utilizando tecnologías de reconocimiento de
patrones, redes neuronales, lógica difusa, algoritmos genéticos y otras técnicas avanzadas de
análisis de datos (Pérez & Santín, 2007, p.1).
Paz (2008, p.3) define la minería de datos como un proceso mediante el cual se toma como
materia prima los datos, se procesan y se genera como resultado conocimiento en forma de
patrones tal como se muestra en la figura 1, ya que los datos son el activo más importante de
una organización, el proceso de transformar datos en conocimiento se convierte en una
Figura 3.
Definición de minería de datos.
Knowledge Discovery in Databases (KDD)
El descubrimiento de conocimiento en las bases de datos (KDD) es el proceso no trivial de

identificar patrones o relaciones válidas, novedosas, potencialmente útiles y, en última
instancia, comprensibles dentro de un conjunto de datos para tomar decisiones importantes (
Fayyad, Piatetsky-shapiro y Smyth, 1996 ).
En general, KDD proporciona un proceso de nueve pasos, considerado principalmente como

una metodología basada en la investigación. Implica tanto la evaluación como la interpretación
de los patrones (posiblemente conocimiento) y la selección del procesamiento previo, el
muestreo y las proyecciones de los datos antes del paso de extracción de datos. Si bien algunos
de estos nueve pasos se enfocan en decisiones o análisis, otros pasos son transiciones de datos
dentro de la cadena de datos-información-conocimiento. Como se mencionó anteriormente,
KDD es un "proceso no trivial de identificación de patrones válidos, novedosos, potencialmente
útiles y, en última instancia, comprensibles en los datos" (Fayyad et al., 1996)
Figura 4.
El proceso KDD.
El modelo del proceso KDD consta de los siguientes pasos (la entrada de cada paso es la salida
del anterior), de manera iterativa (los analistas aplican bucles de retroalimentación si es
necesario) e interactiva:
1. Desarrollar y comprender el dominio de la aplicación, aprender conocimientos previos

relevantes, identificar los objetivos del usuario final (entrada: problema a
resolver/nuestro objetivo, salida: comprensión del problema/dominio/objetivo).
2. Creación de un conjunto de datos de destino: selección (consulta) del conjunto de datos,
identificación de variables de subconjunto (atributos de datos) y creación de muestras
de datos para el KDP (salida: datos de destino/conjunto de datos).
3. Limpieza y preprocesamiento de datos: manejo de valores atípicos y eliminación de
ruido, manejo de datos faltantes, recopilación de datos en secuencias de tiempo e
identificación de cambios conocidos en los datos (salida: datos preprocesados).
4. Reducción y proyección de datos: encontrar características útiles que representen los
datos (según el objetivo), incluidas las reducciones y transformaciones de dimensiones
(salida: datos transformados).
5. Selección de la tarea de minería de datos: la decisión sobre qué métodos utilizar.solicitar
clasificación , agrupamiento, regresión u otra tarea (resultado: método[s]
seleccionado[s]).
6. Selección de algoritmo(s) de minería de datos: seleccione el método para la búsqueda
de patrones, decida sobre los modelos apropiados y sus parámetros, y haga coincidir los
métodos con el objetivo del proceso (resultado: algoritmos seleccionados).
7. Minería de datos: búsqueda de patrones de interés en forma específica, como reglas de
clasificación, árboles de decisión, modelos de regresión, tendencias, grupos y
asociaciones (resultado: patrones).
8. Interpretación de patrones extraídos: comprensión y visualización de patrones basados
en los modelos extraídos (salida: patrones interpretados).
9. Consolidación del conocimiento descubierto: uso de patrones descubiertos en un
sistema analizado por el proceso KDD, documentando e informando el conocimiento a
los usuarios finales, y verificando y resolviendo conflictos si es necesario (salida:
conocimiento, acciones/decisiones basadas en los resultados).
Técnicas de la minería de datos
Pérez y Santín, clasifican en técnicas predictivas en las que las variables pueden clasificarse
inicialmente en dependientes e independientes (similares a las técnicas del análisis de la
dependencia o métodos explicativos del análisis multivariante), técnicas descriptivas, en las que
todas las variables tienen inicialmente el mismo estatus (similares a las técnicas del análisis de
la interdependencia o métodos descriptivos del análisis multivalente) y las técnicas auxiliares.
En resumen, se puede visualizar en la siguiente figura:
Figura 5.
Técnicas de la minería de datos
Agrupación de datos
La agrupación o clustering consiste en agrupar un conjunto de datos basándose en la similitud

de los valores de sus atributos. El clustering identifica regiones densamente pobladas,
denominadas clusters, de acuerdo a alguna medida de distancia establecida [Chen et al., 1996].
De esta manera se busca maximizar la similitud de las instancias en cada cluster y minimizar la
similitud entre clusters [Han & Kamber, 2001].
La técnica de clustering ha sido estudiada en las áreas de la estadística [Cheeseman & Stutz,
1996; Jain & Dubes, 1988], machine learning [Fisher, 1996], base de datos espaciales y minería
de datos [Cheeseman & Stutz, 1996; Ester et al., 1995; Ng & Han, 1994; Zhang et al., 1996].
Dos de los algoritmos de clustering más utilizados son Self Organizing Maps (SOM) y K-
means. SOM, también denominado redes de Kohonen, fue creado por Teuvo Kohonen en 1982.
Se trata de un modelo de red neuronal con capacidad para formar mapas de características de
manera similar a como ocurre en el cerebro. SOM está basado en el aprendizaje no supervisado
y competitivo, lo cual quiere decir que no se necesita intervención humana durante el mismo y
que se necesita saber muy poco sobre las características de la información de entrada. SOM
provee un mapa topológico de datos, que se representan en varias dimensiones, utilizando
unidades de mapa (las neuronas) para simplificar la representación [Kohonen, 1995].
Las neuronas usualmente forman un mapa bidimensional, por lo que el mapeo transforma un
problema de muchas dimensiones en el espacio, a un plano. La propiedad de preservar la
topología significa que el mapeo preserva las distancias relativas entre puntos.
Los puntos que están cerca unos de los otros en el espacio original de entrada son mapeados a
neuronas cercanas en SOM. Por esta razón, SOM es muy útil como herramienta de análisis de
clases de datos de muchas dimensiones [Vesanto & Alhoniemi, 2000], y además tiene la
capacidad de generalizar [Essenreiter et al., 1999], lo que implica que la red puede reconocer o
caracterizar entradas que nunca antes ha encontrado.
K-means es un método iterativo que busca formar k clusters, con k predeterminado antes del
inicio del proceso. K-means comienza particionando los datos en k subconjuntos no vacíos,
calcula el centroide de cada partición como el punto medio del cluster y asigna cada dato al
cluster cuyo centroide sea el más próximo. Luego vuelve a particionar los datos iterativamente,
hasta que no haya más datos que cambien de cluster de una iteración a la otra.
Clasificación de datos
La clasificación se utiliza para clasificar un conjunto de datos basado en los valores de sus
atributos. Por ejemplo, se podría clasificar a distintas personas para la otorgación de un
préstamo en riesgo bajo, medio y alto, teniendo en cuenta información histórica de las mismas.
La clasificación encuentra las propiedades comunes entre un conjunto de objetos y los clasifica
en diferentes clases, de acuerdo a un modelo de clasificación. Para construir este modelo, se
utiliza un conjunto de entrenamiento, en el que cada instancia consiste en un conjunto de
atributos y el valor de la clase a la cual pertenece. El objetivo de la clasificación es analizar los
datos de entrenamiento y, mediante un método supervisado, desarrollar una descripción o un
modelo para cada clase utilizando las características disponibles en los datos. Esta descripción
o modelo permite clasificar otras instancias, cuya clase es desconocida.
El método se conoce como supervisado debido a que, para el conjunto de entrenamiento, se

conoce la clase de pertenencia y se le indica al modelo si la clasificación que realiza es correcta
o no. La construcción del modelo se realimenta de estas indicaciones del supervisor [Chen et
al., 1996].
Clúster jerárquico.
El algoritmo que corresponde a esta técnica se resume en los siguientes pasos:
1. Se parte de tantos conglomerados como elementos existan.

2. Se calculan las distancias entre los conglomerados iniciales.
3. Con los dos conglomerados más próximos se forma un nuevo grupo.
4. Con los nuevos elementos se procede como en los pasos 2 y 3 hasta obtener un solo
grupo formado con todos los elementos.
Distancias
Matemáticamente se da nombre de distancia entre dos puntos A y B, donde A es toda medida

que verifique los axiomas siguientes:
• 𝑑(𝐴, 𝐵) ≥ 0
• 𝑑(𝐴, 𝐵) = 𝑑(𝐵, 𝐴)
• 𝑑(𝐴, 𝐵) ≤ 𝑑(𝐴, 𝐶) + 𝑑(𝐶, 𝐵)
Distancias más usadas
a) Distancia de minkowski
La distancia entre dos unidades 𝑖, 𝑗 se define como
b) Distancia city block
Es la distancia Minkowsky si 𝑟 = 1
c) Distancia euclidiana
Si 𝑟 = 2
En el procedimiento para aplicar el paso 4 deberá elegirse una de las distancias entre
conglomerados (del vecino más cercano, del vecino más lejano, de los promedios, etcétera).
d) Distancia Mahalanobis
Es una medida legítima de distancia, llamada también distancia estadística, la distancia el

cuadrado es.
Siendo 𝑆 la matriz de covarianzas de las variables bajo estudio. Pero sin conocimiento a priori
de los grupos no apoya mucho para realizar el agrupamiento de ahí que la mayoría emplea la
distancia euclidea. Pero si es recomendable estandarizar los datos y luego usar la distancia
Euclidea.
Métodos aglomerativos:
A continuación, vamos a presentar algunas de las estrategias que pueden ser empleadas a la
hora de unir los clústeres en las diversas etapas o niveles de un procedimiento jerárquico.
Ninguno de estos procedimientos proporciona una solución óptima para todos los problemas
que se pueden plantear, ya que es posible llegar a distintos resultados según el método elegido
o el buen criterio del investigador, el conocimiento del problema planteado y la experiencia,
sugerirán el método más adecuado.
Vinculación intergrupos: si 𝑑 es la distancia entre puntos determinada, se define la distancia

𝑑̃ entre dos conglomerados A y B como la media aritmética de las distancias 𝑑(𝑎, 𝑏) donde 𝑎 ∈
𝐴 𝑦 𝑏 ∈ 𝐵, es decir.
Vecino más cercano:
Vecino más lejano:
Los pasos que se siguen para llevar a cabo la partición de los elementos se representan
mediante un diagrama llamado dendrograma.
La elección de la distancia a utilizar entre elementos o conglomerados es una tarea difícil de
llevar a cabo. La recomendación es probar con la distancia y el método de agrupamiento que
más se ajusten a la naturaleza de los datos y a su interpretación.
Análisis de correspondencia simple
El Análisis de Correspondencias (AC) es una técnica multivariante que permite representar las
categorías de las filas y columnas de una tabla de contingencia. Supongamos que tenemos dos
variables categóricas 𝐴 𝑦 𝐵 con I y J categorías respectivamente, y que han sido observadas
cruzando las I categorías A con las J categorías B, obteniendo 𝑛 = ∑𝑖𝑗 𝑓𝑖𝑗 observaciones,
donde 𝑓ⅈ𝑗 es el número de veces en que aparece la intersección 𝐴ⅈ ∩ 𝐵𝑗 dando lugar a la tabla
de contingencia 𝐼𝑥𝐽.
donde 𝑓𝑖. = ∑𝑗 𝑓𝑖𝑗 es la frecuencia marginal de 𝐴𝑖, 𝑓. 𝑗 = ∑𝑖 𝑓𝑖𝑗 es la frecuencia marginal de
𝐵𝑗 : Debemos tener en cuenta que, en realidad, la tabla , resume la matriz de datos inicial, que
típicamente es de la forma
en la que damos el valor 1 cuando se presenta una característica y 0 cuando no se presenta. Así,
el individuo “1” presentaría las características 𝐴1 𝑦 𝐵1; el individuo “i" presentaría las
características 𝐴𝐼 𝑦 𝐵2; y el individuo “n" las características 𝐴𝐼 𝑦 𝐵𝑗 : La matriz de datos
𝑛𝑥(𝐼 + 𝐽) es pues:
𝑍 = [𝑋, 𝑌]
A partir de ahora utilizaremos el nombre de variables filas y variables columnas a las variables
A y B, respectivamente.
Asociación
La minería de reglas de asociación consiste en encontrar reglas de la forma (𝐴1 , 𝐴2 … 𝐴𝑚 ) =>

(𝐵1 , 𝐵2 … 𝐵𝑛 ), donde 𝐴ⅈ y 𝐵ⅈ son valores de atributos del conjunto de datos [Chen et al., 1996].
Por ejemplo, se podría encontrar en un gran repositorio de datos de compras en un
supermercado, la regla de asociación correspondiente a que, si un cliente compra leche,
entonces compra pan. Una regla de asociación es una sentencia probabilística acerca de la
coocurrencia de ciertos eventos en una base de datos, y es particularmente aplicable a grandes
conjuntos de datos [Hand et al., 2001].
Existen varios algoritmos que realizan el descubrimiento de reglas de asociación, uno de los
más utilizados es Apriori.
Ciencia de Datos
La ciencia de datos es el campo de estudio que combina la experiencia en el dominio, las

habilidades de programación y el conocimiento de las matemáticas y las estadísticas para
extraer información significativa de los datos. Los profesionales de la ciencia de datos aplican
algoritmos de aprendizaje automático a números, texto, imágenes, video, audio y más para
producir sistemas de inteligencia artificial (AI) para realizar tareas que normalmente requieren
inteligencia humana. A su vez, estos sistemas generan conocimientos que los analistas y
usuarios comerciales pueden traducir en valor comercial tangible.
Ciclo de la ciencia de datos
1. Entendimiento del negocio: Realiza preguntas y define tus objetivos de acuerdo al

problema que vas a resolver.
2. Exploración de datos: De acuerdo con el análisis de los datos formula hipótesis que
puedan resolver tu problema.
3. Procesamiento de datos: Reúne todos los datos necesarios que necesites para tu
proyecto.
4. Limpieza de datos: Resuelve inconsistencia que pueda existir en la data y evita valores
extraños.
5. Feature engineering: Selecciona las características importantes y construye las más
significativas usando los datos.
6. Modelo predictivo: Plantea el aprendizaje automático, evalúa su desarrollo y úsalo para
hacer predicciones.
7. Visualización de datos: Comunica los resultados en base a elementos visuales para
comprender los comportamientos y tendencias que se obtengan.
Figura 6.
Ciclo de vida de la Ciencia de Datos
Análisis Factorial
El análisis factorial es un método de reducción estadística que tiene como objetivo explicar las
posibles correlaciones entre ciertas variables. Para ello, teniendo en cuenta el efecto de otras,
los factores, que no son observables.
Es una técnica de reducción de datos que sirve para encontrar grupos homogéneos de variables
a partir de un conjunto numeroso de variables. Los grupos homogéneos se forman con las
variables que correlacionan mucho entre sí y procurando, inicialmente, que unos grupos sean
independientes de otros.
Cuando se recogen un gran número de variables de forma simultánea (por ejemplo, en un

cuestionario de satisfacción laboral) se puede estar interesado en averiguar si las preguntas del
cuestionario se agrupan de alguna forma característica. Aplicando un análisis factorial a las
respuestas de los sujetos se pueden encontrar grupos de variables con significado común y
conseguir de este modo reducir el número de dimensiones necesarias para explicar las
respuestas de los sujetos.
El Análisis Factorial es, por tanto, una técnica de reducción de la dimensionalidad de los datos.
Su propósito último consiste en buscar el número mínimo de dimensiones capaces de explicar
el máximo de información contenida en los datos
Figura 7.
Procesos del análisis factorial
Primer paso:
Objetivos del análisis factorial
El punto inicial del análisis factorial, es encontrar los factores para condensar (resumir) la
información contenida en una serie de variables originales en una serie más pequeña de
dimensiones compuestas o valores teóricos (factores) nuevos con una mínima pérdida de
información. La técnica del análisis factorial puede satisfacer cualquiera de los siguientes
objetivos:
1. La identificación de la estructura estadística para poder excluir las variables que no

aportan en la variabilidad, o
2. La reducción de datos.
Segundo paso:
El diseño de un análisis factorial
El siguiente paso deberá ser el análisis de la matriz de correlaciones el mismo que nos indicará
la existencia o no de multicolinealidad. Es lógico de suponer que en el caso de que las variables
presenten correlaciones extremadamente bajas no es recomendable aplicar un AF.
Y es importante mencionar que existen otras medidas de identificación si es aplicable o no un

AF, sin embargo, el modelo teórico de un AF se basa en la matriz de correlaciones o
covarianzas, razón por la cual es el estimador más fuerte que existe.
Tercer paso:
Supuestos del Análisis Factorial
Los supuestos básicos subyacentes del análisis factorial son más de tipo conceptual que
estadístico. Desde este punto de vista, se pueden obviar los supuestos de normalidad y
homocedasticidad, siendo conscientes de que su incumplimiento produce una disminución en
las correlaciones observadas. En realidad, sólo es necesaria la normalidad cuando se aplica una
prueba estadística a la significancia de los factores; sin embargo, raramente se utilizan estas
pruebas. De hecho, es deseable que haya cierto grado de multicolinealidad.
Ahora bien, es el momento de hablar de otras medidas que nos permitirán identificar si es viable
o no aplicar un AF en nuestra matriz de datos:
Primera opción:
Test de Bartlett, la misma que es una prueba estadística para homogeneidad de varianzas, y para
la aplicación en un AF es decir proporciona la probabilidad estadística de que la matriz de
correlación de las variables sea una matriz identidad.
Segunda opción:
Medida de suficiencia o adecuación de la muestra (MSA o KMO)
Este índice se extiende de 0 a 1, llegando a 1 cuando cada variable es perfectamente predicha

sin error por las otras variables.
Fórmula de cálculo:
La medida puede ser interpretada con las siguientes directrices:
0.8 ≥ perfecto para realizar un AF.
0.6 𝑎 0.7 adecuado (Es viable realizar un AF).
0.4 𝑎 0.5 aceptable (Se puede implementar un AF sin embargo se sugiere verificar el estado
de las variables).
Menores a 0.4 no se recomienda un AF.
7.2. Marco Conceptual
Regresión
La regresión múltiple es el método de análisis apropiado cuando el problema del investigador

incluye una única variable métrica dependiente que se supone está relacionada con una o más
variables métricas independientes (Hair, Anderson, Tatham & Black, 1999).
Regresión lineal múltiple
Es un modelo donde interviene más de una variable regresora (independiente)
En general, se puede relacionar la respuesta y con k regresores, o variables predictoras.
El modelo:
Se llama modelo de regresión lineal múltiple con k regresores. Los parámetros 𝛽𝑗 , 𝑗 =
0,1,2,3 … , 𝑘, se llaman coeficientes de regresión. Este modelo describe a un hiperplano en el
espacio de k dimensiones de las variables regresoras 𝑥𝑗 El parámetro 𝛽𝑗 representa el cambio
esperado en la respuesta y por cambio unitario en 𝑥𝑗 cuando todas las demás variables
regresoras 𝑥𝑖 𝑖 ≠j se mantienen constantes.
Por esta razón, a los parámetros 𝛽𝑗 , 𝑗 = 0,1,2,3 … , 𝑘 se les llama con frecuencia coeficientes
de regresión parcial.
Estimación de los parámetros del modelo
Estimación de los coeficientes por mínimos cuadrados
Se puede aplicar el método de mínimos cuadrados para estimar los coeficientes de regresión de
la ecuación. Supongamos que se dispone de n > k observaciones, y sea 𝑦𝑖 la i-ésima respuesta
observada, y 𝑥𝑖𝑗 la i-ésima observación o nivel del regresor 𝑥𝑗 Los datos aparecerán como en
la tabla. Se supone que el término de error 𝜀 del modelo tiene 𝐸(𝜀) = 0, 𝑉(𝜀) = 𝜎2 y que los
errores no están correlacionados.
Se puede escribir en la siguiente forma el modelo muestral de regresión que corresponde a la

ecuación.
La función de mínimos cuadrados es:

Se debe minimizar la función S respecto a 𝛽0, 𝛽1, … . , 𝛽𝑘 Los estimadores de 𝛽0, 𝛽1, … , 𝛽𝑘
por mínimos cuadrados deben satisfacer.
Al simplificar la ecuación (3.10) se obtienen las ecuaciones normales de mínimos cuadrados
Nótese que hay p = k + 1 ecuaciones normales, una para cada uno de los coeficientes
desconocidos de regresión. La solución de las ecuaciones normales serán los estimadores por
mínimos cuadrados 𝛽1 , 𝛽2 … 𝛽𝑘 . Es más cómodo manejar modelos de regresión múltiple cuando
se expresan en notación matricial. Eso permite presentar en forma muy compacta al modelo,
los datos y los resultados. En notación matricial el modelo expresado por la ecuación es:
En general, 𝑦 es un vector de 𝑛𝑋1 de las observaciones, 𝑋 es una matriz de 𝑛𝑥𝑝 de los niveles
de las variables regresoras, 𝛽 es un vector de 𝑝𝑥1 de los coeficientes de regresión y 𝜀 es un
vector de 𝑝𝑥1 errores aleatorios. Usando mínimos cuadrados se tiene que el estimador de 𝛽 es:
Siempre y cuando exista la matriz inversa (𝑋𝑋 ′ )−1 La matriz (𝑋𝑋 ′ )−1 siempre existe si los
regresores son linealmente independientes, esto es, si ninguna columna de la matriz 𝑋 es una
combinación lineal de las demás columnas.
VIII. RESULTADOS, APLICACIÓN O IMPLEMENTACIÓN
8.1. Preparación de los datos.
Los datos fueron recolectados de la página del Minsa SIS – COVID

(https://siscovid.minsa.gob.pe/bandeja-consultor/), posterior a ello fueron cargado al sistema de
gestión de base de datos relacional SQL Server, donde ser realizo la limpieza de datos
duplicados, filtro y selección de las variables estudiadas. Se eliminaron los registros con campos
en blanco, así como, personas diagnosticadas sin este virus (sospechas y confirmados),
pacientes sin seguimiento, pacientes sin tratamiento.
8.2. Modelado de los datos.
La minería de los datos de estudio se realizó por medio del paquete R-Project v4.1.23 y RStudio
v02.1-461, previamente los datos se encontraron almacenados en Sql Server, donde se preparó
todas las variables con sus respectivos registros para su posterior análisis.
El código de importación de la base de datos en Rstudio a partir de una base de datos
almacenada en Sql Server es:
Dando como resultado 5 bases de datos.
1. La base de datos de pacientes confirmados con el virus de Covid – 19 (Confirmados),

cuenta con 109 variables y 198865 observaciones.
2. La base de datos de pacientes fallecidos a causa del virus de Covid – 19
(Defunciones), cuenta con 30 variables y 5953 observaciones.
3. La base de datos de pacientes que inician tratamiento contra el virus de Covid – 19

(Medicamentos), cuenta con 44 variables y 40075 observaciones.
4. La base de datos de pacientes que cuentan con seguimiento a distancia o presencia

contra el virus de Covid – 19 (Seguimiento), cuenta con 94 variables y 196511
observaciones.
5. La base de datos de pacientes sospechosos con el virus de Covid – 19 (Sospechosos),
cuenta con 102 variables y 32784 observaciones.
Cabe mencionar que para el análisis de datos se tomara en cuenta la cantidad de casos
sospechosos, confirmados, que tienen seguimiento, los que inician tratamientos y las
defunciones mensuales durante estos dos años, esto se clasificaran por provincias, redes, sexo,
edades, etc.
8.3. Análisis de los datos.
8.3.1. Análisis de la BB.DD - Defunciones
Figura 8.
Comportamiento de las defunciones a causa del Covid – 19 desde 2020 – 2022, en la región
Ancash.
De la figura 8, se observa que en la primera semana de junio del 2020 se llegó al pico más
elevado de la primera ola de fallecimientos a causa del covid-19 en toda la región Ancash.
También se observa que, desde enero del 2021, empezó a crecer el número de defunciones
llegando la quincena de abril al pico más elevado de la segunda ola, con referente a la tercera
ola el pico máximo se llegó fines del mes de enero y la primera semana de febrero, desde fines
de abril se percibe una disminución de las defunciones hasta llegar al mes de marzo de 2022.
Tabla 1.
Defunciones a causa del Covid – 19 desde 2020 – 2022, según género en la región Ancash.
Género n %
FEMENINO 2054 34.52%
MASCULINO 3896 65.48%
Total 5950 100%
De la tabla 1, se observa que el 65.48% del total de las personas que fallecieron a causa del
covid 19 hasta marzo de 2022, son de genero masculino, siendo este indicador muy alarmante.
Figura 9.
Defunciones a causa del Covid – 19 desde 2020 – 2022, según provincia en la región Ancash.
De la figura 9, se observa que la provincia del Santa tiene más defunciones a causa del covid
19, seguido de la provincia de Huaraz y Casma, con 3748, 866 y 306 personas fallecidas a causa
de este virus respectivamente. La provincia de Ocros es la menos afectada en cuanto a las
defunciones a causa de este virus.
Figura 10.
Defunciones a causa del Covid – 19 desde 2020 – 2022, según provincia en la región Ancash.
De la figura 10, se observa que la red pacifico norte y pacifico sur hubo más defunciones
36.58% y 36.66% respectivamente. Y donde hubo menos defunciones fue en la red conchucos
norte y sur.
Figura 11.
Defunciones a causa del Covid – 19 desde 2020 – 2022, según grupos de edad en la región
Ancash.
De la figura 11, se observa que el 72.49% de personas fallecidas que corresponde a 4313
personas fallecidas a causa de este virus pertenecen al grupo de edad de Adulto Mayor, seguido
del 26.35% que corresponde a 1568 personas fallecidas que se encuentran en el grupo de edad
de Adultos.
8.3.2. Análisis de la BB.DD - Sospechosos
Figura 12.
Casos sospechosos a causa del Covid – 19 desde 2020 – 2022
De la figura 12, se observa que fines de julio del 2020, junio 2021 y enero 2022 hubo una
cantidad significativa de casos sospechosos con covid 19, de allí se ve que hay una disminución
de casos, en algunas fechas como fines de abril y las primeras semanas de mayo del 2021 no se
reportaron casos sospechosos, el mismo comportamiento se vio a finales de julio de 2021.
Tabla 2.
Casos sospechosos de Covid – 19 desde 2020 – 2022, según género en la región Ancash.
Género n %
FEMENINO 17483 53.30%
Total 32802 100%
De la tabla 2, se observa que el 53.3% de los casos sospechosos se dieron por personas de sexo
femenino y el 46.7% de dichos casos se dieron por personas de sexo masculino.
Figura 13.
Casos sospechosos de Covid – 19 desde 2020 – 2022, según provincia en la región Ancash
De la figura 13, se observa que la provincia con mas casos sospechosos reportados fue Huaraz
con el 46.36% de casos, seguido de Santa y Huaylas con el 24.49% y 12.2% de casos
respectivamente.
8.3.3. Análisis de la BB.DD - Confirmados
Figura 14.
Casos confirmados de Covid – 19 desde 2020 – 2022, en la región Ancash.
De la figura 14, se observa tres olas de casos confirmados, en la primera ola se llego al pico
mas alto en el mes de septiembre de 2020, en la segunda ola se llego al pico mas elevado fines
del mes de abril del 2021 y la tercera ola el pico más elevado de todo este lapso temporal se dio
entre la quincena y fines de enero del 2022.
Tabla 3.
Casos confirmados de Covid – 19 desde 2020 – 2022, según género en la región Ancash.
Género n %
FEMENINO 94256 47.43%
MASCULINO 104486 52.57%
Total 198742 100%
De la tabla 3, se observa que el 47.43% de los casos confirmados se dieron por personas de
género femenino y el 52.57% de dichos casos se dieron por personas de sexo masculino.
Figura 15.
Casos confirmados de Covid – 19 desde 2020 – 2022, según provincia en la región Ancash
De la figura 15, se observa que la provincia con más casos confirmados fue Santa con el 50.07%
de casos, seguido de Huaraz con el 23.56% de casos confirmados.
Figura 16.
Casos confirmados de Covid – 19 desde 2020 – 2022, según severidad en la región Ancash
De la figura 16, se observa que el 52.9% de pacientes confirmados se les clasifico con síntomas
leves, seguido del 42.24% de pacientes asintomáticos.
8.3.4. Análisis de la BB.DD - Seguimiento
Figura 17.
Pacientes que cuentan con seguimiento clínico a distancia o presencial contra Covid – 19
desde 2020 – 2022, en la región Ancash.
De la figura 17, se observa tres olas de pacientes que cuentan con seguimiento clínico a distancia
o presencial, en la primera ola se llegó al pico más alto en el mes de octubre de 2020, en la
segunda ola se llegó al pico más elevado fines del mes de abril del 2021 y la tercera ola el pico
más elevado de todo este lapso temporal se dio entre la quincena y fines de enero del 2022.
Tabla 4.
desde 2020 – 2022, según género en la región Ancash.
Género n %
FEMENINO 94207 47.94%
MASCULINO 102316 52.06%
Total 196523 100%
De la tabla 4, se observa que el 47.93% de los pacientes que cuentan con seguimiento clínico a
distancia o presencia son género femenino y el 52.06% de dichos pacientes son de género
masculino.
Figura 18.
desde 2020 – 2022, según provincias en la región Ancash.
De la figura 18, se observa que la provincia que realizo más seguimiento clínico a distancia o
presencial fue Santa con el 36.58% de casos, seguido de Huaraz con el 31.56% de casos.
Tabla 5.
desde 2020 – 2022, según tipo de monitoreo en la región Ancash.
Tipo de monitoreo n %
Llamada telefónica 173580 88.33%
Visita presencial 22943 11.67%
Total 196523 100%
De la tabla 5, se observa que el 88.33% de los pacientes cuentan con seguimiento clínico a
distancia (llamada telefónica) y el 11.67% de los pacientes cuentan con seguimiento clínico
presencial (visita presencial).
Tabla 6.
desde 2020 – 2022, según evolución en la región Ancash.
Evolución n %
Estacionario 61782 31.44%
Favorable 133575 67.97%
Desfavorable 1166 0.59%
Total 196523 100%
De la tabla 6, se observa que el 67.97% de los pacientes que cuentan con seguimiento clínico a
distancia o presencial han evolucionado a un estado favorable, así también el 31.44% de dichos
pacientes se han mantenido en el mismo estado como se les encontró, por otro lado, el 0.59%
de pacientes han evolucionado a un estado desfavorable.
8.3.5. Análisis de la BB.DD - Tratamiento
Figura 19.
Tratamiento contra Covid – 19 desde 2020 – 2022, en la región Ancash.
De la figura 19, se observa que a partir de fines del mes de octubre del 2021 se empezó,
suministrar medicamentos y por ende darles un tratamiento a los pacientes con covid – 19, se
puede visualizar que fines del mes de enero del 2022 se llegó al pico más alto de medicamentos
suministrados.
Tabla 7.
Tratamiento contra Covid – 19 desde 2020 – 2022, según género en la región Ancash.
Género n %
FEMENINO 22117 55.19%
Total 40075 100%
De la tabla 7, se observa que el 55.19% de los pacientes son de género femenino se les
suministro medicamentos y el 44.81% de dichos pacientes son de género masculino.
Tabla 8.
Tratamiento contra Covid – 19 desde 2020 – 2022, según tipo de entrega en la región
Ancash.
Tipo de entrega n %
Equipo de Respuesta Rápida y/o

27559 68.77%
Seguimiento Clínico Presencial
Farmacia del Establecimiento de

12516 31.23%
Salud del Primer Nivel de Atención
Total 40075 100%
De la tabla 8, se observa que el 68.77% de los pacientes se les suministro medicamentos

mediante el equipo de respuesta rápida y/o seguimiento clínico presencial y el 31.23% % de los
pacientes se les suministro medicamentos mediante la farmacia del establecimiento de salud
del primer nivel de atención.
Figura 20.
desde 2020 – 2022, según provincias en la región Ancash.
De la figura 20, se observa que al 98.62% de los casos de pacientes con covid – 19, se les
suministro el medicamento paracetamol, y el resto de medicamentos suministrados fue ínfimo.
8.4. Análisis de clúster.
Tabla 9.
Distritos de la región Áncash
N° Provincia
1 Aija
2 Antonio Raymondi
3 Asunción
4 Bolognesi
5 Carhuaz
Carlos Fermín
6
Fitzcarrald
7 Casma
8 Corongo
9 Huaraz
10 Huari
11 Huarmey
12 Huaylas
13 Mariscal Luzuriaga
14 Ocros
15 Pallasca
16 Pomabamba
17 Recuay
18 Santa
19 Sihuas
20 Yungay
8.4.1. Identificación del número óptimo de Clúster
Importación de datos
Se hará uzo de la herramienta PCA que es importante para identificar las variables que mayor aportan
a la variabilidad de datos y trabajar con estas únicamente.
Figura 21.
Numero óptimo de clúster
Como se puede observar en la figura 21, el número óptimo de similaridad de las provincias de
la región Áncash es de 3 clúster.
8.4.2. Método de K-means
Se utilizará este método para la identificación de las provincias por clúster. Este algoritmo de
clasificación no supervisada agrupa objetos en k grupos basándose en la mínima suma de
distancias entre cada objeto y el centroide de su grupo o clúster.
Figura 22.
Clúster de las provincias de Áncash
Como se puede visualizar en la figura 22, hay 3 clúster(grupos), las provincias con el
comportamiento disimilar en cuanto a los casos confirmados o sospechosos que cuentan con
seguimiento clínico a distancia o presencial e inician tratamiento y las defunciones por covid-
19, son las provincias Huaraz (Clúster 2) y Santa (Clúster 3) y las otras provincias (Clúster 1).
Figura 23.
Dendograma de las provincias de Áncash
8.4.3. Combinación K-means y PCA
A pesar de que la agrupación de variables puede ayudar en el análisis de la totalidad de datos,

el proceso se hace cada vez más demandante entre mayor sea el número de variables. Por esta
razón el PCA se hace una herramienta importante para identificar las variables que mayor
aportan a la variabilidad de datos y trabajar con estas únicamente.
Figura 24.
Agrupamiento de las provincias de Áncash
En la figura 24, se puede visualizar los 3 clúster, allí podemos afirmar que si hubiese existido
4 clúster la provincia 12 (Huaylas) hubiese sido considerado como otro clúster, ya que los
datos que tiene esa provincia tienen variabilidad con el resto.
8.5. Análisis factorial confirmatorio.
Tabla 10.
Prueba de KMO y Bartlett
Medida Kaiser-Meyer-Olkin de adecuación de ,597

muestreo
Prueba de esfericidad de Aprox. Chi-cuadrado 297,498
Bartlett gl 10
Sig. ,000
En la tabla 10, la significancia de prueba de esfericidad de Bartlett 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.000 <

0.05; esto quiere decir que se puede aplicar el análisis factorial, y la prueba 𝐾𝑀𝑂 = 0.6, esto
quiere decir que hay una relación moderada entre las variables, por lo tanto, proseguimos y
vemos los factores.
8.5.1. Identificación del número óptimo de factores
Figura 25.
Número óptimo de factores
En la figura 25, se observa que el número óptimo de factores o componentes que se puede
considerar es de 2 factores.
Tabla 11.
Matriz de componente rotado
Componente
1 2
Defunciones ,280 ,959
Sospechosos ,940 ,338
Confirmados ,482 ,876
Seguimiento ,717 ,696
Medicamento ,929 ,365
Figura 26.
Factores de las variables de estudio
Como se observa en la tabla 11 y la figura 26, en el componente de la matriz rotado se puede

segmentar ambos componentes (factores) y en la figura es más visible los factores.
Primer factor = Defunciones, casos confirmados y pacientes que cuentan con seguimiento.
Segundo factor = Casos sospechosos y tratamiento (medicamento)

Figura 27.
Factores y clúster de las provincias de Ancash
En la figura 27, se observa que el clúster 3 (Santa) ha tenido más defunciones a causa del covid,
casos confirmados o pacientes que cuentan con seguimiento, pero menor numero de casos
sospechosos o tratamiento, en cuanto al clúster 2 (Huaraz) ha tenido menos defunciones a causa
del covid, casos confirmados o pacientes que cuentan con seguimiento, pero mayor número de
casos sospechosos o tratamiento.
8.6. Regresión lineal múltiple
Para este modelo se utilizó las variables descritas en esta investigación, en cuanto la
observación, se realizó con los datos mensuales obtenidos desde marzo 2020 hasta marzo 2022.
Variable respuesta = Defunciones
Variables regresores = Casos sospechosos, confirmados, pacientes que cuentan con

seguimiento y tratamiento.
8.6.1. Linealidad
Figura 28.
Análisis de la regresión
En la figura 28, se observa que el intercepto y la variable seguimiento no influyen en las

defunciones causadas por el covid – 19, tampoco cumplió quitando uno de ellos, por ello se
quito la ordenada al origen y la variable seguimiento, y como se logra observar allí si cumplió
la linealidad el modelo. El 𝑅𝑗2 = 79.55%; es decir que el modelo explica el 79.55% de la
variabilidad de las defunciones
8.6.2. Independencia
El supuesto de independencia implica que los errores del modelo no deben estar
correlacionados, es decir:
𝑐𝑜𝑟(𝑒ⅈ ; 𝑒𝑗 ) = 0
Figura 29.
Análisis de Durbin Watson
8.6.3. Homocedasticidad.
Significa que la variabilidad del error debe ser constante:
𝑉(𝑒ⅈ ) = 𝜎 2
Figura 30.
Análisis de Bartlett
𝐻0 : 𝐻𝑎𝑦 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
𝐻1 : 𝑁𝑜 ℎ𝑎𝑦 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
Como se puede observar en la figura 30, el 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.1711 > 0.05, no existe evidencia
significativa para rechazar 𝐻0 , por ende, concluimos que hay homocedasticidad.
8.6.4. Normalidad.
Los errores deben tener distribución normal:
𝑒ⅈ ~𝑁(0, 𝜎 2 )
Figura 31.
Q-Q e Histograma de normalidad
Como se observa en la grafica 31, se ha utilizado la prueba de Shapiro para medir la normalidad
de los errores, ya que el solo tenemos 25 observaciones. Como 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.032 < 0.05,
existe evidencia significativa para rechazar 𝐻0 , por ende, concluimos los residuos no estan
distribuidos normalmente.
8.6.5. Multicolinealidad
Se analizará la colinealidad de las variables regresores, con el método del factor de la

inflación de la varianza FIV O VIF. Si no hay multicolinealidad 𝑉𝐼𝐹 ≤ 1, si la
multicolinealidad es moderada. 5 < 𝑉𝐼𝐹 < 10, si hay alta multicolinealidad 𝑉𝐼𝐹𝑗 ≥ 10.
Figura 32.
Factor de la Inflación de la Varianza
Como se observa en la figura 32, dado que ninguno de los valores es grande (>10) no hay
multicolinealidad.
8.6.6. Modelo estimado
𝑦ⅈ = 𝛽0 + 𝛽1 𝑥ⅈ1 + 𝛽2 𝑥ⅈ2 + ⋯ + 𝛽𝑘 𝑥ⅈ𝑘 + 𝜀ⅈ
𝑦̂ = 0.111776𝑥1 + 0.023894𝑥2 − 0.060493𝑥3
Donde:
𝑦̂ = 𝐷𝑒𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑒𝑠 𝑎 𝑐𝑎𝑢𝑠𝑎 𝑑𝑒𝑙 𝐶𝑜𝑣𝑖𝑑 − 19
𝑥1 = 𝐶𝑎𝑠𝑜𝑠 𝑠𝑜𝑝𝑒𝑐ℎ𝑜𝑠𝑜𝑠 𝑑𝑒 𝐶𝑜𝑣𝑖𝑑 − 19
𝑥2 = 𝐶𝑎𝑠𝑜𝑠 𝑐𝑜𝑛𝑓𝑖𝑟𝑎𝑚𝑑𝑜𝑠 𝑑𝑒 𝐶𝑜𝑣𝑖𝑑 − 19
𝑥3 = 𝑃𝑒𝑟𝑠𝑜𝑛𝑎𝑠 𝑐𝑜𝑛 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 𝑐𝑜𝑛𝑡𝑟𝑎 𝑒𝑙 𝐶𝑜𝑣𝑖𝑑 − 19

En referencia al pronóstico, se
observa un modelo de tres
regresores (tridimensional) y su
variable de respuesta, además se
observa que los valores estimados
se asemejan, para una mayor
exactitud se tendría que realizar
transformaciones para la
adecuación y la bondad de ajuste
de dicho modelo con todas las
variables de esta investigación.
8.7. Soluciones al no cumplimiento de los supuestos
8.7.1. Transformación de Box-Cox
Donde 𝑦° es la media gemoétrica de los valores de y. La estimación de lambda se hace

utilizando el método de máxima verosimilitud, que en R se implementa así:
Figura 33.
Modelo transformado Box-Cox
Como se observa en la figura 33, se tiene los valores de lambda, con sus respectivos valores de
log-verosimilitud, esto se puede utilizar para comparar el ajuste de los coeficientes encontrados.
Como lo que se desea es maximizar la log-verosimilitud, el valor más alto es mejor.
IX. CONCLUSIONES
En los estudios descriptivos se logró determinar que el mes de abril del 2021 tuvimos más
defunciones, además la provincia Santa tuvo más defunciones y el grupo de edad más golpeado
por esta enfermedad fueron los adultos mayores, en cuanto a los casos sospechosos, fue la
provincia de Huaraz con más casos y fueron las mujeres que asistieron a sacarse las pruebas,
en cuanto los casos confirmados, se asemeja ese comportamiento como las de defunciones.
En cuanto al seguimiento de pacientes con covid, la provincia de Huaraz y Santa tuvieron una
cantidad semejante de casos, por lo general se hizo seguimiento a distancia, por otro lado, el
tratamiento de pacientes con covid, se realizó a partir del mes de octubre del 2020.
En el análisis multivariante se determinó tres grupos con disimilaridad, donde dos grupos de
ellos pertenecían a la provincia de Huaraz y Santa, porque sus datos de las variables pertinentes
de este estudio tuvieron comportamientos muy distintos que el resto de las provincias. Además,
se resolvió que la cantidad de factores para un mejor entendimiento de las variables solo serían
dos factores (“casos sospechosos o tratamiento” y “defunciones a causa del covid o casos
confirmados”).
Con todo este análisis se puede concluir que la provincia del Santa tiene más defunciones a
causa del covid y casos confirmados, pero menor número de casos sospechosos o tratamiento,
tomando esto como referencia en la provincia de Huaraz, el comportamiento es muy distinto,
tiene menos defunciones a causa del covid y casos confirmados, pero mayor número de casos
sospechosos y tratamiento, las provincias restantes tienen un comportamiento muy similar entre
ellos, han tenido pocas defunciones a causa del covid y casos confirmados también el número
de casos sospechosos y tratamiento son mínimos, todo esto referenciado con la cantidad de
población que tienen.
En la regresión se confirmó que los casos sospechosos, confirmados y el tratamiento influyen

en las defunciones a causa de este virus, viendo que el tratamiento influye inversamente
proporcional, esto quiere decir que mientras más casos confirmados y sospechosos se
encuentra, el numero de descensos incrementara, y si hacemos énfasis en el tratamiento; las
defunciones disminuirán.
X. APRENDIZAJES OBTENIDOS
10.1. Aprendizajes obtenidos.
- Machine Learning
- Minería de datos
- Levantamiento de información
- Levantamiento de informes e indicadores estadísticos
- Ciencia de datos
- Métodos multivariados
- Actualización de plataformas
- Creación de Dashboard
10.2. Cursos teóricos aplicados
- Estadistica I- II
- Algebra lineal
- Series de tiempo
- Análisis multivariante
- Modelos lineales
- Inferencia estadística
- Base de datos
- Ingeniería de software
- Análisis y explotación de la información
- Lenguaje de programación
- Estructura de datos
- Diseños experimentales
- Otros.
XI. RECOMENDACIONES
Para futuras investigaciones realizar análisis de clúster y factorial con las observaciones
mensuales, y comparar los resultados, así como también observar la similaridad en cuanto a
los meses semejantes.
Asi también incluir otras variables como el número de dosis vacunadas y los tipos de vacunas
para realizar el análisis multivariado y las regresiones. Y ver la influencia y la similaridad
entre vacunas y dosis
En el ámbito del sector salud se tiene que hacer énfasis con el tratamiento y detectar
rápidamente los casos sospechosos y confirmarlos, ya que estas variables influyen en las
defunciones a causa del covid 19.
XII. REFERENCIAS BIBLIOGRÁFICAS
Ale, J., (2005). Análisis de Clusters
Ale, J., (2005). Introducción a Data Mining
Bartlett MS. Tests of significance in factor analysis. Br J Psychol. 1950;3:77-85.
Bollen, K. A. (1989). Structural equations with latent variables. New York: John Wileyy
Sons.
Catillo, Medina y Vega (2016). Esquema de Visualización para Modelos de Clústeres en

Minería de Datos. Revista lbérica de Sistemas y Tecnologías de Información.
Catena RM, Trujillo H. Análisis Multivariado: un manual para investigadores
Chen, M., J. Han, 1996. Data mining: An overview from database perspective. IEEE
Transactions on Knowledge and Data Eng
Cuadras Carles (2014). Nuevos Métodos de Análisis Multivariante
Estrada, Zamarripa, Zúñiga y Martínez (2016). Aportaciones desde la minería de datos al

proceso de captación de matrícula en instituciones de educación superior particulares.
Revista Electrónica Educare (Educare Electronic Journal) Vol. 20(3) SETIEMBRE-
DICIEMBRE, 2016: 1-21. DOI: http://dx.doi.org/10.15359/ree.20-3.11
Gorsuch R. Factor analysis 2nd ed. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc.; 1983.
Gorsuch RL. Exploratory factor analysis: its role in item analysis. J Pers Asses. 1997;68:532-
60.
Hand, D., H. Mannila, P. Smyth, 2001. Principles of data mining. The MIT Press, California,
EEUU.
Hernández Orallo, J., 2000. Extracción Automática de Conocimiento de base de datos e

ingeniería del software. Programación declarativa e ingeniería de la programación
Jain, A. K., R. C. Dubes, 1988. Algorithms for Clustering Data. Prentice Hall
Macía F. Validez de los tests y el análisis factorial: nociones generales. Cienc Trab. 2010;
12:276-80.
Mannila, H., (1997). Methods and problems in data mining. In Proc. of International
Conference on Database Theory, Delphi, Greece
Milton, S. (2002). Estadística para Biología y Ciencias de la Salud. Ed.: Mc Graw-Hill.

Morales, E., 2003. Descubrimiento de Conocimiento en Bases de Datos
Montgomery, D., Peck, E. y Vining, G. (2001). Introduction to Linear Regression Analysis.

Ed:Ms. ISBN 0-471-31565-6
Ng, R., J. Han, 1994. Efficient and effective clustering method for spatial data mining. In
Proc. 1994 Int. Conf. Very Large Data Bases, (Páginas 144/155), Santiago de Chile,
Chile
Pérez López, César & Santín González, Daniel (2007). Minería de datos. Thomson Ediciones
Paraninfo S.A. Madrid, España.
Perversi, I. (2007). Aplicación de minería de datos para la exploración y detección de

patrones delictivos en Argentina. Argentina: Instituto Tecnológico de Buenos Aires.
Quinlan, J., 1993c. C4.5: Programs for Machine Learning. Morgan Kaufmann.
Ruiz Torres, Mary Karina (2007). Data warehouse y minería de datos. Ed. Dirección General
de Servicios de Cómputo Académico, México.
Vesanto J., E. Alhoniemi, 2000. Clustering of the Self-Organizing Map. IEEE transactions on
neural networks, Vol 11, No. 3.
XIII. ANEXOS
UNIVERSIDAD NACIONAL FACULTAD DE CIENCIAS

“SANTIAGO ANTÚNEZ DE MAYOLO” C.P. DE ESTADÍSTICA E INFORMÁTICA
ANEXO Nº 01
FORMATO DE PRÁCTICAS PRE PROFESIONALES
I. DATOS DEL ALUMNO
APELLIDOS Y NOMBRES DNI CÓDIGO
COTRINA SANTOS MILTON ANGELES 75451716 171.0405.028
CRÉDITOS APROBADOS 196
FECHA DE INICIO DE LAS PRÁCTICAS 31/01/2021
FECHA DE CULMINACIÓN DE LAS PRÁCTICAS 29/04/2021
FIRMA DEL ALUMNO ≫
II. DATOS DEL DOCENTE ASESOR

APELLIDOS Y NORABUENA FIGUEROA ROGER PEDRO
NOMBRES
TÍTULO ESTADISTICO
GRADO DOCTOR
CATEGORÍA ASOCIADO CONDICIÓN NOMBRADO DEDICACIÓN TIEMPO
COMPLETO
41493243
DNI ≫ FIRMA DEL DOCENTE ≫
III. DATOS DEL CENTRO DE PRÁCTICAS

INSTITUCIÓN DIRECCION REGIONAL DE SALUD - ANCASH
PROVINCIA HUARAZ DISTRITO HUARAZ
DIRECCIÓN Av. Confraternidad Internacional Oeste 1544, Huaraz 02001
TELEFONO (043) 421321 E-MAIL www.diresancash.gob.pe
APELLIDOS Y NOM. POLO SALAZAR CRISTIAN ALFREDO
DEL RESPONSABLE
CARGO DEL Estadística e Informática DIRESA
RESPONSABLE
ESPECIALIDAD Lic. Estadística e Informática
ACTIVIDADES A Actualizaciones y gestiones del HIS
DESARROLLAR Indicadores y reportes de casos COVID 19
Gestionar Padrón Nominal
14/02/2022
FECHA SELLO Y FIRMA DEL RESPONSABLE

ANEXO Nº 03
2021 - II
Cotrina Santos Milton Angeles 171.0405.028
Psj. Los Angeles S/N 956410278
Av. Confraternidad Internacional Oeste 1544 043) 421321
Norabuena Figueroa Roger Pedro
9:00 9:00 9:00 9:00 9:00

SEMANA 1
13:00 13:00 13:00 13:00 13:00
9:00 9:00 9:00 9:00 9:00
SEMANA 2
13:00 13:00 13:00 13:00 13:00
9:00 9:00 9:00 9:00 9:00
SEMANA 3
13:00 13:00 13:00 13:00 13:00
9:00 9:00 9:00 9:00 9:00
SEMANA 4
13:00 13:00 13:00 13:00 13:00
9:00 9:00 13:00 9:00 13:00
SEMANA 5
13:00 13:00 13:00 13:00 13:00
2021 - II
9:00 9:00 9:00 9:00 9:00

SEMANA 6
13:00 13:00 13:00 13:00 13:00
9:00 9:00 9:00 9:00 9:00
SEMANA 7
13:00 13:00 13:00 13:00 13:00
9:00 9:00 9:00 9:00 9:00
SEMANA 8
13:00 13:00 13:00 13:00 13:00
9:00 9:00 9:00 9:00 9:00
SEMANA 9
13:00 13:00 13:00 13:00 13:00
9:00 9:00 13:00 9:00 13:00
SEMANA 10
13:00 13:00 13:00 13:00 13:00
2021 - II
9:00 9:00 9:00 9:00 9:00

SEMANA 11
13:00 13:00 13:00 13:00 13:00
9:00 9:00 9:00 9:00 9:00
SEMANA 12
13:00 13:00 13:00 13:00 13:00
9:00 9:00 9:00 9:00 9:00
SEMANA 13
13:00 13:00 13:00 13:00 13:00
9:00 9:00 9:00 9:00 9:00
SEMANA 14
13:00 13:00 13:00 13:00 13:00
9:00 9:00 13:00 9:00 13:00
SEMANA 15
13:00 13:00 13:00 13:00 13:00
CONSTANTIA DE PRÁCTICAS

Informe PPPE - Cotrina Santos Milton Angeles

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Informe PPPE - Cotrina Santos Milton Angeles

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL

ESCUELA PROFESIONAL DE ESTADÍSTICA E

INFORME DE PRÁCTICA PRE-PROFESIONAL EN ESTADÍSTICA

MINERIA DE DATOS SOBRE LOS CASOS QUE CUENTAN

COTRINA SANTOS MILTON ANGELES

Asesor: Dr. Norabuena Figueroa Roger Pedro

Figura 1. Organigrama Dirección Regional de Salud Ancash ............................................... 8

Figura 2. Ubicación satelital de la DIRES ANCASH ............................................................ 10

Figura 3. Definición de minería de datos. ............................................................................. 20

Figura 4. El proceso KDD. .................................................................................................... 21

Figura 5. Técnicas de la minería de datos ............................................................................. 23

Figura 6. Ciclo de vida de la Ciencia de Datos..................................................................... 29

Figura 7. Procesos del análisis factorial ............................................................................... 30

Figura 21. Numero óptimo de clúster .................................................................................. 51

Figura 22. Clúster de las provincias de Áncash .................................................................. 52

Figura 23. Dendograma de las provincias de Áncash ......................................................... 52

Figura 24. Agrupamiento de las provincias de Áncash ....................................................... 53

Figura 25. Número óptimo de factores ................................................................................ 54

Figura 26. Factores de las variables de estudio .................................................................. 55

Figura 27. Factores y clúster de las provincias de Ancash ................................................. 56

Figura 28. Análisis de la regresión ...................................................................................... 57

Figura 29. Análisis de Durbin Watson ................................................................................. 58

Figura 30. Análisis de Bartlett ............................................................................................. 58

Figura 31. Q-Q e Histograma de normalidad ..................................................................... 59

Figura 32. Factor de la Inflación de la Varianza ................................................................ 60

Figura 33. Modelo transformado Box-Cox .......................................................................... 61

Tabla 9. Distritos de la región Áncash ................................................................................ 50

Tabla 10. Prueba de KMO y Bartlett ..................................................................................... 54

Tabla 11. Matriz de componente rotado ................................................................................ 55

La crisis sanitaria de la lucha contra el coronavirus ha puesto en evidencia la gran necesidad de

La importancia de fortalecer los sistemas de análisis estadísticos nacionales se ha enfatizado y

No determinamos matemáticamente la causa de defunciones, ya que no tenemos en cuenta o no

La Dirección Regional de Salud – Ancash, es la Autoridad Sanitaria Regional que

Fuente: DIRES ANCASH

2.3. Nombre de la Institución

Dirección Regional de Salud – Áncash (DIRESA - Áncash)

El área de ESTADÍSTICA E INFORMÁTICA.

2.5. Representante Legal

El Lic. POLO ZALAZAR CRISTIAN ALFREDO, quien es el director de la dirección

2.6. Misión y Visión de la Organización

Al 2016 la Dirección Regional de Salud Áncash es una Institución líder a nivel

La Dirección Regional de Salud Áncash tiene la MISIÓN de promover y

2.7. Ubicación Geográfica

La Dirección Regional de Salud Áncash está ubicada en Av. Confraternidad

✓ Teléfono: (043) 421321

Fuente: DIRES ANCASH

2.8. Funciones del Área de Estadística e Informática

• Implementar el monitoreo para el cumplimiento de aplicación de códigos

2.9. Horario de Practicas

Horario de prácticas pre – profesionales.

HORARIO LUNES MARTES MIERCOLES JUEVES VIERNES

3.1. Objetivo General.

3.2. Objetivos Específicos.

✓ Describir el agrupamiento de las provincias de la región Ancash a los casos confirmados

4.2.1. Limitación Técnica

La limitación técnica que se encontró es la falta de capacitación o especialización en los

4.2.2. Limitación Cronológica

La limitación más evidente que se pudo observar es la del tiempo, ya que el

4.2.3. Limitación Tecnológica

La limitación tecnológica viene de la mano con la limitación técnica, además de no tener

4.2.4. Limitación Económica

5.1. Actividades encomendadas o requerimiento específico solicitado por el

Descargar semanalmente los nuevos datos que conciernen a los

Analizar reportes mensuales que