Documentos de Académico
Documentos de Profesional
Documentos de Cultura
“SANTIAGO ANTÚNEZ DE
MAYOLO”
FACULTAD DE CIENCIAS
Huaraz – Perú
2022
ÍNDICE
I. INTRODUCCIÓN ......................................................................................................................... 7
II. DESCRIPCIÓN Y FUNCIONES GENERALES DE LA INSTITUCIÓN .......................... 8
2.1. Descripción ............................................................................................................................. 8
2.2. Organigrama.......................................................................................................................... 8
2.3. Nombre de la Institución ...................................................................................................... 8
2.4. Unidad de Practica ................................................................................................................ 9
2.5. Representante Legal .............................................................................................................. 9
2.6. Misión y Visión de la Organización ..................................................................................... 9
2.6.1. Visión .............................................................................................................................. 9
2.6.2. Misión ............................................................................................................................. 9
2.7. Ubicación Geográfica ............................................................................................................ 9
2.8. Funciones del Área de Estadística e Informática ............................................................. 10
2.9. Horario de Practicas ........................................................................................................... 11
III. OBJETIVOS PROPUESTOS ................................................................................................ 12
3.1. Objetivo General. ................................................................................................................ 12
3.2. Objetivos Específicos........................................................................................................... 12
IV. ALCANCES Y LIMITACIONES .......................................................................................... 13
4.1. Alcances ................................................................................................................................ 13
4.2. Limitaciones ......................................................................................................................... 13
4.2.1. Limitación Técnica ...................................................................................................... 13
4.2.2. Limitación Cronológica............................................................................................... 13
4.2.3. Limitación Tecnológica ............................................................................................... 13
4.2.4. Limitación Económica ................................................................................................ 13
V. DESCRIPCIÓN DE LAS ACTIVIDADES DESARROLLADAS .......................................... 15
5.1. Actividades encomendadas o requerimiento específico solicitado por el responsable de
la institución o empresas. ................................................................................................................ 15
5.2. Justificación de que la actividad desarrollada guarda relación con la Práctica en
Estadística. ....................................................................................................................................... 16
VI. MATERIALES, MÉTODOS Y PROCEDIMIENTOS........................................................ 17
6.1. Materiales ............................................................................................................................. 17
6.1.1. Hardware ..................................................................................................................... 17
6.1.2. Hardware ..................................................................................................................... 17
6.2. Métodos ................................................................................................................................ 17
6.2.1. Tipo de investigación. .................................................................................................. 18
6.2.2. Diseño de la investigación ........................................................................................... 18
6.2.3. Población ...................................................................................................................... 18
6.2.4. Muestra......................................................................................................................... 18
6.3. Técnicas de Procedimientos ................................................................................................ 19
6.3.1. Procesamientos de Datos............................................................................................. 19
6.3.2. Técnicas de análisis de Datos ...................................................................................... 19
VII. CONCEPTOS TEÓRICOS DE LA ESPECIALIDAD, APLICADOS .............................. 20
7.1. Marco Teórico...................................................................................................................... 20
7.2. Marco Conceptual ............................................................................................................... 32
VIII. RESULTADOS, APLICACIÓN O IMPLEMENTACIÓN ............................................. 36
8.1. Preparación de los datos. .................................................................................................... 36
8.2. Modelado de los datos. ........................................................................................................ 36
8.3. Análisis de los datos............................................................................................................. 39
8.3.1. Análisis de la BB.DD - Defunciones .................................................................................. 39
8.3.2. Análisis de la BB.DD - Sospechosos .................................................................................. 42
8.3.3. Análisis de la BB.DD - Confirmados ................................................................................ 43
8.3.4. Análisis de la BB.DD - Seguimiento .................................................................................. 45
8.3.5. Análisis de la BB.DD - Tratamiento ................................................................................. 48
8.4. Análisis de clúster. ............................................................................................................... 50
8.4.1. Identificación del número óptimo de Clúster............................................................ 51
8.4.2. Método de K-means..................................................................................................... 51
8.4.3. Combinación K-means y PCA.................................................................................... 53
8.5. Análisis factorial confirmatorio. ........................................................................................ 54
8.5.1. Identificación del número óptimo de factores ........................................................... 54
8.6. Regresión lineal múltiple .................................................................................................... 56
8.6.1. Linealidad ........................................................................................................................... 56
8.6.2. Independencia ..................................................................................................................... 57
8.6.3. Homocedasticidad. ............................................................................................................. 58
8.6.4. Normalidad. ........................................................................................................................ 59
8.6.5. Multicolinealidad................................................................................................................ 60
8.6.6. Modelo estimado................................................................................................................. 60
8.7. Soluciones al no cumplimiento de los supuestos ............................................................... 61
8.7.1. Transformación de Box-Cox ...................................................................................... 61
IX. CONCLUSIONES ................................................................................................................... 62
X. APRENDIZAJES OBTENIDOS................................................................................................ 63
10.1. Aprendizajes obtenidos. .................................................................................................. 63
10.2. Cursos teóricos aplicados ................................................................................................ 63
XI. RECOMENDACIONES ......................................................................................................... 64
XII. REFERENCIAS BIBLIOGRÁFICAS .................................................................................. 65
XIII. ANEXOS .............................................................................................................................. 67
ÍNDICE DE FIGURAS
Figura 8. Comportamiento de las defunciones a causa del Covid – 19 desde 2020 – 2022, en
la región Ancash....................................................................................................................... 39
Figura 9. Defunciones a causa del Covid – 19 desde 2020 – 2022, según provincia en la
región Ancash. .......................................................................................................................... 40
Figura 10. Defunciones a causa del Covid – 19 desde 2020 – 2022, según provincia en la
región Ancash. .......................................................................................................................... 40
Figura 11. Defunciones a causa del Covid – 19 desde 2020 – 2022, según grupos de edad
en la región Ancash. ................................................................................................................. 41
Figura 12. Casos sospechosos a causa del Covid – 19 desde 2020 – 2022 ........................ 42
Figura 13. Casos sospechosos de Covid – 19 desde 2020 – 2022, según provincia en la
región Ancash ........................................................................................................................... 43
Figura 14. Casos confirmados de Covid – 19 desde 2020 – 2022, en la región Ancash..... 43
Figura 15. Casos confirmados de Covid – 19 desde 2020 – 2022, según provincia en la
región Ancash ........................................................................................................................... 44
Figura 16. Casos confirmados de Covid – 19 desde 2020 – 2022, según provincia en la
región Ancash ........................................................................................................................... 45
Figura 17. Pacientes que cuentan con seguimiento clínico a distancia o presencial contra
Covid – 19 desde 2020 – 2022, en la región Ancash. .............................................................. 45
Figura 18. Pacientes que cuentan con seguimiento clínico a distancia o presencial contra
Covid – 19 desde 2020 – 2022, según provincias en la región Ancash. .................................. 46
Figura 19. Tratamiento contra Covid – 19 desde 2020 – 2022, en la región Ancash. ........ 48
Figura 20. Pacientes que cuentan con seguimiento clínico a distancia o presencial contra
Covid – 19 desde 2020 – 2022, según provincias en la región Ancash. .................................. 49
Tabla 1. Defunciones a causa del Covid – 19 desde 2020 – 2022, según género en la región
Ancash. ................................................................................................................................ 39
Tabla 2. Casos sospechosos de Covid – 19 desde 2020 – 2022, según género en la región
Ancash. ................................................................................................................................ 42
Tabla 3. Casos confiramdos de Covid – 19 desde 2020 – 2022, según género en la región
Ancash. ................................................................................................................................ 44
Tabla 4. Pacientes que cuentan con seguimiento clínico a distancia o presencial contra
Covid – 19 desde 2020 – 2022, según género en la región Ancash. ........................................ 46
Tabla 5. Pacientes que cuentan con seguimiento clínico a distancia o presencial contra
Covid – 19 desde 2020 – 2022, según tipo de monitoreo en la región Ancash. ...................... 47
Tabla 6. Pacientes que cuentan con seguimiento clínico a distancia o presencial contra
Covid – 19 desde 2020 – 2022, según evolución en la región Ancash. ................................... 47
Tabla 7. Tratamiento contra Covid – 19 desde 2020 – 2022, según género en la región
Ancash. ................................................................................................................................ 48
Tabla 8. Tratamiento contra Covid – 19 desde 2020 – 2022, según tipo de entrega en la
región Ancash. .......................................................................................................................... 49
La necesidad de saber cuáles son los factores para que una persona fallezca respecto a otras, es
preocupación de los investigadores, por lo que es relevante la comparación de mortalidad en
las diferentes regiones de este país, teniendo en cuenta que presenta múltiples factores
influyentes.
Los pacientes registrados como casos confirmados o sospechosos que cuentan con seguimiento
clínico a distancia o presencial e inician tratamiento diagnosticado e identificados las variables
que influyen en su descenso a tiempo es muy relevante para que pueda vivir, el problema radica
en que las personas especialistas en este campo no cuentan con la información de dichas
variables influyentes y tampoco en el comportamiento de estas, todo esto es un problema muy
grande nuestro país y región.
2.1. Descripción
2.2. Organigrama
Figura 1.
Organigrama Dirección Regional de Salud Ancash
2.6.1. Visión
2.6.2. Misión
08:00 am a
09:00 am
09:00 am a PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE
10:00 am PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES
10:00 am a PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE
11:00 am PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES
11:00 am a PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE
12:00 am PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES
12:00 am a PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE PRÁCTICAS PRE
01:00 pm PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES PROFESIONALES
01:00 pm a
02:00 pm
✓ Duración: 3 meses.
✓ Fecha de inicio: 31 de Enero del 2022.
✓ Fecha óptima para la culminación: 13 de Mayo del 2022.
III. OBJETIVOS PROPUESTOS
✓ Realizar minería de datos de los casos confirmados o sospechosos que cuentan con
seguimiento clínico a distancia o presencial e inician tratamiento y las defunciones por
covid-19 en la región Ancash, periodo 2020 - 2022.
4.1. Alcances
El alcance que se presente lograr será de gran importancia para el sector de salud y en especial
para la dirección región de salud – Ancash, para una adecuada toma de decisiones, pues
mediante la minería de datos se determinara anomalías, patrones y correlaciones en grandes
conjuntos de datos que corresponde a pacientes afectados por el corona virus.
Por otro lado, es de gran importancia este estudio ya que se va analizar los similaridad, las
correlaciones, segmentaciones por momentos, demográficos, redes de salud entre otros. Esto es
de gran importancia las decisiones epidemiológicas, y sobre todo para saber el comportamiento
del dicho virus.
4.2. Limitaciones
La limitación más recurrente en las investigaciones, siendo además una entidad pública,
es lo económico, ello afecta al practicante, así como también a todo el equipo de trabajo
de la obtención de información, ya que por cuenta propia y para obtener información
mediante la minera de datos el gasto tiene que correr por cuenta propia y del equipo de
trabajo.
V. DESCRIPCIÓN DE LAS ACTIVIDADES DESARROLLADAS
Actividad Procedimiento
Analizar reportes del progreso de Descargar y actualizar la base de datos de nuestro servidor,
vacunación contra el COVID, así como semanalmente los datos obtenidos de estas enfermedades, medir la
también los tratamientos de VIH, etc. evolución del tratamiento y lucha en contra de estas.
Como se especificó en las actividades desarrolladas, se hizo ciencia de datos ya que para
analizar y determinar indicadores o reportes se tuvo que involucrar este campo interdisciplinario
que implica métodos científicos, procesos y sistemas para extraer conocimiento o un mejor
entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados.
Todo ello aplica los estudios realizados en campos de análisis de datos de la estadística, la
minería de datos, el aprendizaje automático, y la analítica predictiva.
Las decisiones en el sector salud que tienen la Diresa en nuestra región, son muy criticas para
contemplar y tomar decisiones, es por ello que la información que se genera con la aplicación
de la ciencia de datos ayuda a la Diresa a aumentar la eficiencia operativa, identificar nuevas
oportunidades, amenazas y mejorar los programas de supervisión y poder controlar las
enfermedades o acciones de salud, entre otros beneficios.
VI. MATERIALES, MÉTODOS Y PROCEDIMIENTOS
6.1. Materiales
6.1.1. Hardware
6.1.2. Hardware
Microsoft office
Sw001 professional 16.0.14326 Licencia/Prueba
plus 2019
2022.02.1-
Sw002 Rstudio Libre
461
Sql Server -
Sw003 15 Libre
SSMS
6.2. Métodos
Para realizar el presente informe se utilizó métodos de la minería de datos, puesto que los
datos de las variables que se estudió en la investigación se consiguieron de la página del Sis
Covid – Minsa (https://siscovid.minsa.gob.pe/bandeja-consultor/)
El análisis e interpretación estadística de los datos para la presente investigación se realizará
por medio de las medidas de tendencia central y dispersión, presentados en gráficos estadísticos
y organizados en los cuadros estadísticos.
6.2.3. Población
6.2.4. Muestra
Para realizar este estudio no se tomó ninguna muestra, es decir se utilizó todos
los registros obtenidos de la página SIS Covid – Minsa, ente el periodo 2020 –
2022.
6.3. Técnicas de Procedimientos
Ola pandémica
Minería de Datos
Paz (2008, p.3) define la minería de datos como un proceso mediante el cual se toma como
materia prima los datos, se procesan y se genera como resultado conocimiento en forma de
patrones tal como se muestra en la figura 1, ya que los datos son el activo más importante de
una organización, el proceso de transformar datos en conocimiento se convierte en una
Figura 3.
Definición de minería de datos.
Figura 4.
El proceso KDD.
El modelo del proceso KDD consta de los siguientes pasos (la entrada de cada paso es la salida
del anterior), de manera iterativa (los analistas aplican bucles de retroalimentación si es
necesario) e interactiva:
Pérez y Santín, clasifican en técnicas predictivas en las que las variables pueden clasificarse
inicialmente en dependientes e independientes (similares a las técnicas del análisis de la
dependencia o métodos explicativos del análisis multivariante), técnicas descriptivas, en las que
todas las variables tienen inicialmente el mismo estatus (similares a las técnicas del análisis de
la interdependencia o métodos descriptivos del análisis multivalente) y las técnicas auxiliares.
En resumen, se puede visualizar en la siguiente figura:
Figura 5.
Técnicas de la minería de datos
Agrupación de datos
La técnica de clustering ha sido estudiada en las áreas de la estadística [Cheeseman & Stutz,
1996; Jain & Dubes, 1988], machine learning [Fisher, 1996], base de datos espaciales y minería
de datos [Cheeseman & Stutz, 1996; Ester et al., 1995; Ng & Han, 1994; Zhang et al., 1996].
Dos de los algoritmos de clustering más utilizados son Self Organizing Maps (SOM) y K-
means. SOM, también denominado redes de Kohonen, fue creado por Teuvo Kohonen en 1982.
Se trata de un modelo de red neuronal con capacidad para formar mapas de características de
manera similar a como ocurre en el cerebro. SOM está basado en el aprendizaje no supervisado
y competitivo, lo cual quiere decir que no se necesita intervención humana durante el mismo y
que se necesita saber muy poco sobre las características de la información de entrada. SOM
provee un mapa topológico de datos, que se representan en varias dimensiones, utilizando
unidades de mapa (las neuronas) para simplificar la representación [Kohonen, 1995].
Las neuronas usualmente forman un mapa bidimensional, por lo que el mapeo transforma un
problema de muchas dimensiones en el espacio, a un plano. La propiedad de preservar la
topología significa que el mapeo preserva las distancias relativas entre puntos.
Los puntos que están cerca unos de los otros en el espacio original de entrada son mapeados a
neuronas cercanas en SOM. Por esta razón, SOM es muy útil como herramienta de análisis de
clases de datos de muchas dimensiones [Vesanto & Alhoniemi, 2000], y además tiene la
capacidad de generalizar [Essenreiter et al., 1999], lo que implica que la red puede reconocer o
caracterizar entradas que nunca antes ha encontrado.
K-means es un método iterativo que busca formar k clusters, con k predeterminado antes del
inicio del proceso. K-means comienza particionando los datos en k subconjuntos no vacíos,
calcula el centroide de cada partición como el punto medio del cluster y asigna cada dato al
cluster cuyo centroide sea el más próximo. Luego vuelve a particionar los datos iterativamente,
hasta que no haya más datos que cambien de cluster de una iteración a la otra.
Clasificación de datos
La clasificación se utiliza para clasificar un conjunto de datos basado en los valores de sus
atributos. Por ejemplo, se podría clasificar a distintas personas para la otorgación de un
préstamo en riesgo bajo, medio y alto, teniendo en cuenta información histórica de las mismas.
La clasificación encuentra las propiedades comunes entre un conjunto de objetos y los clasifica
en diferentes clases, de acuerdo a un modelo de clasificación. Para construir este modelo, se
utiliza un conjunto de entrenamiento, en el que cada instancia consiste en un conjunto de
atributos y el valor de la clase a la cual pertenece. El objetivo de la clasificación es analizar los
datos de entrenamiento y, mediante un método supervisado, desarrollar una descripción o un
modelo para cada clase utilizando las características disponibles en los datos. Esta descripción
o modelo permite clasificar otras instancias, cuya clase es desconocida.
Clúster jerárquico.
Distancias
• 𝑑(𝐴, 𝐵) ≥ 0
• 𝑑(𝐴, 𝐵) = 𝑑(𝐵, 𝐴)
• 𝑑(𝐴, 𝐵) ≤ 𝑑(𝐴, 𝐶) + 𝑑(𝐶, 𝐵)
a) Distancia de minkowski
Es la distancia Minkowsky si 𝑟 = 1
c) Distancia euclidiana
Si 𝑟 = 2
En el procedimiento para aplicar el paso 4 deberá elegirse una de las distancias entre
conglomerados (del vecino más cercano, del vecino más lejano, de los promedios, etcétera).
d) Distancia Mahalanobis
Métodos aglomerativos:
A continuación, vamos a presentar algunas de las estrategias que pueden ser empleadas a la
hora de unir los clústeres en las diversas etapas o niveles de un procedimiento jerárquico.
Ninguno de estos procedimientos proporciona una solución óptima para todos los problemas
que se pueden plantear, ya que es posible llegar a distintos resultados según el método elegido
o el buen criterio del investigador, el conocimiento del problema planteado y la experiencia,
sugerirán el método más adecuado.
Los pasos que se siguen para llevar a cabo la partición de los elementos se representan
mediante un diagrama llamado dendrograma.
La elección de la distancia a utilizar entre elementos o conglomerados es una tarea difícil de
llevar a cabo. La recomendación es probar con la distancia y el método de agrupamiento que
más se ajusten a la naturaleza de los datos y a su interpretación.
El Análisis de Correspondencias (AC) es una técnica multivariante que permite representar las
categorías de las filas y columnas de una tabla de contingencia. Supongamos que tenemos dos
variables categóricas 𝐴 𝑦 𝐵 con I y J categorías respectivamente, y que han sido observadas
cruzando las I categorías A con las J categorías B, obteniendo 𝑛 = ∑𝑖𝑗 𝑓𝑖𝑗 observaciones,
donde 𝑓ⅈ𝑗 es el número de veces en que aparece la intersección 𝐴ⅈ ∩ 𝐵𝑗 dando lugar a la tabla
de contingencia 𝐼𝑥𝐽.
donde 𝑓𝑖. = ∑𝑗 𝑓𝑖𝑗 es la frecuencia marginal de 𝐴𝑖, 𝑓. 𝑗 = ∑𝑖 𝑓𝑖𝑗 es la frecuencia marginal de
𝐵𝑗 : Debemos tener en cuenta que, en realidad, la tabla , resume la matriz de datos inicial, que
típicamente es de la forma
en la que damos el valor 1 cuando se presenta una característica y 0 cuando no se presenta. Así,
el individuo “1” presentaría las características 𝐴1 𝑦 𝐵1; el individuo “i" presentaría las
características 𝐴𝐼 𝑦 𝐵2; y el individuo “n" las características 𝐴𝐼 𝑦 𝐵𝑗 : La matriz de datos
𝑛𝑥(𝐼 + 𝐽) es pues:
𝑍 = [𝑋, 𝑌]
A partir de ahora utilizaremos el nombre de variables filas y variables columnas a las variables
A y B, respectivamente.
Asociación
Existen varios algoritmos que realizan el descubrimiento de reglas de asociación, uno de los
más utilizados es Apriori.
Ciencia de Datos
Figura 6.
Ciclo de vida de la Ciencia de Datos
Análisis Factorial
El análisis factorial es un método de reducción estadística que tiene como objetivo explicar las
posibles correlaciones entre ciertas variables. Para ello, teniendo en cuenta el efecto de otras,
los factores, que no son observables.
Es una técnica de reducción de datos que sirve para encontrar grupos homogéneos de variables
a partir de un conjunto numeroso de variables. Los grupos homogéneos se forman con las
variables que correlacionan mucho entre sí y procurando, inicialmente, que unos grupos sean
independientes de otros.
El Análisis Factorial es, por tanto, una técnica de reducción de la dimensionalidad de los datos.
Su propósito último consiste en buscar el número mínimo de dimensiones capaces de explicar
el máximo de información contenida en los datos
Figura 7.
Procesos del análisis factorial
Primer paso:
El punto inicial del análisis factorial, es encontrar los factores para condensar (resumir) la
información contenida en una serie de variables originales en una serie más pequeña de
dimensiones compuestas o valores teóricos (factores) nuevos con una mínima pérdida de
información. La técnica del análisis factorial puede satisfacer cualquiera de los siguientes
objetivos:
Segundo paso:
El siguiente paso deberá ser el análisis de la matriz de correlaciones el mismo que nos indicará
la existencia o no de multicolinealidad. Es lógico de suponer que en el caso de que las variables
presenten correlaciones extremadamente bajas no es recomendable aplicar un AF.
Tercer paso:
Los supuestos básicos subyacentes del análisis factorial son más de tipo conceptual que
estadístico. Desde este punto de vista, se pueden obviar los supuestos de normalidad y
homocedasticidad, siendo conscientes de que su incumplimiento produce una disminución en
las correlaciones observadas. En realidad, sólo es necesaria la normalidad cuando se aplica una
prueba estadística a la significancia de los factores; sin embargo, raramente se utilizan estas
pruebas. De hecho, es deseable que haya cierto grado de multicolinealidad.
Ahora bien, es el momento de hablar de otras medidas que nos permitirán identificar si es viable
o no aplicar un AF en nuestra matriz de datos:
Primera opción:
Test de Bartlett, la misma que es una prueba estadística para homogeneidad de varianzas, y para
la aplicación en un AF es decir proporciona la probabilidad estadística de que la matriz de
correlación de las variables sea una matriz identidad.
Segunda opción:
Fórmula de cálculo:
0.4 𝑎 0.5 aceptable (Se puede implementar un AF sin embargo se sugiere verificar el estado
de las variables).
Regresión
El modelo:
Se llama modelo de regresión lineal múltiple con k regresores. Los parámetros 𝛽𝑗 , 𝑗 =
0,1,2,3 … , 𝑘, se llaman coeficientes de regresión. Este modelo describe a un hiperplano en el
espacio de k dimensiones de las variables regresoras 𝑥𝑗 El parámetro 𝛽𝑗 representa el cambio
esperado en la respuesta y por cambio unitario en 𝑥𝑗 cuando todas las demás variables
regresoras 𝑥𝑖 𝑖 ≠j se mantienen constantes.
Por esta razón, a los parámetros 𝛽𝑗 , 𝑗 = 0,1,2,3 … , 𝑘 se les llama con frecuencia coeficientes
de regresión parcial.
Se puede aplicar el método de mínimos cuadrados para estimar los coeficientes de regresión de
la ecuación. Supongamos que se dispone de n > k observaciones, y sea 𝑦𝑖 la i-ésima respuesta
observada, y 𝑥𝑖𝑗 la i-ésima observación o nivel del regresor 𝑥𝑗 Los datos aparecerán como en
la tabla. Se supone que el término de error 𝜀 del modelo tiene 𝐸(𝜀) = 0, 𝑉(𝜀) = 𝜎2 y que los
errores no están correlacionados.
Nótese que hay p = k + 1 ecuaciones normales, una para cada uno de los coeficientes
desconocidos de regresión. La solución de las ecuaciones normales serán los estimadores por
mínimos cuadrados 𝛽1 , 𝛽2 … 𝛽𝑘 . Es más cómodo manejar modelos de regresión múltiple cuando
se expresan en notación matricial. Eso permite presentar en forma muy compacta al modelo,
los datos y los resultados. En notación matricial el modelo expresado por la ecuación es:
En general, 𝑦 es un vector de 𝑛𝑋1 de las observaciones, 𝑋 es una matriz de 𝑛𝑥𝑝 de los niveles
de las variables regresoras, 𝛽 es un vector de 𝑝𝑥1 de los coeficientes de regresión y 𝜀 es un
vector de 𝑝𝑥1 errores aleatorios. Usando mínimos cuadrados se tiene que el estimador de 𝛽 es:
Siempre y cuando exista la matriz inversa (𝑋𝑋 ′ )−1 La matriz (𝑋𝑋 ′ )−1 siempre existe si los
regresores son linealmente independientes, esto es, si ninguna columna de la matriz 𝑋 es una
combinación lineal de las demás columnas.
VIII. RESULTADOS, APLICACIÓN O IMPLEMENTACIÓN
La minería de los datos de estudio se realizó por medio del paquete R-Project v4.1.23 y RStudio
v02.1-461, previamente los datos se encontraron almacenados en Sql Server, donde se preparó
todas las variables con sus respectivos registros para su posterior análisis.
Cabe mencionar que para el análisis de datos se tomara en cuenta la cantidad de casos
sospechosos, confirmados, que tienen seguimiento, los que inician tratamientos y las
defunciones mensuales durante estos dos años, esto se clasificaran por provincias, redes, sexo,
edades, etc.
8.3. Análisis de los datos.
Figura 8.
Comportamiento de las defunciones a causa del Covid – 19 desde 2020 – 2022, en la región
Ancash.
De la figura 8, se observa que en la primera semana de junio del 2020 se llegó al pico más
elevado de la primera ola de fallecimientos a causa del covid-19 en toda la región Ancash.
También se observa que, desde enero del 2021, empezó a crecer el número de defunciones
llegando la quincena de abril al pico más elevado de la segunda ola, con referente a la tercera
ola el pico máximo se llegó fines del mes de enero y la primera semana de febrero, desde fines
de abril se percibe una disminución de las defunciones hasta llegar al mes de marzo de 2022.
Tabla 1.
Defunciones a causa del Covid – 19 desde 2020 – 2022, según género en la región Ancash.
Género n %
De la tabla 1, se observa que el 65.48% del total de las personas que fallecieron a causa del
covid 19 hasta marzo de 2022, son de genero masculino, siendo este indicador muy alarmante.
Figura 9.
Defunciones a causa del Covid – 19 desde 2020 – 2022, según provincia en la región Ancash.
De la figura 9, se observa que la provincia del Santa tiene más defunciones a causa del covid
19, seguido de la provincia de Huaraz y Casma, con 3748, 866 y 306 personas fallecidas a causa
de este virus respectivamente. La provincia de Ocros es la menos afectada en cuanto a las
defunciones a causa de este virus.
Figura 10.
Defunciones a causa del Covid – 19 desde 2020 – 2022, según provincia en la región Ancash.
De la figura 10, se observa que la red pacifico norte y pacifico sur hubo más defunciones
36.58% y 36.66% respectivamente. Y donde hubo menos defunciones fue en la red conchucos
norte y sur.
Figura 11.
Defunciones a causa del Covid – 19 desde 2020 – 2022, según grupos de edad en la región
Ancash.
De la figura 11, se observa que el 72.49% de personas fallecidas que corresponde a 4313
personas fallecidas a causa de este virus pertenecen al grupo de edad de Adulto Mayor, seguido
del 26.35% que corresponde a 1568 personas fallecidas que se encuentran en el grupo de edad
de Adultos.
8.3.2. Análisis de la BB.DD - Sospechosos
Figura 12.
Casos sospechosos a causa del Covid – 19 desde 2020 – 2022
De la figura 12, se observa que fines de julio del 2020, junio 2021 y enero 2022 hubo una
cantidad significativa de casos sospechosos con covid 19, de allí se ve que hay una disminución
de casos, en algunas fechas como fines de abril y las primeras semanas de mayo del 2021 no se
reportaron casos sospechosos, el mismo comportamiento se vio a finales de julio de 2021.
Tabla 2.
Casos sospechosos de Covid – 19 desde 2020 – 2022, según género en la región Ancash.
Género n %
De la tabla 2, se observa que el 53.3% de los casos sospechosos se dieron por personas de sexo
femenino y el 46.7% de dichos casos se dieron por personas de sexo masculino.
Figura 13.
Casos sospechosos de Covid – 19 desde 2020 – 2022, según provincia en la región Ancash
De la figura 13, se observa que la provincia con mas casos sospechosos reportados fue Huaraz
con el 46.36% de casos, seguido de Santa y Huaylas con el 24.49% y 12.2% de casos
respectivamente.
Figura 14.
Casos confirmados de Covid – 19 desde 2020 – 2022, en la región Ancash.
De la figura 14, se observa tres olas de casos confirmados, en la primera ola se llego al pico
mas alto en el mes de septiembre de 2020, en la segunda ola se llego al pico mas elevado fines
del mes de abril del 2021 y la tercera ola el pico más elevado de todo este lapso temporal se dio
entre la quincena y fines de enero del 2022.
Tabla 3.
Casos confirmados de Covid – 19 desde 2020 – 2022, según género en la región Ancash.
Género n %
De la tabla 3, se observa que el 47.43% de los casos confirmados se dieron por personas de
género femenino y el 52.57% de dichos casos se dieron por personas de sexo masculino.
Figura 15.
Casos confirmados de Covid – 19 desde 2020 – 2022, según provincia en la región Ancash
De la figura 15, se observa que la provincia con más casos confirmados fue Santa con el 50.07%
de casos, seguido de Huaraz con el 23.56% de casos confirmados.
Figura 16.
Casos confirmados de Covid – 19 desde 2020 – 2022, según severidad en la región Ancash
De la figura 16, se observa que el 52.9% de pacientes confirmados se les clasifico con síntomas
leves, seguido del 42.24% de pacientes asintomáticos.
Figura 17.
Pacientes que cuentan con seguimiento clínico a distancia o presencial contra Covid – 19
desde 2020 – 2022, en la región Ancash.
De la figura 17, se observa tres olas de pacientes que cuentan con seguimiento clínico a distancia
o presencial, en la primera ola se llegó al pico más alto en el mes de octubre de 2020, en la
segunda ola se llegó al pico más elevado fines del mes de abril del 2021 y la tercera ola el pico
más elevado de todo este lapso temporal se dio entre la quincena y fines de enero del 2022.
Tabla 4.
Pacientes que cuentan con seguimiento clínico a distancia o presencial contra Covid – 19
desde 2020 – 2022, según género en la región Ancash.
Género n %
De la tabla 4, se observa que el 47.93% de los pacientes que cuentan con seguimiento clínico a
distancia o presencia son género femenino y el 52.06% de dichos pacientes son de género
masculino.
Figura 18.
Pacientes que cuentan con seguimiento clínico a distancia o presencial contra Covid – 19
desde 2020 – 2022, según provincias en la región Ancash.
De la figura 18, se observa que la provincia que realizo más seguimiento clínico a distancia o
presencial fue Santa con el 36.58% de casos, seguido de Huaraz con el 31.56% de casos.
Tabla 5.
Pacientes que cuentan con seguimiento clínico a distancia o presencial contra Covid – 19
desde 2020 – 2022, según tipo de monitoreo en la región Ancash.
Tipo de monitoreo n %
De la tabla 5, se observa que el 88.33% de los pacientes cuentan con seguimiento clínico a
distancia (llamada telefónica) y el 11.67% de los pacientes cuentan con seguimiento clínico
presencial (visita presencial).
Tabla 6.
Pacientes que cuentan con seguimiento clínico a distancia o presencial contra Covid – 19
desde 2020 – 2022, según evolución en la región Ancash.
Evolución n %
De la tabla 6, se observa que el 67.97% de los pacientes que cuentan con seguimiento clínico a
distancia o presencial han evolucionado a un estado favorable, así también el 31.44% de dichos
pacientes se han mantenido en el mismo estado como se les encontró, por otro lado, el 0.59%
de pacientes han evolucionado a un estado desfavorable.
8.3.5. Análisis de la BB.DD - Tratamiento
Figura 19.
Tratamiento contra Covid – 19 desde 2020 – 2022, en la región Ancash.
De la figura 19, se observa que a partir de fines del mes de octubre del 2021 se empezó,
suministrar medicamentos y por ende darles un tratamiento a los pacientes con covid – 19, se
puede visualizar que fines del mes de enero del 2022 se llegó al pico más alto de medicamentos
suministrados.
Tabla 7.
Tratamiento contra Covid – 19 desde 2020 – 2022, según género en la región Ancash.
Género n %
De la tabla 7, se observa que el 55.19% de los pacientes son de género femenino se les
suministro medicamentos y el 44.81% de dichos pacientes son de género masculino.
Tabla 8.
Tratamiento contra Covid – 19 desde 2020 – 2022, según tipo de entrega en la región
Ancash.
Tipo de entrega n %
Figura 20.
Pacientes que cuentan con seguimiento clínico a distancia o presencial contra Covid – 19
desde 2020 – 2022, según provincias en la región Ancash.
De la figura 20, se observa que al 98.62% de los casos de pacientes con covid – 19, se les
suministro el medicamento paracetamol, y el resto de medicamentos suministrados fue ínfimo.
8.4. Análisis de clúster.
Tabla 9.
Distritos de la región Áncash
N° Provincia
1 Aija
2 Antonio Raymondi
3 Asunción
4 Bolognesi
5 Carhuaz
Carlos Fermín
6
Fitzcarrald
7 Casma
8 Corongo
9 Huaraz
10 Huari
11 Huarmey
12 Huaylas
13 Mariscal Luzuriaga
14 Ocros
15 Pallasca
16 Pomabamba
17 Recuay
18 Santa
19 Sihuas
20 Yungay
8.4.1. Identificación del número óptimo de Clúster
Importación de datos
Se hará uzo de la herramienta PCA que es importante para identificar las variables que mayor aportan
a la variabilidad de datos y trabajar con estas únicamente.
Figura 21.
Numero óptimo de clúster
Como se puede observar en la figura 21, el número óptimo de similaridad de las provincias de
la región Áncash es de 3 clúster.
Se utilizará este método para la identificación de las provincias por clúster. Este algoritmo de
clasificación no supervisada agrupa objetos en k grupos basándose en la mínima suma de
distancias entre cada objeto y el centroide de su grupo o clúster.
Figura 22.
Clúster de las provincias de Áncash
Como se puede visualizar en la figura 22, hay 3 clúster(grupos), las provincias con el
comportamiento disimilar en cuanto a los casos confirmados o sospechosos que cuentan con
seguimiento clínico a distancia o presencial e inician tratamiento y las defunciones por covid-
19, son las provincias Huaraz (Clúster 2) y Santa (Clúster 3) y las otras provincias (Clúster 1).
Figura 23.
Dendograma de las provincias de Áncash
8.4.3. Combinación K-means y PCA
Figura 24.
Agrupamiento de las provincias de Áncash
En la figura 24, se puede visualizar los 3 clúster, allí podemos afirmar que si hubiese existido
4 clúster la provincia 12 (Huaylas) hubiese sido considerado como otro clúster, ya que los
datos que tiene esa provincia tienen variabilidad con el resto.
8.5. Análisis factorial confirmatorio.
Tabla 10.
Prueba de KMO y Bartlett
Figura 25.
Número óptimo de factores
En la figura 25, se observa que el número óptimo de factores o componentes que se puede
considerar es de 2 factores.
Tabla 11.
Matriz de componente rotado
Componente
1 2
Defunciones ,280 ,959
Sospechosos ,940 ,338
Confirmados ,482 ,876
Seguimiento ,717 ,696
Medicamento ,929 ,365
Figura 26.
Factores de las variables de estudio
Primer factor = Defunciones, casos confirmados y pacientes que cuentan con seguimiento.
En la figura 27, se observa que el clúster 3 (Santa) ha tenido más defunciones a causa del covid,
casos confirmados o pacientes que cuentan con seguimiento, pero menor numero de casos
sospechosos o tratamiento, en cuanto al clúster 2 (Huaraz) ha tenido menos defunciones a causa
del covid, casos confirmados o pacientes que cuentan con seguimiento, pero mayor número de
casos sospechosos o tratamiento.
8.6. Regresión lineal múltiple
Para este modelo se utilizó las variables descritas en esta investigación, en cuanto la
observación, se realizó con los datos mensuales obtenidos desde marzo 2020 hasta marzo 2022.
8.6.1. Linealidad
Figura 28.
Análisis de la regresión
8.6.2. Independencia
El supuesto de independencia implica que los errores del modelo no deben estar
correlacionados, es decir:
𝑐𝑜𝑟(𝑒ⅈ ; 𝑒𝑗 ) = 0
Figura 29.
Análisis de Durbin Watson
8.6.3. Homocedasticidad.
𝑉(𝑒ⅈ ) = 𝜎 2
Figura 30.
Análisis de Bartlett
𝐻0 : 𝐻𝑎𝑦 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
𝐻1 : 𝑁𝑜 ℎ𝑎𝑦 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
Como se puede observar en la figura 30, el 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.1711 > 0.05, no existe evidencia
significativa para rechazar 𝐻0 , por ende, concluimos que hay homocedasticidad.
8.6.4. Normalidad.
𝑒ⅈ ~𝑁(0, 𝜎 2 )
Figura 31.
Q-Q e Histograma de normalidad
Como se observa en la grafica 31, se ha utilizado la prueba de Shapiro para medir la normalidad
de los errores, ya que el solo tenemos 25 observaciones. Como 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.032 < 0.05,
existe evidencia significativa para rechazar 𝐻0 , por ende, concluimos los residuos no estan
distribuidos normalmente.
8.6.5. Multicolinealidad
Figura 32.
Factor de la Inflación de la Varianza
Como se observa en la figura 32, dado que ninguno de los valores es grande (>10) no hay
multicolinealidad.
Donde:
Figura 33.
Modelo transformado Box-Cox
Como se observa en la figura 33, se tiene los valores de lambda, con sus respectivos valores de
log-verosimilitud, esto se puede utilizar para comparar el ajuste de los coeficientes encontrados.
Como lo que se desea es maximizar la log-verosimilitud, el valor más alto es mejor.
IX. CONCLUSIONES
En los estudios descriptivos se logró determinar que el mes de abril del 2021 tuvimos más
defunciones, además la provincia Santa tuvo más defunciones y el grupo de edad más golpeado
por esta enfermedad fueron los adultos mayores, en cuanto a los casos sospechosos, fue la
provincia de Huaraz con más casos y fueron las mujeres que asistieron a sacarse las pruebas,
en cuanto los casos confirmados, se asemeja ese comportamiento como las de defunciones.
En cuanto al seguimiento de pacientes con covid, la provincia de Huaraz y Santa tuvieron una
cantidad semejante de casos, por lo general se hizo seguimiento a distancia, por otro lado, el
tratamiento de pacientes con covid, se realizó a partir del mes de octubre del 2020.
En el análisis multivariante se determinó tres grupos con disimilaridad, donde dos grupos de
ellos pertenecían a la provincia de Huaraz y Santa, porque sus datos de las variables pertinentes
de este estudio tuvieron comportamientos muy distintos que el resto de las provincias. Además,
se resolvió que la cantidad de factores para un mejor entendimiento de las variables solo serían
dos factores (“casos sospechosos o tratamiento” y “defunciones a causa del covid o casos
confirmados”).
Con todo este análisis se puede concluir que la provincia del Santa tiene más defunciones a
causa del covid y casos confirmados, pero menor número de casos sospechosos o tratamiento,
tomando esto como referencia en la provincia de Huaraz, el comportamiento es muy distinto,
tiene menos defunciones a causa del covid y casos confirmados, pero mayor número de casos
sospechosos y tratamiento, las provincias restantes tienen un comportamiento muy similar entre
ellos, han tenido pocas defunciones a causa del covid y casos confirmados también el número
de casos sospechosos y tratamiento son mínimos, todo esto referenciado con la cantidad de
población que tienen.
- Machine Learning
- Minería de datos
- Levantamiento de información
- Levantamiento de informes e indicadores estadísticos
- Ciencia de datos
- Métodos multivariados
- Actualización de plataformas
- Creación de Dashboard
- Estadistica I- II
- Algebra lineal
- Series de tiempo
- Análisis multivariante
- Modelos lineales
- Inferencia estadística
- Base de datos
- Ingeniería de software
- Análisis y explotación de la información
- Lenguaje de programación
- Estructura de datos
- Diseños experimentales
- Otros.
XI. RECOMENDACIONES
Para futuras investigaciones realizar análisis de clúster y factorial con las observaciones
mensuales, y comparar los resultados, así como también observar la similaridad en cuanto a
los meses semejantes.
Asi también incluir otras variables como el número de dosis vacunadas y los tipos de vacunas
para realizar el análisis multivariado y las regresiones. Y ver la influencia y la similaridad
entre vacunas y dosis
En el ámbito del sector salud se tiene que hacer énfasis con el tratamiento y detectar
rápidamente los casos sospechosos y confirmarlos, ya que estas variables influyen en las
defunciones a causa del covid 19.
XII. REFERENCIAS BIBLIOGRÁFICAS
Bollen, K. A. (1989). Structural equations with latent variables. New York: John Wileyy
Sons.
Chen, M., J. Han, 1996. Data mining: An overview from database perspective. IEEE
Transactions on Knowledge and Data Eng
Gorsuch R. Factor analysis 2nd ed. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc.; 1983.
Gorsuch RL. Exploratory factor analysis: its role in item analysis. J Pers Asses. 1997;68:532-
60.
Hand, D., H. Mannila, P. Smyth, 2001. Principles of data mining. The MIT Press, California,
EEUU.
Jain, A. K., R. C. Dubes, 1988. Algorithms for Clustering Data. Prentice Hall
Macía F. Validez de los tests y el análisis factorial: nociones generales. Cienc Trab. 2010;
12:276-80.
Mannila, H., (1997). Methods and problems in data mining. In Proc. of International
Conference on Database Theory, Delphi, Greece
Ng, R., J. Han, 1994. Efficient and effective clustering method for spatial data mining. In
Proc. 1994 Int. Conf. Very Large Data Bases, (Páginas 144/155), Santiago de Chile,
Chile
Pérez López, César & Santín González, Daniel (2007). Minería de datos. Thomson Ediciones
Paraninfo S.A. Madrid, España.
Quinlan, J., 1993c. C4.5: Programs for Machine Learning. Morgan Kaufmann.
Ruiz Torres, Mary Karina (2007). Data warehouse y minería de datos. Ed. Dirección General
de Servicios de Cómputo Académico, México.
Vesanto J., E. Alhoniemi, 2000. Clustering of the Self-Organizing Map. IEEE transactions on
neural networks, Vol 11, No. 3.
XIII. ANEXOS
14/02/2022
2021 - II
Cotrina Santos Milton Angeles 171.0405.028
Psj. Los Angeles S/N 956410278
Av. Confraternidad Internacional Oeste 1544 043) 421321
Norabuena Figueroa Roger Pedro