Seminario de Investigacion I - 25-06-23

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
FACULTAD DE ECONOMÍA Y PLANIFICACIÓN
“DETERMINACIÓN DEL PERFIL DEL POBLADOR DE LAS

DIFERENTES REGIONES DEL PERÚ AFILIADOS AL
SISTEMA INTEGRAL DE SALUD”
PROYECTO DE INVESTIGACIÓN PRESENTADO PARA

OPTAR EL GRADO DE BACHILLER EN ESTADÍSTICA
INFORMÁTICA
YHIRO SEBASTIÁN LOBATO SULLUCHUCO
LIMA - PERÚ 2023

_______________________________________________________
I. INTRODUCCIÓN:
En Perú, al igual que en otros países de Sudamérica, la pandemia de COVID-19 ha exacerbado
la situación de pobreza. De acuerdo con la Comisión Económica para América Latina y el
Caribe, entre 2019 y 2020, la tasa de pobreza en Perú aumentó del 18% al 28,6%, lo que
representa la mayor variación en puntos porcentuales en la región (10,6%). (Trivelli, 2022).
Según el criterio del gobierno, una persona es considerada "pobre" cuando su gasto mensual es
inferior a S/. 378. La línea de pobreza representa el costo de una canasta básica que incluye
tanto alimentos como otros productos necesarios para el consumo. (INEI, 2022).
La pobreza y la salud son dos problemas interconectados que afectan gravemente a una
población (Wagstaff, 2022). En el ámbito de la salud pública en Perú, se presentan una serie
de problemas importantes que incluyen: la escasez de personal, la carencia de habilidades y
competencias, la distribución inadecuada de especialistas en diferentes áreas del país, la
insuficiencia de medicamentos y suministros, las condiciones deficientes de los
establecimientos de salud, los equipos en mal estado, la falta de protocolos médicos y la
presencia de corrupción. (Burga, 2017).
El Seguro Integral de Salud (SIS) es el centro donde recae dicho problema social. Su propósito
es salvaguardar la salud de los ciudadanos peruanos que no tienen acceso a un seguro de salud,
enfocándose en particular en las poblaciones vulnerables que se encuentran en condiciones de
pobreza y extrema pobreza. (MINSA, 2019).
II. JUSTIFICACIÓN:
Durante la crisis del COVID-19, uno de los desafíos principales relacionados con la pobreza
en el Perú ha sido el incremento del desempleo y la precariedad laboral. Como consecuencia
de las medidas de confinamiento y el cierre de negocios, muchas personas han perdido sus
empleos o han experimentado una disminución en sus ingresos, lo que ha agravado la
situación de pobreza en el país. (Gamero, 2020).
Adicionalmente, según (Laís Abramo, 2019) la falta de acceso a servicios básicos de salud y
educación, especialmente en áreas rurales y periféricas, ha limitado las oportunidades de las
personas más vulnerables para superar la pobreza. La escasez de recursos y el limitado apoyo
gubernamental han dificultado la capacidad de las personas para sustentarse a sí mismas y a
sus familias durante la pandemia.
Por esta razón, identificar los factores que inciden en la pobreza de cada región del Perú
también podría mejorar la calidad de vida de la población más vulnerable. Al abordar las
problemáticas que afectan la salud de las personas más pobres, se podría mejorar
significativamente su bienestar y reducir la pobreza en el Perú.
III. OBJETIVOS:
3.2 Objetivo General:
 Identificar patrones y tendencias relevantes en la distribución de los
asegurados sociales en la región, lo que permitirá tomar decisiones
informadas para mejorar los servicios y la atención a la población.
4.2 Objetivos Específicos:

 Analizar y comprender las características demográficas y
socioeconómicas de la población de una región especifica en función de
la información proporcionada por el seguro social.
 Determinar la edad promedio de los asegurados sociales en la región y
analizar su distribución por grupos de edad, con el fin de comprender la
estructura etaria de la población y sus implicancias en términos de
salud.
IV. HIPÓTESIS:
4.1 Hipótesis General:

 Existe una correlación positiva entre la densidad poblacional y la distribución
de los asegurados sociales en la región, lo que indica que las áreas con mayor
concentración de población tienen una mayor proporción de asegurados
sociales.
4.2 Hipótesis Específicas:
 Se demuestra una asociación significativa entre las características demográficas

y socioeconómicas de la población de una región específica y la información
proporcionada por el seguro social.
 La edad promedio de los asegurados sociales en la región es mayor que la edad
promedio de la población general, lo que indica que existe una tendencia de
envejecimiento en la población asegurada.
V. REVISIÓN DE LITERATURA:
5.1 Determinación de perfiles:
La creación de perfiles se lleva a cabo en diversos contextos, que van desde la investigación
criminal hasta el campo del marketing. También se aplica en áreas como las matemáticas, la
ingeniería informática, las aplicaciones de salud para personas mayores, el análisis genético y
la medicina preventiva, la biometría forense, la política de inmigración con respecto a los
escáneres de iris, la gestión de la cadena de suministro con tecnologías RFID y la justicia
actuarial. Al observar estos diferentes dominios, resulta evidente que el término "perfilado" se
utiliza para referirse a un grupo de personas que comparten al menos una característica común:
el uso de algoritmos u otras técnicas para crear, descubrir o construir conocimiento a partir de
grandes conjuntos de datos. (Hildebrandt, 2008). Esta determinación de perfiles de los
pobladores de cada región del Perú ayudará a encontrar semejanzas y también a su vez
diferencias entre las mismas.
5.2 Diferencias entre las regiones del Perú:

Para (Hernandez, 2016) la posición geográfica de Lima como centro del poder nacional y su
oferta de mejores oportunidades de empleo e ingresos económicos están estrechamente
relacionadas con la presencia de empresas extranjeras que invierten en el país y con la
importación de productos y costumbres propios de sus lugares de origen. Esto incluye el
comercio, la mentalidad, el estilo de vida, las tradiciones y las contribuciones intelectuales,
entre otros aspectos. Como resultado, se ha generado una mezcla de culturas, además de la
peruana. Desde el principio, se buscó que los españoles y criollos vivieran en la costa,
mientras que los indígenas y aborígenes se establecieran en la sierra y la selva, lo que dificultó
la comunicación entre ellos debido a las limitaciones tecnológicas y las diferencias étnicas.
Así, cada grupo seguía su propio camino sin buscar la interrelación, y la costa se convirtió en
la región que experimentaba un progreso socioeconómico, mientras que las demás regiones se
encontraban en un nivel inferior. Estas diferencias entre las regiones del Perú demuestran que
existe una brecha grande entre las soluciones a los problemas sociales dentro de las regiones.
Esto lleva a centrarse en el principal problema, la salud pública en el interior del país, a
comparación de Lima, es muy deplorable y esto se ve reflejado en la cantidad de afiliados al
SIS por cada región.
5.3 Afiliados al Sistema Integral de Salud:

En el Perú, la prestación de servicios para los beneficiarios del SIS es llevada a cabo por los
servicios públicos del sistema de salud, los cuales se organizan en redes de salud. Estas redes
se implementaron en el país en 2001 como una respuesta del Estado y, en particular, del
MINSA, para abordar una serie de problemas propios del sistema de salud. A su vez, el
sistema público se financia mediante la asignación de recursos estatales provenientes de los
ingresos tributarios. Las redes de salud comprenden tres niveles de atención: el primero
incluye puestos y centros de salud distribuidos a nivel nacional, el segundo nivel está
compuesto por hospitales locales y generales, y el tercer nivel abarca hospitales especializados
e institutos. El primer nivel de atención es fundamental y constituye la principal oferta de
servicios de salud pública en el Perú, brindando atención y servicios básicos de salud con un
enfoque en la Atención Primaria de Salud (APS). Estos servicios se encuentran ubicados en
áreas urbanas, áreas urbanas marginales y zonas rurales, siendo en muchas áreas rurales la
única opción pública disponible en términos de servicios de salud. (Hernández, 2015).
VI. METODOLOGÍA:
6.1 Tipo de Investigación:
El enfoque de investigación se centra en examinar y describir tanto exploratoriamente

como descriptivamente los perfiles de los pobladores por cada región del Perú según su
afiliación al Seguro Integral de Salud, así como en comprender fenómenos o factores
tal como ocurren en su entorno natural, sin intervenir o manipular variables. El
objetivo principal es agrupar a cada poblador afiliado al SIS de acuerdo a su región,
distrito y provincia. Este tipo de investigación se basa en la observación, medición y
recopilación de datos para proporcionar una descripción detallada de un grupo, una
población o una situación.
6.2 Población:
Esta investigación trabajará con todos los datos de los afiliados al SIS por cada región
del Perú, esta base de datos se encuentra en la Plataforma Nacional de Datos Abiertos
y proporciona la información estadística de las personas residentes en el territorio
nacional, que se encuentran bajo la cobertura financiera y alguno de los Regímenes de
Financiamiento de la IAFAS SIS, debidamente acreditados, cuya afiliación se
encuentra en estado activo.
6.3 Muestra:
En esta investigación, no se empleará una muestra debido a que contamos con toda la
base de datos de todos los afiliados al SIS por cada región del Perú. La utilización de
un proceso de muestreo podría complicar tanto los resultados obtenidos como su
interpretación.
6.4 Variables:
La base de datos del proyecto de investigación está compuesta por las siguientes
variables:
NOMBRE DEL AFILIADOS AL SEGURO INTEGRAL DE

DATASET SALUD EN ESTADO ACTIVO
ATRIBUTO DESCRIPCIÓN TIPO DE DATO
Fecha de corte Fecha de consulta en la Alfanumérico
Base de Datos SIS
(afiliados activos)
Región Región del domicilio Alfanumérico
Provincia Provincia del domicilio Alfanumérico
Distrito Distrito del domicilio Alfanumérico
Ubigeo Distrito Código de Ubigeo del Alfanumérico
domicilio, codificación de
acuerdo al INEI
IPRESS Establecimiento de Salud Alfanumérico
al cual está adscrito el
Afiliado
VRAEM Residentes del ámbito de Alfanumérico
Intervención Directa e
Influencia del Valle de los
ríos Apurímac, Ene y
Mantaro (SI/NO).
Documento de identidad Es el documento o no, a Alfanumérico
partir del cual se registra
la afiliación al SIS de las
personas, reconociendo la
condición de asegurado
Edad Edad calculada al Alfanumérico
momento de la consulta en
la Base de Datos SIS
Sexo Genero del Asegurado Alfanumérico
(Femenino/Masculino).
Total de afiliados Cantidad de afiliados Alfanumérico
según la combinación de
las variables de la fila
6.5 Algoritmos:
6.5.1 Método de Clustering:

Los métodos de clustering se encuentran en la categoría de técnicas de machine
learning y aprendizaje no supervisado. Estos métodos se utilizan para agrupar o
identificar clústeres, que son subconjuntos de datos similares entre sí, dentro de un
conjunto de datos. La agrupación se realiza en base a una medida de similitud
específica entre las observaciones, lo que puede resultar en diferentes clústeres según
la medida utilizada. El objetivo principal es dividir los datos en grupos distintos de
manera que las observaciones dentro de cada grupo sean muy similares entre sí y
diferentes de los otros grupos. La noción de "similitud" dependerá del contexto y del
caso de estudio en particular. (Martínez, 2018).
6.5.2 Escala de Variables:

Es fundamental tomar en cuenta si es necesario estandarizar las variables antes de
calcular la similitud entre observaciones, de manera que cada variable tenga una media
de 0 y una desviación estándar de 1. La estandarización garantiza que cada variable
tenga una importancia equivalente en el proceso de clustering. Sin embargo, la
decisión de aplicar o no el escalado de variables puede depender del problema
específico que se esté abordando.
6.5.3 K- means clustering:

El método de clustering K-means es una técnica no jerárquica que se utiliza para
agrupar objetos, no variables, en conjuntos distintos y no superpuestos. Este método
particiona el conjunto de datos en K clústeres, lo que implica que cada observación se
asigna exclusivamente a un clúster sin poder pertenecer a más de uno. Es necesario
establecer el número de clústeres o subgrupos requeridos al inicio del proceso, lo que
resalta la importancia de tener un buen conocimiento de los datos antes de aplicarlo.
(Martínez, 2018).
Siendo C1,...,CK el número de sets, la varianza intra-clúster para el clúster CK es una
medida W(Ck) de la cantidad que difieren las observaciones dentro del mismo. Por
tanto, se busca minimizar
∑ W (C k )
k =1
(1)
de manera que la varianza total dentro de cada clúster, sumada sobre todos
los K clústeres, sea lo más pequeña posible. Una forma común de establecer esta
varianza es mediante la distancia euclídea, con lo que obtenemos
p
1
W ( C k )= ∑
|C k| i , i' ∈C
∑ (x ij−xi j )2 '
k j=1
(2)
siendo │Ck│ el número de observaciones en el k-ésimo clúster. De esta manera la

varianza se mide como la suma de todas las distancias euclídeas al cuadrado entre
pares de observaciones del clúster k, dividido por el número total de observaciones en
ese mismo clúster.
Combinando ambas ecuaciones anteriores obtenemos el problema de optimización que

define k-means clustring:
{ }
K p
1
minimizeC 1 , ….. ,Ck ∑ |Ck ∑
| i ,i ' ∈C
∑ ( xij−x i j )2
'
(3)
k=1 k
j=1
6.5.4 Medidas de Similitud:

La selección de la medida de similitud juega un papel crucial, ya que puede influir en
el dendrograma resultante. Por lo tanto, es importante tener en cuenta tanto el tipo de
datos como el problema específico al elegir dicha medida.
Además de la distancia euclidiana, que es una medida común de similitud, existen

otras opciones que pueden ser preferidas en lugar de esta. Por ejemplo, la distancia
basada en la correlación considera dos observaciones como similares si sus
características asociadas tienen una alta correlación, incluso si los valores observados
están separados en términos de distancia euclidiana. Esta medida se calcula más
comúnmente entre variables en lugar de entre observaciones.
6.5.5 Correlación de Spearman:

El análisis de correlación de Spearman es un enfoque estadístico no paramétrico que
busca evaluar la fuerza de la asociación entre dos variables cuantitativas. Este artículo
se basa en un estudio clínico real en el campo de la fisioterapia para ilustrar la base
teórica subyacente de este método. Su objetivo es brindar ayuda a estudiantes,
fisioterapeutas e investigadores para comprender cómo aplicarlo en muestras pequeñas
y en situaciones donde los datos no siguen una distribución normal, condiciones que
son muy comunes en la investigación en fisioterapia. Además, se enfoca en destacar la
interpretación de los resultados obtenidos. (Chengwei, X, Rui Maximo, & Chunming,
2015).
Formula de la correlación de Spearman:
6 ∑ di
2
r s=1− 2
(4)
N ( N −1)
La ecuación (4) representa una expresión simple para el coeficiente de correlación de

rango de Spearman, donde d i= X 'i−Y 'i es la diferencia entre cada par de variables
clasificadas, y N es el número total de muestras.
El cálculo del coeficiente de correlación de rango de Spearman implica sumar las

diferencias al cuadrado (d 2i ) y aplicar una fórmula específica. Este resultado
proporciona una medida de la relación monotónica entre las variables. Un valor
cercano a 1 para r sindica una fuerte correlación positiva, un valor cercano a -1 indica
una fuerte correlación negativa, y un valor cercano a 0 indica la ausencia de
correlación.
Es importante destacar que el coeficiente de Spearman es no paramétrico, lo que

significa que no hace suposiciones sobre la distribución de los datos. Esta característica
es útil cuando las suposiciones de la correlación de Pearson no se cumplen o no son
apropiadas.
VII. CRONOLOGÍA
La tabla presentada muestra la fecha de inicio, la duración en días y la fecha final de cada
actividad trabajada en la investigación del proyecto.
Duración
Actividad Fecha de Inicio Fecha final
en dias
Redactar problemática 16-Ago 14 30-Ago
Redactar justificacion 31-Ago 15 15-Set
Redacción de objetivos 16-Set 10 26-Set
Redacción de hipótesis 27-Set 10 7-Oct
Revisión de literatura 8-Oct 20 28-Oct
Metodologia 29-Oct 23 21-Nov
Resultados 22-Nov 30 22-Dic
Bibliografia 23-Dic 6 29-Dic
Anexos 30-Dic 7 6-Ene
Redacción del informe final 7-Ene 25 1-Feb
Diagrama Grantt
16-Aug 5-Sep 25-Sep 15-Oct 4-Nov 24-Nov 14-Dec 3-Jan 23-Jan
Redactar problemática
Redactar justificacion
Redacción de objetivos
Redacción de hipótesis
Revisión de literatura
Metodologia
Resultados
Bibliografia
Anexos
Redacción del informe final

VIII. PRESUPUESTO
RUBRO PARCIAL TOTAL
Bienes S/. 2740
Computadora Portátil S/. 2500
USB de 32 gb S/. 40
Materiales de escritorio S/. 200
Servicios S/. 4230
Luz S/. 900
Alimentos S/. 3200
Empastado de Tesis S/. 50
Impresión S/. 80
TOTAL S/. 6970

IX. BIBLIOGRAFÍA
Burga, G. A. (9 de Noviembre de 2017). ConexionEsan. Obtenido de

https://www.esan.edu.pe/conexion-esan/los-problemas-de-salud-del-peru-como-curar-una-
enfermedad
Chengwei, X., X, J. Y., Rui Maximo, E., & Chunming, R. (2015). Using Spearman correlation's
coefficients for exploratory data. CONCURRENCY AND COMPUTATION: PRACTICE AND
EXPERIENCE.
Gamero, J. (Setiembre de 2020). Perú › Impacto de la COVID-19. Organizacion Mundial del Trabajo, 3-
9.
Hernández, A. (2015). Determinantes de la afiliación y acceso a servicios de salud en el Perú: el caso

del Seguro Integral de Salud. Revista Estudios de Políticas Públicas, 213-225.
Hernandez, C. (2016). Identidad cultural en el Perú: antecedentes, diferencias entre regiones e

influencia del modernismo. Revista Cientifica de la Facultad de Humanidades, 62-67.
Hildebrandt, M. (2008). Profiling the European citizen. Springer.
INEI. (5 de Mayo de 2022). Pobreza afecto al 25.9% de la poblacion del pais en el año 2021. Obtenido
de INEI Web site: https://m.inei.gob.pe/media/MenuRecursivo/noticias/nota-de-prensa-no-
072-2022-inei.pdf
Laís Abramo, S. C. (2019). Programas sociales, superación de la pobreza e inclusion laboral:

Aprendizajes desde America Latina y el Caribe. Santiago: Comisión Económica para América
Latina y el Caribe (CEPAL).
Martínez, C. G. (Junio de 2018). RPubs by RStudio. Obtenido de

https://github.com/CristinaGil/Ciencia-de-Datos-R
MINSA. (2019). Información institucional- SIS. Perú: Plataforma Digital Unica del Estado Peruano.
Trivelli, C. (23 de Agosto de 2022). Índice de pobreza: ¿cómo se ubica el Perú en relación con los
demás países de Sudamérica? La República.
Wagstaff, A. (2022). Pobreza y desigualdades en el sector de la salud. Pan American Health

Organization. Obtenido de https://iris.paho.org/bitstream/handle/10665.2/8706/10717.pdf?
sequence=1&isAllowed=y
Base de datos: Datos de Afiliados al Seguro Integral de Salud en Estado Activo- SIS
https://www.datosabiertos.gob.pe/dataset/datos-de-afiliados-al-seguro-integral-de-salud-en-
estado-activo-seguro-integral-de-salud

Seminario de Investigacion I - 25-06-23

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Seminario de Investigacion I - 25-06-23

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

FACULTAD DE ECONOMÍA Y PLANIFICACIÓN

“DETERMINACIÓN DEL PERFIL DEL POBLADOR DE LAS

PROYECTO DE INVESTIGACIÓN PRESENTADO PARA

YHIRO SEBASTIÁN LOBATO SULLUCHUCO

LIMA - PERÚ 2023

4.2 Objetivos Específicos:

4.1 Hipótesis General:

 Se demuestra una asociación significativa entre las características demográficas

5.2 Diferencias entre las regiones del Perú:

5.3 Afiliados al Sistema Integral de Salud:

6.1 Tipo de Investigación:

El enfoque de investigación se centra en examinar y describir tanto exploratoriamente

NOMBRE DEL AFILIADOS AL SEGURO INTEGRAL DE

6.5.1 Método de Clustering:

6.5.2 Escala de Variables:

6.5.3 K- means clustering:

siendo │Ck│ el número de observaciones en el k-ésimo clúster. De esta manera la

Combinando ambas ecuaciones anteriores obtenemos el problema de optimización que

6.5.4 Medidas de Similitud:

Además de la distancia euclidiana, que es una medida común de similitud, existen

6.5.5 Correlación de Spearman:

Formula de la correlación de Spearman:

La ecuación (4) representa una expresión simple para el coeficiente de correlación de

El cálculo del coeficiente de correlación de rango de Spearman implica sumar las

Es importante destacar que el coeficiente de Spearman es no paramétrico, lo que

Redacción del informe final

RUBRO PARCIAL TOTAL

Bienes S/. 2740

Computadora Portátil S/. 2500

Materiales de escritorio S/. 200

Servicios S/. 4230

Luz S/. 900

Alimentos S/. 3200

Empastado de Tesis S/. 50

TOTAL S/. 6970

Burga, G. A. (9 de Noviembre de 2017). ConexionEsan. Obtenido de

Hernández, A. (2015). Determinantes de la afiliación y acceso a servicios de salud en el Perú: el caso

Hernandez, C. (2016). Identidad cultural en el Perú: antecedentes, diferencias entre regiones e

Hildebrandt, M. (2008). Profiling the European citizen. Springer.

Laís Abramo, S. C. (2019). Programas sociales, superación de la pobreza e inclusion laboral:

Martínez, C. G. (Junio de 2018). RPubs by RStudio. Obtenido de

Wagstaff, A. (2022). Pobreza y desigualdades en el sector de la salud. Pan American Health

También podría gustarte