Está en la página 1de 6

Machine Translated by Google

Disponible  en  línea  en  www.sciencedirect.com

Disponible  en  línea  en  www.sciencedirect.com
Disponible  en  línea  en  www.sciencedirect.com

CienciaDirecta
Procedia  Computer  Science  00  (2021)  000–000  
www.elsevier.com/locate/procedia
Procedia  
Procedia   Computer  
Computer   Science  
Science   0(0  
187   (2021)  
2021)   000–000  
408–413  
www.elsevier.com/locate/procedia

Conferencia  Internacional  sobre  Identificación,  Información  y  Conocimiento  en  el  internet  de  las  Cosas,  
2020
Conferencia  Internacional  sobre  Identificación,  Información  
y  Conocimiento  en  el  internet  de  las  Cosas,  
2020
Henry  Ivan  Condori­Alejoa ,  Miguel  Romilio  Aceituno­
Rojoa ,  Guina  Sotomayor  Alzamoraa,   Henry  Ivan  
Condori­Alejoa ,  Miguel  Romilio  Aceituno ,  
Guina  Sotomayor  Alzamoraa,   Henry  Ivan  CAlejoa ,  
ondori­
Guina  Sotomayor  
Universidad   Nacional   Miguel  
Alzamoraa,
del   R omilio  
Ingeniería  
Altiplano,   A ceituno  
  aProfessional  
d
Ae  
v.  
SSistemas,   ­Rojoa ,  
esquicentenario  
s/n,  
Escuela  
P uno,  
de  
Perú
aEscuela  Profesional  de  Ingenieria  de  Sistemas,  Universidad  Nacional  del  Altiplano,  Av.  Sesquicentenario  s/n,  Puno,  Peru  

Abstracto
Resumen  
Los  microcréditos  son  un  componente  importante  en  el  desarrollo  de  la  economía  rural  peruana,  los  cuales  son  otorgados  
por  
son  
un   llp
tas  
solicitan  
que  
economía  
de   irvaluación  
nstituciones  
determinación  
modelo  
asesor  
m
la  a  
odelo  
radicionalmente  
p
resenta  
eoblación  
sural  
eirve  
stos  
rqural  
ue  
ccon  
eomo  
m
el  
prmpresarial  
m ural   derramienta  
yee  
icrocréditos.  
resenta  
eeruana,  
ejor  
yl    
fhvin   m celricrofinanzas,  
erificación  
  
dnps  
e  
ivel  
obre  
ontrolado  
os  
educir  
l  a
mdsesor  
ce  
tejor  
E
iene  
uales  
a
ste  
dsertividad  
dee  
e  
nl  
a
u
rlivel  
ros  
a ace
ural,  
p
nálisis  
sn  
iesgo  
poyo  
or  
on   ll  
dlto  ocptorgados  
roceso  
lientes  
e  
os  
uyas  
a
cíp
ndice  
dL
rediticio  
sertividad  
  ara  
e  
los  
a   dpse  
vtqtariables  
oma  
m
e
areas  
ue  
d
l   ee  
ppvaluación  
icrocréditos  
p
e  roceso  
drd
or  
olicitan  
iesgo  
e   le
ara  
rincipales  
a  
drmpresas  
urales  
ecisiones  
md q dsde  
eicrofinanciera  
e
e  
ue  
l  stos  
pseroceso  
on   licrocréditos.  
valuación   a  
cldp oblación  
tsradicionalmente  
e  u
mbon  
p
e  
n  
asa  
ara  
m omponente  
a  
icrofinanzas  
e  
e
lea  
n  
e
rd
valuación  
ural,  
ivaluación  
e   rEural  
nvestigación  
la  
mliteratura  
icrocréditos  
Las  e s  
ista     vye  
  
epm
mportante  
a obre  
vcyariables  
sesor  
d
ontrolado   etiene  
institución,  
erificación  
e
specializada  
mpresarial  
icrocréditos  
b
rural,  
asado  
m p
n  
ás  
or  
cee upn  
duyas  
rl  
l  
e   n   afasado  
lto  
lepresentativas  
ed
a  
esarrollo  
lproceso  
os   índice  
ienvestigación  
ropone  
b
la  
n  unciones  
cdelientes  
eterminación  
l  á rea.  
due  
den  
e  
n  
eqE
m d e  riesgo  
valuación  
lla  
p
a  
ue  
ste  
dodelo  
rincipales  
pel  
ropone  
del  
análisis  
datos  
evaluadas  
Learning,  
en  
entidad  
herramienta  
riesgo  
segmento  
Artificial  
Vector   f inanciero  
el  phroceso  
cM
an  
rediticio  
a(achine  
nalizada,  
93.72),  
msdaido  
e  
icrocrédito  
  d
través  
oe  
pe   d
dtorgamiento   e   v
a(dreprocesados;  
s84.44),  
poyo  
ee  
obre  
valuación  
slda  
on:  
e  
maariables  
drLural,  
icrofinanciera  
l  
iferentes  
a  
ogística  
lD
a   R
ecision  
toma  
yed  
  
e
dm r
n  urales  
el  
N
icrofinanzas;  
S
bod
euronal  
ce  
ase  
mtorgamiento  
e  
apacitada,  
Thétricas.  
ree  
dan   c on  
ecisiones  
arural,  
  ls(as   b
88.80)   ase  
eleccionado  
Artificial  
vSlariables  
as  
le  
os  
vd e
alidada  
hp yve  
a  
d   n   l
ariables  
ara  
katos  
(m a  
e­Nearest  
93,72),  
valuado   l iteratura  
icrocrédito  
eyml  
  yh
dsodelos  
  an  
atos  
egmento  
emvaluada  
ssás  
obre  
Neido  
ul   e
eighbor,   specializada  
tilizados  
rm
rdepresentativas  
ural  
pe  
odelo  
Lreprocesados;  
dogística  
Mae  
  achine  
Rtravés  
negression  
egocios  
empn  
or  
ás  
b(ase  
ld e
65,98).  
L
a
a  
e   n  
earning,  
sertivo  
eddyntidad   e
aiferentes  
e  
  (S
  m l  
l86.07),  
as  
le  
a   á rea.  
icrofinanzas  
Fhefinalmente,  
vinanciera  
an  
n   E
aariables  
sesor   ste  
nalizada,  
esl  
R
m m
eleccionado  
pandom  
étricas.  
roceso  
rural  
ycq   odelo  
eapacitadas,  
due  
sl  
atos  
on:  
nF
cdE ivel  
on  
orest  
he  
l  
an  
m
lea  
m s irve  
uevaluación  
dodelo  
tilizados  
l  
R
odelos  
se  
f(ido  
in  
ed   c omo  
66.35),  
asertividad  
dvN
ee  
alidadas  
m u
valuados;  
euronal  
rd
ás  
educir  
pe  
dS
or  
el  
a
M na  
upport  
sertivo  
lachine  
a  ye  l  
los  
alcanzado  
Random  
mejora  del   p1or  
Forest   el  
6,91%   modelo  
(66.35),  en  el  SíA NN  9d3.72%  
ndice  
upport   e  
Vector   es  
morosidad.   Mm ejor  
achine   q(ue  
(65,98). la  metodología  
84.44),   Decision  Ttree   radicional  
(88.80)   dye     ke­Nearest  
ntidades  N 76.81%,  
eighbor   Rmegresión  
ostrando   (86.07),  
una  

Finalmente,  
Elsevier  
76,81%,  
NC­ND   (http://creativecommons.org/licenses/by­nc­nd/4.0/)  
B
mV  
ostrando  
©
el  
  2n021  
ivel  du
Le  
na  
os  
asertividad  
a
mutores.  
ejora  dP
el  
aublicado  
1lcanzado  
6,91%  peor  
n  
por  
eEl  lsevier  
e
índice  
l  modelo  
dBe  
V  
m
©AEorosidad  
  NN  
ste  
2021  
e9s  
3,72%  
Luos  
n  
dae  
artículo  
utores.  
e
los  
s  m
clientes.  
ejor  
de  
Publicado  
aqcceso  
ue  
©l  
a  
2021  
eantidad  
pbierto  
or  
LE
os  
lsevier  
m
baajo  
utores.  
etodología  
la  
BlV
icencia  
Publicado  
tradicional  
CC  BpY­
or  

Este  es  un  artículo  
by­nc­nd/4.0)   de  apcceso  
RInformación  
evisión   or   abierto  bla  
ajo  la  licencia  CC  dBel  
Y­NC­ND   c(ientífico  
https://creativecommons.org/licenses/
sypobre  
  ares  
Ibeajo  
creativecommons.org/licenses/by­nc­nd/4.0/)  
Identificación,  
Conferencia   Internacional   Este   s  un  arrtículo  
esponsabilidad  
dentificación,   Revisión  
Información  
de  acceso   c  C
omité  
por  payares  
bierto  
onocimiento  
bajo  
bajo   de  la  
responsabilidad  
la  licencia  
en  
el  
ICCC  
onferencia  
nternet   las  IC
BdY­NC­ND  
el  dce  
omité   nternacional  
c(osas,  
http://
ientífico  
2020.sla  
de   obre  
Peer­review  
comité   bajo  
dre  
2020. científico   esponsabilidad   dIel  
la  Conferencia   nternacional  sobre  Identificación,  Información  y  Conocimiento  en  el  internet  de  las  Cosas,  
Conocimiento  en  el  internet  de  las  Cosas,  2020.
microcrédito  
Palabras  
crediticio;  
llave:  
AUC  
rural;  
A
Rprendizaje  
OC  
riesgo  
Palabras  
crediticio;  
automático;  
clave:  
AUC  
aprendizaje  
eRvaluación  
epública  
automático;  
de  C
mhina
icrofinanzas;  
evaluación  
microcrédito  
de  microfinanzas;  
rural;  riesgo  

1.  Introducción
1.  Introducción
El  Sistema  Financiero  Peruano  tiene  un  papel  importante  en  el  desarrollo  y  crecimiento  de  la  economía,  debido  a  esto  permite  ampliar  la  frontera  productiva,  con  el  fin  de  alcanzar  mayores  

niveles  de  utilidad,  mejorar  el  nivel  de  bienestar  social,  a  través  de  El  Sistema  Financiero  Peruano  tiene  un  papel  importante  en  el  desarrollo  y  el  crecimiento  de  la  economía,  debido  a  esto  los  

créditos  otorgados  por  diferentes  entidades  como  instituciones  financieras  y  microfinancieras  las  cuales  están  reguladas  por  la  permite  expandir  la  frontera  productiva,  para  alcanzar  mayores  

niveles  de  utilidad,  mejorar  el  nivel  de  bienestar  social,  a  través  de  los  créditos  otorgados  por  diferentes  entidades  tales  como  instituciones  financieras  y  de  microfinanzas  que  están  reguladas  por  la

Autor  correspondiente.  Tel.:  +51­953­620511.
Correo  electrónico:  gsotomayor@unap.edu.pe  
Autor  para  correspondencia.  Tel.:  +51­953­620511.
Correo  electrónico:  gsotomayor@unap.edu.pe  
1877­0509  ©  2021  Los  autores.  Publicado  por  Elsevier  BV
Este  es  un  artículo  de  acceso  abierto  bajo  la  licencia  CC  BY­NC­ND  (http://creativecommons.org/licenses/by­nc­nd/
4.0/)  
BV 1877­0509  ©  2021  Los  autores.  Publicado  por  Elsevier  BV  1877­0509  ©  2021  Los  autores.  Publicado  por  Elsevier  
por  
Este  
un  
aprtículo  
ares  
es  un  
bda
ajo  
e  
rtículo  
ala  
cceso  
responsabilidad  
de  aabierto  
cceso  baajo  
bierto  
dla  
el  
licencia  
cbomité  
ajo  la  clC
icencia  
ientífico  
C  BY­NC­ND  
CdC  
e  B
la  
Y­NC­ND  
C(http://creativecommons.org/licenses/by­nc­nd/4.0/)
onferencia  
(https://creativecommons.org/licenses/by­nc­nd/4.0)  
Internacional  sobre  Identificación,  Información  y  R
conocimiento  
evisión   en  el  Este  es  
Peer­review  bajo  responsabilidad  del  comité  científico  de  la  Conferencia  Internacional  sobre  Identificación,  Información  e  Internet  de  las  Cosas,  2020.
Peer­review  bajo  responsabilidad  del  comité  científico  de  la  Conferencia  Internacional  sobre  Identificación,  Información  y  Conocimiento  en  el  
Conocimiento  en  el  internet  de  las  Cosas,  2020.  internet  de  las  Cosas,  2020.  10.1016/j.procs.2021.04.117
Machine Translated by Google

Henry  Ivan  Condori­Alejo  et  al. /  Procedia  Computer  Science  187  (2021)  408–413    409
2 HI  Condori­Alejo  et  al. /  Procedia  Computer  Science  00  (2021)  000–000

Superintendencia  de  Banca  y  Seguros  (SBS)  [20].  Los  créditos  son  una  fuente  de  financiamiento  formal  en  diversas  actividades  económicas  del  
país,  pueden  ser  dinero,  producto  o  servicio,  los  cuales  se  otorgan  con  base  en  la  confianza  a  cambio  de  un  valor  equivalente  esperado  en  el  
futuro  considerando  una  tasa  de  interés  pactada  y  permiten  la  impulsó  la  economía  tanto  en  el  sector  urbano  como  en  el  rural  [11].

En  Perú,  la  población  del  sector  rural  representa  el  20,7%,  su  principal  actividad  económica  es  el  sector  agropecuario  y  tiene  menor  acceso  
a  fuentes  de  financiamiento,  a  través  de  microcréditos  ofrecidos  por  entidades  microfinancieras  [14].  En  este  sector  hay  información  nula  o  
limitada,  por  lo  que  es  necesario  encontrar  nuevas  herramientas  para  mejorar  el  nivel  de  asertividad,  además,  el  nivel  de  inclusión  financiera  es  
bajo,  alcanzando  solo  el  43%  en  todo  el  país  [8] .  Este  trabajo  se  ha  desarrollado  en  la  región  Puno,  cuya  población  rural  alcanza  el  46,22%  [13],  
analizando  a  15.015  clientes  de  una  empresa  de  microfinanzas,  que  obtuvieron  al  menos  un  microcrédito  para  productos  agropecuarios  en  el  
año  2017.  El  otorgamiento  de  microcréditos  sigue  un  proceso  de  evaluación  predefinido,  realizado  realizado  por  un  analista  de  crédito  rural  que  
realiza  una  evaluación  a  través  de  los  datos  del  cliente,  evalúa  la  disposición  y  capacidad  de  pago;  y  está  sujeto  a  las  habilidades  del  evaluador,  
este  proceso  comienza  con  la  revisión  de  la  capacidad  financiera  y  los  antecedentes  del  cliente,  luego  continúa  con  el  análisis  de  los  datos  
recopilados  y  finalmente  determina  la  aceptación  del  cliente,  es  decir,  si  se  otorgarán  o  no  los  créditos  y  en  qué  condiciones  [ 21 ].

Existe  la  probabilidad  de  incumplimiento  de  las  obligaciones  crediticias,  lo  que  generaría  pérdidas  a  las  instituciones  financieras  o  de  
microfinanzas,  por  lo  que  los  bancos  cuentan  con  varios  sistemas  o  metodologías  de  gestión  de  riesgos  con  el  fin  de  minimizar  el  riesgo  de  crédito  [28] .
Se  busca  conocer  la  solvencia  del  cliente,  los  modelos  basados  en  criterios  son  aplicados  por  asesores  experimentados  y  se  utilizan  como  
métodos  subjetivos  como  [4],  [5],  son  de  uso  común.  También  existen  métodos  computacionales  basados  en  Inteligencia  Artificial  para  realizar  
una  evaluación  del  cliente  de  forma  más  asertiva,  como  el  Machine  Learning  [2],  [16],  [17],  [19],  [29],  que  permiten  el  aprendizaje  informático  
basado  en  la  experiencia. ,  a  través  del  aprendizaje  supervisado  y  no  supervisado  [10],  [15].
La  microfinanciera  ha  analizado  clientes  que  presentan  atrasos  en  el  pago  de  sus  cuotas  e  incluso  la  falta  total  de  pago,  este  tema  se  expresa  
a  través  de  la  tasa  de  morosidad,  reportada  a  la  autoridad  reguladora.  En  los  últimos  años,  esta  tasa  de  morosidad  fue  del  6,5  %  en  2015,  del  
6,1  %  en  2016  y  del  6,3  %  en  2017  [27].  Esta  variabilidad  muestra  una  deficiencia  en  el  nivel  de  asertividad  al  momento  de  otorgar  microcréditos,  
a  pesar  de  contar  con  personal  especializado  y  con  experiencia.  La  entidad  analizada  cuenta  con  asesores  rurales  expertos  y  mediante  Machine  
Learning  se  intentará  encontrar  el  modelo  más  asertivo  en  la  evaluación  para  el  otorgamiento  de  microcréditos  rurales  y  reducir  la  morosidad,  
utilizando  una  nueva  metodología  para  determinar  el  modelo  con  mejor  nivel  de  asertividad,  cuyo  proceso  consiste  en  la  especificación,  
implementación  y  evaluación,  comenzando  con  la  definición  de  las  variables  rurales,  las  cuales  se  clasifican  en  variables  empíricas  y  teóricas  
recolectadas  de  trabajos  relacionados  en  la  literatura  sobre  el  riesgo  crediticio  de  las  microfinanzas  en  el  sector  rural.

En  un  primer  momento  se  extrae  el  dato  de  la  entidad,  el  cual  es  preprocesado:  la  preparación  y  exploración  de  los  datos  se  da  a  través  de  
una  instancia,  para  realizar  una  validación  cruzada  y  obtener  la  optimización  de  hiperparámetros  para  ser  adaptados  en  modelos  de  Machine  
Learning.  Luego,  los  modelos  se  entrenan  a  través  del  aprendizaje  supervisado,  construyendo  modelos  predictivos  aprendiendo  de  una  gran  
cantidad  de  ejemplos  de  entrenamiento  de  casos  reales  en  instancias  futuras,  donde  cada  ejemplo  de  entrenamiento  tiene  una  etiqueta  que  
indica  su  salida  [18] .  Finalmente,  para  validar  los  modelos,  se  han  utilizado  algunas  métricas  de  evaluación  para  comparar  sus  resultados,  con  
el  fin  de  lograr  el  mejor  nivel  de  asertividad  de  los  modelos  de  Machine  Learning,  aplicados  al  riesgo  de  crédito  [2],  [6],  [9] ,  [ 19 ] ,  [29].  La  
estructura  del  trabajo  es  la  siguiente:  en  la  Sección  1  se  introduce  el  problema,  en  la  Sección  2  se  explica  la  metodología  propuesta,  en  la  
Sección  3  se  muestran  los  resultados,  en  la  Sección  4  se  presentan  las  conclusiones  y  discusiones  y  finalmente  se  referencian  trabajos  
relacionados .

2.  Metodología  propuesta

La  metodología  para  determinar  el  modelo  más  asertivo  en  el  otorgamiento  de  microcréditos  se  basa  en  la  revisión  bibliográfica  de  
investigaciones  que  construyen  modelos  similares  como  [2],  [9],  [17],  y  se  divide  en  tres  hitos:  la  especificación  de  variables  rurales ,  donde  se  
realiza  la  revisión  del  proceso  de  microcrédito  y  se  determinan  las  variables  influyentes  del  microcrédito;  la  implementación  del  modelo,  
comenzando  con  la  generación  de  una  instancia  preprocesada  y  enfocándose  en  entrenar  modelos  seleccionados  de  Machine  Learning;  y  la  
evaluación  realizada  a  través  de  métricas  de  máquina  de  aprendizaje,  finalmente  se  selecciona  el  modelo  más  asertivo  como:

•  Especificación  de  Variables  Rurales.  El  objetivo  es  determinar  las  mejores  variables  para  el  modelo,  para  lo  cual  se  realizó  una  revisión  
del  proceso  de  otorgamiento  de  microcréditos  de  la  entidad,  a  través  de  un  mapeo,  explorando  los  procesos  de  captación,  evaluación  y  
aprobación  del  crédito  para  identificar  las  variables  empíricas  involucradas.  Además,
Machine Translated by Google

410 Henry  Ivan  Condori­Alejo  et  al. /  Procedia  Computer  Science  187  (2021)  408–413  
HI  Condori­Alejo  et  al. /  Procedia  Computer  Science  00  (2021)  000–000 3

se  encontraron  las  variables  teóricas,  a  través  de  la  investigación  relacionada  con  el  otorgamiento  y  análisis  de  riesgo  crediticio  [19],  [29].
El  análisis  de  estas  variables  se  realiza  a  través  del  cruce  de  variables,  con  el  fin  de  determinar  las  variables  más  significativas  para  
utilizarlas  en  el  entrenamiento  de  modelos.  Finalmente,  se  construye  una  instancia,  a  partir  de  los  datos  de  la  entidad  financiera.  •  
Implementación  del  modelo.  Aquí,  se  pretende  construir  modelos  de  Machine  Learning,  a  partir  de  la  instancia  obtenida  en  el  paso  anterior.  Los  
modelos  de  aprendizaje  supervisado  que  se  utilizan  con  frecuencia  incluyen  la  regresión  logística  (LR),  el  bosque  aleatorio  (RF),  la  máquina  
de  vectores  de  soporte  (SVM),  la  red  neuronal  artificial  (ANN),  el  árbol  de  decisiones  (dTree),  el  clasificador  Naive  Bayer  (NBC),  los  k­
vecinos  más  cercanos  (kNN),  Análisis  Discriminante  Lineal  (LDA),  Regresión  Multimonial  (MR),  entre  otros.  En  este  paso  se  realiza  el  
preprocesamiento  de  los  datos,  con  el  fin  de  limpiar  y  analizar  su  distribución,  aplicando  la  técnica  de  codificación  One  Hot  [7],  este  dataset  
o  instancia,  se  utilizará  para  el  entrenamiento  de  los  modelos  seleccionados  con  el  fin  de  evaluarlos.

•  Evaluación.  Esta  etapa  tiene  como  objetivo  determinar  el  modelo  más  asertivo  empleando  la  evaluación  de  modelos  de  Machine  Learning,  a  
través  de  las  métricas  más  utilizadas  en  este  campo,  que  son  Accuracy,  Precision,  Recall,  F1  Score  y  AUC  ROC  [2],  [6],  [ 9 ] ,  [19],  [29].  [3],  
[12]  y  [23].  La  evaluación  del  modelo  construido  es  una  tarea  importante  en  el  proyecto  de  ciencia  de  datos  para  delinear  qué  tan  buenas  
son  las  predicciones.  Para  lo  cual  se  utiliza  la  matriz  de  confusión,  que  describe  el  desempeño  de  un  modelo  de  clasificación  en  un  conjunto  
de  datos  de  prueba.

3.  Resultados

La  instancia  utilizada  en  este  estudio  representa  la  base  de  datos  de  instituciones  de  microfinanzas  del  periodo  marzo  2017  a  marzo  2018,  
correspondiente  a  un  total  de  17454  registros  de  15015  clientes,  esta  instancia  se  denomina  dataset.  Para  la  implementación  de  los  algoritmos  se  
ha  utilizado  la  librería  Scikit  Learn  [26]  y  Keras  [25] ,  que  integran  una  amplia  gama  de  algoritmos  para  modelos  de  Machine  Learning  e  incluyen  
problemas  supervisados  y  no  supervisados.  Además,  se  utilizaron  las  librerías  Pandas  para  la  lectura  de  los  archivos  otorgados  por  la  entidad,  
Numpy  para  el  preprocesamiento  de  datos  y  Matploit  para  la  representación  gráfica  de  los  resultados.  El  proceso  de  otorgamiento  de  crédito  de  la  
entidad  analizada  se  divide  en  cuatro  etapas:  la  adquisición,  evaluación,  aprobación  y  desembolso  [1].

3.1.  Establecimiento  de  Variables  Rurales

La  evaluación  de  las  variables  empíricas  que  actualmente  se  utilizan  en  la  entidad  se  ha  realizado  durante  el  proceso  de  evaluación  crediticia,  
además,  estas  han  sido  sometidas  a  una  validación  teórica,  con  el  fin  de  medir  su  pertinencia.  Las  variables  empíricas  identificadas  han  sido  34:  
Desembolso  de  capital,  Importe  de  la  comisión,  Destino  del  préstamo,  Número  de  cuotas  pagadas,  Sucursal,  Tipo  de  interés  pactado,  Tipo  de  
solicitud  de  crédito,  Clasificación  del  cliente,  Tipo  de  cliente,  Tipo  de  crédito,  Edad,  Lugar  de  nacimiento ,  Tipo  de  vivienda,  Estado  civil,  Sexo,  Nivel  
de  estudios,  Demanda,  Ocupación,  Profesión,  Cajas  de  ahorro,  Sector  económico,  Actividad  primaria,  Tipo  de  actividad  primaria,  Años  en  actividad  
primaria,  Actividad  secundaria,  Tipo  de  actividad  secundaria,  Años  en  actividad  secundaria,  Saldo,  Plazo,  Garantía,  Número  de  dependientes,  
Atraso  promedio,  Número  de  condonación  y  Número  de  créditos.  La  validación  se  realizó  a  través  de  la  revisión  de  la  literatura,  durante  esta  etapa  
se  ha  determinado  la  frecuencia  de  referencia  relevante,  25  variables  empíricas  de  la  entidad  analizada  también  se  utilizan  en  otros  estudios  de  
riesgo  de  crédito  [19],  [29],  lo  que  respalda  su  uso  en  la  aplicación  de  el  modelo  de  análisis  de  riesgos  [1].  Las  nueve  variables  restantes  
corresponden  claramente  a  la  propuesta  de  la  experiencia  empírica  de  la  entidad  en  el  otorgamiento  de  créditos  en  zonas  rurales,  y  están  
relacionadas  con  las  actividades  económicas  de  las  personas  de  dicho  sector.

3.2.  Preprocesamiento  de  datos  y  entrenamiento

Una  vez  definidas  las  variables  de  entrada  independientes  X,  y  la  variable  de  salida  dependiente  Y,  que  indica  si  se  debe  otorgar  o  no  un  
determinado  microcrédito  (variable  Crédito  otorgado),  se  utiliza  la  instancia  del  dataset  para  realizar  el  preprocesamiento  adecuado.  En  este  proceso  
se  han  considerado  datos  faltantes  o  nulos,  que  pueden  afectar  el  entrenamiento  de  los  modelos,  se  realiza  la  evaluación  y  gestión  de  los  datos  
faltantes,  por  error  humano,  ya  que  no  se  ingresan  o  no  se  declaran,  la  acumulación  de  los  valores  perdidos  se  evalúan  y  se  identifican  como  valores  
nulos.  Para  completar  los  datos  faltantes,  primero  se  realizó  un  conteo  de  los  valores  nulos  en  el  dataset  de  la  entidad,  completado  con  la  moda  de  
la  variable,  ya  que  eran  variables  de  tipo  categóricas,  luego  se  realizó  la  exploración  de  datos,  analizando  el  dataset.  En  este  análisis  se  considera  
si  es  necesario  aplicar  la  normalización  de  variables  de  tipo  numérico,  para  obtener
Machine Translated by Google

Henry  Ivan  Condori­Alejo  et  al. /  Procedia  Computer  Science  187  (2021)  408–413    411
4 HI  Condori­Alejo  et  al. /  Procedia  Computer  Science  00  (2021)  000–000

datos  simétricos,  observando  el  contador  (conteo),  promedio  (media),  desviación  estándar  (std),  el  valor  mínimo  (min)  y  el  valor  máximo  (max),  como  se  
muestra  en  la  Tabla  1 .

Tabla  1.  Resumen  de  datos  preprocesados  para  entrenamiento  de  modelos

Variables contar significar estándar min máximo

Capital  de  desembolso 17454   4914.70 4638.45 300.00 60000.00  

monto  de  la  tarifa 17454   1046,68   1596,82   0.00 26809.50


Término 17454   408,76   157,52   30,00   3240.00  

Años  en  actividad  primaria 17454   10,75   7,87   0,00   100.00  

Años  en  actividad  secundaria 17454   4,04   6,02   0,00   100.00  

Número  de  dependientes 17454   0,86   1,23   0,00   21.00  

Tasa  de  interés  acordada 17454   1514,71   1843,19   14,49   29831.95  

Retraso  promedio 17454   1,39   7,19   0,00   259.00  

Guardando  cuentas 17454   0,09   0,45   0,00   20.00  


Balance 17454   2120,21   4648,92   0,00   104051.75  

Número  de  créditos 17454   1,04   0,38   0,00   3.00  

Número  de  pagos  de  tasas 17454   9,42   6,48   1,00   60.00  

Número  de  perdón 17454   0,02   0,27   0,00   10.00  


Demanda 17454 0,00 0,00 0,00 0.00

A  partir  de  estas  observaciones  se  determinó  que  el  valor  máximo  y  mínimo,  las  variables  con  mayor  valor  de  desviación  estándar  por  lo  que  fue  
necesario  verificar  la  distribución  de  cada  una  de  estas  variables  para  corregir  la  simetría  correspondiente,  que  también  fueron  transformadas  mediante  
la  función  Log1p ,  de  la  biblioteca  numpy,  para  reducir  el  coeficiente  de  asimetría.  Finalmente,  se  aplicó  la  técnica  de  codificación  One  Hot  a  las  variables  
categóricas,  obteniendo  como  resultado  un  conjunto  de  datos  preprocesados,  se  siguió  una  regla,  consistente  en  el  uso  del  75%  para  entrenamiento  y  el  
25%  para  evaluación  [22] .  Se  han  entrenado  los  siguientes  modelos  de  Machine  learning  para  la  gestión  de  riesgos:  LR,  a  través  de  la  función  
SGDClassifier;  RF,  a  través  de  la  función  RandomForestClassifier;  SVM  a  través  de  la  función  LinearSVC;  ANN  a  través  de  la  librería  Keras,  
específicamente  las  funciones  Sequential  y  Dense;  dTree  a  través  de  la  función  DecisionTreeClassifier;  kNN  a  través  de  la  función  KNeighborsClassifier.

3.3.  Comparación  de  modelos  de  aprendizaje  automático

Una  vez  finalizado  el  entrenamiento,  se  realiza  la  evaluación  de  los  modelos  de  Machine  Learning,  como  se  muestra  en  la  Tabla  2.
Donde  dTree  obtiene  la  mejor  puntuación  en  Precisión,  seguida  de  ANN,  que  refleja  una  medida  global  de  la  concesión  de  microcréditos,  ya  que  esta  
métrica  depende  del  balance  de  casos  positivos  y  negativos.  Aplicando  Recall,  el  modelo  con  mejor  puntuación  es  RF,  seguido  de  ANN,  que  indica  el  
ratio  de  microcréditos  identificados  como  concedidos  sobre  el  total  que  debería  concederse,  esta  métrica  también  se  centra  en  los  casos  positivos.  En  F1  
Score,  el  primer  lugar  lo  ocupa  dTree,  seguido  de  ANN,  que  indica  la  precisión  de  los  microcréditos  otorgados,  esta  métrica  involucra  el  equilibrio  entre  la  
métrica  Precision  y  Recall,  se  enfoca  en  casos  positivos.  Finalmente,  en  AUC  ROC  el  modelo  con  mejor  puntaje  ANN.

Tabla  2.  Métricas  resultantes  de  Modelos

Modelo Exactitud Precisión Recordar Puntuación  F1 SIN  República  de  China

LR 0,8390   0,9638   0,8191   0,8856   0,8607  


RF 0,8351   0,8257   0,9928   0,9016   0,6635  
MVS 0,8881   0,9249   0,9282   0,9266   0,8444  
ANN   0,9119   0,9184   0,9705   0,9437   0,9372  
dÁrbol   0,9230   0,9443   0,9551   0,9496   0,8880  
kNN 0,8124 0,8270 0,9527 0,8854 0,6598
Machine Translated by Google

412 Henry  Ivan  Condori­Alejo  et  al. /  Procedia  Computer  Science  187  (2021)  408–413  
HI  Condori­Alejo  et  al. /  Procedia  Computer  Science  00  (2021)  000–000 5

Fig.  1.  Curvas  ROC  de  evaluación  para  modelos  de  aprendizaje  automático.

Al  evaluar  las  métricas  seleccionadas,  se  sabe  que  la  métrica  Accuracy  mide  cada  modelo  de  forma  global,  mientras  que  las  métricas  
Precision,  Recall  y  F1  Score  se  enfocan  en  los  hits  positivos,  sin  embargo  también  se  deben  considerar  los  hits  negativos,  finalmente  AUC  
ROC  considera  tanto  los  hits  positivos  como  los  negativos,  los  cuales  permite  medir  más  adecuadamente  el  nivel  de  asertividad  en  el  
otorgamiento  de  microcréditos,  esta  evaluación  y  selección  es  consistente  con  los  resultados  encontrados  en  [19],  [2],  [12],  [9].  Cabe  señalar  
que  todos  los  modelos  utilizados  fueron  sometidos  a  un  mismo  escenario  con  datos  de  la  entidad  para  luego  ser  evaluados  y  comparados.

El  modelo  ANN  utilizado  automatiza  el  desarrollo  de  modelos  analíticos  con  la  mínima  intervención  humana,  funciona  recibiendo  un  
conjunto  de  variables  en  la  capa  de  entrada,  se  utiliza  una  combinación  lineal  para  generar  nuevas  características,  y  una  función  de  activación  
que  permite  generar  una  neurona  como  salida,  la  cual  es  la  entrada  de  la  siguiente  capa;  en  las  capas  ocultas  se  generan  nuevas  
características  de  las  capas  anteriores,  hasta  llegar  a  la  capa  de  salida,  obteniendo  un  valor  predicho  (forward  propagation).  El  valor  predicho  
se  reajusta  para  minimizar  el  margen  de  error  de  las  iteraciones  anteriores  hasta  que  el  modelo  converge  a  lo  largo  de  50  épocas  con  una  
tasa  de  aprendizaje  de  0,001,  utilizando  el  optimizador  de  Adam  (propagación  hacia  atrás)  [ 24].
Teniendo  en  cuenta  los  resultados  de  la  métrica  AUC  ROC,  el  desempeño  del  algoritmo  se  obtiene  a  través  de  la  curva  ROC,  que  se  
muestra  en  la  Figura  1,  por  lo  que  la  evaluación  de  su  desempeño  se  realiza  de  acuerdo  con  su  línea  de  no  discriminación,  el  modelo  de  
microcrédito  más  asertivo  es  el  Neural  Artificial.  Networks  (ANN),  determinando  que  créditos  se  deben  otorgar  o  no  otorgar  con  un  93,72%  
de  asertividad,  el  dato  de  créditos  otorgados  en  el  periodo  de  análisis  por  parte  de  la  entidad  con  su  metodología  tradicional  llega  al  76,81%,  
y  con  el  modelo  ANN  se  logra  el  93,72% ,  mostrando  una  mejora  del  16,91%  en  el  índice  de  morosidad.

4.  Conclusiones  y  trabajos  futuros

La  institución  microfinanciera  analizada  se  especializa  en  microcréditos  rurales,  se  determinó  que  la  morosidad  crediticia  de  la  entidad  
analizada  representa  un  23.19%,  por  lo  tanto  se  debe  minimizar  el  nivel  de  riesgo  crediticio.  Se  evaluó  el  proceso  de  la  entidad  para  
determinar  las  variables  que  intervienen  en  el  otorgamiento  de  crédito  rural,  con  base  en  variables  empíricas  y  se  validaron  a  través  de  la  
revisión  de  literatura  en  el  campo  del  riesgo  de  crédito,  el  uso  de  herramientas  que  permitan  obtener  mejores  resultados  a  través  de  un  
modelo  computacional  basado  en  Se  ha  determinado  la  Inteligencia  Artificial  para  otorgar  créditos  de  manera  más  asertiva,  que  reduzcan  la  
morosidad  de  los  préstamos.
De  esta  forma,  se  obtiene  una  herramienta  que  sirve  de  ayuda  a  la  toma  de  decisiones  para  el  personal  especializado  en  la  concesión  de  
préstamos.  La  elaboración  de  los  datos  ha  considerado  la  determinación  de  las  variables  más  significativas  a  utilizar,  encontrando  una  
coincidencia  de  25  variables  empíricas  sustentadas  en  otros  estudios  [19],  [29]  y  9  variables  propias  de  la  propuesta  de  otorgamiento  de  
microcréditos  rurales.  Se  obtuvieron  17454  registros  de  entidades,  los  cuales  fueron  preprocesados,  con  el  fin  de  lograr  un  mejor  desempeño
Machine Translated by Google

Henry  Ivan  Condori­Alejo  et  al. /  Procedia  Computer  Science  187  (2021)  408–413    413
HI  Condori­Alejo  et  al. /  Procedia  Computer  Science  00  (2021)  000–000
6

en  proceso  de  capacitación  y  evaluación,  obteniendo  información  de  supervisión  sólida  con  variables  de  entrada  completas  
y  correctas.
Se  utilizaron  modelos  de  Machine  Learning  aplicados  al  riesgo  de  crédito  [16],  [19],  [28],  los  cuales  fueron  seleccionados,  
entrenados  y  evaluados.  El  nivel  de  asertividad  se  ha  evaluado  a  través  de  diferentes  métricas  [2],  [6],  [9],  [19],  [29],  
encontrando  el  modelo  con  mejor  rendimiento  en  la  evaluación  de  la  concesión  de  créditos,  que  ha  sido  Red  Neuronal  
Artificial  (ANN),  que  obtuvo  un  nivel  de  asertividad  del  93,72%,  sobre  los  modelos  LR  (86,07%),  RF  (66,35%),   dTree  
SVM   (88,80%)  
(84,44%),  
y  kNN  (65,98%).  El  nivel  de  asertividad  alcanzado  con  el  modelo  ANN  (93,72%)  supera  al  alcanzado  con  su  metodología  
tradicional  (76,81%),  con  una  reducción  del  16,91%  de  clientes  en  mora.  Como  trabajo  futuro  se  espera  ampliar  los  resultados  
para  otras  entidades  rurales  y  analizar  entidades  fuera  de  la  región,  para  continuar  con  la  validación  de  variables.

Referencias

´
[1]  Aceituno,  M.,  2019.  Modelo  predictivo  de  analisis  de  riesgo  crediticio  usando  Machine  Learning  en  una  entidad  del  sector  microfinanciero.   
Ph.D.  thesis.  Universidad  Nacional  del  Altiplano.  
[2]  Addo,  P.,  Guegan,  D.,  Hassan,  B.,  2018.  Análisis  de  riesgo  crediticio  utilizando  modelos  de  aprendizaje  automático  y  profundo.  SSRN  doi:10.2139/ssrn.3155047.
[3]  Albon,  C.,  2018.  Aprendizaje  automático  con  Python  Cookbook.  O'Reilly  Media,  Inc.
[4]  Bisias,  D.,  Flood,  M.,  Lo,  AW,  Valavanis,  S.,  2012.  Una  encuesta  de  análisis  de  riesgo  sistémico.  Revisión  anual  de  economía  financiera  4,  255–296.
doi:10.1146/annurev­financial­110311­101754.
[5]  Brown,  K.,  Moles,  P.,  2016.  Gestión  del  riesgo  crediticio.  Escuela  de  Negocios  de  Edimburgo,  Universidad  Heriot­Watt.
[6]  Chakraborty,  C.,  Joseph,  A.,  2017.  Aprendizaje  automático  en  los  bancos  centrales.  Reporte  técnico.  Banco  de  Inglaterra.
[7]  Choong,  A.,  Lee,  N.,  2017.  Evaluación  del  modelado  de  redes  neuronales  convolucionales  de  secuencias  de  adn  utilizando  el  método  de  codificación  ordinal  
versus  one­hot,  en:  bioRxiv.  doi:http://dx.doi.org/10.1101/186965.
[8]  Demirguc­Kunt,  A.,  Klapper,  L.,  Singer,  D.,  Ansar,  S.,  Hess,  J.,  2018.  The  Global  Findex  Database  2017:  Midiendo  la  inclusión  financiera  y
la  revolución  fintech.  El  Banco  Mundial.  doi:10.1596/978­1­4648­1259­0.
[9]  Flores,  R.,  Ramon,  J.,  2014.  Modelización  del  riesgo  crediticio  con  escasos  datos  de  incumplimiento:  sobre  la  idoneidad  de  las  estrategias  cooperativas  de  arranque  para  pequeñas
carteras  de  baja  morosidad,  en:  Journal  of  the  Operational  Research  Society.
[10]  Goodfellow,  I.,  Bengio,  Y.,  Courville,  A.,  2016.  Aprendizaje  profundo.  Prensa  del  MIT.  http://www.deeplearningbook.org.
´ ´ ´ ´
[11]  Guajardo,  J.,  1991.  Estrategias  y  tecnicas  para  optimizar  el  cr   edito  y  la  cobranza.  Master’s  thesis.  Universidad  Aut   onoma  de  Nuevo  Le   on.   
[12]  Hossin,  M.,  MN,  S.,  2015.  Una  revisión  de  las  métricas  de  evaluación  para  las  evaluaciones  de  clasificación  de  datos.  Revista  internacional  de  minería  de  datos  y
Proceso  de  gestión  del  conocimiento  5,  01–11.  doi:10.5121/ijdkp.2015.5201.
´
[13]  Instituto  Nacional  de  Estadística  e  Informática  (INEI),  2017.  Población  y  vivienda:  M´agnitud  y  crecimiento  poblacional. https://www.
inei.gob.pe/estadisticas/indice­tematico/poblacion­y­vivienda.  u.´  https://www.inei.gob.pe/
´ ´
Perfil  sociodemogr   afico  del  per   MenuRecursivo/publicaciones_digitales/.   media/  [14]  Instituto  Nacional  de  Estad´ıstica  e  Informatica  (INEI),  2018.  

[15]  Jordan,  M.,  Mitchell,  T.,  2015.  Machine  leaning:  Trends,  perspetives,  and  prospects,  en:  Science.  doi:10.1126/ciencia.aaa8415.
[16]  Kalayci,  S.,  Kamasak,  M.,  Arslan,  S.,  2018.  Análisis  de  riesgo  crediticio  mediante  algoritmos  de  aprendizaje  automático,  en:  26.ª  Conferencia  de  aplicaciones  de  
comunicaciones  y  procesamiento  de  señales  IEEE,  SIU  2018.  doi:10.1109/SIU.2018.8404353 .
[17]  Khashman,  A.,  2010.  Redes  neuronales  para  la  evaluación  del  riesgo  de  crédito:  Investigación  de  diferentes  modelos  neuronales  y  esquemas  de  aprendizaje.  Sistemas  expertos
con  Aplicaciones  37,  6233–6239.  doi:https://doi.org/10.1016/j.eswa.2010.02.101.
[18]  Kotsiantis,  SB,  2007.  Aprendizaje  automático  supervisado:  una  revisión  de  las  técnicas  de  clasificación.  Informática  (Liubliana)  31.
[19]  Kruppa,  J.,  Schwarz,  A.,  Arminger,  G.,  Ziegler,  A.,  2013.  Riesgo  crediticio  del  consumidor:  Estimaciones  de  probabilidad  individual  usando  aprendizaje  automático,  en:
Sistemas  Expertos  con  Aplicaciones.  doi:10.1016/j.eswa.2013.03.019.
´
[20]  Lizarzaburu,  E.,  2014.  Sistema  financiero  peruano:  area  de  tesorer   ́ıa,  in:  Strategy  &  Management  Business  Review.  
´
[21]  Morales,  J.,  Morales,  A.,  2014.  Credito  y  cobranza.  Grupo  Editorial  Patria.   
[22]  Mueller,  A.,  Guido,  S.,  2016.  Introducción  al  aprendizaje  automático  con  Python.  O'Reilly  Media,  Inc.
[23]  Narkhede,  S.,  2018.  Comprender  la  curva  auc  ­  roc.  URL:  https://towardsdatascience.com/\spacefactor\@m{}narkhedesarang.
[24]  Ng,  A.,  2018.  Aprendizaje  automático  Yeraning.  Proyecto  Deeplearning.ai.
[25]  Python,  2019.  Base  de  software  de  Python.  URL:  https://www.python.org.
[26]  Scikit­Learn  Developers,  2016.  Guía  del  desarrollador.  URL:  https://scikit­learn.org/0.18/developers/index.html.
´
[27]  Superintendencia  de  Banca,  Seguros  y  AFP  (SBS),  2019.  Informacion  estad   ́ıstica  de  banca  multiple.    ´ https://www.sbs.gob.pe/app/
estadísticas/.
´
[28]  Tesen,  A.,  2017.  Eficacia  de  los  modelos  de  aprendizaje  de  maquina  para  evaluar  el  riesgo  crediticio  de  personas  naturales  en  una  instituci   on´  
financiera  de  Chiclayo.  Ph.D.  thesis.  Universidad  Nacional  de  Santa.  
[29]  Turkson,  R.,  Baagyere,  E.,  Wenya,  G.,  2016.  Un  enfoque  de  aprendizaje  automático  para  predecir  la  solvencia  bancaria,  en:  2016  3rd  International
Conferencia  sobre  Inteligencia  Artificial  y  Reconocimiento  de  Patrones,  AIPR  2016.  doi:10.1109/ICAIPR.2016.7585216.

También podría gustarte