Está en la página 1de 9

Machine Translated by Google

Programación  científica  
Hindawi  Volumen  2022,  artículo  ID  3398545,  
9  páginas  https://doi.org/10.1155/2022/3398545

Artículo  de  investigación

Modelo  de  Predicción  de  Riesgo  Financiero  Bancario  Basado  en  Big  Data

1,2
Hua  Peng, Yicheng  Lin 2 , y  Mingzheng  Wu2
1
Universidad  de  Wuyi,  Wuyishan  354300,  China
2
Universidad  Nacional  de  Educación  de  Changhua,  Changhua  50007,  China

La  correspondencia  debe  dirigirse  a  Yicheng  Lin;  yclin@wuyiu.edu.cn

Recibido  el  17  de  octubre  de  2021;  Revisado  el  10  de  diciembre  de  2021;  Aceptado  el  16  de  diciembre  de  2021;  Publicado  26  febrero  2022

Editor  académico:  Rahman  Ali

Derechos  de  autor  ©  2022  Hua  Peng  et  al.  Este  es  un  artículo  de  acceso  abierto  distribuido  bajo  la  licencia  Creative  Commons  Attribution  License,  que  
permite  el  uso,  la  distribución  y  la  reproducción  sin  restricciones  en  cualquier  medio,  siempre  que  se  cite  correctamente  el  trabajo  original.

La  predicción  del  riesgo  financiero  es  una  técnica  importante  para  predecir  sistemáticamente  los  riesgos  imprevisibles  en  los  sistemas  bancarios.  Los  
problemas  relacionados  con  la  inoportunidad  y  la  baja  precisión  de  los  métodos  de  predicción  de  riesgos  actuales  requieren  un  método  de  predicción  de  
riesgos  eficaz.  Similar  al  uso  de  big  data  en  varios  dominios,  la  tecnología  tiene  un  papel  importante  en  los  servicios  financieros  y  puede  usarse  para  predecir  
de  manera  precisa  y  oportuna  las  posibilidades  de  riesgos.  En  este  artículo,  se  propone  un  método  híbrido  efectivo  para  predecir  de  manera  acertada  y  
efectiva  los  riesgos  financieros  en  los  sistemas  bancarios.  El  método  utiliza  los  algoritmos  de  regresión  lineal  y  Lasso  a  través  de  las  características  de  big  
data  y  las  tecnologías  de  marco.  Mediante  la  adecuada  formalización  de  los  problemas  de  riesgo  financiero  bancario,  se  obtienen  y  procesan  los  datos  de  
riesgo.  Para  filtrar  las  características  del  texto  inicial  y  preprocesar  los  datos  del  texto  del  informe  anual,  se  utiliza  el  método  de  obtención  de  información.  
Con  la  bolsa  de  palabras  (BoW)  y  el  método  de  ponderación  de  frecuencia  de  documentos  inversos  de  frecuencia  de  palabras,  se  extraen  las  características  
del  texto  de  la  predicción  del  riesgo  financiero.  El  modelo  de  predicción  de  riesgo  financiero  bancario  se  construye  con  base  en  el  algoritmo  de  subespacio  
aleatorio  adaptativo  de  fusión  ponderada.  Los  resultados  de  predicción  obtenidos  se  integran  para  realizar  los  riesgos  financieros  bancarios  de  manera  
transparente.  Los  resultados  experimentales  muestran  que  el  método  propuesto  puede  mejorar  efectivamente  la  precisión  de  la  predicción  y  consume  
comparativamente  menos  tiempo  en  la  predicción  del  riesgo.

1.  Introducción amplia  gama  de  influencia  [2].  Especialmente  en  el  contexto  de  un  entorno  
ecológico  financiero  cada  vez  más  complejo,  el  mecanismo  de  ocurrencia  de  
Como  una  institución  financiera  importante,  los  bancos  tienen  una  sólida   la  crisis  financiera  es  más  complejo  y  destructivo.  Por  lo  tanto,  es  de  gran  

solidez  financiera  y  servicios  financieros  diversificados.  La  operación  segura   importancia  estudiar  la  predicción  del  riesgo  financiero  bancario  y  establecer  
de  los  bancos  es  de  gran  importancia  para  la  seguridad  económica  y  el   un  modelo  efectivo  para  predecir  con  precisión  los  niveles  de  riesgo  financiero  
desarrollo  saludable  de  un  país  [1].  En  la  superficie,  el  banco  es  solo  una   bancario.  Esto  ayudará  a  prevenir  y  controlar  la  ocurrencia  de  la  crisis  
agencia  intermediaria  para  la  circulación  de  dinero,  pero  de  hecho,  la  esencia   financiera  y/o  reducir  las  pérdidas  causadas  por  la  crisis  financiera  [3].
del  banco  es  administrar  los  riesgos  para  obtener  beneficios.  El  foco  de  la  
competencia  entre  pares  es  la  capacidad  de  gestión  de  riesgos,  que  no  solo  
puede  obtener  altos  rendimientos,  sino  también  reducir  los  riesgos  y  ser  un   En  la  actualidad,  los  académicos  en  campos  relacionados  han  estudiado  
medio  para  atraer  más  clientes.  La  predicción  del  riesgo  financiero  es  el  área   la  predicción  del  riesgo  financiero  y  han  logrado  algunos  resultados  teóricos.  
de  investigación  emergente  para  predecir  de  manera  precisa  y  oportuna  los   Pawiak  et  al.  [4]  propuso  un  método  de  predicción  de  puntaje  de  crédito  
riesgos  involucrados  en  la  banca.  Con  el  desarrollo  de  la  economía  mundial   basado  en  la  red  de  jerarquía  genética  profunda  de  los  estudiantes.
y  la  profundización  de  la  liberalización  financiera,  la  posibilidad  de  que  estalle   La  calificación  crediticia  es  un  método  eficaz  y  clave  utilizado  por  los  bancos  
una  crisis  financiera  es  mayor.  Además,  los  datos  finales  se  están  volviendo   y  otras  instituciones  financieras  para  la  gestión  de  riesgos.  Proporciona  una  
más  vulnerables  a  la  destructividad. orientación  adecuada  para  la  emisión  de  préstamos  y  reduce  el  riesgo  en  el  
ámbito  financiero.  Mediante  el  uso  de  una  red  de  nivel  de  aprendizaje  genético  
Los  bancos  son  industrias  de  alto  riesgo;  Los  factores  de  alto  riesgo  siempre   profundo  para  mejorar  la  predicción  del  riesgo  de  calificación  crediticia,  
están  involucrados  en  el  proceso  de  operación  y  gestión  bancaria.  Los   combinada  con  una  máquina  de  vectores  de  soporte,  una  red  neuronal  
factores  de  riesgo  pueden,  a  su  vez,  conducir  a  una  crisis  financiera  con  un probabilística  y  un  sistema  difuso,  se  realiza  la  predicción  del  riesgo  de  calificación  crediticia.
Machine Translated by Google

2 Programación  científica

Este  método  es  eficaz,  y  el  rendimiento  de  predicción  de 2.2.  Características  de  los  grandes  datos.  Big  data  no  es  simplemente  una  gran  cantidad
conjunto  de  datos  de  puntuación  de  crédito  es  el  mejor.  Niu  et  al.  [5]  propuso  un de  datos  pero  tiene  sus  características  únicas  de  4  V.  industria  electronica
método  de  evaluación  integrado  de  remuestreo  de  crédito  de  préstamo  P2P representado  por  IDC  generalmente  cree  que  los  grandes  datos  tienen  la
riesgo  basado  en  la  distribución  de  datos.  problema  de  desequilibrio  de  clases características  de  escala  (Volumen),  diversidad  (Variedad),  alta
se  resuelve  utilizando  el  método  de  submuestreo  basado  en  la velocidad  (Velocity)  y  valor  (Valor).  Las  características  de  big  data  de  4  V  son  
distribución  de  la  mayoría  de  los  datos  de  clase.  Para  mejorar  la las  de  la  Figura  1.
rendimiento  de  clasificación  de  la  integración  de  remuestreo
modelo  basado  en  la  distribución  de  datos,  el  clasificador  básico  con
2.2.1.  Gran  escala  de  datos.  El  enorme  orden  de  magnitud  es  el
buen  rendimiento  integral  en  el  conjunto  de  verificación  es
atributo  básico  de  big  data.  Con  el  amplio  uso  y  desarrollo  de  la  tecnología  de  
utilizado  para  la  predicción  de  clasificación  para  realizar  el  remuestreo
Internet,  el  número  de  usuarios  de  Internet
evaluación  integrada  del  riesgo  de  crédito  de  préstamos  P2P.  es  metodo
está  aumentando  rápidamente.  e  adquisición  e  intercambio  de  datos
tiene  un  buen  rendimiento  de  predicción.  Sin  embargo,  lo  anterior
la  información  se  está  volviendo  simple.  En  la  actualidad,  a  través  de  un
métodos  todavía  tienen  los  problemas  de  baja  precisión  de  predicción,
computadora  o  un  teléfono  móvil,  las  personas  pueden  rápida  y  fácilmente
mucho  tiempo  y  mal  efecto.
obtener  una  gran  cantidad  de  información.  además,  el
Para  resolver  los  problemas  anteriores,  un  riesgo  financiero  bancario
Los  comportamientos  de  compartir,  hacer  clic,  navegar  y  comerciar  de  los  
Se  propone  un  método  de  predicción  basado  en  big  data.  lazo  y
usuarios  de  la  red  en  Internet  producirán  una  gran  cantidad  de
los  algoritmos  de  regresión  lineal  se  estudian  utilizando  big  data
datos.  El  nivel  de  cantidad  de  big  data  ha  saltado  del  nivel  de  TB
características  y  tecnologías  relacionadas  con  el  marco.  Por
al  nivel  de  PB.  El  banco  tiene  el  atributo  de  gran  natural
definir  la  formalización  de  los  problemas  de  riesgo  financiero  bancario,
datos.  Sus  enormes  datos  de  transacciones  financieras  son  datos  naturales.
obtener  y  procesar  datos  bancarios  de  riesgo  financiero.  Usar  bolsa  de  palabras
piscina.  El  banco  puede  comprender  fácilmente  los  ingresos  y  gastos,  los  
frecuencia  de  modelo  y  palabra  frecuencia  de  documento  inverso
depósitos  y  las  operaciones  de  capital  de  los  clientes.
método  de  ponderación,  se  extraen  las  características  del  texto  de  la  predicción  
del  riesgo  financiero.  El  método  de  fusión  adaptativa  es  entonces
utilizado  para  fusionar  las  características  de  riesgo  financiero.  Residencia  en 2.2.2.  Categorías  de  Big  Data.  Hay  varios  tipos  de  grandes
el  algoritmo  de  subespacio  estocástico  adaptativo  de  fusión  ponderada,  el   datos  y  una  amplia  gama  de  fuentes.  Para  los  sistemas  bancarios,
modelo  de  predicción  de  riesgo  financiero  bancario  se  construye  para  realizar  la   la  base  de  datos  financiera  empresarial  tradicional  ya  no  puede
predicción  de  riesgo  financiero  bancario.  es satisfacer  las  necesidades  de  los  bancos.  Además  del  servicio  de  atención  al  cliente,

El  método  puede  mejorar  efectivamente  la  precisión  de  la  predicción  de  riesgos   Los  registros  de  audio,  video  en  red  y  transacciones  bancarias  en  línea  son  
en  un  período  de  tiempo  de  predicción  de  riesgos  más  corto. retenidos  por  los  bancos.  El  banco  también  puede  obtener
El  resto  del  documento  está  organizado  en  4  secciones.  La   mi
más  datos  de  los  datos  de  registro  del  sitio  web,  sistema  ERP  empresarial,
tecnología  de  Big  Data  se  elabora  en  la  Sección  2.  Relevante Sistema  de  posicionamiento  global  GPS,  transacción  de  comercio  electrónico
Las  teorías  sobre  los  riesgos  financieros  bancarios  se  discuten  en registros,  información  del  departamento  de  gestión  gubernamental
Seccion  3. El  método  de  predicción  del  riesgo  financiero  basado  en   plataforma  y  otros  canales.  Los  tipos  de  datos  incluyen  no  sólo
datos  heterogéneos  de  múltiples  fuentes  se  presenta  en  la  Sección  4.  La   mi
tipos  de  datos  relacionales  tradicionales,  pero  también  sin  procesar,
última  sección,  la  Sección  5,  trata  sobre  la  conclusión  y  el  trabajo  futuro. información  semiestructurada  y  no  estructurada.

2.  Tecnología  de  grandes  datos 2.2.3.  Velocidad  de  procesamiento  rápida.  e  mayor  frecuencia  de  datos
La  generación  y  actualización  también  es  una  característica  importante  de  las  grandes
La  palabra  de  moda  big  data  se  refiere  al  uso  de  una  utilidad  de  software  para
datos.  Hay  un  dicho  sobre  el  procesamiento  de  datos  en  la  era  de  las  grandes
extraer  información  de  un  conjunto  de  datos  grande  y  complejo datos,  lo  que  se  conoce  como  la  ley  de  un  segundo.  Tomemos  como  ejemplo  
a  través  de  análisis  y  medidas  estadísticas.  e  tecnología  de
las  transacciones  financieras  en  línea.  En  la  plataforma  de  negociación,
big  data  es  extraer  datos  estructurados  y/o  no  estructurados  para
una  gran  cantidad  de  datos  de  transacciones  financieras,  logística  y
obtener  información  significativa  y  generar  máquina
los  datos  de  transporte  se  generan  con  cada  segundo  que  pasa.
modelos  de  aprendizaje.
Los  datos  se  generan  y  transmiten  continuamente;
por  lo  tanto,  se  requieren  herramientas  de  almacenamiento  más  grandes  y  de  procesamiento  de  datos  más  rápidas.

requerido.
2.1.  Concepto  de  datos  grandes.  Big  data  se  refiere  a  un  conjunto  de  datos  que
no  pueden  ser  capturados,  administrados  y  procesados  por  herramientas  de  
software  convencionales  dentro  de  un  cierto  rango  de  tiempo.  Es  un 2.2.4.  Baja  densidad  de  valores  de  datos.  Mientras  que  la  cantidad  de  datos
masiva,  alta  tasa  de  crecimiento  e  información  diversificada aumenta  exponencialmente,  la  información  útil  oculta
activo  que  requiere  un  nuevo  modo  de  procesamiento  para  tener  más  fuerte detrás  de  los  datos  no  muestra  la  debida  proporción  de  crecimiento.
poder  de  decisión,  poder  de  intuición  y  descubrimiento,  y Además,  cada  vez  es  más  difícil  obtener
capacidad  de  optimización  de  procesos  [6].  e  industria  de  grandes  datos información  útil.  Para  los  bancos,  cómo  encontrar  información  útil  a  partir  de  una  
toma  los  datos  como  núcleo.  Al  recopilar,  almacenar,  procesar, gran  cantidad  de  información  empresarial  es  un  problema.
analizar  y  aplicar  los  datos  generados  y  mostrar problema.  Debido  a  que  los  bancos  tienen  una  gran  solidez  financiera,
a  los  usuarios,  la  eficiencia  de  procesamiento  de  datos  es  alta  y  el pueden  buscar  la  cooperación  con  proveedores  de  datos  profesionales.  En  la  
ciclo  es  corto.  e  tecnología  de  procesamiento  de  datos  contenida  en actualidad,  los  proveedores  de  datos  representados  por  proveedores  
big  data  hace  que  la  predicción  del  riesgo  financiero  del  banco  sea  más profesionales  de  servicios  de  datos  financieros  como  novena  potencia,
científico. IBM  e  Intel  proporcionan  a  los  bancos  big  data  financiero
Machine Translated by Google

Programación  científica 3

tuberculosis Nodo  de  nombre

Volumen PB Solicitud  de  datos Información  del  bloque


Cliente

EB

Nodo  de  datos Nodo  de  datos
Estructurado copias  de  seguridad
Nodo  de  datos Nodo  de  datos

Nodo  de  datos Nodo  de  datos
semi  estructurado
Variedad
Estante  2
Estante  1
no  estructurado

Características  de  Big  Data  4V Modo  de  operación  de  
Cliente
transmisión

Procesamiento  
Velocidad Figura  2:  Estructura  principal  del  sistema  de  archivos  HDFS.
en  tiempo  real

Procesamiento  por  lotes
El  nodo  de  datos  también  ejecuta  la  creación,  eliminación  y  eliminación  de  bloques.

Alto  valor  general copiar  instrucciones  del  nodo  de  nombre.

Valor Densidad  de  valor
2.3.2.  Marco  de  computación  distribuida  Spark.  mi  chispa
Valor La  arquitectura  de  computación  distribuida  es  actualmente  la  más
fragmentación popular  marco  de  computación  de  big  data.  Comparado  con
Figura  1: Características  de  big  data  4  V.
marco  MapReduce  de  Hadoop,  la  chispa  se  basa  en
Memoria  para  hacer  cálculos,  por  lo  que  el  rendimiento  del  cálculo  es
mucho  mejor  que  MapReduce.  El  marco  de  computación  distribuida  de  Spark  es  
servicios  de  recolección,  análisis  y  minería  para  ayudar  a  los  bancos como  el  de  la  Figura  3.
valor  de  los  datos  de  la  mina. Los  módulos  principales  incluidos  en  el  framework  Spark  son
Módulo  de  procesamiento  de  datos  Spark­SQL,  transmisión  de  datos  Spark
módulo  de  procesamiento,  módulo  de  biblioteca  de  algoritmos  MLlib  que  encapsula  
2.3.  Tecnologías  relacionadas  con  Big  Data  Framework.  Los  marcos  de  trabajo   los  algoritmos  de  aprendizaje  automático  convencionales,  y
de  big  data  se  refieren  a  la  expresión  sistemática  de el  módulo  de  computación  basado  en  gráficos  GraphX  [8].  Spark­SQL
conjuntos  de  datos  para  superar  las  posibles  barreras  en  la  extracción El  módulo  se  utiliza  principalmente  en  análisis  de  datos,  extracción  e  indexación.
información  a  partir  de  datos.  Los  marcos  se  vuelven  necesarios resumen.  e  spark  streaming  se  usa  generalmente  para  registro
en  situaciones  en  las  que  los  conjuntos  de  datos  son  enormes  y análisis  junto  con  código  abierto  Kafka  y  Flume  de
torpe  que  el  significado  y/o  la  información  no  pueden  ser  fácilmente Ecosistema  Hadoop.  MLlib  proporciona  algoritmos  convencionales  de  clasificación,  
deducida  de  los  datos.  Los  siguientes  son  algunos  de  los  grandes  datos agrupamiento  y  recomendación  de  aprendizaje  automático,  lo  cual  es  conveniente  
marcos para  la  ciencia  de  datos  y
tecnología  para  usar  chispa  para  la  minería  de  datos.

2.3.1.  e  Sistema  de  archivos  HDFS.  El  marco  de  trabajo  distribuido  de  Hadoop  es  
2.4.  Algoritmos  relacionados  con  el  aprendizaje  automático  y  las  estadísticas.
el  siguiente  marco  de  procesamiento  de  big  data  convencional,  que  se  utiliza  
Los  algoritmos  de  aprendizaje  automático  son  los  programas  dedicados
principalmente  para  procesar  big  data.  datos  electrónicos
que  aprenden  automáticamente  de  los  datos  y  mejoran  su  rendimiento  con  la  
nivel  que  Hadoop  puede  manejar  es  PB,  lo  que  permite  que  los  programas
experiencia.  Los  algoritmos  normales  necesitan  programa  y  datos  para  producir  
para  realizar  operaciones  distribuidas  en  miles  de  nodos
resultados,  mientras  que  la  máquina
[7].  Hadoop  tiene  dos  módulos  principales:  (1)  Hadoop  distribuido
algoritmo  de  aprendizaje  genera  programas  tomando  la  salida  y
File  System  (HDFS)  y  (2)  la  informática  MapReduce
datos  para  operar  sin  intervención  humana.  Los  siguientes  son
estructura.  Entre  ellos,  HDFS  es  un  sistema  de  archivos  distribuido
los  algoritmos  de  aprendizaje  automático  utilizados  en  el  dominio  del  riesgo
que  se  puede  usar  en  dispositivos  de  hardware  generales,  mientras  que
predicción.
MapReduce  se  utiliza  para  realizar  la  estructura  de  principio  de  com  e  paralelo  
poner  El   distribuida  del  archivo  distribuido  HDFS
sistema  es  como  la  figura  2. 2.4.1.  Algoritmo  de  lazo.  En  estadística  y  aprendizaje  automático,
HDFS  es  una  arquitectura  maestro­esclavo.  Un  clúster  HDFS El  algoritmo  Lasso  es  un  método  de  análisis  de  regresión  de  selección  y  
se  compone  de  un  nodo  con  nombre  y  varios  nodos  de  datos. regularización  simultáneas  de  características.  El  algoritmo  tiene  como  objetivo  
Por  lo  general,  la  arquitectura  consta  de  un  nodo  y  un mejorar  la  precisión  de  la  predicción  y
máquina  (nodo  de  datos).  La  máquina  gestiona  el  almacenamiento  de interpretabilidad  del  modelo  estadístico  [9].  Forzando  la  suma  de
los  nodos  correspondientes.  El  nodo  nombrado  se  utiliza  para los  valores  absolutos  de  los  coeficientes  de  regresión  sean  menores  que  un
administrar  espacios  de  nombres  y  solicitudes  de  ajuste.  El  nodo  de  datos  es umbral  fijo,  algunos  coeficientes  de  regresión  se  ven  obligados  a
utilizado  principalmente  para  el  almacenamiento  de  datos.  HDFS  abre  espacios  de  nombres  de  archivos convertirse  en  cero.  Las  variables  correspondientes  a  estos  coeficientes  de  
al  público  y  permite  que  los  datos  del  usuario  se  almacenen  como  archivos. mi
regresión  son  efectivamente  seleccionadas,  de  modo  de  construir  un
Machine Translated by Google

4 Programación  científica

−1
ML1ib
w      XT  X XT  y. (5)
Chispa  ­  chispear GráficoX  
Chispa  SQL (Aprendizaje  
Transmisión (gráfico)
automático) Cuando  XTX  no  está  lleno  de  matriz  de  rango  o  matriz  definida  
positiva,  la  solución  óptima  obtenida  por  estimación  de  parámetros  no  
es  única  en  este  momento,  y  la  varianza  del  modelo  se  puede  reducir  
chispa  apache agregando  restricciones  regulares.

Figura  3:
3.  Teorías  Relevantes  del  Riesgo  Financiero  Bancario
El  framework  de  computación  distribuida  Spark.

La  gestión  del  riesgo  financiero  es  un  área  muy  importante  en  la  banca.  
modelo  más  simple.  El  término  de  penalización  L1  se  agrega  al  modelo   La  gestión  de  riesgos  en  el  ámbito  bancario  pretende  modelar  
lineal  ordinario.  Para  la  regresión  lineal  ordinaria,  la  estimación  de   sistémicamente  las  posibilidades  de  problemas  que  en  el  largo  plazo  
Lasso  es pueden  afectar  el  marketing  financiero  y/o
tuits
βlasso     arg  min   Y  −  Xβ2 ,  
β Rd
d (1) 3.1.  Concepto  de  riesgo  financiero.  La  definición  general  de  riesgo  
calle financiero  es  la  posibilidad  de  pérdidas  para  los  financistas  en  el  proceso  
βj  ≤  t,  t  >  0.
j 1 de  transacciones  de  servicios  financieros.  También  puede  referirse  a  
pronosticar  si  el  ingreso  real  es  menor  que  el  ingreso  esperado,  o  si  el  
En  la  fórmula  (1),  t  y  j  corresponden  uno  a  uno,  que  es costo  real  es  mayor  que  el  costo  esperado  [11].  Desde  la  perspectiva  
el  coeficiente  de  ajuste. del  funcionamiento  de  las  instituciones  financieras,  este  documento  
es  equivalente  a define  el  riesgo  financiero  como  la  probabilidad  de  que  los  bancos  
d sufran  pérdidas  bajo  la  influencia  de  diversos  factores  inciertos  en  el  
βlasso     arg  min   Y  −  Xβ2  +  λ   (2) proceso  de  las  actividades  financieras,  como  la  captación  y  utilización  
βj .
β Rd j 1 de  fondos.  Esto  muestra  que  el  ingreso  real  es  menor  que  el  costo  de  
operación.
Orden:

d
3.2.  Características  del  riesgo  financiero.  Las  características  del  riesgo  
t0      βj(OLS) . (3)
financiero  se  dividen  en  cinco  categorías,  que  incluyen  objetividad,  
j 1
incertidumbre,  latencia,  controlabilidad  y  periodicidad.  Los  detalles  de  
En  la  fórmula  (3),  MCO  se  estima  por  el  método  de  mínimos   las  características  se  dan  a  continuación.
cuadrados.  Cuando  t  <  t0,  cuando  una  parte  del  coeficiente  se  comprime  
a  un  valor  de  0,  la  dimensión  de  X  se  reduce  para  lograr  el  propósito  de   3.2.1.  Objetividad.  El  riesgo  financiero  va  acompañado  de  actividades  
reducción  de  dimensionalidad. financieras.  Mientras  haya  actividades  financieras,  debe  haber  riesgos  
relevantes.  Además,  con  la  innovación  continua  de  los  instrumentos  
financieros  derivados,  no  solo  promueve  el  desarrollo  financiero,  sino  
2.4.2.  Regresión  lineal.  El   La  idea  básica  de  la  regresión  lineal   que  también  trae  nuevos  riesgos.  Además,  la  ocurrencia  de  riesgos  
método  es  caracterizar  los  datos  de  entrada  como  un  modelo  lineal  y   financieros  en  una  institución  financiera  afectará  inevitablemente  a  sus  
estimar  y  resolver  los  parámetros  del  modelo  utilizando  el  método  de   acreedores  y  puede  afectar  aún  más  todos  los  aspectos  de  la  operación  
mínimos  cuadrados  bajo  el  principio  de  minimizar  el  error  cuadrático   económica.
medio  [10].  Suponga  que  el  conjunto  de  datos  de  entrada  es  D ,  donde  
D  tiene  d  características  y  m  muestras,  y  xi  es  la  i  muestra.
En  este  momento,  el  modelo  de  regresión  lineal  múltiple  se  describe   3.2.2.  Incertidumbre.  Las  instituciones  financieras  realizan  actividades  
de  la  siguiente  manera: comerciales  o  de  toma  de  decisiones  en  un  entorno  incierto;  es  decir,  
el  entorno  operativo  de  las  actividades  comerciales  financieras  está  en  
x11  x12  ·  ·  ·  x1d
constante  desarrollo  y  cambio,  mientras  que  es  difícil  para  los  actores  
x21  x22  ·  ·  ·  x2d y2 predecir  con  precisión  el  futuro  y  los  riesgos  financieros  pueden  surgir  
X , en  cualquier  momento.
     

xm1  xm2  ·  ·  ·  xmd mmm
        y1

. (4) 3.2.3.  Latencia.  El  riesgo  financiero  se  manifiesta  a  menudo  como  el  
T
y     y1 ,  y2 , . . . ,  ym , estallido  de  una  crisis  financiera.  De  hecho,  las  actividades  financieras  
T pueden  encubrir  algunas  pérdidas  inciertas  por  sus  propias  características.
f  xi     w xi  +  bi ,
metro

2
w* ,b    arg  min f  xi  ­  yi
(w,  b) i 1 3.2.4.  Controlabilidad.  Aunque  los  cambios  inciertos  en  la  situación  
Cuando  XTX  matriz  de  rango  completo  o  matriz  definida  positiva, económica  pueden  traer  riesgos,  los  riesgos  pueden  controlarse  de  
el  parámetro  de  peso  de  la  característica  se  puede  obtener  como manera  efectiva  siempre  que  se  tomen  medidas  específicas.
Machine Translated by Google

Programación  científica 5

3.2.5.  Periodicidad.  Para  cada  institución  financiera,  opera variable  aleatoria  distribuida  y  siguen  una  distribución  normal  con  una  media  
en  el  ambiente  ecológico  financiero  establecido,  y  el de  0  y  una  varianza  de  σ2.  Con  este  fin,  todos
entorno  financiero  se  ve  afectado  por  el  conjunto  económico Los  vectores  de  características  están  normalizados  y  centralizados,  es  decir,
2
  1.
norte

ambiente.  Por  lo  tanto,  cuando  la  fluctuación  periódica  de i 1  xij     0 ,   xj


aparece  la  economía  y  el  cambio  ordenado  de  la  política  monetaria,
es  fácil  identificar  los  riesgos  financieros  cíclicos,  lo  que  hace  que  la
4.2.  Adquisición  y  Procesamiento  de  Datos.  riesgo  financiero  bancario
es  posible  el  seguimiento  de  los  riesgos  financieros.
la  información  de  predicción  se  puede  dividir  en  información  financiera  e  
información  no  financiera.  información  electrónica

3.3.  Clasificación  de  Riesgo  Financiero.  Según  el  alcance  de puede  generar  características  financieras  cuantitativas  y
ocurrencia  e  influencia  del  riesgo  financiero,  este  trabajo  divide características  no  financieras  basadas  en  la  descripción  cualitativa.  Entre  
los  riesgos  en  riesgo  financiero  sistemático  y  no  sistemático ellos,  las  características  financieras  se  pueden  calcular
riesgo  financiero.  Los  detalles  de  los  riesgos  se  dan  a  continuación y  extraído  utilizando  la  información  contable  en  el
subsecciones estados  financieros  emitidos  regularmente  por  el  banco.  Las   mi

características  no  financieras  se  pueden  extraer  utilizando  los  datos  de  
divulgación  en  forma  de  informes  financieros,  noticias  y
3.3.1.  Riesgo  Financiero  Sistémico.  e  riesgo  financiero  sistemático
otro  texto  relacionado  con  el  banco.  En  términos  generales,  el
se  refiere  al  riesgo  general  del  mercado,  incluido  el  impacto
la  información  se  publica  regularmente  en  la  plataforma  de  la  red
económicos,  políticos,  sociales  y  otros  ambientales
y  es  fácil  de  conseguir.  predicción  del  riesgo  financiero  del  banco  electrónico
factores  en  el  entorno  ecológico  financiero  en  general
El  conjunto  de  datos  recopilados  y  capturados  en  este  estudio  se  describirá  
mercado.  Los  cambios  en  los  factores  ambientales  externos  pueden  conducir
a  crisis  financieras  en  algunos  bancos  y  crisis  en  cadena  en  los en  detalle  en  la  siguiente  sección  de  diseño  experimental.  En
Además,  los  datos  financieros  se  pueden  transformar  en  datos  estructurados.
todo  el  sistema  financiero.  Por  lo  tanto,  sólo  a  través  de  un  razonable
datos  después  de  un  procesamiento  simple,  que  se  puede  utilizar  directamente  como
evaluación  de  la  situación  macroeconómica  en  un  determinado
la  entrada  del  algoritmo  de  aprendizaje.  e  datos  no  financieros  en
período  de  tiempo  podemos  identificar  los  riesgos  financieros  sistémicos
la  forma  de  texto  se  puede  usar  para  aprender  solo  después  de  la  
enfrenta  un  país  o  una  región.
segmentación  de  palabras,  la  limpieza,  el  filtrado  y  otro  lenguaje  natural
técnicas  de  procesamiento.
3.3.2.  Riesgo  Financiero  No  Sistemático.  Riesgos  no  sistemáticos
se  refieren  a  la  posible  pérdida  causada  por  instituciones  financieras  
4.3.  Extracción  de  Características  de  Predicción  de  Riesgos  Financieros.
individuales  en  la  industria  financiera.  En  el  proceso  de  financiación
En  primer  lugar,  los  datos  de  texto  del  informe  anual  recopilados  se  procesan  
actividades,  estos  son  los  riesgos  que  se  consideran
previamente,  y  luego  se  procesan  los  unigramas,  bigramas  y  trigramas.
riesgo  descentralizado.  Los  riesgos  financieros  no  sistemáticos  pueden  ser
extraídas  como  características  de  texto  usando  el  modelo  de  bolsa  de  palabras  y
reducido  o  incluso  eliminado  mediante  la  mejora  de  la  gestión  bancaria
frecuencia  de  palabra  frecuencia  de  documento  inverso  (TF­IDF)
y  asignación  de  activos.
método  de  ponderación.  Debido  a  que  las  características  del  texto  se  enfrentan  naturalmente
problemas  de  alta  dimensión,  las  características  de  texto  de  alta  dimensión  
4.  Método  de  Predicción  del  Riesgo  Financiero  Bancario
pueden  contener  algunas  características  redundantes  e  irrelevantes
Integración  de  datos  heterogéneos  de  múltiples  fuentes [12].  Por  lo  tanto,  el  método  de  obtención  de  información  es  más
se  utiliza  para  filtrar  las  características  del  texto  inicial  extraído,  y  el
Este  trabajo  de  investigación  se  centra  en  los  riesgos  financieros  bancarios
Se  conservan  características  importantes  para  garantizar  la  calidad  de  la
destinado  a  construir  una  multifuente  características  heterogéneas
características.  e  proceso  de  cálculo  de  la  ganancia  de  información
La  investigación  propone  un  preestablecimiento  de  riesgo  financiero  
IG(Y,  F)  es  como  sigue:
bancario.  método  de  dicción  que  integra  múltiples  fuentes  heterogéneas
datos. IG(Y,  F)     H  (Y)  −  H(Y|F), (6)

H(Y)     − p(y)log2  p(y),


4.1.  Definición  formal  del  problema.  Para  expresar  la (7)
y Y
método  propuesto  claramente,  una  definición  formal  debe  ser
hecho  antes  de  introducir  el  método  específico.  Asumiendo  que
Y y y
hay  n  muestras  en  un  conjunto  de  datos  dado  D,  el  conjunto  de  datos  es H   − .
T p(f)   p   log2p  _ (8)
definida  como  D     ( x1,  y1), . . . ,  (xi ,  yi ), . . . ,  (xn,  yn )  donde , F F F
f F y Y
xi     Rn  y  la  etiqueta  de  categoría  son  yi     { }  −1,  1 .  supongamos  que
número  de  características  es  p;  entonces  el  vector  espacial  característico  es En  las  fórmulas  (6)–(8),  IG(Y,  F)  representa  que  cuando
X     ( x(1)1 , . . . , x(1) , . . . , x(j)1 , . . . , x(1) , . . . , x(J)
1 , . . . , x(J) ), se  agrega  la  característica  F ,  la  entropía  de  información  de  la  categoría  Y
p.j. pJ
p1  y  J  representa  el  número  de  diferentes  fuentes  de  datos.  pj  es disminuye,  H(Y)  representa  la  entropía  de  información  de
el  número  de  características  extraídas  de  la  j­ésima  fuente  de  datos, categoría,  p(y)  representa  la  probabilidad  de  la  categoría  y,  y
T ·
  R+
p es  el  vector  de  peso,  y  |  | H(Y|F)  representa  la  categoría  bajo  la  condición  de  característica
W     ( w1,  w2, . . . ,  wp)
representa  la  norma  L1 .  Para  el  modelo  de  regresión  lineal, F.  La  entropía  de  información  de  Y,  A,  representa  la  probabilidad  de  p(y|f)  
j
la  hipótesis  es  yi     1 , . . . ,  β(j) i xT  ijβj  +  ei,  donde  βj
1 cierta  distribución  de  categorías  bajo  un  solo
(j)
(β )     Rpj  es  el  coeficiente  de  regresión.  Deja  el condición  de  característica.  En  el  proceso  de  filtrado  de  características  de  texto,  todos
p.j.
el  término  residual  ei  sea  un  término  independiente  e  idénticamente unigramas,  bigramas  y  trigramas  con  una  ganancia  de  información
Machine Translated by Google

6 Programación  científica

superiores  a  0,0025  se  conservan  como  características  de  texto  importantes.
Comenzar

Con  el  fin  de  explorar  completamente  el  papel  de  las  diferentes  características
en  la  predicción  del  riesgo  financiero  bancario,  las  características  anteriores
están  completamente  combinados,  y  las  características  combinadas  son Conjunto  de  datos

expresado  como

F     F1  +  F2  +  F3. (9)


fusión  ponderada
estimación  adaptativa
En  la  fórmula  (9),  F1  representa  el  conjunto  de  características  financieras  
extraídas,  F2  representa  el  conjunto  de  características  emocionales,
Peso  de  la  característica
y  F3  representa  el  conjunto  de  características  del  texto.

Probabilidad
4.4.  Construcción  del  Modelo  de  Predicción  de  Riesgos  Financieros. muestreo
Teniendo  en  cuenta  la  demanda  de  fusión  adaptativa  de  fuentes  múltiples
datos  en  la  predicción  del  riesgo  financiero  bancario  y  de  manera  integral
clasificador
considerando  las  ventajas  del  subespacio  aleatorio  anterior
método,  método  Lasso  adaptativo  y  método  Lasso  de  fusión  ponderada
método  para  el  problema  de  predicción  [13],  este  estudio  propone
Voto  principal
un  método  de  predicción  del  riesgo  financiero  basado  en  la  fusión  ponderada
subespacio  aleatorio  adaptativo.  Este  método  incluye  tres  principales
módulos:  en  primer  lugar,  el  método  de  fusión  adaptativo  construido  es Resultados  de  predicción
utilizado  para  fusionar  las  características,  en  segundo  lugar,  el  clasificador  base  es
construido,  y  finalmente,  los  resultados  de  aprendizaje  de  la  base
clasificador  están  integrados.  e  flujo  de  predicción  de  riesgo  financiero Fin
método  basado  en  subespacio  aleatorio  adaptativo  de  fusión  ponderada
es  como  la  figura  4. Figura  4:  Diagrama  de  flujo  del  método  de  predicción  de  riesgos  basado  en
El  objetivo  del  método  de  predicción  del  riesgo  financiero  basado  en subespacio  aleatorio  adaptativo  de  fusión.
subespacio  aleatorio  adaptativo  de  fusión  ponderada  en  la  primera  etapa
es  realizar  una  fusión  adaptativa  de  características  para  obtener  el  muestreo
T   Rp de  la  función  A  esto
peso  W     ( w1,  w2, . . . ,  wp) + problema  de  múltiples  colinealidades  entre  características  y
Para  el  final,  considere  primero  el  modelo  clásico  de  Lasso,  que  tiene  la mejora  la  estabilidad  del  modelo.  Para  poder
siguiente  formulario: fusionan  adaptativamente  diferentes  características,  esta  investigación  considera  

2 de  manera  integral  Lasso,  modelo  Lasso  de  fusión  ponderada
1 pag

y  adaptativo  Lasso,  y  otros  métodos  y  propone  un  nuevo
β    arg  min y  ­ xiβi +  λ  βi (10)
2   i 1 . Lasso  adaptativo  de  fusión  ponderada  de  modelo  disperso  regularizado;
β 2
su  forma  es  la  siguiente:
En  la  fórmula  (10),  λ  representa  el  parámetro  de  penalización  regular.  
2
Después  de  que  la  estimación  adaptativa  de  fusión  ponderada  es 1
pag pag
2
λ2
xiβi +  λw(1)
β    arg  min
2 y  ­
realizado  sobre  las  características,  un  vector  de  peso  correspondiente  a i βi  +  p   aij  βi  −  sijβj
β i 1 2 yo  <  j
cada  característica  compuesta  de  coeficientes  de  regresión  será .

obtenido.  No  se  adoptarán  características  con  un  peso  de  0.  En (12)

por  el  contrario,  cuanto  mayor  sea  el  peso,  mayor  será  la  probabilidad  de  que  se  
seleccione  la  característica.  Al  fusionar  datos  de  múltiples  fuentes,  es  necesario   En  la  fórmula  (12),  w(1) i   1 /|(βilasso  +  1/  n  √ )|  es  el  adaptativo
considerar  el  impacto  de  la peso.  en  es,  antes  de  realizar  adaptativo  de  fusión  ponderada
relación  entre  diferentes  características  en  la  predicción Estimación  de  Lasso,  primero  realice  la  estimación  de  Lasso  para  obtener  una
resultados.  Por  lo  tanto,  el  modelo  Lasso  de  fusión  ponderada  se  presenta  sobre  
conjunto  de  vectores  de  coeficientes  de  regresión,  y  sumar  su  inverso  como  el
la  base  del  modelo  Lasso,  y  su  forma  es  como peso  adaptativo  de  la  característica  a  la  fusión  ponderada
sigue: Lazo  adaptativo.  De  esta  manera,  se  pueden  penalizar  diferentes  características  
2 según  su  importancia,  y  el  modelo  se  convierte  en  una  estimación  no  sesgada  y  
1 pag

λ2
pag
2
una  característica  más  precisa.
β    arg  min 2 y  −   xiβi +  λ  βi  +   aij  βi  −  sijβj
β i 1 2 p yo<j se  puede  obtener  un  subconjunto  [14].
.

aproximado  de  la  estimación  adaptativa  de  Lasso  de  fusión  ponderada,
(11) T   Rp
la  característica  adaptativa  pondera  W     ( w1,  w2, . . . ,  wp) +
2
basado  en  la  fusión  ponderada  se  puede  obtener.  Después  de  usar  estos
pag
En  la  fórmula  (11),  λ2/p  i<j  aij(βi  −  sijβj) es  la  pena
>  0/ ponderaciones  para  realizar  un  muestreo  probabilístico  de  las  características,  la
término,  y  aij     ρij /1  −  ρij,  sij     sgn(ρij)     +1,  ρ  ij  −1,  ρij  >  0  y  ρij  son  los  
subconjunto  de  datos  D1 D2sub, . . . , MDsub , di   ( xi 1, yo1 ), . . . ,
coeficientes  de  correlación  entre sub, sub
dos  características  xi  y  xj.  en  bruto  la  fusión  ponderada (xi j, yij ), . . . ,  (xi ,  si )}  utilizado  para  el  entrenamiento  de  la  base
Pi Pi
Modelo  de  lazo,  las  características  relacionadas  se  pueden  filtrar  o Se  puede  obtener  un  clasificador.  El  proceso  de  muestreo  se  ajusta  mediante  el  
retenido  al  mismo  tiempo,  lo  que  resuelve  efectivamente  el parámetro  de  relación  de  subespacio  r.  e  mayor  la  r,
Machine Translated by Google

Programación  científica 7

cuanto  mayor  sea  la  dimensión  característica  de  la  muestra METRO

subconjunto. H(x)     c arg  máx h  j (X). (18)


j i
En  la  segunda  etapa,  el  método  de  predicción  del  riesgo  financiero j i 1

basado  en  subespacio  aleatorio  adaptativo  de  fusión  ponderada  primero
En  la  fórmula  dada  (ecuación  (18)),  la  categoría  con
determina  el  clasificador  base  y  luego  usa  el  subconjunto  de  datos
los  votos  más  altos  se  utilizarán  como  la  categoría  de  salida  final  para
obtenidos  en  la  primera  etapa  para  entrenar  al  clasificador  base.  Cuando
obtener  el  resultado  final  de  la  predicción  integrada.  áspero  el
las  muestras  de  entrenamiento  son  linealmente  separables,  la  representación  
pasos  anteriores,  se  realiza  la  predicción  del  riesgo  financiero  del  banco.
del  hiperplano  en  el  espacio  muestral  es  la  siguiente:

w Tx  +  b     0 . (13) 5.  Análisis  experimental


En  la  fórmula  (13),  el  vector  normal  w   [w1,  w2, . . . ,  wd] Evaluar  adecuadamente  la  experimentación  del  método  propuesto.
se  realizó  en  base  a  datos  reales  obtenidos  de  la
y  el  desplazamiento  b,  respectivamente,  determinan  la  dirección
del  hiperplano  y  su  distancia  al  origen.  En  este bancos  comerciales.  Detalles  del  procedimiento  de  evaluación  a  lo  largo
tiempo,  la  distancia  desde  cualquier  punto  de  muestra  xi  al  hiperplano  es con  la  comparación  de  algunos  métodos  del  estado  del  arte  se
presentado  en  las  siguientes  subsecciones.

w  Txi  +  b  
r . (14)
5.1.  Ambiente  Experimental  y  Datos.  Para  verificar
w
la  efectividad  de  la  predicción  del  riesgo  financiero  bancario
Si  el  hiperplano  (w,  b)  clasifica  correctamente  la  muestra método  basado  en  big  data,  el  experimento  utilizó  la  chispa
(wi,  yi)     D,  hay clúster  como  entorno  experimental  y  adoptó  el
Modo  de  funcionamiento  de  chispa  en  hilo.  En  este  estudio,  se  seleccionaron  
w  Txi  +  b  ≥  +  1,  yi     +1 26  bancos  comerciales  como  muestras  experimentales,  y  ST
. (15) Los  marcadores  se  utilizaron  como  una  señal  de  que  los  bancos  estaban  en  riesgo  financiero,
w  Txi  +  segundo  ≤  −  1,  yi     −1
y  se  obtuvieron  871  muestras  normales  y  129  muestras  de  riesgo.
Desde  el  punto  de  vista  de  las  características,  el  conjunto  de  datos  experimentales
En  la  fórmula  (15),  los  puntos  muestrales  que  pueden  hacer  la
consta  de  39  características  financieras,  12  características  emocionales  y
retención  de  la  ecuación  son  vectores  de  soporte.  Desde  un  punto  geométrico
características  cualitativas  del  texto.  Para  la  extracción  de  sentimiento
de  vista,  el  vector  de  soporte  son  los  puntos  de  muestra  en  los  dos
palabras,  el  diccionario  de  sentimientos  CNKI  y  los  relacionados  con  el  derecho
límites  de  clasificación  wTxi  +  b     1  y  wTxi  +  b     −1.
Se  utilizó  el  diccionario  de  sentimientos  Sogou.  Los  vocabularios  utilizados  
El  límite  de  clasificación  solo  está  relacionado  con  estos  soportes.
contenían  varios  sentimientos  posibles,  como  el  sentimiento  positivo  y  
vectores  e  suma  de  las  distancias  desde  el  vector  soporte  hasta
negativo,  el  modo  fuerte  y  el  débil.
el  hiperplano  es
sentimiento,  y  el  sentimiento  incierto.
2
c      . (dieciséis)
w
5.2.  Indicadores  de  Predicción  y  Evaluación  de  Riesgos.  es  artículo
SVM  puede  manejar  de  manera  efectiva  las  tareas  de  aprendizaje  con  menos usa  la  tasa  de  precisión  promedio,  la  tasa  de  error  y  el  tiempo  de  predicción  como
muestras,  características  de  dimensiones  elevadas  y  relaciones  no  lineales   indicadores  de  evaluación.  La  tasa  de  precisión  promedio  se  refiere  a  la
entre  características  [15].  Por  lo  tanto,  frente  a  datos  de  texto  de  alta   relación  entre  el  número  de  muestras  predichas  correctamente  y  el
dimensión,  esta  investigación  elige  SVM  como  base. número  total  de  muestras  previstas.  cuanto  mayor  sea  la  media
clasificador  del  método  de  predicción  del  riesgo  financiero  basado  en tasa  de  precisión,  mayor  será  la  precisión  de  la  predicción.  La  fórmula  de  
subespacio  aleatorio  adaptativo  de  fusión  ponderada. cálculo  es
e  método  de  predicción  de  riesgo  financiero  basado  en TP  +  TN
el  subespacio  aleatorio  adaptativo  de  fusión  adopta  la  votación  principal Un (19)
TP  +  FP  +  FN  +  TN.
estrategia  para  sintetizar  los  resultados  de  aprendizaje  del  clasificador  base  
en  la  tercera  etapa.  Suponiendo  que  la  distribución  de  categorías  es  c1,   En  la  fórmula  dada  (ecuación  (19)),  TP  representa  un
c2 , . . . ,  cN  y  la  salida  del  clasificador  hi  on caso  verdadero,  TN  representa  un  caso  negativo  verdadero,  FP  representa  un
la  muestra  x  es  h1 i
(x),  h2 i (x), ...,  (x) ,
hNi la  votación  principal  o caso  falso  positivo,  y  FN  representa  un  caso  falso  negativo.
método  de  votación  por  mayoría  se  expresa  de  la  siguiente  manera: La  tasa  de  error  se  refiere  a  la  relación  entre  el  número  de  muestras
con  errores  de  predicción  al  número  total  de  muestras.  mi
norte
cuanto  menor  sea  la  tasa  de  error,  mejor  será  el  efecto  de  predicción.  
METRO METRO
mi
h  j (x)  >  0,5 hki (X),
cj,  si i fórmula  de  cálculo  es
H(x ) i 1
(17)
k 1i 1
FP FN
nulo,  en  caso  contrario. E     + (20)
FP  +  TN TP  +  FN.
De  acuerdo  con  la  fórmula  (17),  se  puede  ver  que  cuando  un
cierta  etiqueta  de  categoría  obtiene  más  de  la  mitad  de  los  votos,  la
el  método  de  votación  principal  lo  usa  como  la  etiqueta  de  salida  final.  Al   5.3.  Comparación  de  la  Precisión  del  Riesgo  Financiero  Bancario
método  de  votación  principal  le  corresponde  el  método  de  votación  por   Predicción.  Con  el  fin  de  verificar  la  exactitud  de  la  predicción  de  la
mayoría  relativa.  El  proceso  de  cálculo  es  el  siguiente: método  propuesto,  los  métodos  de  [4,  5]  se  comparan  con
Machine Translated by Google

8 Programación  científica

100 10

80 8

60 Tasa  
error  
de  
(%)
6

Precisión  
media  
(%)

40 4

20 2

0 0
200 400  600  800 1000 200 400 600 800 1000

Número  total  de  muestras  de  datos Número  total  de  muestras  de  datos

el  método  propuesto el  método  propuesto

Referencia  [4]  método Referencia  [4]  método

Referencia  [5]  método Referencia  [5]  método

Figura  5:  Resultados  de  comparación  de  resultados  de  precisión  promedio  de   Figura  6:  Análisis  comparativo  de  la  tasa  de  error  de  predicción  del  riesgo  
diferentes  métodos. financiero  bancario.

el  método  propuesto,  respectivamente.  e  precisión  promedio  de Tabla  1:  Resultados  de  la  comparación  del  tiempo  de  predicción  del  riesgo  financiero  bancario
diferentes  métodos  se  obtiene  y  se  representa  en  la  Figura  5. con  diferentes  métodos.

Puede  verse  en  la  Figura  5  que,  bajo  diferentes  valores  totales El  numero  total  de metodo metodo


yo  propuse
muestras  de  datos,  la  precisión  promedio  del  método  en  [4]  es
muestras  de  datos métodos) de  [4]  (s) de  [5]  (s)
75%,  la  precisión  promedio  del  método  en  [5]  es  73%,  y
200 3.34 5.98 8.76
la  precisión  promedio  del  método  propuesto  es  del  92%. 400   5,18   8,87   12.8
Por  lo  tanto,  en  comparación  con  los  métodos  de  Pawiak  et  al.  [4] 600 8,97 12,7 19.6
y  Niu  et  al.  [5],  la  precisión  promedio  de  la  propuesta 800   10,2   17,8   26,9
método  es  mayor,  y  su  predicción  de  riesgo  financiero  bancario 1000 13,3 22,9 31.5
la  precisión  es  mayor.

aumenta  el  tiempo  de  los  diferentes  métodos.  cuando  el  total
5.4.  Comparación  de  Resultados  de  Predicción  de  Riesgo  Financiero  Bancario. número  de  muestras  de  datos  es  1000,  el  riesgo  financiero  del  banco
Para  verificar  aún  más  el  efecto  de  predicción  de  la  propuesta tiempo  de  predicción  del  método  de  [4]  es  22.9  s,  el  banco
método,  el  método  se  compara  con  el  de  la  Pawiak el  tiempo  de  predicción  del  riesgo  financiero  del  método  de  [5]  es  de  31,5  s,
et  al.  [4]  y  Niu  et  al.  [5].  Los  resultados  de  la  comparación  sobre  el y  el  tiempo  de  predicción  del  riesgo  financiero  bancario  del  método  propuesto  
tasa  de  error  de  predicción  de  riesgo  financiero  bancario  de  diferentes  métodos es  de  solo  13,3  s.  Se  puede  ver  que,  en  comparación
son  como  la  figura  6. con  el  método  de  [4]  y  el  método  de  [5],  el  banco
Está  claro  en  la  Figura  6  que,  bajo  el  número  total  de el  tiempo  de  predicción  del  riesgo  financiero  del  método  propuesto  es
diferentes  muestras  de  datos,  la  tasa  de  error  promedio  de  la  predicción  del   corta.
riesgo  financiero  bancario  en  el  método  [4]  es  4.4%.  mi  promedio
la  tasa  de  error  de  la  predicción  del  riesgo  financiero  bancario  en  el  método  [5]  es
7,8%.  e  tasa  de  error  promedio  del  riesgo  financiero  bancario 6.  Conclusión
predicción  por  nuestro  método  propuesto  es  sólo  el  1,1%.  Puede  ser
método  de  predicción  de  riesgo  financiero  de  banco  electrónico  basado  en  big  data
visto  que,  en  comparación  con  los  métodos  de  Pawiak  et  al.  [4]
se  propone  en  este  trabajo.  El  método  pretende  hacer  que  el
y  Niu  et  al.  [5],  la  tasa  de  error  promedio  de  la  información  financiera  bancaria
pleno  uso  de  la  tecnología  de  big  data.  riesgo  financiero  del  banco  electrónico
la  predicción  de  riesgo  del  método  propuesto  es  menor.  Por  eso,
la  precisión  de  predicción  del  método  propuesto  es  alta.
la  predicción  del  riesgo  financiero  bancario  del  método  propuesto  es
mejor. Además,  el  método  puede  acortar  efectivamente  el  tiempo  de  predicción  del  
riesgo  financiero  bancario  y  tiene  una  buena  predicción  del  riesgo.
efecto.  Sin  embargo,  en  el  proceso  de  predicción  del  riesgo  financiero  bancario,  
5.5.  Comparación  del  Tiempo  de  Predicción  del  Riesgo  Financiero  Bancario. debido  a  la  limitación  de  los  canales  de  adquisición  de  datos,
Sobre  esta  base,  el  tiempo  de  predicción  del  método  propuesto  es este  estudio  no  ha  considerado  el  efecto  de  predicción  de  otros
verificado  e  métodos  de  [4,  5]  y  el  método  propuesto fuentes  de  datos  viables  y  útiles.  Por  lo  tanto,  en  la  próxima  investigación,  
se  compararon  en  términos  de  tiempo  de  predicción  del  riesgo.   mi
hemos  planeado  expandir  aún  más  la  multifuente
comparación  de  resultados  de  pronóstico  de  riesgo  financiero  bancario  tiempo  de información  y  recopilar  los  datos  de  riesgo  financiero  del  banco  en  tiempo  real
los  diferentes  métodos  se  muestran  en  la  Tabla  1. tiempo.  esto  ayudará  a  verificar  el  efecto  de  la  financiación  bancaria
De  acuerdo  con  los  datos  de  la  Tabla  1,  como  el  número  total  de modelo  de  predicción  de  riesgos.  Además,  el  modelo  será  aumentado.
muestras  de  datos  aumenta,  la  predicción  de  riesgo  financiero  del  banco para  que  los  resultados  de  la  predicción  sean  más  precisos.
Machine Translated by Google

Programación  científica 9

[14]  N.  Qiu,  P.  Gao,  P.  Wang  e  Y.  Tao,  "Investigación  sobre  el  algoritmo  de  
Disponibilidad  de  datos
clasificación  ACO  WNB  basado  en  la  obtención  de  información  mejorada",  
Los  datos  utilizados  para  respaldar  los  hallazgos  de  este  estudio  son Computer  Simulation,  vol.  36,  núm.  1,  págs.  295–299,  2019.
disponible  del  autor  correspondiente  a  petición. [15]  R.  Touati,  AE  Oueslati,  I.  Messaoudi  y  Z.  Lachiri,  "Clasificación  de  la  familia  
Helitron  usando  SVM  basada  en  características  de  transformada  de  
Fourier  aplicadas  en  un  conjunto  de  datos  no  balanceado",  Medical,  &  
Conflictos  de  interés Biological  Engineering  &  Computing,  vol.  57,  núm.  10,  págs.  2289–2304,  
2019.
Los  autores  declaran  que  no  tienen  conflictos  de  intereses  o  
relaciones  personales  que  pudieran  parecer  influir  en  el  trabajo  
informado  en  este  artículo.

Referencias

[1]  A.  Flori,  S.  Giansante,  C.  Girardone  y  F.  Pammolli,  “Estrategias  comerciales  
de  los  bancos  al  borde  de  la  angustia”,  Annals  of  Operations  Research,  
vol.  299,  núm.  1,  págs.  481–530,  2021.
[2]  M.  Umar,  X.  Ji,  N.  Mirza  y  B.  Naqvi,  “Neutralidad  de  carbono,  préstamos  
bancarios  y  riesgo  crediticio:  evidencia  de  la  eurozona”
Revista  de  Gestión  Ambiental,  vol.  296,  pág.  113156,  2021.

[3]  C.  Clab,  A.  Asr  y  D.  Teca,  “Gastos  catastróficos  en  pacientes  con  
traumatismos  de  California  después  de  la  ley  de  atención  asequible:  
reducción  del  riesgo  financiero  y  disparidades  raciales:  ciencia  directa”,  e  
American  Journal  of  Surgery,  vol.  220,  núm.  3,  págs.  511–517,  2020.
[4]  P.  Pawiak,  M.  Abdar,  J.  Pawiak,  V.  Makarenkov  y  UR  Acharya,  "DGHNL:  
una  nueva  red  jerárquica  genética  profunda  de  estudiantes  para  la  
predicción  de  la  calificación  crediticia",  Ciencias  de  la  información,  vol.  
516,  núm.  2020,  págs.  401–418,  2020.
[5]  K.  Niu,  Z.  Zhang,  Y.  Liu  y  R.  Li,  “Modelo  de  conjunto  de  remuestreo  basado  
en  la  distribución  de  datos  para  el  riesgo  de  crédito  desequilibrado
evaluación  en  préstamos  P2P”,  Ciencias  de  la  Información,  vol.  536,  págs.  
120  a  134,  2020.
[6]  A.  Wibisono  y  D.  Sarwinda,  "Divisor  de  restricción  promedio  del  valor  de  
evaluación  (ARDEV)  en  el  algoritmo  de  flujo  de  datos  para  la  predicción  
de  big  data",  Knowledge­Based  Systems,  vol.  176,  núm.  15,  págs.  29  y  
39,  2019.
[7]  MT  Wu,  G.  Srivastava,  M.  Wei,  U.  Yun  y  CW  Lin,  "Minería  de  patrones  
difusos  de  alta  utilidad  en  marco  de  hadoop  paralelo  y  distribuido",  
Ciencias  de  la  información,  vol.  553,  págs.  31  a  48,  2020.

[8]  S.  Kang,  S.  Lee  y  J.  Kim,  “Generación  de  cubos  de  gráficos  distribuidos  
mediante  el  marco  Spark”,  e  Journal  of  Supercomputing,  vol.  76,  núm.  10,  
págs.  8118–8139,  2019.
[9]  Y.  Wen  y  Q.  Lu,  "Modelo  mixto  lineal  multinúcleo  con  lazo  adaptativo  para  
la  predicción  de  fenotipos  complejos",  Estadísticas  en  medicina,  vol.  39,  
núm.  9,  págs.  1311–1327,  2020.
[10]  G.  Goh  y  DK  Dey,  “Propiedades  asintóticas  del  estimador  marginal  de  
mínimos  cuadrados  para  modelos  de  regresión  lineal  de  dimensiones  
ultraaltas  con  errores  correlacionados”,  e  American  Stat  istician,  vol.  73,  
núm.  1,  págs.  4  a  9,  2019.
[11]  AL  Hamilton,  GW  Characklis  y  PM  Reed,  “Gestión  de  las  compensaciones  
de  riesgo  financiero  para  la  generación  de  energía  hidroeléctrica  utilizando  
contratos  de  índice  basados  en  la  capa  de  nieve”,  Water  Resources  
Research,  vol.  56,  núm.  10,  ID  de  artículo  e2020WR027212,  2020.
[12]  S.  Salesi,  G.  Cosma  y  M.  Mavrovouniotis,  "TAGA:  algoritmo  genético  
asexual  tabú  integrado  en  un  enfoque  de  selección  de  características  de  
filtro/filtro  para  datos  de  alta  dimensión",  Ciencias  de  la  información,  vol.  
565,  págs.  105  a  127,  2021.
[13]  S.­B.  Chen,  Y.­M.  Zhang,  CHQ  Ding,  J.  Zhang  y  B.  Luo,  "Lasso  adaptativo  
extendido  para  la  selección  de  características  de  múltiples  clases  y  
etiquetas",  Knowledge­Based  Systems,  vol.  173,  núm.  1,  págs.  28–36,  
2019.

También podría gustarte