Peng Et Al. - 2022 - Bank Financial Risk Prediction Model Based On Big

Machine Translated by Google
Programación científica
Hindawi Volumen 2022, artículo ID 3398545,
9 páginas https://doi.org/10.1155/2022/3398545
Artículo de investigación
Modelo de Predicción de Riesgo Financiero Bancario Basado en Big Data
1,2
Hua Peng, Yicheng Lin 2 , y Mingzheng Wu2
1
Universidad de Wuyi, Wuyishan 354300, China
2
Universidad Nacional de Educación de Changhua, Changhua 50007, China
La correspondencia debe dirigirse a Yicheng Lin; yclin@wuyiu.edu.cn
Recibido el 17 de octubre de 2021; Revisado el 10 de diciembre de 2021; Aceptado el 16 de diciembre de 2021; Publicado 26 febrero 2022
Editor académico: Rahman Ali
Derechos de autor © 2022 Hua Peng et al. Este es un artículo de acceso abierto distribuido bajo la licencia Creative Commons Attribution License, que
permite el uso, la distribución y la reproducción sin restricciones en cualquier medio, siempre que se cite correctamente el trabajo original.
La predicción del riesgo financiero es una técnica importante para predecir sistemáticamente los riesgos imprevisibles en los sistemas bancarios. Los
problemas relacionados con la inoportunidad y la baja precisión de los métodos de predicción de riesgos actuales requieren un método de predicción de
riesgos eficaz. Similar al uso de big data en varios dominios, la tecnología tiene un papel importante en los servicios financieros y puede usarse para predecir
de manera precisa y oportuna las posibilidades de riesgos. En este artículo, se propone un método híbrido efectivo para predecir de manera acertada y
efectiva los riesgos financieros en los sistemas bancarios. El método utiliza los algoritmos de regresión lineal y Lasso a través de las características de big
data y las tecnologías de marco. Mediante la adecuada formalización de los problemas de riesgo financiero bancario, se obtienen y procesan los datos de
riesgo. Para filtrar las características del texto inicial y preprocesar los datos del texto del informe anual, se utiliza el método de obtención de información.
Con la bolsa de palabras (BoW) y el método de ponderación de frecuencia de documentos inversos de frecuencia de palabras, se extraen las características
del texto de la predicción del riesgo financiero. El modelo de predicción de riesgo financiero bancario se construye con base en el algoritmo de subespacio
aleatorio adaptativo de fusión ponderada. Los resultados de predicción obtenidos se integran para realizar los riesgos financieros bancarios de manera
transparente. Los resultados experimentales muestran que el método propuesto puede mejorar efectivamente la precisión de la predicción y consume
comparativamente menos tiempo en la predicción del riesgo.
1. Introducción amplia gama de influencia [2]. Especialmente en el contexto de un entorno
ecológico financiero cada vez más complejo, el mecanismo de ocurrencia de
Como una institución financiera importante, los bancos tienen una sólida la crisis financiera es más complejo y destructivo. Por lo tanto, es de gran
solidez financiera y servicios financieros diversificados. La operación segura importancia estudiar la predicción del riesgo financiero bancario y establecer
de los bancos es de gran importancia para la seguridad económica y el un modelo efectivo para predecir con precisión los niveles de riesgo financiero
desarrollo saludable de un país [1]. En la superficie, el banco es solo una bancario. Esto ayudará a prevenir y controlar la ocurrencia de la crisis
agencia intermediaria para la circulación de dinero, pero de hecho, la esencia financiera y/o reducir las pérdidas causadas por la crisis financiera [3].
del banco es administrar los riesgos para obtener beneficios. El foco de la
competencia entre pares es la capacidad de gestión de riesgos, que no solo
puede obtener altos rendimientos, sino también reducir los riesgos y ser un En la actualidad, los académicos en campos relacionados han estudiado
medio para atraer más clientes. La predicción del riesgo financiero es el área la predicción del riesgo financiero y han logrado algunos resultados teóricos.
de investigación emergente para predecir de manera precisa y oportuna los Pawiak et al. [4] propuso un método de predicción de puntaje de crédito
riesgos involucrados en la banca. Con el desarrollo de la economía mundial basado en la red de jerarquía genética profunda de los estudiantes.
y la profundización de la liberalización financiera, la posibilidad de que estalle La calificación crediticia es un método eficaz y clave utilizado por los bancos
una crisis financiera es mayor. Además, los datos finales se están volviendo y otras instituciones financieras para la gestión de riesgos. Proporciona una
más vulnerables a la destructividad. orientación adecuada para la emisión de préstamos y reduce el riesgo en el
ámbito financiero. Mediante el uso de una red de nivel de aprendizaje genético
Los bancos son industrias de alto riesgo; Los factores de alto riesgo siempre profundo para mejorar la predicción del riesgo de calificación crediticia,
están involucrados en el proceso de operación y gestión bancaria. Los combinada con una máquina de vectores de soporte, una red neuronal
factores de riesgo pueden, a su vez, conducir a una crisis financiera con un probabilística y un sistema difuso, se realiza la predicción del riesgo de calificación crediticia.
2 Programación científica
Este método es eficaz, y el rendimiento de predicción de 2.2. Características de los grandes datos. Big data no es simplemente una gran cantidad
conjunto de datos de puntuación de crédito es el mejor. Niu et al. [5] propuso un de datos pero tiene sus características únicas de 4 V. industria electronica
método de evaluación integrado de remuestreo de crédito de préstamo P2P representado por IDC generalmente cree que los grandes datos tienen la
riesgo basado en la distribución de datos. problema de desequilibrio de clases características de escala (Volumen), diversidad (Variedad), alta
se resuelve utilizando el método de submuestreo basado en la velocidad (Velocity) y valor (Valor). Las características de big data de 4 V son
distribución de la mayoría de los datos de clase. Para mejorar la las de la Figura 1.
rendimiento de clasificación de la integración de remuestreo
modelo basado en la distribución de datos, el clasificador básico con
2.2.1. Gran escala de datos. El enorme orden de magnitud es el
buen rendimiento integral en el conjunto de verificación es
atributo básico de big data. Con el amplio uso y desarrollo de la tecnología de
utilizado para la predicción de clasificación para realizar el remuestreo
Internet, el número de usuarios de Internet
evaluación integrada del riesgo de crédito de préstamos P2P. es metodo
está aumentando rápidamente. e adquisición e intercambio de datos
tiene un buen rendimiento de predicción. Sin embargo, lo anterior
la información se está volviendo simple. En la actualidad, a través de un
métodos todavía tienen los problemas de baja precisión de predicción,
computadora o un teléfono móvil, las personas pueden rápida y fácilmente
mucho tiempo y mal efecto.
obtener una gran cantidad de información. además, el
Para resolver los problemas anteriores, un riesgo financiero bancario
Los comportamientos de compartir, hacer clic, navegar y comerciar de los
Se propone un método de predicción basado en big data. lazo y
usuarios de la red en Internet producirán una gran cantidad de
los algoritmos de regresión lineal se estudian utilizando big data
datos. El nivel de cantidad de big data ha saltado del nivel de TB
características y tecnologías relacionadas con el marco. Por
al nivel de PB. El banco tiene el atributo de gran natural
definir la formalización de los problemas de riesgo financiero bancario,
datos. Sus enormes datos de transacciones financieras son datos naturales.
obtener y procesar datos bancarios de riesgo financiero. Usar bolsa de palabras
piscina. El banco puede comprender fácilmente los ingresos y gastos, los
frecuencia de modelo y palabra frecuencia de documento inverso
depósitos y las operaciones de capital de los clientes.
método de ponderación, se extraen las características del texto de la predicción
del riesgo financiero. El método de fusión adaptativa es entonces
utilizado para fusionar las características de riesgo financiero. Residencia en 2.2.2. Categorías de Big Data. Hay varios tipos de grandes
el algoritmo de subespacio estocástico adaptativo de fusión ponderada, el datos y una amplia gama de fuentes. Para los sistemas bancarios,
modelo de predicción de riesgo financiero bancario se construye para realizar la la base de datos financiera empresarial tradicional ya no puede
predicción de riesgo financiero bancario. es satisfacer las necesidades de los bancos. Además del servicio de atención al cliente,
El método puede mejorar efectivamente la precisión de la predicción de riesgos Los registros de audio, video en red y transacciones bancarias en línea son
en un período de tiempo de predicción de riesgos más corto. retenidos por los bancos. El banco también puede obtener
El resto del documento está organizado en 4 secciones. La mi
más datos de los datos de registro del sitio web, sistema ERP empresarial,
tecnología de Big Data se elabora en la Sección 2. Relevante Sistema de posicionamiento global GPS, transacción de comercio electrónico
Las teorías sobre los riesgos financieros bancarios se discuten en registros, información del departamento de gestión gubernamental
Seccion 3. El método de predicción del riesgo financiero basado en plataforma y otros canales. Los tipos de datos incluyen no sólo
datos heterogéneos de múltiples fuentes se presenta en la Sección 4. La mi
tipos de datos relacionales tradicionales, pero también sin procesar,
última sección, la Sección 5, trata sobre la conclusión y el trabajo futuro. información semiestructurada y no estructurada.
2. Tecnología de grandes datos 2.2.3. Velocidad de procesamiento rápida. e mayor frecuencia de datos
La generación y actualización también es una característica importante de las grandes
La palabra de moda big data se refiere al uso de una utilidad de software para
datos. Hay un dicho sobre el procesamiento de datos en la era de las grandes
extraer información de un conjunto de datos grande y complejo datos, lo que se conoce como la ley de un segundo. Tomemos como ejemplo
a través de análisis y medidas estadísticas. e tecnología de
las transacciones financieras en línea. En la plataforma de negociación,
big data es extraer datos estructurados y/o no estructurados para
una gran cantidad de datos de transacciones financieras, logística y
obtener información significativa y generar máquina
los datos de transporte se generan con cada segundo que pasa.
modelos de aprendizaje.
Los datos se generan y transmiten continuamente;
por lo tanto, se requieren herramientas de almacenamiento más grandes y de procesamiento de datos más rápidas.
requerido.
2.1. Concepto de datos grandes. Big data se refiere a un conjunto de datos que
no pueden ser capturados, administrados y procesados por herramientas de
software convencionales dentro de un cierto rango de tiempo. Es un 2.2.4. Baja densidad de valores de datos. Mientras que la cantidad de datos
masiva, alta tasa de crecimiento e información diversificada aumenta exponencialmente, la información útil oculta
activo que requiere un nuevo modo de procesamiento para tener más fuerte detrás de los datos no muestra la debida proporción de crecimiento.
poder de decisión, poder de intuición y descubrimiento, y Además, cada vez es más difícil obtener
capacidad de optimización de procesos [6]. e industria de grandes datos información útil. Para los bancos, cómo encontrar información útil a partir de una
toma los datos como núcleo. Al recopilar, almacenar, procesar, gran cantidad de información empresarial es un problema.
analizar y aplicar los datos generados y mostrar problema. Debido a que los bancos tienen una gran solidez financiera,
a los usuarios, la eficiencia de procesamiento de datos es alta y el pueden buscar la cooperación con proveedores de datos profesionales. En la
ciclo es corto. e tecnología de procesamiento de datos contenida en actualidad, los proveedores de datos representados por proveedores
big data hace que la predicción del riesgo financiero del banco sea más profesionales de servicios de datos financieros como novena potencia,
científico. IBM e Intel proporcionan a los bancos big data financiero
Programación científica 3
tuberculosis Nodo de nombre
Volumen PB Solicitud de datos Información del bloque

Cliente
EB
Nodo de datos Nodo de datos
Estructurado copias de seguridad
semi estructurado
Variedad
Estante 2
Estante 1
no estructurado
Características de Big Data 4V Modo de operación de
Cliente
transmisión
Procesamiento
Velocidad Figura 2: Estructura principal del sistema de archivos HDFS.
en tiempo real
Procesamiento por lotes
El nodo de datos también ejecuta la creación, eliminación y eliminación de bloques.
Alto valor general copiar instrucciones del nodo de nombre.
Valor Densidad de valor
2.3.2. Marco de computación distribuida Spark. mi chispa
Valor La arquitectura de computación distribuida es actualmente la más
fragmentación popular marco de computación de big data. Comparado con
Figura 1: Características de big data 4 V.
marco MapReduce de Hadoop, la chispa se basa en
Memoria para hacer cálculos, por lo que el rendimiento del cálculo es
mucho mejor que MapReduce. El marco de computación distribuida de Spark es
servicios de recolección, análisis y minería para ayudar a los bancos como el de la Figura 3.
valor de los datos de la mina. Los módulos principales incluidos en el framework Spark son
Módulo de procesamiento de datos SparkSQL, transmisión de datos Spark
módulo de procesamiento, módulo de biblioteca de algoritmos MLlib que encapsula
2.3. Tecnologías relacionadas con Big Data Framework. Los marcos de trabajo los algoritmos de aprendizaje automático convencionales, y
de big data se refieren a la expresión sistemática de el módulo de computación basado en gráficos GraphX [8]. SparkSQL
conjuntos de datos para superar las posibles barreras en la extracción El módulo se utiliza principalmente en análisis de datos, extracción e indexación.
información a partir de datos. Los marcos se vuelven necesarios resumen. e spark streaming se usa generalmente para registro
en situaciones en las que los conjuntos de datos son enormes y análisis junto con código abierto Kafka y Flume de
torpe que el significado y/o la información no pueden ser fácilmente Ecosistema Hadoop. MLlib proporciona algoritmos convencionales de clasificación,
deducida de los datos. Los siguientes son algunos de los grandes datos agrupamiento y recomendación de aprendizaje automático, lo cual es conveniente
marcos para la ciencia de datos y
tecnología para usar chispa para la minería de datos.
2.3.1. e Sistema de archivos HDFS. El marco de trabajo distribuido de Hadoop es
2.4. Algoritmos relacionados con el aprendizaje automático y las estadísticas.
el siguiente marco de procesamiento de big data convencional, que se utiliza
Los algoritmos de aprendizaje automático son los programas dedicados
principalmente para procesar big data. datos electrónicos
que aprenden automáticamente de los datos y mejoran su rendimiento con la
nivel que Hadoop puede manejar es PB, lo que permite que los programas
experiencia. Los algoritmos normales necesitan programa y datos para producir
para realizar operaciones distribuidas en miles de nodos
resultados, mientras que la máquina
[7]. Hadoop tiene dos módulos principales: (1) Hadoop distribuido
algoritmo de aprendizaje genera programas tomando la salida y
File System (HDFS) y (2) la informática MapReduce
datos para operar sin intervención humana. Los siguientes son
estructura. Entre ellos, HDFS es un sistema de archivos distribuido
los algoritmos de aprendizaje automático utilizados en el dominio del riesgo
que se puede usar en dispositivos de hardware generales, mientras que
predicción.
MapReduce se utiliza para realizar la estructura de principio de com e paralelo
poner El distribuida del archivo distribuido HDFS
sistema es como la figura 2. 2.4.1. Algoritmo de lazo. En estadística y aprendizaje automático,
HDFS es una arquitectura maestroesclavo. Un clúster HDFS El algoritmo Lasso es un método de análisis de regresión de selección y
se compone de un nodo con nombre y varios nodos de datos. regularización simultáneas de características. El algoritmo tiene como objetivo
Por lo general, la arquitectura consta de un nodo y un mejorar la precisión de la predicción y
máquina (nodo de datos). La máquina gestiona el almacenamiento de interpretabilidad del modelo estadístico [9]. Forzando la suma de
los nodos correspondientes. El nodo nombrado se utiliza para los valores absolutos de los coeficientes de regresión sean menores que un
administrar espacios de nombres y solicitudes de ajuste. El nodo de datos es umbral fijo, algunos coeficientes de regresión se ven obligados a
utilizado principalmente para el almacenamiento de datos. HDFS abre espacios de nombres de archivos convertirse en cero. Las variables correspondientes a estos coeficientes de
al público y permite que los datos del usuario se almacenen como archivos. mi
regresión son efectivamente seleccionadas, de modo de construir un
−1
ML1ib
w XT X XT y. (5)
Chispa chispear GráficoX
Chispa SQL (Aprendizaje
Transmisión (gráfico)
automático) Cuando XTX no está lleno de matriz de rango o matriz definida
positiva, la solución óptima obtenida por estimación de parámetros no
es única en este momento, y la varianza del modelo se puede reducir
chispa apache agregando restricciones regulares.
Figura 3:
3. Teorías Relevantes del Riesgo Financiero Bancario
El framework de computación distribuida Spark.
La gestión del riesgo financiero es un área muy importante en la banca.
modelo más simple. El término de penalización L1 se agrega al modelo La gestión de riesgos en el ámbito bancario pretende modelar
lineal ordinario. Para la regresión lineal ordinaria, la estimación de sistémicamente las posibilidades de problemas que en el largo plazo
Lasso es pueden afectar el marketing financiero y/o
tuits
βlasso arg min Y − Xβ2 ,
β Rd
d (1) 3.1. Concepto de riesgo financiero. La definición general de riesgo
calle financiero es la posibilidad de pérdidas para los financistas en el proceso
βj ≤ t, t > 0.
j 1 de transacciones de servicios financieros. También puede referirse a
pronosticar si el ingreso real es menor que el ingreso esperado, o si el
En la fórmula (1), t y j corresponden uno a uno, que es costo real es mayor que el costo esperado [11]. Desde la perspectiva
el coeficiente de ajuste. del funcionamiento de las instituciones financieras, este documento
es equivalente a define el riesgo financiero como la probabilidad de que los bancos
d sufran pérdidas bajo la influencia de diversos factores inciertos en el
βlasso arg min Y − Xβ2 + λ (2) proceso de las actividades financieras, como la captación y utilización
βj .
β Rd j 1 de fondos. Esto muestra que el ingreso real es menor que el costo de
operación.
Orden:
d
3.2. Características del riesgo financiero. Las características del riesgo
t0 βj(OLS) . (3)
financiero se dividen en cinco categorías, que incluyen objetividad,
j 1
incertidumbre, latencia, controlabilidad y periodicidad. Los detalles de
En la fórmula (3), MCO se estima por el método de mínimos las características se dan a continuación.
cuadrados. Cuando t < t0, cuando una parte del coeficiente se comprime
a un valor de 0, la dimensión de X se reduce para lograr el propósito de 3.2.1. Objetividad. El riesgo financiero va acompañado de actividades
reducción de dimensionalidad. financieras. Mientras haya actividades financieras, debe haber riesgos
relevantes. Además, con la innovación continua de los instrumentos
financieros derivados, no solo promueve el desarrollo financiero, sino
2.4.2. Regresión lineal. El La idea básica de la regresión lineal que también trae nuevos riesgos. Además, la ocurrencia de riesgos
método es caracterizar los datos de entrada como un modelo lineal y financieros en una institución financiera afectará inevitablemente a sus
estimar y resolver los parámetros del modelo utilizando el método de acreedores y puede afectar aún más todos los aspectos de la operación
mínimos cuadrados bajo el principio de minimizar el error cuadrático económica.
medio [10]. Suponga que el conjunto de datos de entrada es D , donde
D tiene d características y m muestras, y xi es la i muestra.
En este momento, el modelo de regresión lineal múltiple se describe 3.2.2. Incertidumbre. Las instituciones financieras realizan actividades
de la siguiente manera: comerciales o de toma de decisiones en un entorno incierto; es decir,
el entorno operativo de las actividades comerciales financieras está en
x11 x12 · · · x1d
constante desarrollo y cambio, mientras que es difícil para los actores
x21 x22 · · · x2d y2 predecir con precisión el futuro y los riesgos financieros pueden surgir
X , en cualquier momento.

xm1 xm2 · · · xmd mmm
y1
. (4) 3.2.3. Latencia. El riesgo financiero se manifiesta a menudo como el
T
y y1 , y2 , . . . , ym , estallido de una crisis financiera. De hecho, las actividades financieras
T pueden encubrir algunas pérdidas inciertas por sus propias características.
f xi w xi + bi ,
metro
2
w* ,b arg min f xi yi
(w, b) i 1 3.2.4. Controlabilidad. Aunque los cambios inciertos en la situación
Cuando XTX matriz de rango completo o matriz definida positiva, económica pueden traer riesgos, los riesgos pueden controlarse de
el parámetro de peso de la característica se puede obtener como manera efectiva siempre que se tomen medidas específicas.
3.2.5. Periodicidad. Para cada institución financiera, opera variable aleatoria distribuida y siguen una distribución normal con una media
en el ambiente ecológico financiero establecido, y el de 0 y una varianza de σ2. Con este fin, todos
entorno financiero se ve afectado por el conjunto económico Los vectores de características están normalizados y centralizados, es decir,
2
1.
norte
ambiente. Por lo tanto, cuando la fluctuación periódica de i 1 xij 0 , xj

aparece la economía y el cambio ordenado de la política monetaria,
es fácil identificar los riesgos financieros cíclicos, lo que hace que la
4.2. Adquisición y Procesamiento de Datos. riesgo financiero bancario
es posible el seguimiento de los riesgos financieros.
la información de predicción se puede dividir en información financiera e
información no financiera. información electrónica
3.3. Clasificación de Riesgo Financiero. Según el alcance de puede generar características financieras cuantitativas y
ocurrencia e influencia del riesgo financiero, este trabajo divide características no financieras basadas en la descripción cualitativa. Entre
los riesgos en riesgo financiero sistemático y no sistemático ellos, las características financieras se pueden calcular
riesgo financiero. Los detalles de los riesgos se dan a continuación y extraído utilizando la información contable en el
subsecciones estados financieros emitidos regularmente por el banco. Las mi
características no financieras se pueden extraer utilizando los datos de
divulgación en forma de informes financieros, noticias y
3.3.1. Riesgo Financiero Sistémico. e riesgo financiero sistemático
otro texto relacionado con el banco. En términos generales, el
se refiere al riesgo general del mercado, incluido el impacto
la información se publica regularmente en la plataforma de la red
económicos, políticos, sociales y otros ambientales
y es fácil de conseguir. predicción del riesgo financiero del banco electrónico
factores en el entorno ecológico financiero en general
El conjunto de datos recopilados y capturados en este estudio se describirá
mercado. Los cambios en los factores ambientales externos pueden conducir
a crisis financieras en algunos bancos y crisis en cadena en los en detalle en la siguiente sección de diseño experimental. En
Además, los datos financieros se pueden transformar en datos estructurados.
todo el sistema financiero. Por lo tanto, sólo a través de un razonable
datos después de un procesamiento simple, que se puede utilizar directamente como
evaluación de la situación macroeconómica en un determinado
la entrada del algoritmo de aprendizaje. e datos no financieros en
período de tiempo podemos identificar los riesgos financieros sistémicos
la forma de texto se puede usar para aprender solo después de la
enfrenta un país o una región.
segmentación de palabras, la limpieza, el filtrado y otro lenguaje natural
técnicas de procesamiento.
3.3.2. Riesgo Financiero No Sistemático. Riesgos no sistemáticos
se refieren a la posible pérdida causada por instituciones financieras
4.3. Extracción de Características de Predicción de Riesgos Financieros.
individuales en la industria financiera. En el proceso de financiación
En primer lugar, los datos de texto del informe anual recopilados se procesan
actividades, estos son los riesgos que se consideran
previamente, y luego se procesan los unigramas, bigramas y trigramas.
riesgo descentralizado. Los riesgos financieros no sistemáticos pueden ser
extraídas como características de texto usando el modelo de bolsa de palabras y
reducido o incluso eliminado mediante la mejora de la gestión bancaria
frecuencia de palabra frecuencia de documento inverso (TFIDF)
y asignación de activos.
método de ponderación. Debido a que las características del texto se enfrentan naturalmente
problemas de alta dimensión, las características de texto de alta dimensión
4. Método de Predicción del Riesgo Financiero Bancario
pueden contener algunas características redundantes e irrelevantes
Integración de datos heterogéneos de múltiples fuentes [12]. Por lo tanto, el método de obtención de información es más
se utiliza para filtrar las características del texto inicial extraído, y el
Este trabajo de investigación se centra en los riesgos financieros bancarios
Se conservan características importantes para garantizar la calidad de la
destinado a construir una multifuente características heterogéneas
características. e proceso de cálculo de la ganancia de información
La investigación propone un preestablecimiento de riesgo financiero
IG(Y, F) es como sigue:
bancario. método de dicción que integra múltiples fuentes heterogéneas
datos. IG(Y, F) H (Y) − H(Y|F), (6)
H(Y) − p(y)log2 p(y),

4.1. Definición formal del problema. Para expresar la (7)
y Y
método propuesto claramente, una definición formal debe ser
hecho antes de introducir el método específico. Asumiendo que
Y y y
hay n muestras en un conjunto de datos dado D, el conjunto de datos es H − .
T p(f) p log2p _ (8)
definida como D ( x1, y1), . . . , (xi , yi ), . . . , (xn, yn ) donde , F F F
f F y Y
xi Rn y la etiqueta de categoría son yi { } −1, 1 . supongamos que
número de características es p; entonces el vector espacial característico es En las fórmulas (6)–(8), IG(Y, F) representa que cuando
X ( x(1)1 , . . . , x(1) , . . . , x(j)1 , . . . , x(1) , . . . , x(J)
1 , . . . , x(J) ), se agrega la característica F , la entropía de información de la categoría Y
p.j. pJ
p1 y J representa el número de diferentes fuentes de datos. pj es disminuye, H(Y) representa la entropía de información de
el número de características extraídas de la jésima fuente de datos, categoría, p(y) representa la probabilidad de la categoría y, y
T ·
R+
p es el vector de peso, y | | H(Y|F) representa la categoría bajo la condición de característica
W ( w1, w2, . . . , wp)
representa la norma L1 . Para el modelo de regresión lineal, F. La entropía de información de Y, A, representa la probabilidad de p(y|f)
j
la hipótesis es yi 1 , . . . , β(j) i xT ijβj + ei, donde βj
1 cierta distribución de categorías bajo un solo
(j)
(β ) Rpj es el coeficiente de regresión. Deja el condición de característica. En el proceso de filtrado de características de texto, todos
p.j.
el término residual ei sea un término independiente e idénticamente unigramas, bigramas y trigramas con una ganancia de información
superiores a 0,0025 se conservan como características de texto importantes.
Comenzar
Con el fin de explorar completamente el papel de las diferentes características
en la predicción del riesgo financiero bancario, las características anteriores
están completamente combinados, y las características combinadas son Conjunto de datos
expresado como
F F1 + F2 + F3. (9)

fusión ponderada
estimación adaptativa
En la fórmula (9), F1 representa el conjunto de características financieras
extraídas, F2 representa el conjunto de características emocionales,
Peso de la característica
y F3 representa el conjunto de características del texto.
Probabilidad
4.4. Construcción del Modelo de Predicción de Riesgos Financieros. muestreo
Teniendo en cuenta la demanda de fusión adaptativa de fuentes múltiples
datos en la predicción del riesgo financiero bancario y de manera integral
clasificador
considerando las ventajas del subespacio aleatorio anterior
método, método Lasso adaptativo y método Lasso de fusión ponderada
método para el problema de predicción [13], este estudio propone
Voto principal
un método de predicción del riesgo financiero basado en la fusión ponderada
subespacio aleatorio adaptativo. Este método incluye tres principales
módulos: en primer lugar, el método de fusión adaptativo construido es Resultados de predicción
utilizado para fusionar las características, en segundo lugar, el clasificador base es
construido, y finalmente, los resultados de aprendizaje de la base
clasificador están integrados. e flujo de predicción de riesgo financiero Fin
método basado en subespacio aleatorio adaptativo de fusión ponderada
es como la figura 4. Figura 4: Diagrama de flujo del método de predicción de riesgos basado en
El objetivo del método de predicción del riesgo financiero basado en subespacio aleatorio adaptativo de fusión.
subespacio aleatorio adaptativo de fusión ponderada en la primera etapa
es realizar una fusión adaptativa de características para obtener el muestreo
T Rp de la función A esto
peso W ( w1, w2, . . . , wp) + problema de múltiples colinealidades entre características y
Para el final, considere primero el modelo clásico de Lasso, que tiene la mejora la estabilidad del modelo. Para poder
siguiente formulario: fusionan adaptativamente diferentes características, esta investigación considera
2 de manera integral Lasso, modelo Lasso de fusión ponderada
1 pag
y adaptativo Lasso, y otros métodos y propone un nuevo
β arg min y xiβi + λ βi (10)
2 i 1 . Lasso adaptativo de fusión ponderada de modelo disperso regularizado;
β 2
su forma es la siguiente:
En la fórmula (10), λ representa el parámetro de penalización regular.
2
Después de que la estimación adaptativa de fusión ponderada es 1
pag pag
2
λ2
xiβi + λw(1)
β arg min
2 y
realizado sobre las características, un vector de peso correspondiente a i βi + p aij βi − sijβj
β i 1 2 yo < j
cada característica compuesta de coeficientes de regresión será .
obtenido. No se adoptarán características con un peso de 0. En (12)
por el contrario, cuanto mayor sea el peso, mayor será la probabilidad de que se
seleccione la característica. Al fusionar datos de múltiples fuentes, es necesario En la fórmula (12), w(1) i 1 /|(βilasso + 1/ n √ )| es el adaptativo
considerar el impacto de la peso. en es, antes de realizar adaptativo de fusión ponderada
relación entre diferentes características en la predicción Estimación de Lasso, primero realice la estimación de Lasso para obtener una
resultados. Por lo tanto, el modelo Lasso de fusión ponderada se presenta sobre
conjunto de vectores de coeficientes de regresión, y sumar su inverso como el
la base del modelo Lasso, y su forma es como peso adaptativo de la característica a la fusión ponderada
sigue: Lazo adaptativo. De esta manera, se pueden penalizar diferentes características
2 según su importancia, y el modelo se convierte en una estimación no sesgada y
1 pag
λ2
pag
2
una característica más precisa.
β arg min 2 y − xiβi + λ βi + aij βi − sijβj
β i 1 2 p yo<j se puede obtener un subconjunto [14].
.
aproximado de la estimación adaptativa de Lasso de fusión ponderada,
(11) T Rp
la característica adaptativa pondera W ( w1, w2, . . . , wp) +
2
basado en la fusión ponderada se puede obtener. Después de usar estos
pag
En la fórmula (11), λ2/p i<j aij(βi − sijβj) es la pena
> 0/ ponderaciones para realizar un muestreo probabilístico de las características, la
término, y aij ρij /1 − ρij, sij sgn(ρij) +1, ρ ij −1, ρij > 0 y ρij son los
subconjunto de datos D1 D2sub, . . . , MDsub , di ( xi 1, yo1 ), . . . ,
coeficientes de correlación entre sub, sub
dos características xi y xj. en bruto la fusión ponderada (xi j, yij ), . . . , (xi , si )} utilizado para el entrenamiento de la base
Pi Pi
Modelo de lazo, las características relacionadas se pueden filtrar o Se puede obtener un clasificador. El proceso de muestreo se ajusta mediante el
retenido al mismo tiempo, lo que resuelve efectivamente el parámetro de relación de subespacio r. e mayor la r,
cuanto mayor sea la dimensión característica de la muestra METRO
subconjunto. H(x) c arg máx h j (X). (18)

j i
En la segunda etapa, el método de predicción del riesgo financiero j i 1
basado en subespacio aleatorio adaptativo de fusión ponderada primero
En la fórmula dada (ecuación (18)), la categoría con
determina el clasificador base y luego usa el subconjunto de datos
los votos más altos se utilizarán como la categoría de salida final para
obtenidos en la primera etapa para entrenar al clasificador base. Cuando
obtener el resultado final de la predicción integrada. áspero el
las muestras de entrenamiento son linealmente separables, la representación
pasos anteriores, se realiza la predicción del riesgo financiero del banco.
del hiperplano en el espacio muestral es la siguiente:
w Tx + b 0 . (13) 5. Análisis experimental

En la fórmula (13), el vector normal w [w1, w2, . . . , wd] Evaluar adecuadamente la experimentación del método propuesto.
se realizó en base a datos reales obtenidos de la
y el desplazamiento b, respectivamente, determinan la dirección
del hiperplano y su distancia al origen. En este bancos comerciales. Detalles del procedimiento de evaluación a lo largo
tiempo, la distancia desde cualquier punto de muestra xi al hiperplano es con la comparación de algunos métodos del estado del arte se
presentado en las siguientes subsecciones.
w Txi + b
r . (14)
5.1. Ambiente Experimental y Datos. Para verificar
w
la efectividad de la predicción del riesgo financiero bancario
Si el hiperplano (w, b) clasifica correctamente la muestra método basado en big data, el experimento utilizó la chispa
(wi, yi) D, hay clúster como entorno experimental y adoptó el
Modo de funcionamiento de chispa en hilo. En este estudio, se seleccionaron
w Txi + b ≥ + 1, yi +1 26 bancos comerciales como muestras experimentales, y ST
. (15) Los marcadores se utilizaron como una señal de que los bancos estaban en riesgo financiero,
w Txi + segundo ≤ − 1, yi −1
y se obtuvieron 871 muestras normales y 129 muestras de riesgo.
Desde el punto de vista de las características, el conjunto de datos experimentales
En la fórmula (15), los puntos muestrales que pueden hacer la
consta de 39 características financieras, 12 características emocionales y
retención de la ecuación son vectores de soporte. Desde un punto geométrico
características cualitativas del texto. Para la extracción de sentimiento
de vista, el vector de soporte son los puntos de muestra en los dos
palabras, el diccionario de sentimientos CNKI y los relacionados con el derecho
límites de clasificación wTxi + b 1 y wTxi + b −1.
Se utilizó el diccionario de sentimientos Sogou. Los vocabularios utilizados
El límite de clasificación solo está relacionado con estos soportes.
contenían varios sentimientos posibles, como el sentimiento positivo y
vectores e suma de las distancias desde el vector soporte hasta
negativo, el modo fuerte y el débil.
el hiperplano es
sentimiento, y el sentimiento incierto.
2
c . (dieciséis)
w
5.2. Indicadores de Predicción y Evaluación de Riesgos. es artículo
SVM puede manejar de manera efectiva las tareas de aprendizaje con menos usa la tasa de precisión promedio, la tasa de error y el tiempo de predicción como
muestras, características de dimensiones elevadas y relaciones no lineales indicadores de evaluación. La tasa de precisión promedio se refiere a la
entre características [15]. Por lo tanto, frente a datos de texto de alta relación entre el número de muestras predichas correctamente y el
dimensión, esta investigación elige SVM como base. número total de muestras previstas. cuanto mayor sea la media
clasificador del método de predicción del riesgo financiero basado en tasa de precisión, mayor será la precisión de la predicción. La fórmula de
subespacio aleatorio adaptativo de fusión ponderada. cálculo es
e método de predicción de riesgo financiero basado en TP + TN
el subespacio aleatorio adaptativo de fusión adopta la votación principal Un (19)
TP + FP + FN + TN.
estrategia para sintetizar los resultados de aprendizaje del clasificador base
en la tercera etapa. Suponiendo que la distribución de categorías es c1, En la fórmula dada (ecuación (19)), TP representa un
c2 , . . . , cN y la salida del clasificador hi on caso verdadero, TN representa un caso negativo verdadero, FP representa un
la muestra x es h1 i
(x), h2 i (x), ..., (x) ,
hNi la votación principal o caso falso positivo, y FN representa un caso falso negativo.
método de votación por mayoría se expresa de la siguiente manera: La tasa de error se refiere a la relación entre el número de muestras
con errores de predicción al número total de muestras. mi
norte
cuanto menor sea la tasa de error, mejor será el efecto de predicción.
METRO METRO
mi
h j (x) > 0,5 hki (X),
cj, si i fórmula de cálculo es
H(x ) i 1
(17)
k 1i 1
FP FN
nulo, en caso contrario. E + (20)
FP + TN TP + FN.
De acuerdo con la fórmula (17), se puede ver que cuando un
cierta etiqueta de categoría obtiene más de la mitad de los votos, la
el método de votación principal lo usa como la etiqueta de salida final. Al 5.3. Comparación de la Precisión del Riesgo Financiero Bancario
método de votación principal le corresponde el método de votación por Predicción. Con el fin de verificar la exactitud de la predicción de la
mayoría relativa. El proceso de cálculo es el siguiente: método propuesto, los métodos de [4, 5] se comparan con
100 10
80 8
60 Tasa
error
de
(%)
6
Precisión
media
(%)
40 4
20 2
0 0
200 400 600 800 1000 200 400 600 800 1000
Número total de muestras de datos Número total de muestras de datos
el método propuesto el método propuesto
Referencia [4] método Referencia [4] método
Referencia [5] método Referencia [5] método
Figura 5: Resultados de comparación de resultados de precisión promedio de Figura 6: Análisis comparativo de la tasa de error de predicción del riesgo
diferentes métodos. financiero bancario.
el método propuesto, respectivamente. e precisión promedio de Tabla 1: Resultados de la comparación del tiempo de predicción del riesgo financiero bancario
diferentes métodos se obtiene y se representa en la Figura 5. con diferentes métodos.
Puede verse en la Figura 5 que, bajo diferentes valores totales El numero total de metodo metodo

yo propuse
muestras de datos, la precisión promedio del método en [4] es
muestras de datos métodos) de [4] (s) de [5] (s)
75%, la precisión promedio del método en [5] es 73%, y
200 3.34 5.98 8.76
la precisión promedio del método propuesto es del 92%. 400 5,18 8,87 12.8
Por lo tanto, en comparación con los métodos de Pawiak et al. [4] 600 8,97 12,7 19.6
y Niu et al. [5], la precisión promedio de la propuesta 800 10,2 17,8 26,9
método es mayor, y su predicción de riesgo financiero bancario 1000 13,3 22,9 31.5
la precisión es mayor.
aumenta el tiempo de los diferentes métodos. cuando el total
5.4. Comparación de Resultados de Predicción de Riesgo Financiero Bancario. número de muestras de datos es 1000, el riesgo financiero del banco
Para verificar aún más el efecto de predicción de la propuesta tiempo de predicción del método de [4] es 22.9 s, el banco
método, el método se compara con el de la Pawiak el tiempo de predicción del riesgo financiero del método de [5] es de 31,5 s,
et al. [4] y Niu et al. [5]. Los resultados de la comparación sobre el y el tiempo de predicción del riesgo financiero bancario del método propuesto
tasa de error de predicción de riesgo financiero bancario de diferentes métodos es de solo 13,3 s. Se puede ver que, en comparación
son como la figura 6. con el método de [4] y el método de [5], el banco
Está claro en la Figura 6 que, bajo el número total de el tiempo de predicción del riesgo financiero del método propuesto es
diferentes muestras de datos, la tasa de error promedio de la predicción del corta.
riesgo financiero bancario en el método [4] es 4.4%. mi promedio
la tasa de error de la predicción del riesgo financiero bancario en el método [5] es
7,8%. e tasa de error promedio del riesgo financiero bancario 6. Conclusión
predicción por nuestro método propuesto es sólo el 1,1%. Puede ser
método de predicción de riesgo financiero de banco electrónico basado en big data
visto que, en comparación con los métodos de Pawiak et al. [4]
se propone en este trabajo. El método pretende hacer que el
y Niu et al. [5], la tasa de error promedio de la información financiera bancaria
pleno uso de la tecnología de big data. riesgo financiero del banco electrónico
la predicción de riesgo del método propuesto es menor. Por eso,
la precisión de predicción del método propuesto es alta.
la predicción del riesgo financiero bancario del método propuesto es
mejor. Además, el método puede acortar efectivamente el tiempo de predicción del
riesgo financiero bancario y tiene una buena predicción del riesgo.
efecto. Sin embargo, en el proceso de predicción del riesgo financiero bancario,
5.5. Comparación del Tiempo de Predicción del Riesgo Financiero Bancario. debido a la limitación de los canales de adquisición de datos,
Sobre esta base, el tiempo de predicción del método propuesto es este estudio no ha considerado el efecto de predicción de otros
verificado e métodos de [4, 5] y el método propuesto fuentes de datos viables y útiles. Por lo tanto, en la próxima investigación,
se compararon en términos de tiempo de predicción del riesgo. mi
hemos planeado expandir aún más la multifuente
comparación de resultados de pronóstico de riesgo financiero bancario tiempo de información y recopilar los datos de riesgo financiero del banco en tiempo real
los diferentes métodos se muestran en la Tabla 1. tiempo. esto ayudará a verificar el efecto de la financiación bancaria
De acuerdo con los datos de la Tabla 1, como el número total de modelo de predicción de riesgos. Además, el modelo será aumentado.
muestras de datos aumenta, la predicción de riesgo financiero del banco para que los resultados de la predicción sean más precisos.
[14] N. Qiu, P. Gao, P. Wang e Y. Tao, "Investigación sobre el algoritmo de
Disponibilidad de datos
clasificación ACO WNB basado en la obtención de información mejorada",
Los datos utilizados para respaldar los hallazgos de este estudio son Computer Simulation, vol. 36, núm. 1, págs. 295–299, 2019.
disponible del autor correspondiente a petición. [15] R. Touati, AE Oueslati, I. Messaoudi y Z. Lachiri, "Clasificación de la familia
Helitron usando SVM basada en características de transformada de
Fourier aplicadas en un conjunto de datos no balanceado", Medical, &
Conflictos de interés Biological Engineering & Computing, vol. 57, núm. 10, págs. 2289–2304,
2019.
Los autores declaran que no tienen conflictos de intereses o
relaciones personales que pudieran parecer influir en el trabajo
informado en este artículo.
Referencias
[1] A. Flori, S. Giansante, C. Girardone y F. Pammolli, “Estrategias comerciales
de los bancos al borde de la angustia”, Annals of Operations Research,
vol. 299, núm. 1, págs. 481–530, 2021.
[2] M. Umar, X. Ji, N. Mirza y B. Naqvi, “Neutralidad de carbono, préstamos
bancarios y riesgo crediticio: evidencia de la eurozona”
Revista de Gestión Ambiental, vol. 296, pág. 113156, 2021.
[3] C. Clab, A. Asr y D. Teca, “Gastos catastróficos en pacientes con
traumatismos de California después de la ley de atención asequible:
reducción del riesgo financiero y disparidades raciales: ciencia directa”, e
American Journal of Surgery, vol. 220, núm. 3, págs. 511–517, 2020.
[4] P. Pawiak, M. Abdar, J. Pawiak, V. Makarenkov y UR Acharya, "DGHNL:
una nueva red jerárquica genética profunda de estudiantes para la
predicción de la calificación crediticia", Ciencias de la información, vol.
516, núm. 2020, págs. 401–418, 2020.
[5] K. Niu, Z. Zhang, Y. Liu y R. Li, “Modelo de conjunto de remuestreo basado
en la distribución de datos para el riesgo de crédito desequilibrado
evaluación en préstamos P2P”, Ciencias de la Información, vol. 536, págs.
120 a 134, 2020.
[6] A. Wibisono y D. Sarwinda, "Divisor de restricción promedio del valor de
evaluación (ARDEV) en el algoritmo de flujo de datos para la predicción
de big data", KnowledgeBased Systems, vol. 176, núm. 15, págs. 29 y
39, 2019.
[7] MT Wu, G. Srivastava, M. Wei, U. Yun y CW Lin, "Minería de patrones
difusos de alta utilidad en marco de hadoop paralelo y distribuido",
Ciencias de la información, vol. 553, págs. 31 a 48, 2020.
[8] S. Kang, S. Lee y J. Kim, “Generación de cubos de gráficos distribuidos
mediante el marco Spark”, e Journal of Supercomputing, vol. 76, núm. 10,
págs. 8118–8139, 2019.
[9] Y. Wen y Q. Lu, "Modelo mixto lineal multinúcleo con lazo adaptativo para
la predicción de fenotipos complejos", Estadísticas en medicina, vol. 39,
núm. 9, págs. 1311–1327, 2020.
[10] G. Goh y DK Dey, “Propiedades asintóticas del estimador marginal de
mínimos cuadrados para modelos de regresión lineal de dimensiones
ultraaltas con errores correlacionados”, e American Stat istician, vol. 73,
núm. 1, págs. 4 a 9, 2019.
[11] AL Hamilton, GW Characklis y PM Reed, “Gestión de las compensaciones
de riesgo financiero para la generación de energía hidroeléctrica utilizando
contratos de índice basados en la capa de nieve”, Water Resources
Research, vol. 56, núm. 10, ID de artículo e2020WR027212, 2020.
[12] S. Salesi, G. Cosma y M. Mavrovouniotis, "TAGA: algoritmo genético
asexual tabú integrado en un enfoque de selección de características de
filtro/filtro para datos de alta dimensión", Ciencias de la información, vol.
565, págs. 105 a 127, 2021.
[13] S.B. Chen, Y.M. Zhang, CHQ Ding, J. Zhang y B. Luo, "Lasso adaptativo
extendido para la selección de características de múltiples clases y
etiquetas", KnowledgeBased Systems, vol. 173, núm. 1, págs. 28–36,
2019.

Peng Et Al. - 2022 - Bank Financial Risk Prediction Model Based On Big

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Peng Et Al. - 2022 - Bank Financial Risk Prediction Model Based On Big

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

Volumen PB Solicitud de datos Información del bloque

ambiente. Por lo tanto, cuando la fluctuación periódica de i 1 xij 0 , xj

H(Y) − p(y)log2 p(y),

F F1 + F2 + F3. (9)

subconjunto. H(x) c arg máx h j (X). (18)

w Tx + b 0 . (13) 5. Análisis experimental

Puede verse en la Figura 5 que, bajo diferentes valores totales El numero total de metodo metodo

También podría gustarte