Está en la página 1de 12

Machine Translated by Google

SECCIÓN ESPECIAL TECNOLOGÍA Y APLICACIONES DE BIG DATA


EN TRANSPORTE INTELIGENTE

Recibido el 9 de enero de 2020, aceptado el 18 de enero de 2020, fecha de publicación 23 de enero de 2020, fecha de la versión actual 2 de marzo de 2020.

Identificador de objeto digital 10.1109/ ACCESS.2020.2969039

Análisis de Big Data Financiero y Early


Plataforma de alerta: un estudio de caso
3
, FANG WANG 2,4, XIAOJUN JIA 1,5
YI LIANG 1,2, DAIYONG QUAN ,
MENGGANG LI 1,4,5 Y TING LI 2
1Academia Nacional de Seguridad Económica, Universidad Jiaotong de Beijing, Beijing 100044, China
2Escuela de Economía y Administración, Universidad Jiaotong de Beijing, Beijing 100044, China
3Programa Postdoctoral del Centro de Investigación de Seguridad Industrial de China, Universidad Jiaotong de Beijing, Beijing 100044, China
4Laboratorio de Beijing de ingeniería de alerta temprana de seguridad económica nacional, Universidad Jiaotong de Beijing, Beijing 100044, China
5Centro de Beijing para la Investigación sobre Seguridad Industrial y Desarrollo, Universidad Jiaotong de Beijing, Beijing 100044, China

Autores para correspondencia: Xiaojun Jia (xjjia@bjtu.edu.cn) y Menggang Li (mgli1@bjtu.edu.cn)

Este trabajo fue apoyado en parte por el Programa de Co-Construcción con la Comisión Municipal de Educación de Beijing de China bajo la Subvención
B18H100040 y la Subvención B19H100010, y en parte por el Proyecto Clave de la Base de Investigación de la Fundación de Ciencias Sociales de Beijing bajo
la Subvención 19JDYJA001.

RESUMEN Con el fin de mantener el resultado final de los riesgos financieros sistémicos y evitar la mitigación de los principales riesgos,
este trabajo se centra en la investigación de algoritmos de fusión de datos heterogéneos de múltiples fuentes y tecnologías de limpieza
para establecer un estilo adecuado para el análisis de datos y el marco de cálculo de big data. .
En este documento, de acuerdo con el método anterior, proporcionamos la base para un análisis temprano de la seguridad económica.
Utilizando el análisis de big data, un método de tecnología de la información emergente, podemos explorar nuevos métodos de alerta
temprana de riesgos, construir una plataforma de alerta temprana y monitoreo de riesgos y lograr una toma de decisiones económicas
científicas, de modo que las fuentes de riesgo económico en la seguridad económica nacional se puede rastrear.

TÉRMINOS DEL ÍNDICE Big data, preaviso, seguridad económica, métodos de alerta temprana.

I. INTRODUCCIÓN cuestión de la alerta temprana. Nos enfocamos en los algoritmos de fusión y


El surgimiento de tecnologías avanzadas de procesamiento, almacenamiento las técnicas de limpieza de datos heterogéneos de múltiples fuentes para
y computación de datos, como big data, computación en la nube e inteligencia formar un estilo adecuado para el análisis de datos. Además, estudiamos
artificial (aprendizaje profundo, atlas de conocimiento) ha proporcionado una cómo construir un marco de computación de big data para proporcionar una
forma de alerta temprana de riesgos para la seguridad económica nacional. base para el análisis temprano de la seguridad económica.
Por lo tanto, llevamos a cabo la investigación de predicción y alerta temprana Sobre la base del análisis y el resumen de las deficiencias existentes,
de riesgos de seguridad económica [1]–[3]. Además, evaluamos de manera construimos una gran plataforma de procesamiento de datos e investigamos
sistemática, completa y objetiva el nivel de riesgo general de la economía cómo recopilar el procesamiento en tiempo real y de alta velocidad de datos
nacional. Esto proporciona una alerta temprana y predictiva para la toma de económicos de dimensión completa para realizar la alerta temprana de los
decisiones científicas, lo que no solo ayuda a prevenir riesgos sistémicos, riesgos de seguridad económica nacional. El resultado específico de nuestra
sino que también es un requisito inherente para que China mantenga la investigación es la construcción creativa de una gran plataforma de
solidez de su sistema económico, mantenga la estabilidad económica y social procesamiento de datos.
y promueva la seguridad nacional.

II. ANTECEDENTES DE LA
Las finanzas de Internet+ han traído un crecimiento explosivo en los
datos económicos. Las estadísticas matemáticas tradicionales y los métodos INVESTIGACIÓN Hay muchos trabajos de literatura sobre la seguridad

de ajuste son difíciles de cumplir con la minería profunda de datos masivos. económica nacional [4]–[7], pero el trabajo de alerta temprana y simulación

Los métodos de big data y aprendizaje automático se están volviendo de riesgos económicos basados en big data acaba de comenzar. La mayor

estándar en muchas plataformas económicas de Internet. Por lo tanto, cómo parte de las investigaciones existentes es el análisis de riesgo cualitativo, y la

cuantificar los riesgos económicos con la ayuda de los métodos emergentes investigación de medición de riesgo cuantitativo es extremadamente escasa.

de tecnología de la información se ha convertido en el principal La orientación laboral específica para la seguridad económica nacional
requiere de un conjunto de sistemas que puedan ser visualizados, evaluados
El editor asociado que coordina la revisión de este manuscrito y y ajustados como apoyo al trabajo. De lo contrario, la búsqueda ciega de la
quien lo aprobó para su publicación fue Sabah Mohammed . seguridad a menudo se solidificará o se volverá rígida.

Este trabajo tiene una licencia Creative Commons Attribution 4.0 License. Para obtener más información, consulte http://creativecommons.org/licenses/by/4.0/
VOLUMEN 8, 2020 36515
Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

El establecimiento de un sistema completo de evaluación y alerta temprana puede


guiar y ayudar de manera efectiva al trabajo específico de construcción de la seguridad
económica nacional de China.
Utilizamos métodos emergentes de tecnología de la información, como el análisis de
big data y la inteligencia artificial, para proporcionar un historial cuantitativo y visual, el
status quo y el análisis predictivo para varios campos de seguridad no tradicionales.
Además, el sistema puede proporcionar servicios de apoyo para la toma de decisiones
científicas a los responsables de la toma de decisiones en todos los niveles.

tercero MÉTODO

PRINCIPAL Esta sección presenta la arquitectura general del sistema, la ruta técnica,
el marco de procesamiento de flujo y otros aspectos, así como los principios de alerta
temprana de seguridad.

A. DISEÑO DE LA ARQUITECTURA GENERAL


El advenimiento de la era de los grandes datos ha hecho que los datos masivos se
basen más en la evidencia para el análisis macroeconómico. El procesamiento en
tiempo real de macrodatos económicos y la inteligencia de los métodos de análisis de
datos aportan muchas ventajas a la previsión macroeconómica y la alerta temprana.
Puede superar las deficiencias de los métodos tradicionales y mejorar la precisión y
oportunidad del análisis económico.

El procesamiento económico de big data involucra disciplinas cruzadas como la


computación en la nube, la inteligencia artificial y el aprendizaje automático, la previsión FIGURA 1. Diagrama de arquitectura general.

macroeconómica y el análisis microeconómico. Para lograr el objetivo de recopilación


y análisis de big data económico y de seguridad, por un lado, investigaremos sobre la
recopilación de big data económico y de seguridad, y nos centraremos en la Ampliar las fuentes de datos que la plataforma económica de big data puede recopilar
investigación de algoritmos de fusión de datos heterogéneos de múltiples fuentes y y analizar.
técnicas de limpieza para formar un estilo adecuado para el análisis de datos. Esto La capa de la plataforma de servicios de administración es el núcleo. Se basa en
proporciona la base para un análisis temprano de la seguridad económica. Por otro la arquitectura PaaS e integra microservicios financieros, servicios de big data y
lado, estudiaremos la construcción de diferentes marcos informáticos de big data, desarrollo de aplicaciones. Es comparable a un sistema operativo de Internet móvil.
algoritmos de análisis de alerta temprana de riesgos en tiempo real para las necesidades
en tiempo real y de retraso del análisis de alerta temprana de big data de la seguridad En primer lugar, la plataforma combina computación en la nube, tecnología de
económica, y exploraremos profundamente la relación entre las diferentes industrias y macrodatos y experiencia y conocimientos de gestión económica para formar una
economías regionales. Además, el sistema puede revelar los riesgos involucrados. capacidad básica de análisis de datos económicos.
La plataforma solidifica la tecnología, el conocimiento, la experiencia y otros recursos,
y solidifica estos recursos en bibliotecas de software profesional, bibliotecas de modelos
de aplicaciones, bases de conocimientos expertos y otras herramientas de desarrollo
La fuente de datos en la Figura 1 incluye la recopilación de datos, que principalmente y microservicios portátiles y reutilizables. En segundo lugar, la plataforma proporciona
recopila datos a un nivel profundo y realiza la convergencia de diferentes protocolos y una cadena completa de servicios de datos económicos que consta de almacenamiento
datos a nivel de base. de datos, intercambio de datos, análisis de datos y modelos de supervisión.
Se basa principalmente en dos aspectos de las capacidades, uno es confiar en
sensores, sistemas de supervisión financiera, gestión económica orientada al entorno, La plataforma reúne varios métodos de procesamiento profesional tradicionales y
sistemas de confianza y otros elementos de datos para la recopilación en tiempo real. herramientas de análisis inteligente de vanguardia. Ayuda a los usuarios a realizar
Esto permite que la plataforma integre directamente los datos subyacentes con la rápida y fácilmente la gestión integrada y la extracción de valor de los datos económicos.
ayuda de plataformas de big data, grandes centros de almacenamiento de datos, En tercer lugar, crea un entorno de desarrollo de aplicaciones basado en servicios de
software integrado y otras infraestructuras y tecnologías de conexión. El segundo es el datos económicos. La plataforma proporciona varios microservicios de gestión que
uso de nuevos dispositivos informáticos de borde representados por puertas de enlace contienen conocimientos financieros y experiencia en supervisión de la industria,
inteligentes para lograr la agregación de sensores inteligentes y datos del sistema y la herramientas de desarrollo de aplicaciones financieras [8] y métodos de gestión
integración indirecta de los resultados del análisis de borde en plataformas en la nube. integrales para operaciones de desarrollo y mantenimiento de aplicaciones.
Varios tipos de métodos de conexión de borde proporcionan una ayuda poderosa para
la conexión ubicua de la plataforma de alerta temprana de riesgos de seguridad
económica. Esto ayuda a los usuarios a crear rápidamente aplicaciones de aplicaciones inteligentes
personalizadas y generar valor comercial.

36516 VOLUMEN 8, 2020


Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

La capa de servicio de la aplicación es clave. Implementación de aplicaciones funciones administrativas. El dominio del dispositivo proporciona
basadas en el entorno regulatorio de la industria mixta monitoreo del estado del dispositivo en tiempo real y estado de la aplicación
y frente a los diversos escenarios de regulación, este es el alarmas y abre interfaces de llamadas API. Permite a los usuarios
resultado final de los servicios económicos de la plataforma de big data. realizar fácilmente la integración del sistema y la función de valor agregado
Estos escenarios de aplicación típicos, como la supervisión inteligente, la desarrollo. Los datos del dispositivo para el dominio del dispositivo se almacenan
colaboración en red, la personalización personalizada, directamente en la nube.
y la extensión del servicio, proporciona a los usuarios varios inteligentes (2) tecnología de gestión de conexión para física masiva
soluciones de servicio personalizadas y desarrolladas en la plataforma. Dispositivos electrónicos en el Internet de las Cosas
Los dominios de dispositivos permiten que dispositivos físicos masivos y
B. RUTA TÉCNICA DETALLADA heterogéneos accedan de manera ordenada y sin inconvenientes a la Internet de
La aplicación de la tecnología de big data en las finanzas ha las cosas. Esto logra una interconexión de área amplia y
promovió la innovación del modelo de servicios financieros, el desarrollo Gestión inteligente de equipos físicos. El dispositivo
transformación de modelos, innovación de gestión y producto El dominio establece el equilibrio de carga basado en global. es compatible
innovación. La aplicación de la tecnología de macrodatos ha proporcionado un el acceso cercano del equipo y puede cumplir con la horizontal
apoyo eficaz a la innovación financiera. Al mismo ampliación de la plataforma. Para el clúster de acceso ubicuo,
tiempo, también proporciona información precisa y conocimiento según el tipo de protocolo, la carga del servidor del dispositivo
de servicios financieros y ofrece servicios personalizados para El dominio se puede programar en tiempo real para lograr el acceso de
consumidores dispositivos con diferentes protocolos y diferentes cargas.
En comparación con otras industrias, el big data tiene más valor potencial para (3) Monitoreo de detección inteligente de equipos e interconexión de equipos
la industria financiera. La investigación de McKinsey muestra
que la industria financiera ocupa el primer lugar en el Big Data Value En base a la codificación OID (Object Identifier) se implementa la interconexión
Índice de potencial. de diferentes equipos y personal
El ''big data'' sin duda tiene una amplia gama de aplicaciones para lograr la interconexión e interconexión de IoT
en el campo financiero. Boston Consulting encontró 64 potenciales terminales. Estudiamos los problemas de interconexión y
aplicaciones en siete áreas principales de la banca. Estas aplicaciones se recopilación de datos de big data y heterogénea de múltiples fuentes
encuentran en negocios minoristas, corporativos y de mercados de capital. dispositivos. Estudiamos las características técnicas de diferentes
Además, incluyen transacciones bancarias, activos Tipos de interfaces y protocolos. Finalmente, se desarrollaron un modelo unificado
administración, gestión de patrimonio y gestión de riesgos. de adquisición de datos y un estándar de transmisión de datos.
De la situación general de la aplicación del ''big data'' implementar un método capaz de acceder a múltiples señales
por instituciones financieras extranjeras, la mitad de los Fuentes de diferentes protocolos estándar.
Las aplicaciones financieras se encuentran en la etapa de popularización y (4) Recopilación y procesamiento de información del equipo
comprensión del concepto de big data, un tercio de las aplicaciones financieras se a) El dominio del dispositivo utiliza dispositivos físicos como sensores de bajo
nivel, etiquetas electrónicas y enrutadores para recopilar y agregar datos de estado
encuentran en la fase piloto y aproximadamente la mitad de cada cinco aplicaciones financieras.
instituciones ya está familiarizada con la aplicación de ''grandes de los objetos de destino en tiempo real. procesa
datos''. Está aumentando sus capacidades paso a paso e integrando los los datos recopilados de series temporales de alta dimensión. El sistema
mecanismos de trabajo requeridos por "Big Data" en analiza y extrae la representación estandarizada y los datos de secuencia de la
modelos de negocio y modelos operativos. Estas aplicaciones organización para lograr el propósito de extraer la
han entrado en la etapa de transformación incrustada. patrones de comportamiento ocultos de series de tiempo. Al mismo tiempo,
La aplicación de la tecnología de big data puede captar la información efectiva el sistema también proporciona a los usuarios una consulta de datos visual y
de los clientes y las empresas en muchos aspectos. interfaz para compartir
Pueden analizar exhaustivamente los activos y pasivos de los clientes, la liquidez b) Recogida de datos heterogéneos
y el comportamiento de los clientes. Esto ayuda financieramente La falta de un estándar unificado para el formato de datos ha
instituciones para llevar a cabo la innovación de productos, marketing preciso y trajo severos desafíos al almacenamiento posterior de la base de datos,
gestión de riesgos, y para transformar los activos de datos en así como limpieza de datos e integración y análisis de datos.
activos estratégicos y competitividad en el mercado. Esto puede habilitar Este sistema se basa en última instancia en una recopilación de datos unificada
tecnología de big data para desempeñar un papel en valores y futuros, modelo y necesita recopilar diferentes tipos de datos de equipos,
banca, seguros y finanzas emergentes de Internet. Estas datos de bases de datos y datos de archivos. El dominio del dispositivo proporciona una
Los esquemas de construcción del proyecto se dividen en cuatro áreas: interfaz abierta para todo tipo de estructura y no estructurada
dominio de equipo, dominio de plataforma, dominio de aplicación, datos a través de un estándar de transmisión de datos unificado, y finalmente
y dominio de seguridad. logra una recopilación de datos heterogénea unificada y escalable.
c) Limpieza de datos

1) ÁREA DE DISPOSITIVOS Una característica importante de los grandes datos es la baja densidad de valor.
(1) El dominio del dispositivo implementa acceso remoto y administración de La calidad de sus datos también es diferente de la calidad de los tradicionales
conexiones, monitoreo de conexiones y actualizaciones de configuración para datos. Puede haber muchos datos erróneos, así como erróneos.
terminales IoT. Además, también tiene datos y datos faltantes, pero la calidad de los datos tiene un enorme
actualizaciones de software y sistemas, solución de problemas y ciclo de vida impacto en la eficacia de la toma de decisiones basada en grandes

VOLUMEN 8, 2020 36517


Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

procesamiento de datos. Por lo tanto, la limpieza de datos y la identificación El nodo, el nodo de cálculo y el nodo en tiempo real se consideran nodos
de datos no válidos y erróneos se han convertido en requisitos previos clave consultables. Hay un conjunto de nodos de coordinación para administrar la
que afectan la efectividad de la minería de big data. distribución y la replicación de la carga. El nodo de coordinación es un nodo
Este sistema necesita desarrollar modelos y algoritmos específicos de limpieza no consultable. Se utiliza principalmente para mantener la estabilidad del
y filtrado de datos basados en las características de los datos en diferentes clúster. El nodo de coordinación debe depender de una base de datos MySQL
industrias. externa. Requiere Apache Zookeeper para realizar la colaboración de clúster.
Aunque las consultas se reenvían a través de Hadoop, la comunicación dentro
2) ÁREA DE PLATAFORMA del clúster se realiza a través de Zookeeper.
(1) Tecnología de equilibrio de carga y sistema de procesamiento de flujo
para procesamiento en la nube en tiempo real Para los cálculos de flujo en
tiempo real para grandes flujos, el equilibrio de carga para servicios de 3) DOMINIO DE LA APLICACIÓN
flujo de datos es una parte importante de la investigación de este sistema. En a: FUNCIÓN DE LA APLICACIÓN

el entorno informático de transmisión en tiempo real, los datos no solo AEP (Plataforma habilitada para aplicaciones) proporciona dos funciones
aumentan de tamaño, sino que también la diversidad empresarial se vuelve principales: desarrollo de aplicaciones y almacenamiento de datos unificado.
cada vez más complicada. La tecnología de equilibrio de carga existente Proporciona herramientas de desarrollo de aplicaciones, middleware,
enfrenta el desafío de los cuellos de botella de escalabilidad y no puede funciones de almacenamiento de datos y motores de lógica empresarial. AEP
cumplir con los requisitos de confiabilidad en tiempo real del procesamiento puede conectarse a API de sistemas de terceros. Las empresas y los usuarios
de flujo de red de alta velocidad. individuales pueden desarrollar, implementar y administrar rápidamente
Este proyecto estudia la arquitectura y los algoritmos de equilibrio de carga aplicaciones en AEP. AEP no necesita considerar problemas como una menor
para plataformas de computación en la nube en tiempo real y propone un expansión de la infraestructura, administración y agregación de datos,
sistema de computación en la nube en tiempo real de alta disponibilidad protocolos de comunicación y seguridad de la comunicación, lo que reduce
basado en esto. El sistema tiene mecanismos integrados de balanceo de los costos y el tiempo de desarrollo.
carga a nivel de tarea y nivel de tráfico. Como se muestra en la Figura 2, para La plataforma proporciona servicios SaaS para la industria. Este servicio
el equilibrio de carga a nivel de tareas, el sistema utiliza un modelo de proporciona funciones de servicio profesionales, ricas y completas para
programación de tareas en tiempo real con baja complejidad. Basado en este diferentes usuarios en industrias verticales. Los usuarios usan terminales
modelo, el sistema proporciona algoritmos de asignación de recursos y inteligentes para personalizar los servicios requeridos en la capa de aplicación
programación de tareas que cumplen con los escenarios dinámicos de un y realizar la verificación de tecnología clave requerida por la empresa.
entorno informático de transmisión. Reduce el tráfico de datos entre nodos
mientras las tareas se equilibran dinámicamente. Para el equilibrio de carga
a nivel de tráfico, el sistema utiliza un algoritmo de equilibrio de carga que b: APERTURA DE DATOS Y TOMA DE DECISIONES INTELIGENTES

mantiene la coherencia de la sesión sin una tabla de sesión global. El sistema El subsistema de análisis de negocios proporciona servicios de análisis de
logra el equilibrio entre el flujo de datos de las tareas en la nube y mejora la big data técnicos seguros, estables, en tiempo real y prácticos. No solo puede
disponibilidad y el equilibrio del sistema en el entorno de flujos de datos realizar el procesamiento de clasificación sobre la base de varios datos
conectados masivamente. Esto permite que el sistema analice datos relacionados, sino también analizar y proporcionar resultados de análisis de
comerciales complejos. datos visuales. El subsistema de análisis empresarial utiliza un análisis
dinámico en tiempo real para controlar la situación de las existencias y
(2) Almacenamiento y consulta de datos en proporcionar una alerta temprana. Ayuda a los usuarios a realizar servicios y
tiempo real El almacenamiento y consulta de datos en tiempo real utilizan monitoreo de datos multidimensionales en áreas tales como operaciones.
una arquitectura compartida. Esta arquitectura admite un motor de consulta y La toma de decisiones inteligente se refiere al proceso de utilizar las
almacenamiento de datos en tiempo real que busca en miles de millones de intenciones del usuario expresadas de manera uniforme para hacer coincidir
filas en segundos al admitir una estructura de índice avanzada, y el motor la agregación de conocimientos para resolver problemas y brindar un conjunto
admite la escala horizontal. Un clúster consta de diferentes tipos de nodos y ordenado de soluciones recomendadas.

cada nodo realiza una función específica. El subsistema de análisis empresarial utiliza un método de coincidencia
La composición del clúster se muestra en la Figura 3. Los nodos en basado en el marco de problemas de búsqueda y define algunos tipos de
tiempo real son responsables de la inyección de datos, el almacenamiento y problemas de búsqueda comunes. Esto se llama el marco del problema de
la respuesta a consultas de eventos recientes. De manera similar, el nodo de búsqueda. El subsistema crea una base de conocimiento de regla de fusión
cómputo histórico es responsable de cargar y responder consultas de eventos de posición de descomposición de intención de búsqueda basada en el marco
históricos. Los datos se almacenan en un nodo de almacenamiento. El nodo del problema. Introduce reglas de descomposición en la posición de
de almacenamiento puede ser un nodo de cómputo histórico o un nodo en descomposición de la intención de búsqueda. El subsistema estructuró la
tiempo real. Una consulta primero visita el nodo intermediario, que es intención de búsqueda compleja en una combinación lógica de problemas de
responsable de descubrir y enrutar la consulta a varios nodos de búsqueda atómica que interactúan y que pueden coincidir con el marco del
almacenamiento que contienen datos relevantes, y luego los nodos de problema de búsqueda para resolver la tarea de búsqueda atómica y fusionar
almacenamiento ejecutan las partes de su consulta en paralelo y devuelven inversamente los resultados de búsqueda de acuerdo con la relación de
los resultados al nodo intermediario. El nodo intermediario recibe estos descomposición.
resultados y los fusiona. Finalmente, el resultado final combinado se devuelve La granularidad de la tarea de búsqueda atómica se abstrae, cosifica y
al solicitante de la consulta. los corredores reestructura de manera adaptativa según

36518 VOLUMEN 8, 2020


Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

FIGURA 2. Diagrama esquemático del sistema de balanceo de carga y procesamiento de flujo.

encriptación, detección de vulnerabilidades, monitoreo de ataques y


administración de operación y mantenimiento de seguridad.

a: PLATAFORMA DE AUTENTICACIÓN DE IDENTIDAD DE CONFIANZA

El análisis de big data probablemente realizará la autenticación y


autorización de la identidad del usuario en los campos de seguridad de
la información, incluido SIEM (Gestión de eventos de seguridad de la
información), monitoreo de redes y otros campos. Además, el campo de
la seguridad de la información también incluye la gestión de identidades,
la detección de fraudes y la mayoría de los productos, que son suficientes
para traer cambios al mercado.
De hecho, los cambios provocados por el big data ya han comenzado.
Desde 2014, las principales agencias de seguridad han comenzado a
implementar soluciones de macrodatos para respaldar sus operaciones
FIGURA 3. Diagrama de organización del clúster. de seguridad. Las herramientas de análisis de datos desplegadas en el
soc (centro de operación y mantenimiento de seguridad) fueron todas
a las propias necesidades del usuario y las condiciones de la red para personalizadas, pero 2014 marcó el inicio de la comercialización real de
mejorar la eficacia de la búsqueda y reducir los gastos generales de la tecnología big data en el campo de la seguridad.
búsqueda. Primero configure un grupo de búfer para la tarea de En términos de supervisión de la red, el departamento gubernamental
búsqueda. Anote la fuente de información para cada tarea de búsqueda competente debe realizar la función de supervisión con el apoyo de
atómica. El subsistema fusiona tareas de búsqueda atómica homogéneas leyes, reglamentos, sistemas, estándares, normas, procesos, control de
basadas en la relación entre la fuente de información y las tareas de búsqueda atómica.
riesgos y mecanismos de trazabilidad pertinentes. Los objetos de
También formula una estrategia de programación concurrente para supervisión de red incluyen usuarios de red, agencias emisoras de
tareas de búsqueda atómica. Finalmente, el subsistema utiliza un certificados de identidad y agencias de servicios de autenticación de
algoritmo de fusión de datos para procesar los resultados de la búsqueda. identidad. Además, los objetos de supervisión de red también incluyen
Este método puede reducir la ambigüedad y la incertidumbre, y analizar sistemas comerciales de red y varios tipos de datos generados durante
y razonar la solución óptima. las actividades de la red.
Para cumplir con los requisitos de gestión unificada de la plataforma
4) DOMINIO DE SEGURIDAD de autenticación de identidad en la recopilación, el procesamiento y el
Las funciones de gestión de seguridad de plataforma abierta incluyen intercambio de copias de identificación, la construcción del sistema de
control de acceso, autenticación y autenticación, transmisión autenticación de identidad se referirá al software

VOLUMEN 8, 2020 36519


Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

plataforma, la plataforma enfrenta una gran cantidad de actos maliciosos, como


el acceso no autorizado y el robo de datos desde fuera de la plataforma y otros

usuarios. Estas acciones traen riesgos de seguridad a la industrialización y


comercialización de la plataforma.
Este sistema estudiará la realización de tecnología eficiente de detección de
comportamiento malicioso de máquinas virtuales a partir de los siguientes dos
aspectos. a) Plataforma dinámica, multidimensional y de grano fino

tecnología de autenticación de identidad y control de acceso


La plataforma se enfrenta a amenazas de seguridad como el robo de
identidad o la suplantación de identidad del usuario y el acceso no autorizado,
además de amenazas internas maliciosas.

Desde la perspectiva de la consulta de datos, por un lado, es necesario evitar


que la plataforma de servicios de terceros extraiga los patrones de acceso de
FIGURA 4. Marco general de la plataforma de autenticación de identidad confiable.
los usuarios, es decir, ofuscar la relación de mapeo entre los usuarios autorizados

y arquitectura hardware del sistema de gestión empresarial de seguridad pública. y sus datos accesibles desde la perspectiva del tercero. -plataforma de servicio

Este sistema se desarrolla en base a la población de seguridad pública y los de fiestas.

recursos de la base de datos de certificados. Por otro lado, las plataformas de servicios de terceros deben implementar un

Como se muestra en la Figura 4, la plataforma realiza una gestión eficaz y una control de acceso detallado a los datos a los que pueden acceder los usuarios

aplicación integral de autenticación de identidad y recopilación de copias. Este autorizados en la estructura binaria tradicional.

sistema también realiza el intercambio en tiempo real de datos de información Para resolver los problemas anteriores, necesitamos estudiar mecanismos

de autenticación nacional de la plataforma de primer nivel y la plataforma de de control de acceso y autenticación de identidad de plataforma que cumplan

segundo nivel. con los requisitos de un control de acceso eficiente, dinámico y detallado. A
través de la investigación anterior, se pueden garantizar las necesidades de
confianza de la plataforma para satisfacer a los usuarios y la seguridad de la
plataforma. b) Gestión y control de la seguridad en la nube basados en tecnología
de introspección de máquinas virtuales La tecnología de introspección de
máquinas virtuales (VMI) puede respaldar el monitoreo del estado operativo
dentro de la máquina virtual fuera de la máquina virtual para que el
comportamiento del usuario pueda detectarse fácilmente. Sin embargo, la
implementación de VMI determina los siguientes aspectos. El primero es el

grado de acoplamiento y versatilidad del sistema. El segundo es la dificultad de


obtener información semántica. El tercero es la autoseguridad y el ocultamiento.
El cuarto es la pérdida de rendimiento de la plataforma.

Aunque el método VMI altamente acoplado puede proporcionar información


semántica precisa, también provoca una pérdida considerable en el rendimiento
de la plataforma. Por lo tanto, la tecnología VMI de alta intensidad para todo
clima construida en máquinas virtuales y administradores de máquinas virtuales
FIGURA 5. Diagrama de estructura de la plataforma de autenticación de identidad confiable. va en contra de la filosofía de diseño de "eficiencia primero" de la plataforma y
no es muy útil en la práctica. Y la tecnología de análisis de comportamiento
Como se muestra en la Figura 5, la plataforma está dividida en dos capas. construida en el nivel de la red independientemente del host puede proporcionar
El Ministerio de Seguridad Pública ha establecido una copia del documento una vista del comportamiento de la red que se ejecuta dentro de la máquina
nacional de identidad para recopilar la plataforma de información de autenticación, virtual sin afectar el rendimiento del host del usuario. En particular, tiene un
que es el nodo de autenticación de la copia del documento nacional de identidad. mejor efecto de detección de ataques de red maliciosos, lo que es un poderoso
Además, el Ministerio de Seguridad Pública también llevó a cabo la construcción complemento para el uso de la tecnología VMI.
de una plataforma de autenticación de tarjetas de identificación confiable de

Internet industrial y emprendió tareas como la recopilación de información y la


autenticación de identidad en la industria de Internet industrial. c: MECANISMO DE RESPALDO

La plataforma abierta se basa en almacenamiento de clúster NoSQL distribuido


e implementa un mecanismo de copia de seguridad principal 2 para
b: SEGURIDAD EN LA NUBE Y CREDIBILIDAD DE UN CONFIABLE almacenamiento separado.
PLATAFORMA DE GRANDES DATOS ECONÓMICOS Como se muestra en la Figura 6, hay tres modos de almacenamiento de
Con el fin de implementar la tecnología de protección de seguridad de la datos: maestro->esclavo, esclavo <->esclavo y cíclico. Estos tres métodos de
plataforma para garantizar que los usuarios no se vean perjudicados por ataques en la almacenamiento de datos permiten que Trusted Industrial Internet

36520 VOLUMEN 8, 2020


Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

FIGURA 6. Esquema de respaldo plano. FIGURA 7. Marco de transmisión.

Plataforma Abierta para obtener datos de cualquier servidor y asegurarse acceder a él y generar nuevos flujos derivados. Estos flujos, a su vez, se
de que puede obtener todas las copias en otros servidores. En el caso de pueden proporcionar a estos sistemas. Los modelos de procesamiento de
una falla catastrófica en un centro de datos, las aplicaciones cliente pueden datos son más diversos y Hadoop ya no es una opción inevitable para
usar herramientas de DNS para redirigir a otra ubicación alternativa. El
construir plataformas de big data.
sistema proporciona "coherencia eventual", lo que significa que en cualquier En el modo de aplicación, el modo de procesamiento de big data
momento, finalmente se garantiza que los datos sean consistentes. continúa enriqueciéndose. El procesamiento por lotes, la computación de
transmisión, la computación interactiva y otras tecnologías están orientadas
C. MARCO DE TRANSMISIÓN a diferentes escenarios de demanda y continuarán enriqueciéndose y
Este sistema se basa en los requisitos en tiempo real del negocio. Hay desarrollándose.
Storm que admite el procesamiento en línea y Cloudar Impala. Además, hay En términos de tecnología de implementación, la computación en
Spark y el marco de procesamiento de flujo S4 que admite el cálculo iterativo. memoria seguirá siendo el principal medio para mejorar el rendimiento del
procesamiento de big data. En comparación con los métodos de
La tormenta es un sistema de cómputo en tiempo real distribuido, procesamiento de disco duro tradicionales, la computación de memoria ha
tolerante a fallas, desarrollado por BackType y luego capturado por Twitter. mejorado significativamente en rendimiento.
La tormenta es una plataforma de procesamiento de flujo, que se utiliza El proyecto de código abierto Spark se ha utilizado ampliamente en
principalmente para calcular y actualizar la base de datos en tiempo real. entornos comerciales prácticos y se ha convertido en la comunidad de
La tormenta también se puede utilizar para ''Cálculo continuo''. código abierto más grande en el campo de los grandes datos. Spark tiene
Storm realiza consultas continuas sobre el flujo de datos y envía los una variedad de marcos de computación, como computación de flujo,
resultados al usuario en forma de flujo durante el cálculo. También se puede consultas interactivas, aprendizaje automático y computación gráfica. Spark
utilizar en ''RPC distribuido'' para realizar operaciones en paralelo. es compatible con Java, Scala, Python, R y otras interfaces de lenguaje, lo
que mejora enormemente la eficiencia del uso de datos. Estas ventajas de
Cloudera Impala es un motor de consultas de procesamiento paralelo Spark han llamado la atención de muchos desarrolladores y desarrolladores
masivo (CMPP) de código abierto desarrollado por Cloudera. Tiene los de aplicaciones. Vale la pena señalar que el sistema Spark se puede
mismos metadatos, sintaxis SQL, controlador ODBC e interfaz de usuario construir en base a la plataforma Hadoop o ejecutarse de forma independiente
(HueBeeswax) que Hive. Puede proporcionar consultas SQL rápidas e sin depender de la plataforma Hadoop.
interactivas directamente en HDFS o HBase.
Impala es un motor de consultas desarrollado bajo la inspiración de Muchos puntos críticos de nuevas tecnologías se integran continuamente
Dremel. Ya no utiliza el procesamiento por lotes lento de Hive + MapReduce, en el modelo diversificado de big data, formando un camino de desarrollo
sino que utiliza un motor de consultas distribuidas (compuesto por 3 partes: más diverso y equilibrado, y también satisfaciendo las diversas necesidades
Query Planner, Query Coordinator y QueryExec Engine) similar a las bases de big data. El autor propone vincular e integrar conscientemente la
de datos relacionales paralelas comerciales. investigación y el desarrollo de big data en la ecología de la tecnología de
Impala puede consultar datos directamente desde HDFS o HBase usando big data, o utilizar los resultados de la ecología de la tecnología, o retribuir
SELECT, JOIN y funciones estadísticas, lo que reduce considerablemente a la ecología de la tecnología.
la latencia. En términos de tecnología de aprendizaje, el análisis profundo seguirá
La Figura 7 es una arquitectura centrada en la secuencia construida siendo un representante, impulsando la aplicación de inteligencia de big
sobre Apache Kafka. data en todo momento. La inteligencia mencionada aquí enfatiza
En la Figura 7, Kafka solo se usa como una canalización de datos de especialmente la extensión de las capacidades relacionadas, como la
propósito general. Cada sistema puede alimentar datos a kafka y también predicción de decisiones y la recomendación precisa.
puede alimentar datos de él. Las aplicaciones o los procesadores de flujo pueden Estas extensiones que implican el pensamiento, la influencia y la

VOLUMEN 8, 2020 36521


Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

la comprensión se convertirá en las direcciones de aplicación clave para el El principio básico del método de evolución diferencial es seleccionar
análisis profundo de datos. aleatoriamente 3 individuos diferentes, realizar un procesamiento de escala
En comparación con los algoritmos tradicionales de aprendizaje automático, diferencial en 2 de ellos y fusionar el resultado procesado con el 1 individuo
el aprendizaje profundo propone un método para que una computadora genere restante para finalmente realizar la recombinación y mutación de los individuos
funciones automáticamente e integre el aprendizaje de funciones en el proceso de la población.
de creación de modelos, lo que reduce la incompletitud causada por las y obtener,
funciones de diseño artificial. Con la ayuda de modelos de redes neuronales
Vi(g + 1) = Xr1(g) + F × (Xr2 (g) ÿ Xr3 (g)) (2)
profundas, el aprendizaje profundo puede extraer características de manera
más inteligente en diferentes niveles de los datos. Este método permite una
En la Ecuación (2), Vi (g) representa el i-ésimo individuo de datos en la g-
representación más precisa y eficaz de los datos.
ésima población. Para tres individuos Xr1(g), Xr2(g) y Xr3(g) seleccionados al
Y cuanto mayor sea la cantidad de muestras de capacitación, más ventajoso
azar, F es el factor de escala. En el método estándar de evolución diferencial, F
será el algoritmo de aprendizaje profundo sobre los algoritmos tradicionales de
es un valor fijo.
aprendizaje automático.
Si el valor de F no es razonable, se presentará el problema de madurez
En la actualidad, el aprendizaje profundo ha logrado grandes avances en
prematura de la población, lo que afectará seriamente la velocidad de
áreas donde los datos de muestra de entrenamiento son fáciles de acumular,
convergencia del algoritmo. Para acelerar la velocidad de convergencia y
como la clasificación de imágenes, el reconocimiento de voz, los sistemas de
obtener la solución óptima global, se propone una estrategia de ajuste dinámico
respuesta a preguntas y otras aplicaciones, y ha logrado aplicaciones
de F en función del grado de diferencia poblacional.
comerciales exitosas.
Se predice que a medida que más y más industrias y campos mejoren
La connotación de diferencia de población es que en un espacio de
gradualmente la recopilación y el almacenamiento de datos, la aplicación del
población, todos los individuos en el espacio se agrupan para obtener el número
aprendizaje profundo se generalizará. Debido a la complejidad de las
de grupos de población. Los individuos en este espacio tienen ciertas diferencias.
aplicaciones de big data, la fusión de múltiples métodos será una norma
Si la diferencia es mayor, significa que cuanto más uniforme sea la distribución
constante.
individual en el espacio, más probable es que se obtenga una solución
globalmente óptima.
D. PRINCIPIOS DE SEGURIDAD ALERTA TEMPRANA
En la etapa inicial de evolución diferencial, para diversificar la población
El método de evolución [9], como método de búsqueda que utiliza la diferencia
individual, F se ajusta dinámicamente por la Ecuación (3).
de datos económicos, este sistema utiliza este método para realizar alertas
tempranas de seguridad de datos financieros bajo análisis de big data.
Los parámetros del método de evolución diferencial incluyen principalmente
(3)
el tamaño de la población, el factor de escala y la probabilidad cruzada. de lo contrario
F ÿ(g(Fmáx
F (g) = ( Fmáx - 1) ÿ Fmín) Xi (g) > ÿ1
En el método de evolución diferencial estándar, el factor de escala y la
probabilidad de cruce son fijos. Si es demasiado grande o demasiado pequeño, En la Ecuación (3), Fmax y Fmin Los valores máximo y mínimo del factor
afectará la capacidad de búsqueda del método, lo que dará como resultado una de escala. Representan el umbral de iteración establecido. La operación cruzada
alerta temprana de seguridad de datos económicos de baja calidad bajo el se realiza en el individuo de datos objetivo Xi y el individuo mutante Vi en la
análisis de big data. Necesitamos optimizar el método de evolución diferencial población de datos para producir un nuevo individuo Ui , luego:
para que el factor de escala y la probabilidad de cruce puedan ajustarse en
cualquier momento de acuerdo con la convergencia actual de los datos
económicos, a fin de mejorar el rendimiento de convergencia del método y
(4)
garantizar la eficacia de la alerta temprana de los datos económicos. datos bajo de lo contrario
Uij (g + 1) = ( vij (g + xij (g + 1)
1)rand < CR, j = jrand
análisis de big data.
En la Ecuación (4), rand es un número aleatorio de distribuciones aleatorias

Para optimizar la función base de la red ÿi y el peso de la conexión wji de la entre (0,1). jrand es una distribución entera aleatoria entre [1, N]. CR representa
probabilidad cruzada. Después,
evolución diferencial, usamos el método de codificación de números reales y lo
configuramos de la siguiente manera. ÿ gramo

CRmín, < ÿ2
S = {X1, X2, . . . , Xn} representa la población inicial de los datos, CR = gmin (5)
ÿ
donde N es el número de poblaciones de los datos, Xi es cualquier individuo en de lo contrario
ÿ CRmáx ,
la población de datos y los datos se inicializan. Después,
En la Ecuación (5), CRmin y CRmax representan los valores máximo y
mínimo de la probabilidad cruzada. ÿ2 representa el cruce original sobre la

(1) probabilidad del ajuste.


wji= =ÿmin
( ÿi rand+(0, 1) (0, 1) × (ÿmax ÿ ÿmin)
rand El método de evolución diferencial utiliza principalmente una estrategia de
competencia uno a uno para seleccionar el conjunto de datos económicos óptimo.
En la Ecuación (1), rand (0,1) representa un número aleatorio uniformemente
En función de la aptitud, se eliminan el candidato competitivo Ui (g+1) y el
distribuido entre (0,1), ÿmax = argmax i6=i,i=1,2...h centro de un nodo de
correspondiente individuo coincidente Xi (g).
datos. El número de nodos decidatos
(abs ÿ cj ),esci h.
y cj representa el
El individuo ganador será seleccionado para la siguiente población. Este
proceso se repite hasta que la solución óptima global

36522 VOLUMEN 8, 2020


Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

del método se obtiene. Esto puede realizar alertas tempranas de seguridad


avanzada de datos económicos bajo análisis de big data. Después,

f (Ui (g + 1)) < f (Xi (g))


(6)
Xi (g1) = ( Xi (g)Ui (g + 1) de lo contrario

En la Ecuación (6), f (·) una función que representa la aptitud de un


individuo.

De acuerdo con la discusión anterior, al ajustar el factor de escala y la


probabilidad de cruce del método de evolución diferencial, se mejora el
rendimiento de convergencia del método y se realiza una alerta temprana de
seguridad de datos económicos bajo análisis de big data. FIGURA 8. Aplicación de big data en la industria financiera.

IV. ANÁLISIS DE CASO DE RIESGO DE CRÉDITO BANCARIO condiciones ambientales. Conveniente para que los bancos evalúen y analicen
El rápido desarrollo de Internet y sus aplicaciones ha producido una variedad a los prestamistas antes de prestar.
de datos masivos estructurados y no estructurados. Su almacenamiento y El análisis de riesgo crediticio basado en macrodatos se refiere a la
procesamiento han enfrentado desafíos sin precedentes, y muchas tecnologías capacidad de los bancos para analizar su capacidad de realizar pagos a
relacionadas nunca se han estudiado. tiempo y predecir la probabilidad de préstamos incobrables en función de la
información completa de los clientes en tiempo real después del préstamo, a
Con el desarrollo explosivo de la sociedad y la producción, han surgido fin de esperar la entrega oportuna. detección de préstamos incobrables y
nuevos tipos de ciudades inteligentes y comunidades inteligentes. Además, la alerta temprana.
informatización en el transporte, las comunicaciones, la energía y otras El análisis de riesgo de crédito existente se centra en la gestión del crédito.
industrias también ha producido una gran cantidad de datos. Este tipo de análisis de riesgo carece de análisis dinámico y alerta oportuna.
Los métodos principales son el método del sistema experto, el método de
Entre las grandes cantidades de datos generados por diversas industrias, análisis de características y el método de calificación crediticia. El método del
el tamaño y la solidez de los datos en el sector financiero ocupan el primer sistema experto tiene fuertes factores subjetivos, pero el nivel desigual de
lugar en la industria. Por lo tanto, la aplicación de la tecnología de big data en expertos conduce a un descubrimiento y una gestión del riesgo crediticio
la industria financiera es muy necesaria y tiene un gran potencial. inestables e inexactos. El método de análisis de características se basa en un
análisis unilateral de información básica del cliente, información financiera y
En la actualidad, las fuentes de big data que se pueden utilizar para el datos bancarios internos. Por lo tanto, es necesario mejorar la precisión de
análisis del riesgo crediticio se dividen principalmente en tres categorías [10], este método. El método de calificación crediticia se basa en los diferentes
que son información relacionada con el cliente dentro del banco, información indicadores crediticios del prestatario, ponderados de manera diferente y
de la industria y la cadena de suministro, y datos externos. calculados utilizando un modelo estadístico matemático simple. El método de
Los datos de información internos y relacionados con el cliente del banco
calificación crediticia tiene un único método de análisis y solo es adecuado
incluyen información básica del cliente, datos de transacciones, datos para el análisis estático. No puede hacer frente a situaciones repentinas o
financieros, etc. La información de la industria y la cadena de suministro potencialmente complicadas.
incluye las perspectivas y el estado de la industria, las relaciones públicas
sociales y el funcionamiento de las empresas de la cadena de suministro. Los La advertencia de riesgo interno basada en big data se refiere al análisis
datos externos incluyen información sobre redes sociales, mercados de de comportamientos anormales de los expertos financieros en función de la
capitales, motores de búsqueda y sitios web relacionados. información personal de los empleados, información sobre herramientas de
comunicación interna, información enviada por correo electrónico, acceso a
A. ANTECEDENTES DE LA APLICACIÓN DEL ANÁLISIS DE RIESGO DE redes externas y tráfico de red. Esta alerta temprana de riesgos internos
CRÉDITO EN LA INDUSTRIA FINANCIERA puede prevenir riesgos dentro de las empresas financieras y garantizar el
El análisis de riesgo crediticio basado en big data puede integrar la mayor funcionamiento estable de los mercados financieros [12].
cantidad de información posible. El análisis comprensivo del objeto de análisis El método principal para prevenir amenazas internas en el sistema
tiene las características de masa, forma cambiante, fragmentación, etc. [11]. financiero es construir un modelo de auditoría que pueda actualizarse
iterativamente y tenga una función de aprendizaje basada en big data.
Las aplicaciones en el sector financiero permiten un análisis completo de Este modelo analiza exhaustivamente el comportamiento sospechoso de los
las personas. Estas aplicaciones implementan análisis de crédito, análisis de usuarios y realiza la detección de riesgos internos. Este método parte

riesgo de crédito y alerta temprana de riesgo interno basada en big data. específicamente de dos aspectos de horizontal y vertical.
Además, hay análisis de riesgo de la industria y la extracción de valor del Entre ellos, el análisis horizontal se refiere a los métodos de aprendizaje
cliente. automático basados en big data para calcular valores atípicos de personas
Como se muestra en la Figura 8, el análisis crediticio puede llevar a cabo con comportamiento anormal desde las perspectivas general y local.
un análisis integral y sistemático del carácter moral, la capacidad de pago, la El análisis vertical se basa en el comportamiento histórico de los empleados
solidez del capital, la garantía y la calidad del deudor. internos, estadísticas de patrones de comportamiento y luego se encuentra

VOLUMEN 8, 2020 36523


Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

si hay actividad anormal. El modelo utiliza un análisis de riesgo interno basado información de evaluación de productos y datos de redes sociales. Esta
en big data para formular los procedimientos y medidas de control información puede mejorar la falta de información interna del banco, mejorar la
correspondientes para el personal clave en posiciones sensibles en la industria precisión y efectividad oportuna del análisis de riesgo de crédito.
financiera para reducir las amenazas y ahorrar costos.
Analizando desde la forma de datos, big data tiene datos en múltiples
El descubrimiento de clientes basado en el valor basado en big data formatos. Incluye datos estructurados e incluye datos no estructurados. Esto
consiste en descubrir clientes potenciales a través de la información de plantea desafíos tanto para el almacenamiento como para el análisis de datos.
transacciones del cliente y las ubicaciones de transacciones seleccionadas,
así como otra información externa. También realiza recomendaciones y Desde la perspectiva de los métodos de análisis, debido a que los datos
marketing de productos financieros en función de las características de son particularmente grandes, los datos provienen de múltiples fuentes y las
comportamiento del cliente [13]. Por ejemplo, de acuerdo con el nivel de formas son diversas y fragmentadas, en términos de extracción de
educación del cliente, la industria de trabajo, la posición, la edad, el género, el características de datos, es necesario excluir los datos relacionados con la
historial de transacciones pasadas y otras características, analice las extracción de datos de interferencia. Estas características hacen que el método

preferencias del cliente y realice las recomendaciones de productos financieros de extracción de características sea especialmente importante. Además,
correspondientes. Este método puede determinar si el cliente tiene el potencial también es necesario analizar los datos relevantes extraídos utilizando métodos
de convertirse en un cliente clave en el futuro. Sobre esta base, se formulan apropiados de aprendizaje automático, para descubrir las conexiones entre los
diferentes estrategias de servicio para diferentes tipos de clientes. Este método datos masivos y el significado subyacente.
puede retener a los clientes existentes y desarrollar clientes potenciales. Por lo tanto, los métodos de análisis de big data son más desafiantes que los
métodos de análisis tradicionales [15].
Además, este método también puede lograr una gestión refinada, mejorar la El análisis de riesgo crediticio basado en big data utiliza big data de
asignación de recursos de la industria financiera y hacer contribuciones múltiples fuentes y técnicas avanzadas de análisis de big data para ayudar a
detalladas al desarrollo estable y sólido del mercado financiero. la industria financiera a proporcionar alertas tempranas más precisas sobre los
riesgos crediticios. Y este método puede garantizar la puntualidad de los

El análisis de riesgos de la industria basado en big data significa que los resultados de las previsiones y puede proporcionar a los bancos un análisis
bancos comprenden los riesgos de varias industrias al comprender el estado preciso orientado a la orientación y un apoyo eficaz para la formulación de
actual y las perspectivas de varias industrias y combinar información del políticas crediticias.
gobierno, el mercado, la empresa y la red. Este método formula diferentes
ventas, recomendaciones y estrategias de stop-loss basadas en las diferencias C. ALMACENAMIENTO DE GRANDES DATOS Y TECNOLOGÍA DE COMPUTACIÓN

entre industrias mientras maximiza las ganancias y evita posibles riesgos. Los Hadoop es una plataforma de administración y almacenamiento distribuido
bancos pueden cambiar la estrategia crediticia y el índice de distribución de simple adecuada para procesar big data. Puede desarrollarse en combinación
fondos en varias industrias en tiempo real en función de los resultados del con un marco escrito en el lenguaje Java y puede integrarse con el marco Java
análisis de la industria. Esta es una medida efectiva para que los bancos SSH desarrollado por la plataforma de análisis de crédito y alerta temprana.
reduzcan efectivamente el riesgo crediticio, lo que puede aumentar
efectivamente la entrada de fondos. Hadoop es de código abierto con las ventajas de bajo costo, alta confiabilidad
y alta velocidad de procesamiento. Esto hace que Hadoop sea muy adecuado
para el análisis de riesgo crediticio y los sistemas de alerta temprana. Esta
B. ANÁLISIS DEL RIESGO DE CRÉDITO Y plataforma de sistema utiliza Hadoop como soporte para el almacenamiento y
MÉTODOS DE ADVERTENCIA la computación de big data.
En la actualidad, los bancos avanzados internacionalmente han integrado de
manera integral la información del cliente para una evaluación integral basada 1) TECNOLOGÍA DE ALMACENAMIENTO DE DATOS
en el análisis de big data, y calculan dinámicamente y en tiempo real la BASADA EN HDFS El sistema distribuido de Hadoop (HDFS) se utiliza para
probabilidad de préstamos incobrables. Esto reduce en gran medida la almacenar grandes cantidades de datos [16] y es un componente del sistema
confiabilidad del cobro de créditos bancarios y la implementación de la de archivos distribuido. El llamado almacenamiento distribuido se refiere a un
estrategia [14]. La principal estrategia de implementación es que el banco método de almacenamiento eficiente y confiable en el que varios servidores
analice los datos relevantes de las empresas crediticias existentes antes del pueden realizar operaciones de almacenamiento y computación en paralelo.
préstamo, evalúe el riesgo crediticio de la empresa y realice la inspección a Hadoop puede asignar recursos de almacenamiento de forma dinámica a
través del análisis integrado de big data en la etapa posterior. través de cálculos en tiempo real durante el proceso de almacenamiento, lo
que aumenta significativamente la utilización de recursos.

Big data es muy diferente de los métodos tradicionales de análisis de La arquitectura general de HDFS sigue el almacenamiento modular,
riesgos. Estas diferencias incluyen la fuente, las dimensiones, la forma y el interactivo y jerárquico. Primero, el almacenamiento modular significa que
método de análisis de los datos. HDFS almacena los metadatos del sistema y los datos de la aplicación en el
Desde la fuente de datos y el análisis dimensional, el análisis de riesgo de servidor NameNode y el servidor DataNode, respectivamente.
crédito basado en big data introduce datos de terceros además de los datos Los metadatos se refieren a datos que describen las características de los
existentes en el banco. Por ejemplo, información de plataformas de datos y la información de atributos. Todos los servidores se comunican entre

transacciones de terceros, información de pagos de terceros, información de sí a través de protocolos de control de transmisión. En segundo lugar, el
logística y compras en línea, almacenamiento interactivo significa que el servidor DataNode almacena

36524 VOLUMEN 8, 2020


Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

copias de seguridad de datos en varios otros servidores DataNode para la protección problema de que los datos no se pueden operar en la memoria porque los datos son
de datos. Hadoop utiliza almacenamiento interactivo para lograr la confiabilidad del demasiado grandes.
almacenamiento y no utiliza mecanismos de protección de datos como el Sistema de Este ejemplo presenta primero la relación entre Big Data y el riesgo de crédito y
archivos virtuales paralelos (PVFS). Esta estrategia tiene la ventaja adicional de la analiza desde cinco aspectos: análisis de crédito, análisis de riesgo de crédito,
duplicar el ancho de banda de transmisión de datos al tiempo que garantiza la advertencia de riesgo interno, valor de los clientes y análisis de riesgo de la industria.
durabilidad y estabilidad de los datos. La tesis se centra en la aplicación de big data en el análisis del riesgo de crédito.
El almacenamiento jerárquico se refiere a que el espacio de nombres HDFS está Además, el documento también explica la necesidad y los desafíos del riesgo
representado por el inodo mediante una estructura jerárquica basada en archivos y crediticio basado en big data. La segunda sección es el almacenamiento de datos y
directorios. Los archivos y directorios en diferentes inodos registran operaciones de la tecnología informática. Este documento presenta la tecnología de almacenamiento
datos e información de atributos de espacio. distribuido de Hadoop (HDFS) y la tecnología informática de macrodatos de
Un cliente HDFS crea un nuevo archivo como se muestra en la Figura 9. MapReduce y resuelve los problemas informáticos y de almacenamiento de
El cliente debe consultar primero el servidor de NameNode para obtener los bloques macrodatos del sistema de análisis de distribución de crédito basado en macrodatos
de archivos en el primer DataNode. Luego, según la estrategia de punto a punto, se de múltiples fuentes.
obtiene el siguiente bloque de archivos para formar un canal de escritura de archivos
hasta que se completa la escritura de archivos.
La estrategia de almacenamiento anterior aumenta el rendimiento al tiempo que V. RESUMEN Este

garantiza el almacenamiento confiable de big data, por lo que la arquitectura de documento presenta los métodos emergentes de tecnología de la información
almacenamiento basada en HDFS es muy adecuada para el almacenamiento de big utilizados en el análisis de alerta temprana de riesgos para la seguridad económica
data de múltiples fuentes en este sistema. nacional.
Explicamos el diseño de la arquitectura general a la ruta técnica detallada. Nos
enfocamos en las tecnologías de seguridad de la plataforma y un breve resumen del
género de la tecnología del marco de transmisión. Además, llevamos a cabo una
investigación preliminar sobre la aplicación de tecnologías de la información
emergentes, como macrodatos y computación en la nube, en la simulación de
seguridad económica y la práctica de alerta temprana. Además, analizamos la
aplicación de la tecnología de análisis de big data en la alerta temprana de riesgo de
crédito bancario. Esto brinda la posibilidad y el camino para la alerta temprana y la
simulación de riesgos de seguridad económica nacional.

En el futuro, se seleccionarán más tecnologías para la plataforma de alerta


temprana, por ejemplo, consideraremos agregar procesamiento de datos en tiempo
real [17], [18], soporte de decisiones de expertos [19], etc. Además, también
consideraremos abriendo la plataforma [20]–[25] para que la utilicen más
investigadores y formuladores de políticas como un puente para la academia, la
industria y el gobierno.

FIGURA 9. Proceso de almacenamiento de archivos basado en el marco HDFS.


REFERENCIAS
[1] Y. Zhang, Y. Xu, ZY Dong, Z. Xu y KP Wong, "Alerta temprana inteligente del riesgo de inseguridad
dinámica del sistema de energía: Hacia una compensación óptima entre precisión y rapidez", IEEE
2) BASADA EN TECNOLOGÍA DE REDUCCIÓN DE DATOS
Trans. Ind. Informat., vol. 13, núm. 5, págs. 2544–2554, octubre de 2017.
EN MAPA REDUCIR
MapReduce se utiliza para procesar y generar grandes conjuntos de datos. [2] MA Abiad, Sistemas de alerta temprana: una encuesta y un enfoque de cambio de régimen, núms. 3–
32. Washington, DC, EE. UU.: FMI, 2003.
Puede calcular estos conjuntos de datos en paralelo en varias máquinas grandes en
[3] YZ Wang, JJ Hou y Z.-Z. Liu, ''Un estudio de los modelos económicos de alerta temprana'', J. Hum.
clúster para manejar las fallas de las máquinas. MapReduce utiliza de manera eficaz Universidad (Ciencias Sociales), vol. 2, págs. 27 a 31, febrero de 2004.
la red y los discos al programar la comunicación entre máquinas para cumplir con [4] R. Ong, Los intereses de seguridad de China en el siglo XXI. Evanston, Illinois, EE. UU.:
Routledge, 2007.
una variedad de tareas del mundo real.
[5] ZHW Lei, ''El sistema de medición de la seguridad económica de China en el contexto de la
globalización'' , Estudio de la economía mundial, vol. 1, págs. 8 a 13, enero de 2011.
Se ha acordado que MapReduce se utilice para completar tareas de computación
[6] LD Xu y X. Hu, ''La viabilidad y la contramedida de reducir la injusticia ambiental de las regiones
de big data. En promedio, se ejecutan 100 000 tareas en MapReduce todos los días.
subdesarrolladas'', J. Kunming Univ.
El clúster MapReduce de Google puede completar alrededor de 20 pb de datos por ciencia Tecnología (Ed. de Ciencias Sociales), vol. 1, págs. 7 a 11, enero de 2012.
día. [7] EM Akhmetshin y VL Vasilev, ''El control como instrumento de gestión e institución de seguridad
económica'', Acad. Gerencia Estratégica.
Los cálculos de MapReduce utilizan un conjunto de pares clave-valor de entrada
J., vol. 15, pág. 1 de enero de 2016.
y un conjunto de pares clave-valor de salida. Expresa los cálculos como dos
[8] H. Zhou, Y. Qiu y Y. Wu, "Un sistema de alerta temprana para la evaluación del riesgo crediticio basado
funciones, mapa y reduce. MapReduce usa pares clave-valor para pasar datos a la en la simulación de eventos raros", en Proc. Conferencia de simulación asiática. Cham, Suiza:
Springer, 2007, págs. 85–94.
función reduce. La función puede concatenar todos los pares clave-valor de datos y,
[9] X. Li, Q. Wang, L. Yang y X. Luo, "Método de conocimiento de la situación de seguridad de la red
a través del cálculo, puede formar un pequeño conjunto de valores, que pueden tratar basado en la visualización", en Proc. 3° Int. Conf. Información multimedia Neto. Secur., noviembre
con la de 2011, págs. 411–415.

VOLUMEN 8, 2020 36525


Machine Translated by Google
Y. Liang et al.: Plataforma de alerta temprana y análisis de macrodatos financieros: estudio de caso

[10] S. Piramuthu, ''Selección de características para decisiones de evaluación de riesgo de crédito FANG WANG recibió el Ph.D. Licenciado en
financiero'', informa J. Computing, vol. 11, núm. 3, págs. 258–266, agosto de 1999. Estadísticas de la Universidad Jiaotong de Beijing,
[11] A. McAfee, E. Brynjolfsson, TH Davenport, DJ Patil y D. Barton, ''Big data: The management Beijing, China. Actualmente ocupa un puesto
revolution'', Harvard Bus. Rev., vol. 90, núm. 10, págs. 60 a 68, 2012. posdoctoral en la Universidad Jiaotong de Beijing. Su
investigación principal se relaciona con la teoría de
[12] FL Greitzer, JR Strozer, S. Cohen, AP Moore, D. Mundie y J. Cowley, ''Análisis de amenazas
juegos, el aprendizaje automático, la economía industrial y la segurid
internas no intencionales derivadas de hazañas de ingeniería social'', en Proc. Seguridad
IEEE. Talleres de privacidad, mayo de 2014, págs. 236–250.

[13] M. Zineldin, ''La calidad y la gestión de las relaciones con los clientes (CRM) como estrategia
competitiva en la industria bancaria sueca'', TQM Mag., vol. 17, núm. 4, págs. 329–344, agosto
de 2005.
[14] B. Fang y P. Zhang, ''Grandes datos en las finanzas'', en Big Data Concepts, Theo ries, and
Applications. Cham, Suiza: Springer, 2016, págs. 391–412.
[15] M. Bennett, ''La ontología empresarial de la industria financiera: mejores prácticas para big data'',
J. Banking Regulation, vol. 14, núms. 3–4, págs. 255–268, julio de 2013.
[16] K. Shvachko, H. Kuang, S. Radia y R. Chansler, ''El sistema de archivos distribuido de Hadoop'',
en Proc. MSST, vol. 10, 2010, págs. 1 a 10.
XIAOJUN JIA recibió el Ph.D. Licenciado en economía
[17] J. Dean y S. Ghemawat, "Mapreduce: procesamiento de datos simplificado en grandes grupos",
por la Universidad Renmin de China, Beijing, China.
Commun. ACM, vol. 51, núm. 1, págs. 107 a 113, 2008.
Actualmente es Profesora Asociada en el Centro de
[18] D. Zhang, ''Análisis de big data del sistema de control de trenes de alta velocidad basado en el
Beijing para la Investigación de Desarrollo y Seguridad
modelo RDF difuso y razonamiento incierto'', Int. J. Comput., Comun.
Control, vol. 12, núm. 4, págs. 577–591, 2017.
Industrial, Universidad Jiao tong de Beijing. Su principal
[19] D. Zhang, J. Sui y Y. Gong, "Generación de datos de prueba de software a gran escala basada investigación se relaciona con las finanzas públicas, las
en la restricción colectiva y el método de combinación ponderada", Tech. finanzas, la economía industrial y la seguridad industrial.
Gaceta, vol. 24, núm. 4, págs. 1041–1049, 2017.
[20] S. Sagiroglu y D. Sinanc, "Big data: A review", en Proc. En t. Conf.
Tecnología de colaboración. sist. (CTS), mayo de 2013, págs. 42–47.
[21] RAA Habeeb, F. Nasaruddin, A. Gani, IAT Hashem, E. Ahmed y M. Imran, "Procesamiento de big
data en tiempo real para la detección de anomalías: una encuesta", Int. J.Inf. Administrar., vol.
45, págs. 289–307, abril de 2019.
[22] H. Atlam, R. Walters y G. Wills, ''Fog computing e Internet de las cosas: una revisión'', Big Data
Cognit. Computación, vol. 2, núm. 2, pág. 10, 2018.
[23] D.-H. Shih, H.-L. Hsu y P.-Y. Shih, ''Un estudio del sistema de alerta temprana en la evaluación
del riesgo de explosión de volumen de existencias con una plataforma de big data'', en Proc.
IEEE 4th Int. Conf. Computación en la nube. Anal de grandes datos. (ICCCBDA), abril de MENGGANG LI recibió el Ph.D. Licenciatura en
2019, págs. 244–248. economía aplicada de la Universidad Jiaotong de
[24] S. Li y H. Yu, ''Ecosistema de análisis de información financiera y big data: Fortalecimiento de la Beijing, Beijing, China. Actualmente es Decano de la
información personal bajo la regulación legal'', Inf. sist. Autobús E. Administrar., vol. 17, págs. Academia Nacional de Seguridad Económica de la
1 a 19, enero de 2019. Universidad Jiaotong de Beijing, Director del Laboratorio
[25] Z. Lv, X. Li y K.-K.-R. Choo, ''Plataforma de big data multimedia de gobierno electrónico para la de Ingeniería de Alerta Temprana de Seguridad
gestión de desastres'', Multimedia Tools Appl., vol. 77, núm. 8, págs. 10077–10089, abril de Económica Nacional de Beijing, Director de Filosofía y
2018.
Ciencias Sociales de Beijing Base de Investigación de
Desarrollo y Seguridad Industrial de Beijing, y el
Presidente del Comité Profesional de IEEE en Logística,
YI LIANG actualmente está cursando el Ph.D.
Informática y Sistema de Seguridad Industrial. Su investigación actual se refiere a la
Licenciado en economía aplicada por la Escuela de
seguridad económica nacional, la economía industrial y la seguridad industrial.
Economía y Gestión de la Universidad Jiaotong de
Beijing, Beijing, China. Su investigación actual está
relacionada con la economía industrial y la seguridad industrial.

DAIYONG QUAN recibió el Ph.D. Licenciado en TING LI actualmente está cursando el Ph.D. Licenciado
Ciencias de la Computación de la Universidad de la en economía aplicada por la Escuela de Economía y
Academia de Ciencias de China, Beijing, China, en Gestión de la Universidad Jiaotong de Beijing, Beijing,
2016. Actualmente es Ingeniero Superior de Archivos China. Su investigación actual está relacionada con la
de la Universidad de Ciencia y Tecnología de Beijing, seguridad industrial y la estructura industrial.
China. Sus intereses de investigación incluyen
algoritmos inteligentes, modelo de predicción de riesgo
económico y protección de activos digitales.

36526 VOLUMEN 8, 2020

También podría gustarte