Articulo 11

Machine Translated by Google
Revista de sistemas de información de gestión
ISSN: 07421222 (Impreso) 1557928X (En línea) Página de inicio de la revista: http://www.tandfonline.com/loi/mmis20
Aprovechar los datos de las redes sociales financieras para

Detección de fraude corporativo
Wei Dong, Shaoyi Liao y Zhongju Zhang
Para citar este artículo: Wei Dong, Shaoyi Liao y Zhongju Zhang (2018) Aprovechamiento de datos de redes
sociales financieras para la detección de fraude corporativo, Journal of Management Information Systems,
35:2, 461487, DOI: 10.1080/07421222.2018.1451954
Para vincular a este artículo: https://doi.org/10.1080/07421222.2018.1451954
Ver material complementario
Publicado en línea: 15 de mayo de 2018.
Envíe su artículo a esta revista.
Vistas del artículo: 23
Ver artículos relacionados
Ver datos de Crossmark
Los términos y condiciones completos de acceso y uso se pueden encontrar

en http://www.tandfonline.com/action/journalInformation?journalCode=mmis20
Aprovechar los datos de las redes sociales financieras para

Detección de fraude corporativo
WEI DONG, SHAOYI LIAO Y ZHONGJU ZHANG
WEI DONG (weidong1@mail.ustc.edu.cn) es un doctorado. Candidato en Ciencias de la

Gestión e Ingeniería en la Escuela de Gestión de la Universidad de Ciencia y Tecnología
de China. Está en un programa de doctorado conjunto con la City University de Hong Kong.
Sus intereses de investigación incluyen las redes sociales, la minería de textos y la
inteligencia empresarial. Ha publicado en el European Journal of Operational Research.
SHAOYI LIAO (issliao@cityu.edu.hk) Es profesor del Departamento de Sistemas

de Información de la Universidad de la Ciudad de Hong Kong. Obtuvo su doctorado.
en sistemas de información de la Universidad de AixMarseille, Francia. Su
investigación se centra en inteligencia artificial, inteligencia empresarial y análisis
de redes sociales. Ha publicado en MIS Quarterly, INFORMS Journal on Computing,
Decision Support Systems y ACM Transactions on Management Information
Systems, entre otros.
ZHONGJU ZHANG (Zhongju.Zhang@asu.edu; autor correspondiente) es codirector del Actionable

Analytics Lab y profesor asociado de sistemas de información en la Escuela de Negocios WP Carey
de la Universidad Estatal de Arizona. Su investigación se centra en cómo la tecnología de la
información y el análisis de datos impactan el comportamiento del consumidor y la toma de
decisiones, crean valor comercial y transforman los modelos comerciales. Su trabajo ha aparecido
en las principales revistas académicas, incluidas Information Systems Research, Journal of
Management Information Systems, MIS Quarterly, Production and Operations Management,
INFORMS Journal on Computing y otras. Ha obtenido numerosos premios de investigación y
docencia.
RESUMEN: El fraude corporativo puede provocar pérdidas financieras importantes y causar un

daño inmensurable a la confianza de los inversores y a la economía en general. La detección de
tales fraudes es una tarea desafiante y que requiere mucho tiempo. Tradicionalmente, los
investigadores se han basado en datos financieros y/o contenido textual de los estados financieros
para detectar fraudes corporativos. Guiados por la teoría de la lingüística funcional sistémica (SFL),
proponemos un marco analítico que aprovecha datos no estructurados de plataformas de redes
sociales financieras para evaluar el riesgo de fraude corporativo. Reunimos un conjunto de datos
único que incluye 64 empresas fraudulentas y una muestra combinada de 64 empresas no
fraudulentas, así como los datos de las redes sociales antes de la supuesta infracción de fraude por
parte de la empresa en las Comunicaciones de Cumplimiento de Contabilidad y Auditoría (AAER).
Nuestro marco extrae automáticamente señales como características de sentimientos, características
de emociones, características de temas, características léxicas y características de redes sociales,
que luego se introducen en clasificadores de aprendizaje automático para la detección de fraude.
Evaluamos y comparamos el rendimiento de nuestro algoritmo con enfoques de referencia utilizando
únicamente ratios financieros y características basadas en el lenguaje, respectivamente. Validamos
aún más la solidez de nuestro algoritmo detectando información y rumores filtrados, probando el algoritmo en un nuevo conjun
Revista de Sistemas de Información de Gestión / 2018, vol. 35, núm. 2, págs. 461–487.
Derechos de autor © Taylor & Francis Group, LLC
ISSN 0742–1222 (impreso) / ISSN 1557–928X (en línea)
DOI: https://doi.org/10.1080/07421222.2018.1451954
462 DONG, LIAO Y ZHANG
realizar una verificación de aplicabilidad. Nuestros resultados demuestran el valor de los datos de las
redes sociales financieras y sirven como prueba de concepto del uso de dichos datos para complementar
los métodos tradicionales de detección de fraude.
PALABRAS Y FRASES CLAVE: fraude corporativo, redes sociales financieras, detección de fraude,
plataforma de redes sociales, teoría de la lingüística funcional sistémica, análisis de texto.
El fraude financiero es un problema comercial grave en todo el mundo y tiene muchos tipos diferentes,
incluido el fraude corporativo, el fraude de valores y materias primas, el fraude de atención médica, el
fraude de instituciones financieras, el fraude hipotecario y otros [24]. El fraude corporativo sigue siendo
una de las principales prioridades penales del FBI y se define como un “fraude deliberado cometido por la
dirección que perjudica a los inversores y acreedores mediante estados financieros engañosos” [22, p .
28]. Aunque el número de casos de fraude corporativo es relativamente menor que el de otros tipos de
fraude, las pérdidas financieras asociadas con el fraude corporativo pueden ser devastadoras una vez
que ocurren.
Por ejemplo, el escándalo de Enron costó a los accionistas 74.000 millones de dólares, mientras que el
fraude de WorldCom provocó la pérdida de 30.000 puestos de trabajo y 180.000 millones de dólares en
pérdidas para los inversores. Además de las enormes pérdidas financieras, el fraude corporativo también
tiene el potencial de causar daños inconmensurables a la economía en general y a la confianza de los
inversores. Por lo tanto, la evaluación y detección del riesgo de fraude corporativo ante la divulgación de
la Comisión de Bolsa y Valores de EE. UU. (SEC) ha recibido una atención significativa tanto por parte de
los profesionales como de la investigación académica.
Los procedimientos analíticos existentes para la investigación del fraude corporativo dependen en gran
medida de contadores y reguladores auditores, quienes analizan registros y documentos financieros
complejos, incluidos los estados financieros. Sin embargo, los estados financieros pueden estar
desactualizados al momento de su publicación. Por lo general, analizan las operaciones pasadas de una
empresa y los resultados del trimestre anterior, si no antes. Si bien son útiles para identificar actividades
fraudulentas y no fraudulentas, los datos contenidos en un estado financiero a menudo no son apropiados
para detectar el fraude corporativo de manera oportuna. Según Liou [40], los enfoques que utilizan estados
financieros a menudo dan como resultado un desfase de tiempo promedio de alrededor de tres años
desde el inicio del fraude hasta su detección. Además, los estados financieros pueden contener información
engañosa y ficticia; por lo tanto, se necesita una investigación más profunda para evaluar la validez y los
riesgos de incorrección material en estos documentos [34].
En los últimos años, han florecido las plataformas de redes sociales financieras para la investigación
de inversiones. Además de la investigación fundamental y la cobertura amplia y profunda de diversas
acciones, estas plataformas permiten a los usuarios registrados participar en debates, ofrecer ideas y
perspectivas alternativas, y señalar riesgos o fallas a través de un foro interactivo/mecanismo de
comentarios. La base de usuarios de la plataforma es diversa.
Además de inversores, expertos de la industria y analistas financieros, la plataforma también tiene un gran
número de lectores, incluidos administradores de dinero, líderes empresariales, periodistas, blogueros y
el público en general. Las opiniones y puntos de vista expresados en los análisis y discusiones de
REDES SOCIALES PARA LA DETECCIÓN DE FRAUDE CORPORATIVO 463
Se ha demostrado que estas plataformas contienen información relevante sobre el valor y se han
utilizado para predecir rentabilidades futuras de acciones y sorpresas en las ganancias [17]. Dyck
et al. [21] también reconocen el poder de los actores no tradicionales (como empleados, medios
de comunicación e inversores públicos) como denunciantes de una posible violación de las leyes y
regulaciones federales que ha ocurrido, está en curso o está a punto de ocurrir.
Creemos que el contenido generado por el usuario (CGU) en las plataformas de redes sociales
financieras puede ser útil para evaluar el riesgo potencial de fraude corporativo. La evidencia
anecdótica parece apoyar esta idea. Tomemos como ejemplo a NQ Mobile (una empresa china de
seguridad móvil). Muddy Water Research (una empresa de investigación de mercado y ventas en
corto) publicó una dura evaluación citando “un fraude masivo” de NQ Mobile el 24 de octubre de
2013. La noticia provocó una caída del 47 por ciento en el precio de las acciones de NQ de la noche
a la mañana. Sin embargo, vale la pena señalar que un usuario de Xueqiu (una importante
plataforma china de redes sociales para inversores financieros) llamado “kankan123” había
publicado una serie de informes de análisis cuestionando el comportamiento fraudulento de NQ
Mobile a principios de 2013 (puede encontrar información detallada en http://xueqiu.com/S/NQ/
25820468), que es más de seis meses antes del informe de Muddy Water Research. Por lo tanto,
un marco analítico que aproveche dicho UGC puede ayudar a las empresas de auditoría, los
reguladores gubernamentales, las agencias de valores y los inversores a lograr sus objetivos
estratégicos al proporcionar un algoritmo de detección de fraude temprano y eficaz para proteger
los intereses públicos. Estas partes interesadas pueden aprovechar el marco para estimar mejor el
riesgo de fraude asociado con cada empresa objetivo a fin de tomar decisiones informadas, como
minimizar la exposición a empresas fraudulentas y determinar cómo asignar recursos para investigar
las empresas objetivo.
En este estudio, buscamos examinar cómo extraer características útiles de UGC en plataformas
de redes sociales y desarrollar un marco de análisis de texto para detectar automáticamente el
fraude corporativo. Nuestro marco se basa en la teoría de la lingüística funcional sistémica (SFL)
[29], que proporciona las bases para nuestros conjuntos de características, como características de
sentimientos, características de emociones, características de temas, características de pesos
léxicos y características de redes sociales. Evaluamos el rendimiento de nuestro algoritmo utilizando
datos de dos plataformas: BuscandoAlpha y Yahoo Finance. Nuestros extensos análisis demuestran
la eficacia de nuestro algoritmo, así como los principales efectos del contenido de las redes sociales
en la detección temprana del fraude corporativo. Además, validamos las contribuciones e
implicaciones prácticas de nuestro algoritmo mediante la realización de una verificación de
aplicabilidad con cuatro grupos focales (cada uno con tres expertos en conocimiento del dominio).
La verificación de aplicabilidad muestra que las principales partes interesadas en la industria
financiera sienten que nuestro enfoque es una herramienta auxiliar útil, que proporciona evidencia
adicional del valor de nuestro marco. Hasta donde sabemos, este es uno de los primeros estudios
que utiliza datos textuales de plataformas de redes sociales para la detección de fraude corporativo.
Revisión de literatura
El fraude financiero y la detección de fraude han sido un tema importante tanto en la literatura
contable como financiera. Está relativamente poco estudiado en los sistemas de información.
literatura. Aquí revisamos la literatura existente sobre los diferentes tipos de fraude financiero y
los diversos métodos que se han propuesto para detectarlo. Destacamos lo que podría faltar y
lo que podemos agregar para mejorar aún más los métodos existentes.
El fraude financiero puede ocurrir tanto a nivel empresarial como comunitario. El fraude a
nivel comunitario suele implicar a una empresa focal así como a partes externas (como clientes
y/o clientes) relacionadas con la empresa [54]. A nivel de empresa, Ngai et al. [49] proporcionó
una revisión detallada de la literatura sobre la detección de fraude financiero mediante métodos
de extracción de datos. Entre los diferentes tipos de fraude financiero, el fraude corporativo
consiste en actividades realizadas por un individuo (generalmente la alta dirección) para engañar
deliberadamente a los inversores, acreedores y al público con el fin de obtener una ventaja
injusta. Cuando enfrentan presiones impulsadas por el mercado debido a situaciones difíciles o
apropiación indebida de activos debido a asuntos personales, los gerentes de las empresas
tienden a “exagerar los activos, las ventas y las ganancias, o subestimar los pasivos, los gastos
o las pérdidas” [69, p . 5519] y revelar oportunidades de crecimiento irreales en los estados
financieros. Con estas engreídas tergiversaciones, los analistas de Wall Street y los inversores
públicos elevarán sus expectativas y proyecciones de ganancias sobre esta empresa. Asimismo,
para poder cumplir con las nuevas expectativas y proyecciones del mercado, la gerencia deberá
realizar otro estado financiero engañoso para el próximo trimestre o año fiscal. Este ciclo
constituye el mapa de procesos de negocio del fraude corporativo.
Para mejorar los informes financieros, el Instituto Americano de Contadores Públicos
Certificados ha establecido principios de contabilidad estándar. Para combatir el fraude
corporativo, se han emitido varias pautas de auditoría que los auditores deben considerar al
identificar el riesgo de incorrección material en los estados financieros. Por lo general, los
estados financieros de una empresa incluyen estados de resultados, balances generales,
estados de ganancias retenidas y flujos de efectivo. Estos contenidos se pueden clasificar en
términos generales en datos estructurados (p. ej., variables y ratios financieros numéricos,
descripciones cuantitativas de las condiciones operativas) y datos no estructurados (p. ej.,
discusión y análisis de gestión). La Tabla 1 presenta una muestra de estudios representativos
que utilizan datos estructurados y no estructurados para la detección de fraude corporativo.
Estos estudios son métodos convencionales de detección de fraude que aprovechan únicamente
fuentes de datos tradicionales, como estados financieros y conferencias telefónicas sobre ganancias.
Desde una perspectiva metodológica, las prácticas de auditoría convencionales se basan
principalmente en el análisis estadístico de datos financieros estructurados [15]. Kaminski et al.
[34], sin embargo, argumentó que los ratios financieros proporcionan una capacidad limitada
para detectar fraude porque la gestión puede crear cifras ficticias. De ahí que algunos
investigadores, por ejemplo, Brazel et al. [10], examinó la efectividad de variables no financieras
sobre el riesgo de fraude corporativo. Con el desarrollo de técnicas de procesamiento del
lenguaje natural (PNL), los investigadores han comenzado a extraer contenidos textuales y
señales de los estados financieros y examinar si pueden proporcionar fuentes adicionales de
información para predecir el fraude. La Tabla 2 resume una lista de estudios que buscan detectar
fraude utilizando técnicas de minería de texto (ya sea un enfoque de diccionario basado en
reglas o un enfoque estadístico) [38]. La mayoría de los estudios en la Tabla 2 utilizaron la
sección de discusión y análisis gerencial (MD&A) de los informes financieros, que generalmente
está bien redactada por el equipo gerencial de una empresa en un lenguaje comercial formal.
Tabla 1. Estudios representativos de detección de fraude corporativo y fuentes de datos
Tipo de datos Indicadores Literatura Fuente de datos
Datos estructurados financieros numéricos Cecchini et al. [15] Estados financieros

variables
Coeficientes financieros Veranos y Sweeney [64]; Estados financieros
Dechow et al.
[19]; Abbasi et al. [1]
Variables no Brazel et al. [10] Estados financieros
financieras
Características de datos no estructurados de Larcker y Zakolyukina [36] Conferencias telefónicas sobre
contenido textual ganancias
basado en el idioma Purda y Skillicorn [55] Sección MD&A de los estados financieros
Características de Hobson et al. [30] Conferencias telefónicas sobre
discurso vocal ganancias
Medios de comunicación social Estudio actual redes sociales financieras

características plataforma, por
ejemplo,
BuscandoAlfa
Tabla 2. Métodos basados en textos para la detección de fraude corporativo
Técnica Literatura fuente del texto
Método basado en Purda y Skillicorn [55] Sección MD&A de las publicaciones anuales y
diccionario informes trimestrales
Larcker y Zakolyukina [36] Conferencias telefónicas sobre ganancias
Humpherys et al. [31] Sección MD&A del informe 10K
Método estadístico Cecchini et al. [dieciséis]; Glancy Sección MD&A del informe 10K
y Yadav [26]; Moffitt y cols. [47]
Goel y Gangolly [27]; Goel et al. [28] El texto completo del informe 10K
Además, la sección MD&A tiene una estructura de contenido bastante rígida, como la discusión de las condiciones
financieras, los resultados de las operaciones y las declaraciones prospectivas de la empresa.
Las fuentes de datos, como los estados financieros y las conferencias telefónicas sobre resultados, suelen
estar bien planificadas y preparadas con antelación. Liou [40] descubrió que los métodos de detección que utilizan
estados financieros tienden a generar un desfase entre el inicio del fraude y su detección.
Más importante aún, los estados financieros y las conferencias telefónicas sobre resultados no captan opiniones
ni conocimientos de otras partes interesadas, como inversores públicos y analistas.
Dyck et al. [21] y Cecchini et al. [16] argumentó el valor estratégico potencial de utilizar esta nueva fuente de
información (contenido generado por usuarios de empleados, medios de comunicación e inversores públicos) para
predecir el fraude corporativo. redes sociales financieras
Las plataformas como seekAlpha son lugares naturales que agregan en línea dicho contenido generado
por los usuarios y, por lo tanto, merecen más estudios para examinar sus impactos en la detección de
fraude corporativo. Cabe señalar que el proceso de análisis de datos textuales no estructurados de
plataformas de redes sociales financieras es drásticamente diferente del que utiliza únicamente datos
estructurados y/o la sección MD&A de los estados financieros. Los métodos de análisis de texto basados
en diccionarios tampoco serían apropiados en este caso, ya que los contribuyentes de este contenido de
redes sociales no son el equipo directivo de una empresa. Por tanto, es difícil construir un diccionario
contextual.
Base teórica para el fraude corporativo basado en redes sociales

Detección
Para capturar las características más destacadas de UGC y comprender cómo los usuarios de las
plataformas de redes sociales utilizan el lenguaje para expresar sus opiniones sobre las operaciones y
el desempeño de una empresa, nos referimos a la teoría de la lingüística funcional sistémica (SFL) [29,
p . 15]. SFL sostiene que el lenguaje es un sistema de elecciones/opciones que los escritores utilizan
para lograr ciertos objetivos. El significado de un texto depende de esas elecciones dentro de un sistema
lingüístico [65]. El término "sistémico" considera el lenguaje como "una red de sistemas o conjuntos
interrelacionados de opciones para dar significado". El término “funcional” indica que el enfoque se refiere
a usos prácticos y contextualizados.
La teoría SFL incluye tres funciones interrelacionadas: ideacional, interpersonal y textual. La función
ideacional establece que el lenguaje consiste en construir ideas [29].
La función interpersonal se refiere al lenguaje como medio de interacción y es el medio para crear y
mantener nuestras relaciones interpersonales. Estas dos funciones están interconectadas a través de la
función textual, que determina cómo se organiza y presenta la información para crear un flujo coherente
de discurso. En otras palabras, las funciones ideacionales y textuales se centran en el contenido de los
mensajes, mientras que la función interpersonal se ocupa de las estructuras de interacción.
Función ideacional
La función ideacional puede estar representada por temas, opiniones y emociones [2].
Los documentos textuales suelen exponer múltiples temas [8]. Brown y cols. [11] descubrió que estos
temas temáticos son informativos para predecir errores intencionales en la presentación de informes
financieros. Creemos que los temas discutidos en los datos de las redes sociales de una empresa
fraudulenta pueden diferir de los de una empresa legítima y, por lo tanto, son útiles para clasificar
empresas. Adoptamos la asignación latente de Dirichlet (LDA) [8], un modelo de temas ampliamente
utilizado, para extraer temas temáticos de los datos de las redes sociales. Las opiniones son polaridades
de sentimientos (por ejemplo, positivas, neutrales y negativas) sobre una entidad en particular [52].
Según Buller y Burgoon [13], los engañadores (por ejemplo, las empresas fraudulentas) tienden a
realizar actividades más estratégicas (gestión de la información, el comportamiento y la imagen)
diseñadas para proyectar una imagen positiva. Adoptamos el diccionario de palabras de sentimiento en el ámbito financiero creado
McDonald [41] para medir las opiniones sentimentales expresadas por los usuarios en plataformas de redes
sociales financieras. Las emociones constan de diversos afectos como la felicidad, la tristeza, el horror y la
ira [2]. Newman et al. [48] descubrieron que los estilos lingüísticos (como el odio, la tristeza y la ira) pueden
predecir el engaño. En este estudio, utilizamos las categorías emocionales definidas en el diccionario
Linguistic Inquiry and Word Count [53] para medir las emociones de “asentimiento”, “ansiedad”, “ira”,
“juramento” y “tristeza” [36].
Además, según la teoría cognitiva, la evaluación cognitiva es un componente de la emoción [37]. La
evaluación cognitiva en el contexto del fraude corporativo se refiere a cómo un individuo ve las condiciones
operativas de una empresa. Medimos la evaluación cognitiva mediante (1) descripción general de la situación
fraudulenta; (2) análisis detallado del comportamiento fraudulento; y (3) sentencias y sanciones legales.
Se desarrollan tres listas de palabras separadas para capturar cada uno de los tres componentes anteriores.
La lista de sinónimos de palabras de fraude contiene 120 palabras que se utilizan ampliamente en las
Publicaciones de cumplimiento de contabilidad y auditoría (AAER), como "falso", "falso", "farsa" y "engañoso".
La lista de palabras sobre comportamiento fraudulento contiene 136 palabras como "engañar", "ocultar",
"fabricar" y "detectar". La lista de palabras de sentencia legal contiene 32 palabras como “jurisdicción”,
“delito”, “decomiso” y “sanción”. La Tabla 3 resume las características de opinión y emocionales, así como
sus mediciones.
Tabla 3. Medidas de opiniones y características relacionadas con las emociones
Tipo Característica Medición
Opiniones Ratio de sentimiento positivo Número total de palabras positivas dividido por el número total
de palabras*
Ratio de sentimiento Número total de palabras negativas dividido por el número total de
negativo palabras
Emociones Proporción de palabras de asentimiento Número total de palabras de asentimiento dividido por el número total de
palabras
Proporción de palabras de ansiedad Número total de palabras de ansiedad dividido por el número total
de palabras
Proporción de palabras de ira Número total de palabras de ira dividido por el número total
de palabras
Proporción de malas palabras Número total de malas palabras dividido por el número total
de palabras
Proporción de palabras de tristeza Número total de palabras de tristeza dividido por el número total
de palabras
Relación de Número total de sinónimos de fraude dividido por el total
palabras sinónimos de fraude. número de palabras
Proporción de palabras de análisis Número total de palabras de análisis de fraude dividido por el total
de fraude número de palabras
Relación de Número total de palabras de sentencias legales dividido por el total

palabras de juicios legales. número de palabras
*El número total de palabras es el número de palabras que ignoran las palabras vacías.
Función textual
El elemento principal de la función textual es la estructura temática. Muestra la progresión de lo que está
sucediendo y transmite la ideología del escritor, que le dice a la gente lo que realmente le preocupa al
escritor [29]. La función textual se puede conceptualizar en tres tipos de información: estilos de escritura,
géneros y lenguas vernáculas [2, 5]. Los estilos de escritura y las lenguas vernáculas no son aplicables
en nuestro contexto, ya que los usuarios de las plataformas de redes sociales no siguen un estilo de
escritura ni una lengua vernácula de usuario unificados.
Los géneros en un documento representan cómo los escritores suelen utilizar el lenguaje para
responder a situaciones recurrentes [32]. MerklDavies y Brennan [45] descubrieron que las narrativas
corporativas pueden considerarse como un género identificable para la comunicación empresarial con
propiedades lingüísticas distintivas. Los géneros se pueden distinguir mediante el análisis de género
utilizando frecuencias de palabras basadas en la lingüística de corpus [60]. Adoptamos una frecuencia
de palabras modificada, frecuencia de términosfrecuencia de documentos inversa (TFIDF) [58], para la
clasificación de géneros. TFIDF supone que sólo los términos con una frecuencia de término alta en un
documento determinado pero una frecuencia de documento baja en toda la colección de documentos
son importantes para clasificar los documentos. El esquema TFIDF representa una colección de
documentos por vectores de términos de documentos, de los cuales cada elemento es el peso de un
término en un documento.
Función interpersonal
La función interpersonal se refiere a que “el lenguaje es un medio de intercambio entre personas” [2, 61,
p. 75]. Generalmente está representado por una interacción/estructura social que puede construirse a
través de relaciones de respuesta entre mensajes [25].
Abbasi y Chen[2] descubrieron que la estructura de la red social de los empleados presentada en los
correos electrónicos internos de la empresa cambió después del fraude de Enron. Pak y Zhou [51]
proporcionaron nueva evidencia de que el engaño es una actividad estratégica en la que el engañador
hace malabares entre los objetivos duales de promover ideas engañosas y evitar la detección.
Descubrieron que las características estructurales sociales se pueden utilizar para delinear el engaño
en la comunicación mediada por computadora. Se han utilizado numerosos mensajes, publicaciones y/o
comentarios para capturar la estructura social en UGC [3, 4]. En este estudio, realizamos un seguimiento
del número de informes de análisis (AR), el número de noticias de última hora (BN) y el número de
mensajes StockTalk (SM), así como el número de comentarios a esos contenidos para cada empresa.
Además, consideramos la cantidad de autores distintivos que publican AR y SM y la cantidad de
publicaciones por autor. Finalmente hacemos un seguimiento del número de usuarios que siguen las
noticias relacionadas con una empresa. La tabla 4 resume la
medidas de las características relacionadas con la función interpersonal.

Con base en las discusiones anteriores, en la Figura 1, proponemos un marco analítico de texto para
predecir el fraude corporativo utilizando datos de redes sociales financieras. Dado que la dimensionalidad
del vector de ponderaciones de términos de TFIDF suele ser enorme, empleamos una técnica de
reducción de dimensiones (análisis de componentes principales) para TFIDF.
Tabla 4. Medidas de características relacionadas con la función interpersonal
No. de
Tipo Característica y medición características
Interacción social Número de informes de análisis (AR), noticias de última hora (BN) o 3
estructura Mensajes de StockTalk (SM)
Número de comentarios a AR, BN o SM 3
Números de autores distintivos para AR o SM 2
Números de AR o SM por autor 2
Número de seguidores 1
Figura 1. Un marco basado en SFL para la detección de fraude corporativo
selección de características. La dimensión reducida de las características de TFIDF reduce el tiempo

de entrenamiento de los clasificadores y evita posibles problemas de sobreajuste. Utilizamos una
máquina de vectores de soporte (SVM) para la clasificación de documentos. Se ha demostrado que
SVM tiene éxito al trabajar con un gran espacio de características y un pequeño conjunto de muestras
[16], y es capaz de manejar grandes datos dispersos [33]. Para fines de comparación, también
implementamos regresión logística (LR), redes neuronales (NN) y árboles de decisión (DT) en este
estudio. Utilizamos precisión, recuperación, puntuación F1 y el área bajo la curva característica operativa
del receptor (ROC) (AUC), que son métricas de recuperación de información estándar [43] , para evaluar
matemáticamente la calidad de los clasificadores entrenados. Se emplea una técnica de validación
cruzada diez veces mayor para evaluar cómo los resultados del modelo se generalizan a datos de
prueba independientes.
Recopilación de datos
Nuestros datos provienen de algunas fuentes. Seleccionamos BuscandoAlpha (http://seekingalpha.com )

como fuente para recopilar datos financieros de las redes sociales. BuscandoAlpha es una plataforma de
servicios de contenido de origen público para investigación de inversiones, con una amplia cobertura de
acciones, clases de activos, fondos cotizados en bolsa (ETF) y estrategias de inversión. Desde su creación
a principios de 2004, BuscandoAlpha ha crecido hasta convertirse en el principal destino de opinión y
análisis del mercado de valores en Internet con 4 millones de usuarios registrados.
Además, a diferencia de otras plataformas de investigación de acciones, los conocimientos sobre
BuscandoAlpha son proporcionados por inversores y expertos de la industria del lado comprador en lugar
del lado vendedor [17]. Las discusiones fuera de tema son moderadas por el equipo de moderación interno
las 24 horas de BuscandoAlpha: las publicaciones en los tableros de anuncios se clasifican mediante un
símbolo de cotización y solo se pueden publicar publicaciones relacionadas con el tema debido a la función
de “publicación opcional” del sitio. Para cada empresa, hay cinco tipos de contenido de información:
informes de análisis, noticias de última hora, transcripciones de llamadas de resultados, StockTalk y vídeos.
Los informes de análisis son creados por analistas y colaboradores de la plataforma; Las noticias de última
hora son creadas por los editores de LookingAlpha, por lo que pueden considerarse confiables [62]; Las
transcripciones de las llamadas de ganancias provienen de la conferencia telefónica de la empresa cada
trimestre; StockTalk está organizado como foros de discusión; Los vídeos son clips de vídeo breves que
analizan la empresa focal.
Rastreamos todo el contenido (incluidos todos los comentarios) en las secciones Informes de análisis,
Noticias de última hora y StockTalk, junto con las estructuras de redes sociales de cada empresa de nuestra
muestra. Dado que se puede revelar que una empresa fraudulenta comete fraude financiero en varios
anuncios de la SEC en diferentes momentos, consideramos solo el momento del primer anuncio y
extrajimos solo datos de las redes sociales antes de ese punto. Tenga en cuenta que no todas las empresas
fraudulentas tienen datos sobre BuscandoAlpha antes del momento de divulgación del fraude. Como se
muestra en la Figura 2(a), BuscandoAlpha no se había establecido en el momento en que se reveló el
comportamiento fraudulento de la empresa.
Figura 2. Cronología del período de fraude y establecimiento de seekAlpha

Por lo tanto, no incluimos empresas cuyo comportamiento fraudulento se revela antes del establecimiento
de BuscandoAlpha.
Además de los datos de las redes sociales, también recopilamos los ratios financieros y el contenido
textual de la sección MD&A de los estados financieros anuales de la empresa. Estos datos se utilizan para
comparar el rendimiento de nuestro algoritmo con los métodos de referencia. Con base en la literatura, los
índices financieros en el primer año del período fraudulento (llamado el primer año de fraude) para una
empresa fraudulenta siempre se seleccionan para representar el desempeño operativo de la empresa [ 7,
20]. Los ratios financieros del primer año de fraude de una empresa se seleccionan de una base de datos
de empresas públicas globales llamada Compustat. Los estados financieros del primer año de fraude se
obtienen del sistema de archivos oficial de la empresa de la SEC: la base de datos EDGAR.
Selección de muestras
Utilizamos empresas que cotizan en bolsa en el mercado de valores de EE. UU. para probar el desempeño
del enfoque propuesto. En primer lugar, se identificaron y etiquetaron todas las empresas públicas
fraudulentas. Utilizamos AAER para seleccionar empresas involucradas en fraudes financieros. La SEC ha
estado emitiendo AAER desde 1982 para investigar a una empresa u otras partes relacionadas por
presuntas malas conductas contables. Estos comunicados proporcionan diversos grados de detalles sobre
la naturaleza de la mala conducta contable y/o de auditoría en los estados financieros. Dechow et al. [19]
desarrollaron una base de datos integral que contiene 936 empresas (y los eventos de declaraciones
erróneas que afectan al menos a uno de los estados financieros trimestrales o anuales de las empresas
desde el 17 de mayo de 1982 al 19 de octubre de 2013) después de un análisis exhaustivo de 3.490 AAER.
Descartamos las empresas con eventos de declaraciones erróneas sólo trimestrales porque las
declaraciones trimestrales no están auditadas [10]. Esto resultó en 804 empresas con eventos fraudulentos
anuales. Entre ellas, 38 de las empresas fueron acusadas de irregularidades que no están relacionadas
con errores financieros, como problemas con los auditores, sobornos o cuestiones relacionadas con la
divulgación de información, entre otros [19]. Eliminamos esas 38 empresas de nuestra muestra. Para cada
una de las 766 empresas restantes, intentamos encontrar el código SIC (Clasificación Industrial Estándar)
de la base de datos EDGAR y el símbolo bursátil de la base de datos Compustat. El código SIC se utiliza
para comprobar si una empresa es una empresa financiera, como bancos, compañías de seguros y
empresas de contadores públicos, para las cuales el SIC oscila entre 6000 y 6999. El símbolo bursátil es el
identificador único que utilizamos para extraer datos de redes sociales. para la empresa de BuscandoAlpha.
Las empresas que no se pueden encontrar en estas dos bases de datos y en BuscandoAlpha se eliminan.
Siguiendo investigaciones anteriores, también excluimos a las empresas financieras cuyos SIC comienzan
con el número 6 [6]. Por un lado, las directrices industriales de la SEC exigen divulgaciones específicas
para las empresas financieras, como las sociedades inmobiliarias, los seguros de propiedad y contra
accidentes, y las sociedades de cartera bancarias [55]. Además, las normas contables, valoraciones de
activos y otras características de las empresas financieras son diferentes de las de otro tipo de empresas
[23]. Finalmente, descartamos 22 empresas cuyos datos financieros faltaban durante el período de fraude
en la base de datos de Compustat, y 29 empresas cuyo comportamiento fraudulento fue revelado antes del
establecimiento de BuscandoAlpha. También eliminamos otras 56 empresas fraudulentas que carecían de
datos suficientes sobre las redes sociales (menos de 500 palabras).
Tabla 5. Proceso de selección de muestras
Empresas distintas Número
Empresas con malas conductas contables en Dechow et al. [19] conjunto de datos 936
Menos: empresas con eventos fraudulentos solo trimestrales 132
Subtotal (empresas con eventos fraudulentos anuales) 804
Menos: empresas con auditor, sobornos, divulgación, sin fechas y otros problemas 38
Subtotal (empresas con fraude corporativo anual) 766
Menos: Empresas que no se pueden encontrar en la base de datos SEC 111
EDGAR Menos: Empresas que no se pueden encontrar en la base de 38
datos Compustat Menos: Empresas que no se pueden encontrar 343
en BuscandoAlpha Menos: Empresas financieras: Bancos y Seguros (SIC 60006999) 103
Menos: Los datos financieros de las empresas en años de fraude no se pueden encontrar en Compustat 22
base de datos
Menos: Empresas que se divulgan antes del establecimiento de BuscandoAlpha 29

Menos: Empresas que no tienen suficientes datos de redes sociales 56
Total 64
excluyendo palabras vacías) durante el período desde el establecimiento de BuscandoAlpha hasta el
primer momento de revelación. La Tabla 5 detalla nuestro proceso de selección de muestras.
Emparejamos cada empresa fraudulenta con una empresa de control (no fraudulenta) a efectos de clasificación [64].
Esta es una estrategia de sobremuestreo, que es apropiada para
manejo de eventos raros [3]. El muestreo aleatorio en este caso daría como resultado un resultado extremadamente
alto porcentaje de empresas no fraudulentas en la muestra, lo que hace que los intentos de
investigar características importantes para predecir el fraude corporativo no es significativa.
Las empresas no fraudulentas se seleccionan basándose en dos criterios. Primero, intentamos encontrar un
coincidencia directa utilizando la base de datos Compustat sobre la base del año de fraude, empresa
tamaño e industria; ver Dong et al. [20] para obtener descripciones detalladas de las coincidencias
proceso. Además, cada empresa no fraudulenta debe tener suficientes datos textuales (al menos).
al menos 500 palabras excluyendo las palabras vacías) en BuscandoAlpha. Si muchas empresas cumplen con los
criterios de selección, uno de ellos será elegido al azar. La estrategia de muestreo anterior.
conduce a una proporción de 1:1 para empresas fraudulentas y no fraudulentas. Para una prueba de robustez,
También examinamos el caso en el que la muestra no está equilibrada, es decir, la proporción de

empresas fraudulentas y no fraudulentas no es 1:1. Tenga en cuenta que los datos de las redes sociales para
Las empresas no fraudulentas se recopilan hasta el 31 de agosto de 2015, cuando comenzó este estudio.
En resumen, nuestro conjunto de datos final incluye 64 empresas fraudulentas junto con las 64 empresas no fraudulentas
correspondientes.
Preprocesamiento de datos
Para las redes sociales textuales y el contenido MD&A, utilizamos el kit de herramientas Stanford CoreNLP.
[44] para implementar la segmentación de oraciones y la tokenización de palabras. Signos de puntuación,
Los hipervínculos, dígitos numéricos y símbolos especiales se eliminan después de la tokenización.
Además, eliminamos las palabras vacías desarrolladas para la industria financiera por
Tabla 6. Descripción del conjunto de datos
Conjunto de No. de No. de No. de Nº de
datos informes rotura StockTalk No. de No. de ratios
(128 empresas) de análisis noticias mensajes oraciones palabras financieros
Social 3.981 2.251 1.672 184.356 2.613.362 —

medios de comunicación
(31,10) (17,59) (13,06) (1.440,28) (20.416,89)
datos
MD&A —— —
92.712 902.940 —
datos (724,31) (7.054,22)
Coeficientes —— — — — 84
financieros
Loughran y McDonald [41]. En este estudio también se eliminaron las palabras que aparecen sólo una vez en
todo el corpus [66] porque las palabras raras generalmente no son informativas y lo más probable es que sean
solo ruido [68]. El último paso importante en el preprocesamiento de datos es la derivación. La derivación se
refiere a reducir una palabra a su base, lo que ayuda a discernir la importancia de palabras específicas dentro
del texto. Adoptamos Wordnet Stemmer [46] en este estudio. Wordnet Stemmer mantiene la morfología de la
forma de una palabra, como sustantivos, adjetivos, adverbios y verbos. También conserva mejor la raíz de
una palabra; por ejemplo, Wordnet Stemmer conservará la palabra "más nítido" (en lugar de "nítido"), que
podría significar un fraude.
Para los ratios financieros, adoptamos un amplio conjunto de 84 ratios financieros anuales (consulte la
Tabla 2 en el Apéndice en línea). Este conjunto de características incluye 12 índices financieros anuales, 24
características contextuales de colaboración industrial, 24 características contextuales de competencia
industrial y 24 características contextuales de organización. Entre los 12 ratios financieros anuales (R1 a R12),
siete de ellos, AQI, DSIR, DEPI, GMI, LEV, SG y SGEE, provienen de Beneish [7], quien analizó en detalle
por qué estos ratios están relacionados con el fraude financiero . La ecuación de CFED se deriva de Dechow
[18]. Los demás ratios financieros se obtienen de Abbasi et al. [1]. Las características contextuales de la
industria y la organización se generan en función de los cambios anuales de los elementos contables
recuperados de la base de datos Compustat. Si faltan datos o hay denominador cero durante el cálculo,
utilizamos las técnicas introducidas en Beneish [7].
La Tabla 6 describe las estadísticas resumidas de nuestro conjunto de datos; los números entre paréntesis
eses son el valor promedio.
Análisis y Evaluación
Realizamos un análisis exhaustivo para evaluar sistemáticamente la eficacia de nuestro algoritmo propuesto.
Como se analizó anteriormente, se utilizan cuatro clasificadores (SVM, NN, DT y LR) para predecir el fraude
corporativo. Incluimos iterativamente cada una de las tres categorías de características de entrada (índice
financiero, MD&A, datos de redes sociales) para evaluar sus efectos en la detección de fraude. Para evaluar
aún más la robustez, probamos el predictivo
poder de nuestro modelo en una muestra reservada separada, así como el uso de datos de otra
plataforma de redes sociales financieras Yahoo Finance.
Detección de fraude utilizando únicamente datos de redes sociales
Las variables de entrada aquí son las características (discutidas en la Fundación Teórica
Sección) extraída de datos de redes sociales. Hay 2 características de sentimiento, 8 de emoción.
funciones y 11 funciones de redes sociales. El análisis de componentes principales arroja 127
rasgos léxicos. Siguiendo el modelo temático de Blei et al. [8], calculamos el
puntuaciones de perplejidad para diferentes números de temas que van desde 20 a 1000. En el
Al final, el modelo de características de 100 temas (con un valor mínimo de perplejidad de 1239,77) es
seleccionado. Descripciones estadísticas de sentimientos, emociones y características de redes sociales.
se muestran en la Tabla 1 del Apéndice en línea.
La Tabla 7 informa el rendimiento de clasificación promedio de los cuatro clasificadores. Puede
Se puede ver que el modelo SVM logra el mejor rendimiento de prueba entre todos
clasificadores. Por el contrario, el modelo LR obtiene el peor rendimiento. Utilizando información de divulgación previa
de BuscandoAlpha, podemos predecir el fraude con un 75,50 por ciento
exactitud en el conjunto de datos de prueba. Dado que todos los datos de las redes sociales son anteriores al primer fraude
momento de la divulgación, podemos desarrollar un sistema de alerta de detección de fraude
monitorear y extraer características útiles de la plataforma de redes sociales, así
reducir el desfase entre los errores financieros y la divulgación del fraude.
Utilizando el modelo SVM con mejor rendimiento, investigamos cada conjunto de redes sociales.
funciones multimedia de forma independiente. Rendimientos medios del modelo sólo con redes sociales.
características de red, características de temas, características de sentimientos y emociones, y características léxicas
se muestran en la Figura 3. Encontramos que las características del tema son más predictivas de fraude.
Al comparar la red social y las características léxicas, observamos que las características léxicas son
útil en los datos de entrenamiento, mientras que las funciones de redes sociales funcionan mejor en los datos de prueba.
Las capacidades de clasificación de los sentimientos y las emociones no son tan buenas como las otras.
características tanto en los datos de entrenamiento como en los de prueba.
Los resultados de nuestro modelo utilizando el clasificador SVM en datos desequilibrados con
En la Figura 4 se presentan diferentes ratios. Observamos que a medida que el ratio de fraude a
Tabla 7. Rendimiento de la clasificación utilizando únicamente funciones de redes sociales
Precisión promedio Recuerdo promedio Puntuación F1 promedio AUC promedio
Capacitación SVM 99,66 99,50 99,66 99,94

Pruebas 75,50 81,56 76,50 86,32
Entrenamiento NN 100.00 100.00 100.00 98,26
Pruebas 63.17 68.05 62.18 53,71
Entrenamiento DT 98,52 98,30 98,52 96,44
Pruebas 63.10 66,54 64,93 43.34
Entrenamiento LR 50.27 87.04 59,96 46,42
Pruebas 54,50 87,75 60,98 43,70
Capacitación Pruebas
100
75
95
90 70
85
sesenta y cinco
nóicautcA
80
75 60
70
55
sesenta y cinco
60 50
Recuperación de precisión F1 AUC Recuperación de precisión F1 AUC
Red social Tema Sentimiento y emoción Léxico
Figura 3. Rendimiento de la clasificación utilizando cada conjunto de funciones de redes sociales
Figura 4. Rendimiento de SVM en datos desequilibrados
Las empresas no fraudulentas disminuyen, los retiros del mercado y las AUC disminuyen ligeramente mientras
que la precisión del modelo aumenta. Sin embargo, las puntuaciones de la F1 caen significativamente a medida
que el conjunto de datos se vuelve más desequilibrado. La razón es que más empresas no fraudulentas en el
La muestra entrenará al clasificador para clasificar las empresas como no fraudulentas tanto como sea posible.
para aumentar la precisión de la clasificación. En otras palabras, la capacidad del clasificador para
detectar fraude se vuelve bajo, lo que resulta en valores bajos de recuperación y precisión. Por eso,
la puntuación F1, que es la combinación de recuperación y precisión, cae rápidamente. El
El rendimiento general del modelo en el conjunto de datos desequilibrado todavía parece bueno.
Comparación con los métodos de referencia
En esta sección, comparamos el rendimiento de nuestro modelo con métodos que utilizan
sólo ratios financieros estructurados y características basadas en el idioma de MD&A textuales
contenido.
Método de referencia que utiliza únicamente ratios financieros
La Tabla 8 documenta el desempeño promedio de los cuatro clasificadores usando solo

datos de ratios financieros. Nuevamente, el modelo SVM logra el mejor rendimiento. El
Sin embargo, la precisión promedio de las pruebas es solo del 56,17 por ciento, mucho más baja que la del modelo.
rendimiento utilizando los datos de las redes sociales. Tenga en cuenta que el rendimiento del modelo de referencia
es inferior al de Abbasi et al. [1] utilizando los mismos ratios financieros. esto puede tener
que ver con el tratamiento de los valores faltantes en la muestra de datos.
El desempeño del método de referencia que utiliza ratios financieros respalda los hallazgos de Kaminski et al.
[34] y Dechow et al. [19] que las cifras financieras de una empresa
no cambian dramáticamente entre los períodos fraudulentos y los alrededores
años veraces. Por tanto, los ratios financieros del primer año de fraude no serían buenos indicadores.
para discernir casos fraudulentos o no fraudulentos. Por el contrario, Purda y
Skillicorn [55] descubrió que la elección de palabras puede generar señales de alerta desde años verdaderos hasta
períodos fraudulentos. Esto explica por qué la clasificación se realiza mediante funciones.
Los datos de las redes sociales de la sección anterior son mucho mejores que los resultados.
utilizando únicamente ratios financieros.
Cuadro 8. Desempeño del método de referencia utilizando únicamente razones financieras
Capacitación SVM 99,39 98,77 99,37 99,96

Pruebas 56,17 77,74 63,37 49.29
Entrenamiento NN 76,58 69,60 74,72 73.09
Pruebas 48,83 42,39 43,71 41,75
Entrenamiento DT 97,41 96,75 97,37 95,34
Pruebas 41.17 42.08 40.09 36.02
Entrenamiento LR 54,69 60.31 56,88 51,94
Pruebas 54,67 60.00 54,54 43,58
Método de referencia que utiliza únicamente funciones basadas en el idioma en MD&A
Replicamos el procedimiento de Purda y Skillicorn [55] para analizar el MD&A

sección de los estados financieros de las empresas. Se utilizan las 1.100 palabras más comunes. El
La fracción de observaciones dentro de la bolsa se establece en 75 por ciento. Un bosque aleatorio de 3.000 árboles es
creado en base a estos documentos dentro de la bolsa y probado en otro 25 por ciento fuera de la bolsa
documentos. Las 200 palabras principales que más predicen el fraude se encuentran y utilizan como
Funciones de entrada basadas en el lenguaje para clasificación. Actuaciones de los cuatro clasificadores
se presentan en la Tabla 9.
Aquí, el modelo LR logra el mejor rendimiento en términos de precisión promedio.
(70,33 por ciento), recuperación (71,90 por ciento) y puntuación F1 (70,10 por ciento), mientras que SVM tiene
el AUC promedio más alto (69,82 por ciento). Comparando los números en la Tabla 7,
Tabla 8 y Tabla 9, demostramos que nuestro algoritmo propuesto utilizando redes sociales
Las funciones de los medios superan a los métodos básicos que utilizan ratios financieros y funciones basadas en el
idioma. También observamos que el rendimiento del modelo que utiliza características basadas en el lenguaje de las
secciones MD&A es mejor que el del método
utilizando ratios financieros.
Efecto incremental de conjuntos de funciones combinados
Para probar el efecto incremental de cada categoría de datos, agregamos gradualmente características basadas en el
idioma y luego características de redes sociales a los índices financieros. la clasificacion
desempeño utilizando tres tipos de conjuntos de características: (1) solo índices financieros, (2) un
Se investiga una combinación de razones financieras y características basadas en el lenguaje, y (3) una combinación
completa de razones financieras, características basadas en el lenguaje y características sociales. El desempeño de
los cuatro clasificadores que utilizan estos tres tipos de conjuntos de características.
se registran en las tablas 10 a 13.
Teniendo en cuenta el rendimiento del clasificador SVM en la Tabla 10, está claro que
el rendimiento de los ratios financieros combinados y las características basadas en el idioma es
mejor que usar sólo ratios financieros. Además, el rendimiento del sistema totalmente
El conjunto de características combinado es mejor que el que utiliza la combinación de ratios financieros.
Tabla 9. Rendimiento del método de referencia utilizando únicamente funciones basadas en el lenguaje
de MD&A Contenidos
Capacitación SVM 97,29 97.01 97,28 99,50

Pruebas 66,67 66.02 64,25 69,82
Entrenamiento NN 100.00 100.00 100.00 98,26
Pruebas 66,33 62.19 64,69 52.09
Entrenamiento DT 99,14 98,81 99.10 97,57
Pruebas 52,78 50,83 54,98 54.14
Entrenamiento LR 100.00 100.00 100.00 98,26
Pruebas 70.33 71,90 70.10 58,96
Tabla 10. Rendimiento del clasificador SVM utilizando funciones combinadas
Promedio Promedio Promedio F1 Promedio

SVM exactitud recordar puntaje AUC
Coeficientes financieros Capacitación 99,39 98,77 99,37 99,96
Pruebas 56,17 77,74 63,37 49.29

Ratios financieros y Capacitación 98,71 98,60 98,72 99,83
características basadas en el lenguaje Pruebas 70,83 68,54 69,31 71,78
Totalmente combinación Capacitación 100.00 100.00 100.00 100.00

de características Pruebas 80.00 83.04 79,80 85.03
Tabla 11. Rendimiento del clasificador NN utilizando funciones combinadas

NN exactitud recordar puntaje AUC
Coeficientes financieros Capacitación 76,58 69,60 74,72 73.09
Pruebas 48,83 42,39 43,71 41,75

Ratios financieros y Funciones 100.00 100.00 100.00 98,26
de entrenamiento basadas en lenguaje Pruebas 62,33 69,48 63,91 50,75
Combinación completa de características Entrenamiento 100.00 100.00 100.00 98,26
Pruebas 66.17 79,96 69,80 55.07
Tabla 12. Rendimiento del clasificador DT utilizando funciones combinadas

DT exactitud recordar puntaje AUC
Coeficientes financieros Capacitación 97,41 96,75 97,37 95,34
Pruebas 41.17 42.08 40.09 36.02

Ratios financieros y Funciones 97,99 98,60 98.03 96,33
de entrenamiento basadas en lenguaje Pruebas 52,78 52,92 46,88 47,25
Combinación completa de funciones Formación 98,28 99,29 98,36 96,67
Pruebas 52,38 49.18 45,58 39,35
y funciones basadas en el idioma. El rendimiento mejora cuando se incluyen más funciones.

agregado. Lo mismo puede decirse del modelo NN. Este resultado muestra que existe
De hecho, el valor incremental de estas tres fuentes de información para el fraude.
detección.
En el clasificador DT, el rendimiento que combina ratios financieros y características basadas en el

lenguaje es mejor que el que utiliza sólo ratios financieros. Pero el rendimiento
usar todas las características es ligeramente peor que usar ratios financieros combinados y
características basadas en el lenguaje. En el clasificador LR, al agregar más características, el resultado final
el rendimiento disminuye. Esto demuestra que no necesariamente se necesitan más funciones.
mejor a la hora de clasificar el fraude. Incluir todas las funciones podría dar lugar a modelos sobreajustados
Tabla 13. Rendimiento del clasificador LR utilizando funciones combinadas

LR exactitud recordar puntaje AUC
Coeficientes financieros Capacitación 54,69 60.31 56,88 51,94
Pruebas 54,67 60.00 54,54 43,58

Ratios financieros y Funciones 54,33 61,34 56,93 51.22
de entrenamiento basadas en lenguaje Pruebas 53.00 56,35 53.09 48,97
Combinación completa de funciones Entrenamiento 98,28 99,29 98,36 96,67
Pruebas 52,38 49.18 45,58 39,35
(rendimiento muy alto en el conjunto de datos de entrenamiento), lo que resulta en una disminución del modelo
rendimiento en el conjunto de datos de prueba.
De las Tablas 10 a 13, observamos que el modelo SVM que utiliza una combinación de
proporciones, funciones basadas en el idioma y funciones de redes sociales logran el mejor modelo
actuación. La precisión promedio, la recuperación, la medida F1 y el AUC en el conjunto de datos de prueba
son alrededor del 80 por ciento, consistentemente más altos que los de la literatura anterior.
En general, nuestro extenso análisis demuestra no sólo la eficacia del uso de las redes sociales
funciones de medios para la detección de fraude corporativo, pero también el valor incremental de las redes sociales
características de los medios a métodos existentes utilizando sólo ratios financieros y/o características textuales
de MD&A.
Verificación de robustez
Las redes sociales tienen la dualidad de información social y una fábrica de rumores colectiva [50]. A
El rumor se define como una declaración cuyo valor de verdad es indefinido o deliberadamente falso.
[56]. Los rumores y la información filtrada pueden ser difundidos por personas internas (como
gerentes o directores) o por personas externas (como instituciones de inversión, profesionales
especuladores o periodistas financieros). Los rumores eventualmente pueden resultar ciertos o
falso [39]. Demasiados rumores falsos en BuscandoAlpha pueden causar problemas en la calidad de los datos
y conducir a una clasificación imprecisa de empresas fraudulentas y no fraudulentas. A
Para abordar este problema y determinar qué tan sensible es nuestro algoritmo a la información y los rumores
filtrados, primero proponemos un enfoque para identificar la información filtrada o
rumor de nuestro conjunto de datos y luego reevaluar el rendimiento del modelo eliminando
esos rumores y/o información filtrada de nuestro conjunto de datos.
Suponemos que si se menciona en una publicación la mala conducta de una empresa fraudulenta
antes del momento de la primera divulgación del fraude, entonces la publicación se considera información filtrada
[12]. De manera análoga, si una publicación analiza las malas conductas de un funcionario legítimo actual
empresa, entonces se clasificará como un rumor. Los procesos detallados para identificar
La información filtrada y los rumores se analizan en el Apéndice en línea. Dieciséis características,
inspirado en Castillo et al. [14] y Yang et al. [67], están desarrollados para nuestro rumor.
modelo de detección. En total, el 22,75% de los puestos de empresas fraudulentas se identifican como
información filtrada y el 15,80 por ciento de los puestos de empresas no fraudulentas son
Tabla 14. Rendimiento de la clasificación de conjuntos de datos sin rumores ni filtraciones

Información

SVM exactitud recordar puntaje AUC
No solo rumores Capacitación 98,97 98,96 98,97 99,78

Pruebas 78,33 74,20 76.08 84.13
No hay información filtrada Capacitación 95,69 93,45 95,49 99,25
solo Pruebas 76,17 73,27 74.11 84,59
Sin rumores ni filtraciones. Capacitación 98,19 97,76 98,15 99,61
información Pruebas 77.00 72,26 74,94 80,94
rumores. Eliminamos la información filtrada de empresas fraudulentas y rumores de
empresas no fraudulentas secuencialmente y obtener tres nuevos conjuntos de datos: el primero tiene
No hay rumores, el segundo no tiene información filtrada y el tercero tampoco tiene rumores.
ni información filtrada. El rendimiento del clasificador SVM en estos tres datos.

Los conjuntos se presentan en la Tabla 14.
Comparando la Tabla 10 y la Tabla 14, notamos que el desempeño del modelo

disminuye entre un 2 y un 10 por ciento después de eliminar los rumores y la información filtrada.
Estos resultados, hasta cierto punto, proporcionan evidencia adicional de la solidez de nuestro
algoritmo propuesto. Dado que la información filtrada analiza la mala conducta de una empresa en el futuro
del tiempo de divulgación del fraude, es valioso para la predicción de la actividad fraudulenta de la empresa.
comportamiento. Por tanto, el rendimiento disminuye mucho más al descartar datos filtrados.
información del conjunto de datos.
Verificación de generalización
Aquí probamos la predicción y generalización de nuestro mejor modelo (SVM con todos
características) en una muestra separada de empresas reticentes. Ampliamos el trabajo de Dechow et al. [19]
período de estudio hasta el 31 de diciembre de 2014, y examinar cuidadosamente las empresas que
aparecen en AAER desde AAER 3491 a 3618. Trabajando juntos, dos graduados
Los estudiantes de la carrera de contabilidad verifican si cada AAER establece las actas anuales.
de mala conducta de una empresa focal. El valor del kappa de Cohen, que mide la
acuerdo entre dos evaluadores, fue de 0,78. Después de otra ronda de discusión,
llegan a un acuerdo sobre la clasificación de estos 127 nuevos AAER y encuentran 13
de ellos fraudulentos. Cinco de las 13 empresas, sin embargo, no tienen datos en
BuscandoAlpha y/o en Compustat para los años correspondientes, y uno de ellos
es una empresa financiera. Por lo tanto, nuestra muestra de resistencia contiene 7 empresas fraudulentas. Nosotros
También elija al azar 7 empresas no fraudulentas para que coincidan con las fraudulentas según
Tamaño de la empresa y sector. La precisión promedio, recuperación, medida F1 y AUC de nuestro
modelo en esta muestra de resistencia son 71,43 por ciento, 57,14 por ciento, 66,67 por ciento y
69,39 por ciento, respectivamente.
Tabla 15. Rendimiento de la clasificación utilizando datos de Yahoo Finance
Precisión Recuerdo Promedio F1 Promedio

promedio promedio puntaje AUC
Modelo SVM con Capacitación 98.21 98,62 98,24 99,99

características combinadas. Pruebas 65,63 88,75 71,52 69.90
Para evaluar más a fondo la generalización de nuestro algoritmo, reunimos un nuevo conjunto de
datos de otra plataforma de redes sociales, Yahoo Finance. De todas las empresas fraudulentas de
nuestro conjunto de datos, 35 tienen datos sobre Yahoo Finance. Nuevamente comparamos las 35
empresas fraudulentas con las 35 no fraudulentas. El Apéndice 3 en línea proporciona detalles del
proceso de recopilación de datos. Probamos el rendimiento de nuestro algoritmo en este nuevo
conjunto de datos. Debido a la limitación del tamaño de la muestra, se utiliza una técnica de validación
cruzada quíntuple. Los resultados del clasificador SVM utilizando datos de Yahoo Finance se
presentan en la Tabla 15.
Si bien el rendimiento de la clasificación es inferior al de los datos de BuscandoAlpha, nuestro
algoritmo sigue siendo eficaz para detectar empresas fraudulentas. La principal razón de la disminución
del rendimiento, en nuestra opinión, puede atribuirse a la falta de informes de análisis sobre Yahoo
Finance. Kothari et al. [35] argumentó que los analistas profesionales generalmente reempaquetan e
interpretan la información de las divulgaciones corporativas y las noticias de la prensa empresarial en
informes de análisis en profundidad. Los informes de análisis, junto con las opiniones del mercado de
valores y los debates de inversores generales y expertos de la industria, contienen pistas importantes
que pueden aprovecharse para la detección de fraude corporativo.
Sin embargo, estas señales faltan en la plataforma Yahoo Finance.
Verificación de aplicabilidad
Una pregunta importante para los investigadores académicos es cómo se puede confiar en nuestro
algoritmo propuesto y cómo se puede utilizar realmente en la práctica. Para abordar la cuestión de
las contribuciones prácticas con más profundidad, realizamos una verificación de la aplicabilidad de
nuestro marco propuesto, así como de cómo las personas podrían usarlo realmente. La verificación
de aplicabilidad también ayuda a evitar errores de tipo III [57] al verificar que el problema de
investigación formulado es correcto. Los detalles de nuestro proceso de verificación de aplicabilidad
se presentan en el Apéndice 4 en línea. Aquí proporcionamos una sinopsis del proceso.
Reclutamos cuatro grupos focales para verificar la aplicabilidad. Dos grupos están formados por
expertos en inversión corporativa y los otros dos grupos están formados por expertos en contabilidad
financiera. Cada grupo tiene tres expertos en conocimiento del dominio, por lo que se pueden realizar
comparaciones entre el grupo y dentro del grupo. Siguiendo las pautas de Rosemann y Vessey [59],
diseñamos un conjunto de preguntas de entrevista abiertas.
Realizamos una prueba piloto de la entrevista con dos doctores en contabilidad. estudiantes y un
profesional de contabilidad antes de realizar las entrevistas formales. Durante las entrevistas de los
grupos focales, los entrevistados conocieron primero completamente los objetivos de la investigación,
las metodologías y los hallazgos de este estudio. Los entrevistados fueron
Posteriormente se les pidió que especificaran su experiencia profesional, respondieran cómo

determinar si una empresa es fraudulenta o no y aclararan si utilizarían nuestro marco para detectar
fraude. A los entrevistados se les permitió discutir e intercambiar opiniones durante las entrevistas.
El primer autor de este estudio actuó como moderador y respondió cualquier pregunta relacionada.
Cada entrevista de grupo focal duró aproximadamente una hora.
Los participantes del grupo focal creían que las características de una industria pueden conducir
a un conjunto diferente de indicadores financieros para la evaluación del fraude corporativo.
Convencionalmente, el enfoque principal para la detección de fraude corporativo era analizar
informes financieros y comparar los datos financieros anormales de la empresa objetivo con los
datos de otras empresas de la misma industria. Además, algunas partes interesadas pueden buscar
manualmente noticias financieras en línea para comprender mejor la empresa objetivo, ver
entrevistas en video de la alta dirección y escuchar conferencias telefónicas de la empresa para
buscar señales/pistas mediante el análisis informal de las expresiones faciales, la velocidad de
conversación y las palabras utilizadas. y otros tipos de lenguaje corporal. Durante el proceso, la
experiencia jugó un papel importante en la evaluación del riesgo de fraude. Además, se podrían
realizar investigaciones e investigaciones de debida diligencia sobre el terreno para tomar una decisión informada.
Nuestros análisis de las entrevistas muestran que los sujetos de nuestros grupos focales
generalmente dan la bienvenida a nuevas técnicas que les ayuden a determinar si una corporación
está involucrada en un comportamiento fraudulento. Además, el enfoque propuesto en este estudio
representa una nueva fuente de información para las principales partes interesadas de la industria
financiera. Si bien estas principales partes interesadas sienten que nuestro enfoque puede no
reemplazar por completo el análisis basado en un informe financiero, sí les proporciona una
herramienta auxiliar útil y es ampliamente bienvenido por los profesionales financieros y contables.
De la entrevista también descubrimos algunos resultados interesantes. Un grupo focal (con
experiencia en inversiones corporativas) creía que las plataformas de redes sociales contienen
información inexacta, como rumores. Los miembros del grupo focal indican, sin embargo, que
utilizarían nuestro algoritmo si se aborda el problema de la calidad de los datos. Como se mencionó
anteriormente, nuestro algoritmo propuesto sigue siendo eficaz para detectar empresas fraudulentas
después de eliminar la información filtrada y los rumores de los datos. Además, algunos expertos
en inversiones indicaron que era muy probable que utilizaran la herramienta analítica basada en las
redes sociales si fueran inversores personales. También utilizarían el algoritmo propuesto si la
empresa objetivo en su decisión de inversión implicara una investigación exhaustiva. Al evaluar una
gran empresa objetivo, los expertos en inversiones también prefirieron nuestro algoritmo a las
experiencias personales. Los contadores financieros en general creían que los informes financieros
seguían siendo la información más valiosa para detectar el fraude.
En general, estos hallazgos de la verificación de aplicabilidad proporcionan evidencia adicional de
que desarrollamos un método apropiado para resolver una pregunta práctica.
Discusiones y conclusiones
El fraude corporativo es un problema grave en la gestión moderna de riesgos corporativos. Este

estudio utilizó datos de redes sociales de plataformas financieras y propuso una analítica de texto.
marco, basado en la teoría SFL, que tiene como objetivo extraer señales/pistas para detectar signos tempranos
de fraude. Las redes sociales son únicas en su capacidad para generar y difundir información entre el público
en general, de la que carecen los medios tradicionales [42].
Las plataformas de redes sociales, como BuscandoAlpha, contienen diversa información sobre una empresa,
incluidos anuncios de nuevos productos, fusiones y adquisiciones, retorno de la inversión e incluso conjeturas
sobre comportamientos comerciales internos de la gerencia y otras malas conductas.
Mostramos que las características latentes derivadas de los datos financieros de las redes sociales tienen un
efecto líder para la detección de fraude. Además, comparamos el rendimiento de nuestro modelo con aquellos
que utilizan solo los índices financieros y/o las características basadas en el idioma de las secciones MD&A, y
demostramos que las características de las redes sociales funcionan mejor en nuestro conjunto de datos. Al
integrar índices financieros, funciones basadas en el idioma y funciones de redes sociales, nuestro algoritmo
genera una precisión de predicción del 80 por ciento.
Finalmente llevamos a cabo una verificación de aplicabilidad de nuestro algoritmo. Estos hallazgos no sólo
demuestran la eficacia de las funciones de las redes sociales para la detección de fraude, sino que también
verifican que un método basado en las redes sociales puede complementar los enfoques corporativos existentes
de detección de fraude. Observamos que los cinco conjuntos de características latentes propuestos en nuestro
estudio pueden extraerse de otros tipos de datos de redes sociales y aplicarse a dominios como el
descubrimiento de defectos en productos [3], la detección de comportamientos fraudulentos en plataformas
de financiación colectiva [63] y las falsificaciones en línea. Detección de revisiones [70].
Nuestro estudio sirve como prueba de un concepto para desarrollar un sistema que puedan utilizar los
reguladores gubernamentales, agencias de valores, institutos de investigación de empresas y otras partes
interesadas para la detección y prevención tempranas del fraude. Proponemos tres componentes principales
para el sistema. En primer lugar, necesita recopilar periódicamente datos de plataformas de redes sociales,
como BuscandoAlpha y Yahoo Finance, y derivar automáticamente características latentes como las analizadas
en el estudio. En segundo lugar, las características latentes de las redes sociales junto con los índices
financieros (accesibles a través de Compustat) y las características basadas en el lenguaje (que se pueden
obtener de las bases de datos Compustat y SEC EDGAR) del MD&A se incorporarán a un módulo de
aprendizaje automático para clasificar empresas fraudulentas y no fraudulentas. En tercer lugar, el modelo
aprendido final se puede utilizar para monitorear y predecir la probabilidad de que una empresa potencial esté
involucrada en un comportamiento fraudulento.
El sistema de detección de fraude propuesto tiene el potencial de acortar significativamente el tiempo
transcurrido desde su inicio hasta su divulgación, evitando así pérdidas financieras para los accionistas en
general y turbulencias financieras para el sector económico.
sistema. Tres partes interesadas, en particular los inversores, las empresas de auditoría y los reguladores y
formuladores de políticas gubernamentales, pueden beneficiarse de dicho sistema [1, 15]. Los inversores
(incluidos individuos, inversores institucionales, agencias de calificación y otros) suelen verse fácilmente
influenciados por informes engañosos. La detección temprana del fraude ayudará a los inversores a tomar
decisiones de inversión informadas. Para los auditores, el nuevo método les ayudará a evaluar mejor el riesgo
de errores materiales durante su fase de planificación para reducir los casos de estados financieros fraudulentos.
Para los reguladores gubernamentales, un sistema de detección de fraude eficiente y eficaz puede ayudarles a
centrarse principalmente en los sospechosos. Finalmente, la norma base sobre Procedimientos Analíticos (por
ejemplo, SAS No. 56) se emitió hace un cuarto de siglo, mucho antes del surgimiento de las empresas.
inteligencia, redes sociales, big data y otros avances tecnológicos. Ahora es el momento de que los
responsables de la formulación de políticas reexaminen y actualicen las Normas de Auditoría.
Este estudio tiene varias limitaciones. El tamaño de la muestra es pequeño ya que las plataformas de
redes sociales financieras son relativamente nuevas. En nuestro estudio no se utilizaron empresas
fraudulentas antes del establecimiento de estas plataformas. Utilizamos toda la información de divulgación
previa para predecir el fraude. Es posible que los datos más recientes de las redes sociales incorporen
toda la información relevante. Si ese es el caso, entonces es un ejercicio interesante examinar la ventana
de tiempo adecuada para extraer datos de las redes sociales. Además, al extraer las características de
las redes sociales, capturamos sólo el grado de centralidad de las interacciones sociales. La razón
principal es que no hay interacciones entre el foco
propia empresa y usuarios de la plataforma en BuscandoAlpha. Si consideramos los contenidos y

comentarios publicados por las cuentas oficiales de las empresas en Facebook o Twitter, se pueden
investigar otros patrones de estructura de redes sociales como lo sugieren Borgatti y Foster [9], como la
centralidad , la intermediación y la cercanía. Tenga en cuenta que si estas plataformas de redes sociales,
como BuscandoAlpha, cambian el diseño de sus sitios web, debemos reprogramar el proceso de rastreo
de datos para recuperar los datos más recientes.
Los expertos del grupo focal formularon algunas preguntas interesantes que son valiosas para futuras
investigaciones. Sostuvieron que los diferentes fraudes corporativos tienen diferentes impactos en los
inversores, auditores y reguladores. Detectar y categorizar fraudes corporativos específicos será un
ejercicio interesante. Los expertos en conocimiento del dominio también creían que el cambio del régimen
de supervisión podría conducir al establecimiento de nuevas políticas, que pueden tener una influencia
significativa en la eficacia de los métodos de detección de fraude.
Archivo complementario
Se puede acceder a los datos complementarios de este artículo en el sitio web del editor en
DOI: https://doi.org/10.1080/07421222.2018.1451954
Financiamiento Este trabajo fue apoyado por el Plan Nacional de Apoyo a la Ciencia y la
Tecnología de China (2015BAK18B02), una subvención de desarrollo de la Comisión de Ciencia,
Tecnología e Innovación de Shenzhen (JCYJ20160229165300897) y una subvención del GRF de Hong Kong (193213).
REFERENCIAS
1. Abbasi, A.; Albrecht, C.; Vance, A.; y Hansen, J. Metafraud: un marco de metaaprendizaje
Trabajo para detectar fraude financiero. MIS trimestral, 36,4 (2012), 1293–1327.
2. Abbasi, A.; y Chen, H. CyberGate: un marco de diseño y un sistema para el análisis de texto
de la comunicación mediada por ordenador. MIS trimestral, 32,4 (2008), 811–837.
3. Abrahams, AS; Fan, W.; Wang, GA; Zhang, Z.; y Jiao, J. Un marco analítico de texto integrado para el
descubrimiento de defectos de productos. Gestión de producción y operaciones, 24,6 (2015), 975–990.
4. Antweiler, W.; y Frank, MZ ¿Toda esa charla es sólo ruido? El contenido informativo de
Foros de mensajes sobre acciones en Internet. Revista de Finanzas, 59,3(2004), 1259–1294.
5. Argamón, S.; Whitelaw, C.; Chase, P.; Hota, SR; Garg, N.; y Levitan, S. Clasificación estilística de textos
utilizando características léxicas funcionales. Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la
Información, 58,6(2007), 802–822.
6. Beneish, MD Detección de violaciones de los GAAP: implicaciones para evaluar la gestión de ganancias entre
empresas con desempeño financiero extremo. Revista de Contabilidad y Políticas Públicas, 16,3 (1997), 271–309.
7. Beneish, MD La detección de manipulación de ganancias. Revista de analistas financieros, 55, 5 (1999), 24–
36.
8. Arcilla, DM; Ng, AY; Jordania, Michigan; y Lafferty, J. Asignación dirigida latente. Diario
de Investigación sobre Aprendizaje Automático, 3, 4/5 (2003), 993–1022.
9. Borgatti, SP; y Foster, PC El paradigma de la red en la investigación organizacional: una revisión y tipología.
Revista de Gestión, 29,6(2003), 991–1013.
10. Brazel, JF; Jones, KL; y Zimbelman, MF Uso de medidas no financieras para evaluar el riesgo de fraude.
Revista de investigación contable, 47,5 (2009), 1135–1166.
11. Brown, Carolina del Norte; Crowley, RM; y Elliott, WB ¿Qué estás diciendo? Uso del tema para detectar
informes financieros erróneos. En P. Mohanram y L. Yang (eds.), Actas de la 27ª Conferencia Anual sobre Economía
Financiera y Documento de Contabilidad. Toronto, 2016, págs. 1–67.
12. Brunnermeier, MK Fuga de información y eficiencia del mercado. Revisión de estudios financieros, 18,2 (2005),
417–457.
13. Buller, DB; y Burgoon, JK Teoría del engaño interpersonal. Teoría de la comunicación,
6,3 (1996), 203–242.
14. Castillo, C.; Mendoza, M.; y Poblete, B. Credibilidad de la información en twitter. En s.
Sadagopan, K. Ramamritham, A. Kumar y MP Ravindra (eds.), Actas de la vigésima conferencia internacional sobre
la World Wide Web. Hyderabad, 2011, págs. 675–684.
15. Cecchini, M.; Aytug, H.; Koehler, GJ; y Pathak, P. Detección de fraude de gestión en público
compañías. Ciencias de la gestión, 56,7 (2010), 1146–1160.
16. Cecchini, M.; Aytug, H.; Koehler, GJ; y Pathak, P. Hacer que las palabras funcionen: uso de textos financieros
como predictor de eventos financieros. Sistemas de apoyo a la decisión, 50,1 (2010), 164175.
17. Chen, H.; De, P.; Hu, Y.; y Hwang, B.H. Sabiduría de las multitudes: el valor de las opiniones bursátiles
transmitidas a través de las redes sociales. Revisión de estudios financieros, 27,5 (2014), 1367–1403.
18. Dechow, PM Ganancias contables y flujos de efectivo como medidas del desempeño de la empresa: el papel
de las acumulaciones contables. Revista de Contabilidad y Economía, 18,1 (1994), 3–42.
19. Dechow, PM; Ge, W.; Larson, CR; y Sloan, RG Predicción de la contabilidad de materiales.
declaraciones erróneas. Investigación contable contemporánea, 28,1 (2011), 17–82.
20. Dong, W.; Liao, S.; Colmillo, B.; Cheng, X.; Chen, Z.; y Fan, W. La detección de estados financieros
fraudulentos: un modelo de lenguaje integrado. En K. Siau, Q. Li y X. Guo (eds.), Actas de la 18ª Conferencia de Asia
Pacífico sobre Sistemas de Información. Chengdu, 2014, págs. 115.
21. Dyck, A.; Morse, A.; y Zingales; L. ¿Quién denuncia el fraude empresarial? El Diario de Finanzas, 65,6 (2010),
2213–2253.
22. Elliott, RK; y Willingham, JJ Fraude de gestión: detección y disuasión. Nuevo
York: Libros Petrocelli, 1980.
23. Fanning, KM; y Cogger, KO Detección de fraude en la gestión mediante redes neuronales utilizando datos
financieros publicados. Revista internacional de sistemas inteligentes en contabilidad, finanzas y gestión, 7,1 (1998),
21–41.
24. Oficina Federal de Investigaciones (FBI). Informe público sobre delitos financieros (años fiscales 20102011).
2012. https://www.fbi.gov/statsservices/publications/financialcrimesreport20102011 .
25. Fu, T.; Abbasi, A.; y Chen, H. Un enfoque híbrido para el análisis de coherencia interaccional de foros web.
Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información, 59,8(2008), 1195–1209.
26. Glancy, FH; y Yadav, SB Un modelo computacional para el fraude de informes financieros
detección. Sistemas de apoyo a la decisión, 50,3 (2011), 595–601.
27. Goel, S.; y Gangolly, J. Más allá de los números: extraer los informes anuales en busca de señales
ocultas que indiquen fraude en los estados financieros. Sistemas inteligentes en contabilidad, finanzas y
gestión, 19,2 (2012), 75–89.
28. Goel, S.; Gangolly, J.; Faerman, SR; y Uzuner, O. ¿Pueden los predictores lingüísticos detectar
declaraciones financieras fraudulentas? Revista de tecnologías emergentes en contabilidad, 7,1 (2010), 25–46.
29. Halliday, M.; Matthiessen, CM; y Matthiessen, C. Introducción a la funcionalidad
Gramática. Londres: Hodder Education, 2004.
30. Hobson, JL; Mayew, WJ; y Venkatachalam, M. Análisis del habla para detectar finanzas.
informes erróneos especiales. Revista de investigación contable, 50,2 (2012), 349–392.
31. Humpherys, SL; Moffitt, Kansas; Quemaduras, MB; Burgoon, JK; y Felix, WF Identificación de estados
financieros fraudulentos mediante análisis de credibilidad lingüística. Sistemas de apoyo a la decisión, 50, 3
(2011), 585–594.
32. Hyland, K. Escritura de género y segunda lengua. Ann Arbor: Prensa de la Universidad de Michigan,
2004.
33. Joachims, T. Entrenamiento de SVM lineales en tiempo lineal. En L. Ungar (ed.), Actas de la 12ª
Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos.
Filadelfia, 2006, págs. 217–226.
34. Kaminski, KA; Wetzel, TS; y Guan, L. ¿Pueden los ratios financieros detectar informes financieros
fraudulentos? Revista de auditoría gerencial, 19,1 (2004), 15–28.
35. Kothari, S.; Li, X.; y Short, JE El efecto de las divulgaciones de la gerencia, los analistas y la prensa
empresarial sobre el costo de capital, la volatilidad de los retornos y las previsiones de los analistas: un estudio
que utiliza análisis de contenido. Revisión contable, 84, 5 (2009), 1639–1670.
36. Larcker, DF; y Zakolyukina, AA Detección de discusiones engañosas en conferencias telefónicas.
Revista de investigación contable, 50,2 (2012), 495–540.
37. Lazarus, RS Reflexiones sobre las relaciones entre emoción y cognición. Americano
Psicólogo, 37,9 (1982), 1019–1024.
38. Li, F. Análisis textual de divulgaciones corporativas: un estudio de la literatura. Diario de
Literatura contable, 29 (2010), 143–165.
39. Li, Q.; Liu, X.; Colmillo, R.; Nourbakhsh, A.; y Shah, S. Comportamientos de los usuarios en rumores de
interés periodístico: un estudio de caso de Twitter. En KP Gummadi y M. Strohmaier (eds.), Actas de la décima
Conferencia Internacional AAAI sobre Web y Redes Sociales. Colonia, 2016, págs. 627–630.
40. Liou, F.M. Detección de informes financieros fraudulentos y predicción de fracasos empresariales
Modelos: una comparación. Revista de auditoría gerencial, 23,7 (2008), 650–662.
41. Loughran, TIM; y McDonald, B. ¿Cuándo un pasivo deja de ser un pasivo? Textual
análisis, diccionarios y 10Ks. El Diario de Finanzas, 66,1 (2011), 35–65.
42. Luo, X.; Zhang, J.; y Duan, W. Redes sociales y valor accionario empresarial. Información
Investigación de sistemas, 24,1 (2013), 146–163.
43. Manning, CD; Raghavan, P.; y Schütze, H. Introducción a la recuperación de información.
Cambridge: Cambridge University Press, 2008.
44. Manning, CD; Surdeanu, M.; Bauer, J.; Finkel, J.; Bethard, SJ y McClosky, D.
El kit de herramientas de procesamiento del lenguaje natural Stanford CoreNLP. En K. Bontcheva y Z. Jingbo
(eds.), Actas de la 52.ª reunión anual de la Asociación para demostraciones de sistemas de lingüística
computacional. Baltimore, 2014, págs. 55–60.
45. MerklDavies, DM y Brennan, N. Estrategias de divulgación discrecional en narrativas corporativas:
¿información incremental o gestión de impresiones? Revista de literatura contable, 26, (2007), 116–196.
46. Miller, Georgia; Beckwith, R.; Fellbaum, C.; Bruto, D.; y Miller, KJ Introducción a WordNet:
Una base de datos léxica en línea. Revista Internacional de Lexicografía, 3,4 (1990), 235–244.
47. Moffitt, K.; Félix, W.; y Burgoon, JK Uso de paquetes léxicos para discriminar entre informes financieros
fraudulentos y no fraudulentos. En C. Ferran (ed.), Actas del taller SIG ASYS PreICIS 2010 . St. Louis, MO,
2010, págs. 1–22.
48. Newman, ML; Pennebaker, JW; Baya, DS; y Richards, JM Palabras mentirosas: predicción del engaño
a partir de estilos lingüísticos. Boletín de Personalidad y Psicología Social, 29, 5 (2003), 665–675.
49. Ngai, E.; Hu, Y.; Wang, Y.; Chen, Y.; y Sun, X. La aplicación de técnicas de minería de datos en la
detección de fraude financiero: un marco de clasificación y una revisión académica de la literatura. Sistemas
de apoyo a la decisión, 50,3 (2011), 559–569.
50. Oh, O.; Agrawal, M.; y Rao, HR Servicios de inteligencia comunitaria y redes sociales: un análisis teórico de
los rumores de los tweets durante las crisis sociales. MIS trimestral, 37,2 (2013), 407–426.
51. Pak, J.; y Zhou, L. Comportamiento social estructural del engaño en la comunicación mediada por computadora.
Sistemas de apoyo a la decisión, 63 (2014), 95103.
52. Pang, B.; y Lee, L. Minería de opiniones y análisis de sentimientos. Fundamentos y tendencias en la
recuperación de información, 2, 1–2 (2008), 1–135.
53. Pennebaker, JW; Francisco, YO; y Booth, RJ Consulta lingüística y recuento de palabras
(LIWC): un programa de análisis de texto computarizado. Austin: LIWC.net, 2001.
54. Phua, C.; Lee, V.; Smith, K.; y Gayler, R. Una encuesta exhaustiva sobre la investigación de detección de
fraude basada en la minería de datos. 2010. https://arxiv.org/abs/1009.6119.
55. Purda, L.; y Skillicorn, D. Variables contables, engaño y un montón de palabras: evaluación
las herramientas de detección de fraude. Investigación contable contemporánea, 32,3 (2014), 1193–1223.
56. Qazvinian, V.; Rosengren, E.; Radev, DR; y Mei, Q. Se rumorea: Identificando información errónea en
microblogs. En P. Merlo (ed.), Actas de la Conferencia sobre métodos empíricos en el procesamiento del lenguaje
natural. Edimburgo, 2011, págs. 15891599.
57. Rai, A. Comentarios del editor: Evitar errores de tipo III: formular problemas de investigación de SI que
importan. MIS Quarterly, 41,2(2017), iii–vii.
58. Rajaraman, A.; Ullman, JD; Rajaraman, A.; y Ullman, JD Minería de datos de Massive
Conjuntos de datos. Cambridge: Cambridge University Press, 2011.
59. Rosemann, M. y Vessey, I. Hacia la mejora de la relevancia de los sistemas de información
De la investigación a la práctica: el papel de los controles de aplicabilidad. MIS trimestral, 32,1 (2008), 1–22.
60. Rutherford, BA Análisis de género de las narrativas de los informes anuales corporativos en un corpus linguis.
Enfoque basado en tics. Revista de comunicación empresarial, 42,4 (2005), 349–378.
61. Sack, W. Mapa de conversación: una interfaz para conversaciones a muy gran escala. Diario de
Sistemas de información de gestión, 17,3 (2000), 73–92.
62. Schumaker, RP; Zhang, Y.; Huang, C.N.; y Chen, H. Evaluación del sentimiento en
artículos de noticias financieras. Sistemas de apoyo a la decisión, 53,3 (2012), 458–464.
63. Siering, M.; Koch, J.A.; y Deokar, AV Detección de comportamiento fraudulento en plataformas de financiación
colectiva: el papel de las señales lingüísticas y basadas en contenido en contextos estáticos y dinámicos. Revista de
sistemas de información de gestión, 33,2 (2016), 421–455.
64. Veranos, SL; y Sweeney, JT Estados financieros fraudulentamente incorrectos y
Uso de información privilegiada: un análisis empírico. Revisión contable, 73,1 (1998), 131–146.
65. Teo, P. Racismo en las noticias: un análisis crítico del discurso de la información periodística en dos
Periódicos australianos. Discurso y sociedad, 11,1 (2000), 7–49.
66. Williamson, S.; Wang, C.; Heller, KA y Blei, DM El proceso Dirichlet compuesto de IBP y su aplicación al
modelado de temas enfocados. En S. Wrobel (ed.), Actas de la 27ª Conferencia Internacional sobre Aprendizaje
Automático. Haifa, 2010, págs. 11511158.
67. Yang, F.; Liu, Y.; Yu, X.; y Yang, M. Detección automática de rumores en Sina Weibo. En Y. Ding, J. Han, J.
Tang y P. Yu (eds.), Actas del taller ACM SIGKDD sobre semántica de datos mineros. Beijing, 2012, págs. 1 a 7.
68. Yang, Y.; y Pedersen, JO Un estudio comparativo sobre la selección de características en la categorización
de textos. En DH Fisher (ed.) Actas de la 14ª Conferencia Internacional sobre Aprendizaje Automático. Nashville,
Tennessee, 1997, págs. 412–420.
69. Yue, D.; Wu, X.; Wang, Y.; Li, Y.; y Chu, C.H. Una revisión de la investigación de detección de fraude
financiero basada en minería de datos. En L. Cuthbert, W. Huang y C. Rubenstein (eds.), Actas de la Conferencia
Internacional sobre Comunicaciones Inalámbricas, Redes y Computación Móvil. Llevar a la fuerza, 2007, págs. 5519–
5522.
70. Zhang, D.; Zhou, L.; Kehoe, JL; y Kilic, IY ¿Qué comportamientos de los revisores en línea realmente importan?
Efectos de las conductas verbales y no verbales en la detección de reseñas online falsas. Revista de sistemas de
información de gestión, 33,2 (2016), 456–481.

Articulo 11

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Articulo 11

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

Revista de sistemas de información de gestión

Aprovechar los datos de las redes sociales financieras para

Wei Dong, Shaoyi Liao y Zhongju Zhang

Para vincular a este artículo: https://doi.org/10.1080/07421222.2018.1451954

Ver material complementario

Publicado en línea: 15 de mayo de 2018.

Envíe su artículo a esta revista.

Vistas del artículo: 23

Ver artículos relacionados

Ver datos de Crossmark

Los términos y condiciones completos de acceso y uso se pueden encontrar

Aprovechar los datos de las redes sociales financieras para

WEI DONG, SHAOYI LIAO Y ZHONGJU ZHANG

WEI DONG (weidong1@mail.ustc.edu.cn) es un doctorado. Candidato en Ciencias de la

SHAOYI LIAO (issliao@cityu.edu.hk) Es profesor del Departamento de Sistemas

ZHONGJU ZHANG (Zhongju.Zhang@asu.edu; autor correspondiente) es codirector del Actionable

RESUMEN: El fraude corporativo puede provocar pérdidas financieras importantes y causar un

462 DONG, LIAO Y ZHANG

REDES SOCIALES PARA LA DETECCIÓN DE FRAUDE CORPORATIVO 463

464 DONG, LIAO Y ZHANG

REDES SOCIALES PARA LA DETECCIÓN DE FRAUDE CORPORATIVO 465

Tabla 1. Estudios representativos de detección de fraude corporativo y fuentes de datos

Tipo de datos Indicadores Literatura Fuente de datos

Datos estructurados financieros numéricos Cecchini et al. [15] Estados financieros

contenido textual ganancias

Características de Hobson et al. [30] Conferencias telefónicas sobre

discurso vocal ganancias

Medios de comunicación social Estudio actual redes sociales financieras

Tabla 2. Métodos basados en textos para la detección de fraude corporativo

Técnica Literatura fuente del texto

466 DONG, LIAO Y ZHANG

Base teórica para el fraude corporativo basado en redes sociales

REDES SOCIALES PARA LA DETECCIÓN DE FRAUDE CORPORATIVO 467

Tabla 3. Medidas de opiniones y características relacionadas con las emociones

Tipo Característica Medición

Relación de Número total de palabras de sentencias legales dividido por el total

468 DONG, LIAO Y ZHANG

medidas de las características relacionadas con la función interpersonal.

REDES SOCIALES PARA LA DETECCIÓN DE FRAUDE CORPORATIVO 469

Tabla 4. Medidas de características relacionadas con la función interpersonal

Tipo Característica y medición características

Figura 1. Un marco basado en SFL para la detección de fraude corporativo

selección de características. La dimensión reducida de las características de TF­IDF reduce el tiempo

470 DONG, LIAO Y ZHANG

Nuestros datos provienen de algunas fuentes. Seleccionamos BuscandoAlpha (http://seekingalpha.com )

Figura 2. Cronología del período de fraude y establecimiento de seekAlpha

REDES SOCIALES PARA LA DETECCIÓN DE FRAUDE CORPORATIVO 471

472 DONG, LIAO Y ZHANG

Tabla 5. Proceso de selección de muestras

Empresas distintas Número

Menos: Empresas que se divulgan antes del establecimiento de BuscandoAlpha 29

excluyendo palabras vacías) durante el período desde el establecimiento de BuscandoAlpha hasta el

primer momento de revelación. La Tabla 5 detalla nuestro proceso de selección de muestras.

Esta es una estrategia de sobremuestreo, que es apropiada para

investigar características importantes para predecir el fraude corporativo no es significativa.

También examinamos el caso en el que la muestra no está equilibrada, es decir, la proporción de

[44] para implementar la segmentación de oraciones y la tokenización de palabras. Signos de puntuación,

Los hipervínculos, dígitos numéricos y símbolos especiales se eliminan después de la tokenización.

REDES SOCIALES PARA LA DETECCIÓN DE FRAUDE CORPORATIVO 473

Tabla 6. Descripción del conjunto de datos

Conjunto de No. de No. de No. de Nº de

selección de características. La dimensión reducida de las características de TFIDF reduce el tiempo