中国注册会计师
    主页 > 期刊导读 >

审计知识图谱的构建与研究基于的图谱技术

知识图谱(Knowledge Graph)是显示知识发展进程与结构关系的一系列各种不同的图形,又被称为知识域可视化或知识领域映射地图,是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。随着大数据技术的发展以及海量数据转化为知识时代的到来,知识图谱技术能够从海量非结构化数据(如文本和图像)和结构化数据中进行知识获取、知识共享,并在大数据时代进行知识创新。知识图谱可以高效、直观地描绘出目标对象(如企业,事件等)之间的相关网络,并在多维视角实现对象的真实情况和错综复杂的关系。在企业的实际业务中,面对海量繁多的财务会计凭证、账簿、报表及电子数据等信息,审计人员常常通过抽查来发现问题。知识图谱技术的出现,提供了更高效的审计,提高审计工作效率,可以作为经典审计方法的补充,在理想情况下甚至可以做到全面排查总体,这样不仅能避免审计抽样的风险,同时也降低了审计工作的复杂性和总体风险。本文基于百度问答的数据,对审计领域的一些常见知识进行了收集,基于多源异构审计数据,构建了结构化审计数据库,并通过可视化工具,进行初步的可视化分析产生可视化图表,对审计信息进行分析和使用,有助于审计信息使用者快速了解特定领域的审计知识,为审计需求相关方的决策提供参考价值。

一、研究回顾

知识图谱的应用大概分为通用知识领域和行业知识领域。通用知识领域的应用主要包括智能问答系统,如Google。Google 知 识 图谱是在Freebase 的基础上研发的,Freebase 是 由Kurt Bollacker,Robert Cook, Patrick Tufts(2007)提出的通用人类知识数据库。该数据库具有实用、可扩展、图形化、结构化的特点,其灵感来自于语义Web 研究和协作数据通信,如Wikipedia。Freebase 允许通过HTTP 的图形查询API 进行公共读写访问,用于研究、创建和维护结构化数据以及应用程序构建。近年来,国内学者还开发出一款类似Google 的大规模开放知识图谱---Zhishi. 是 从互动百科、百度百科和中文维基百科中提取实体信息,并协调来自各个来源的知识以获得规范的数据集,该图谱的规模虽不及Google 研发的知识图谱,但是却也包含大约1000 万个实体(周盛威,2018)。

知识图谱行业知识领域的应用主要有医学领域、金融领域等。医学领域方面,张崇宇(2019)提出面向临床医疗知识图谱的自动问答方法,主要依托于构建的临床医疗知识图谱的实体、关系及属性,通过数据冷启动机制生成语料,然后基于一种网格Bi-LSTM-CRF 算法的医疗实体识别和基于字-词编码CNN 模型的关系/属性映射方法来完成问题的语义解析任务。然后通过业务分流和查询逻辑转换为Neo4j 图数据库,最终实现医疗应用场景的知识图谱自动问答系统。在金融领域方面,张芸芸、方勇、黄诚(2018)提出基于Neo4j 图谱检测信用卡欺诈的方法,通过图数据库直观显示数据集的特征,并通过FICO评分标准建立FICO 模型,研究表明,该方法可以显著提高信用卡欺诈的识别率。

信息可视化在可视化技术中占有重要地位,通过将抽象数据进行可视化展示,从而加强人们对数据的认知及数据获取效率。Bernal 于1938 年绘制学科图谱,但知识图谱在我国于2005 年开始流行,相比于国外兴起较晚。目前,国内外关于知识图谱的可视化工具层出不穷。国外最为经典的知识图谱可视化分析软件是CiteSpace,它是一款针对科学文献的可视化分析工具,用于计量特定领域的文献,从而探寻该学科的发展方式和知识变迁。该软件适合复杂的网络关系可视化分析,但是CiteSpace被运行在java 平台,适合专业基础较高的人,使用门槛高。在国内,Plantdata 是一款较为成熟的知识图谱可视化平台。与传统知识图谱的可视化平台不同的是,Plantdata 加入了时间属性,支持仪表盘功能,并加入交互操作。其最为出色的一点是支持快速搭建高效精准智能深度搜索系统,并以不同的形态展现给用户,通过对多个维度进行分析,帮助用户做出决策(杨卓,2019)。

图1 csv 文件中部分数据

图2 节点查询示例图

图3 审计关系查询的节点示例

经过以上对国内外研究的分析和比较,可以看出知识图谱及其可视化服务正在迅猛发展,并开始逐步应用至各行各业。知识可视化的实质是将内容用图形的方式表示,更符合人们对信息的感知与理解,从而进行知识传播(刘琦,2018)。在企业审计领域中,由于审计知识领域涉及范围较广,审计知识之间的关系纷繁复杂,存储、组织和表达方式较为松散,缺乏有效的管理。另外,审计知识检索的效率不高,无法进行关联知识的深度检索。由此可见,将知识图谱与可视化技术运用至企业审计领域中,与检索者产生交互,显示地表达知识的整体性与关联性,将对知识的传播起到推动作用。同时,企业也可通过运用审计知识图谱,将传统的业务推动数据模式转化为数据推动业务模式,提高审计的效率,挖掘不易发现的审计数据,为企业决策提供参考价值(樊世昊,2018)。国内外对于实现信息化审计的研究仍处于起步阶段,由于审计领域涉及范围较广,实现全面的大数据审计仍有难度。目前,虽有一些学者将知识图谱应用在审计领域中,但尚无较为成熟的应用。