面向Web应用的服务器端攻击调查技术
WEB应用一般采用浏览器-服务器架构(B-S架构),用户在PC上使用浏览器加载网站页面,通过各类界面操作来向服务端发送网络请求,以使用网站提供的各类功能。这种模式给了黑客可乘之机,他们可以通过攻击WEB应用来进入公司内网。当攻击发生并被入侵检测系统(IDS)报警后,安全人员希望找到精确的攻击入口,即黑客使用了什么功能、点击了什么按钮发起了这次攻击,以对漏洞进行精确的修复。但现有的攻击溯源手段无法达到理想的效果,无法成功溯源到黑客互动的界面元素(UI元素),其原因主要包括:缺少将攻击和UI元素进行关联的信息、很难采集客户端日志、以及部署于服务端的应用程序具有很高的并发量。

研究小组提出了一种基于行为流建模的攻击检测和溯源的方法,通过对UI正常行为流和底层系统溯源图的建模与匹配,能在底层安全事件发生时及时溯源到攻击的入口。通过设计基于AC自动机的行为流建模方法,在只需部署在WEB服务器,不需要采集PC端日志的条件下,实现了UI元素与网络请求的精确匹配。同时研究小组提出了一种创新的审计日志分区技术,实现了高并发下系统调用和WEB请求的精确匹配,并适配多进程、线程和协程的WEB开发框架,使其支持几乎所有现有场景。相关成果发表于S&P等网络安全顶级会议上。
多源攻击数据融合与特征空间机理挖掘
随着越来越多的攻击技术的涌现,异常攻击事件关联复杂,单次安全事件分为多步骤、多阶段,不同阶段会引发不同设备、不同系统的异常。单一数据源信息无法完整记录攻击行为,因此异常检测模型需要挖掘攻击行为相关的多粒度、全覆盖的数据信息,自动调整数据优化数据的结构特征,为攻击检测模型提供可靠的数据空间基础。

由于恶意攻击数据动态多变、攻击行为低频隐蔽,针对单一设备、数据源收集的检测信息无法完整记录恶意攻击行为,研究小组研究并提出多源异构数据资源的统一表征与融合管理机制,高效处理和利用大数据量、高冗余且低利用密度的多源异构数据,奠定恶意攻击行为精准检测数据基础。相关研究成果发表基于多源信息融合的攻击检测模型(IEEE TNNLS)、基于迭代度量的数据空间优化模型(IJCAI)等高水平学术论文。
漏检高风险驱动的异常高阶关联检测
由于大部分检测场景中恶意攻击数据样本稀疏,难以挖掘异常数据之间的高阶复杂关联,且系统运行过程中存在数据分布实时变动、异常信息稀疏的问题,因此异常检测模型需要挖掘多源异构数据之间的高阶复杂关联,动态处理和分析数据信息,自动调整模型边界条件、检测权重。此外,由于大量恶意攻击行为定向国家基础设施等关键领域,攻击针对性强导致漏报异常攻击数据后果严重,需要进一步增强检测模型的可靠性,降低攻击漏报风险。

针对恶意攻击数据样本稀疏导致难以挖掘异常数据之间的高阶复杂关联且漏报异常攻击数据后果严重的研究挑战,研究小组探索异常稀疏数据的高阶复杂关联规律,构建低虚警、低漏检、动态优化的异常攻击数据检测技术,精准识别多方位高级渗透攻击,实现恶意攻击高精准度检测,大幅度减轻异常攻击数据漏报引起的严重后果。相关研究成果发表漏报代价敏感的超图异常检测模型(Information Sciences),代价信息动态优化驱动超图学习模型(IEEE Transactions on Cybernetics)、代价区间优化的异常攻击分析模型 (AAAI)等多篇高水平学术论文。
复杂多步骤攻击的动态实时跟随
随着信息技术的快速发展,攻击手段也愈加复杂和隐蔽,恶意攻击者通常会采用间隔攻击的方式隐藏攻击踪迹并且会利用潜在未知攻击手段进行攻击,其隐蔽多变的特点对攻击安全防护提出了新要求。攻击检测有必要针对攻击数据在全面探知的基础上进行充分挖掘,避免被低频低速的攻击手段毒化,精准定位系统薄弱环节,提高系统的主动防御能力。

针对恶意攻击复杂多变且包含大量未知攻击手段的研究挑战,研究小组探索恶意行为的动态跟踪检测,持续性挖掘多步骤恶意攻击之间关联关系,提高系统的主动防御能力。研究小组研究并提出基于动态权重优化的适应性检测模型,突破现有检测技术对潜在攻击行为的检测局限性,持续性挖掘多步骤恶意攻击之间关联关系,提高攻击实时检测模型的检测精准度,精准识别潜在的恶意攻击行为,提高系统的主动防御能力。相关研究成果形成权重调节的自适应异常检测模型(IEEE TIE)等多篇高水平学术论文。
频谱及小样本增强的图异常检测
图异常检测在识别图数据中明显偏离大多数的异常实例方面扮演着至关重要的角色,它在网络入侵、金融欺诈、恶意评论等信息安全领域受到广泛关注。近年来,图神经网络(GNN)在图欺诈检测中得到广泛应用,通过聚合邻居信息来表示节点的异常可能性。然而,欺诈图本质上是异质的,因此大多数图神经网络由于其同质性假设而表现不佳。此外,由于异质性和类别不平衡问题的存在,现有模型未充分利用宝贵的节点标签信息。

针对这些挑战,课题探索了多频段图小波变换在节点级别异常检测的应用,及其解决异质性问题和远程信息传播的能力。具体来说,根据频谱能量分布和异质性之间的相关性将频谱划分为各种混合频段。此外,由于实际场景中难以获取大量标记数据,进一步提出了少样本消息增强对比的图异常检测,利用视图内部和视图之间的自我监督对比学习策略来捕获内在的和可转移的结构表示。相关研究成果发表基于频谱增强和环境增强的图欺诈检测器(AAAI),基于混合视角的图级别异常检测模型(ECML PKDD)等多篇高水平学术论文。
日志融合攻击检测模型的对抗增强
在攻击调查领域,为应对依赖爆炸和语义鸿沟的挑战,日志融合通过引入多层级日志的丰富语义得到系统实体之间细粒度的因果关系,以逼近实际的执行历史。然而,由于审计日志的系统调用和应用日志的程序消息被用来推断复杂的系统状态,基于日志融合的攻击调查系统存在被对抗攻击的弱点,研究小组率先提出并称之为日志重融合攻击(log refusion attacks),其演示了攻击者如何增强实际漏洞来破坏日志完整性,绕过现有防御,破坏溯源中的联结并陷害良性用户。

研究小组提出一种攻击调查的新设计ProvGuard (Provenance Guardian),它利用同时包含程序调用控制流和应用消息数据流的建模来交叉验证审计日志和应用日志的历史记录,以确保执行的合法性和一致性。如果攻击者毁损溯源数据,将检测到矛盾并告警,修正执行路径,得到正确的攻击根因和后果。研究小组在Linux系统上实现了原型,并在覆盖各类执行模型的14个实际应用场景及程序上进行了广泛评估。实验结果显示,其成功验证还原了正确的攻击故事,且平均性能开销比传统审计框架仅高 3.62%,同时在最坏情况下只重新引入0.78%的错误依赖,证明了原型的有效性及其防御攻击的新颖性。相关研究成果发表于《中国科学:信息科学》。
面向克隆源代码的代码安全脆弱性检测
在软件开发与维护中,功能性代码克隆检测方法非常重要。若在软件系统中大量出现克隆代码,将导致该软件难以维护且较为脆弱。近年来,功能性代码克隆检测的方法要么通过传统的、针对源代码比较的思路进行;要么则使用深度学习技术,将源代码的结构信息和语义信息融入到表示向量中,通过比较代码表示向量的相似性来检测克隆代码。然而,深度学习技术并未考虑与传统的代码克隆检测器中基于比较的思路相结合,未完全释放二者交叉的潜力。且深度学习技术在处理源代码时,应解决以下三个挑战:一是具备显著的有效性,保证所生成源代码表示的质量与进一步下游任务的性能;二是让模型尽可能的轻量、计算效率尽可能高,使得其可以较为方便的运用到工业场景中;三是模型的可扩展性、可泛化性强,从而可以被运用到不同种类、不同长度的编程语言源代码上。

研究小组针对源代码表示学习,提出了一种基于抽象语法树的神经网络源代码表示模型,提出一种动态批处理方法,允许模型并行处理一个批次的树状结构数据,相比之前的方法提升了十倍以上的计算效率。此外,设计了一种基于深度子树交互的功能性代码克隆检测方法,该方法首先将源代码转换为抽象语法树,进而切割为子树,再通过比较子树的表示来实现功能性代码克隆检测。基于3个经典数据集上广泛的实验,本项目验证了所提方法的有效性,指明了功能性代码克隆新的发展可能。相关成果在软件工程顶级会议ICSE、ESEC/FSE发表。
面向攻击调查的软件漏洞定位
网络攻击在各个领域造成了巨大损失。虽然现有的针对网络攻击的攻击调查专注于识别受损的系统实体和重建攻击故事,但缺乏安全分析师可以用来定位软件漏洞并因此修复它们的信息。研究小组提出了AiVl,一种创新的软件漏洞定位方法,以进一步推动攻击调查。AiVl依赖于操作系统内置的默认系统审计工具所采集的日志和操作系统内的程序二进制文件。给定通过传统攻击调查获得的恶意日志条目序列,AiVl能够识别生成这些日志的函数,并追踪相应的函数调用路径,即源代码中漏洞的位置。

为实现这一点,研究小组提出了一种准确、精简且完备的特定领域程序建模方法,其通过二进制文件的静态-动态分析技术构建所有系统调用流,并开发了日志序列与程序模型之间的有效匹配算法。为了评估AiVl的有效性,研究小组在18个真实世界的攻击场景和一个APT场景上进行了实验,涵盖了漏洞和程序执行模型的各个类别。结果显示,与实际漏洞修复报告相比,AiVl实现了100%的准确率和90%的平均召回率。此外,方法的运行时开销是合理的,平均为7%。相关成果发表在TIFS上。
基于异质图信息瓶颈的鲁棒异质图异常检测
异质图神经网络(HGNNs)在图级别异常检测中已经取得了最先进的性能,这得益于它们捕捉丰富语义的能力。然而,用于图级别异常检测的HGNNs面临两个鲁棒性问题:具有更大影响的全局直接扰动和具有更多脆弱性的局部中间扰动。全局直接扰动应用于异质图会产生更大的影响,这是因为异质图包含依赖于异质性的隐式模式,使其容易受到全局直接扰动的影响。由异质性引入的局部中间扰动暴露了更多脆弱性。最流行的HGNNs变体,即基于元路径的HGNNs,采用分层聚合方法(即包括节点级和语义级),通过元路径将异质图转换为多个中间图。攻击者可以在寻求最优扰动时轻易地制定针对各个中间图的策略,从而破坏异质图的语义。

为了填补这一空白,研究小组引入了首个针对异质图的鲁棒图级别异常检测的研究。为实现这一目标,研究小组提出了一个基于信息瓶颈原理的综合鲁棒异质图级别异常检测框架,旨在识别最具信息性且最少噪声的异质子图,以获得鲁棒且全面的表示。这通过精心设计的节点语义净化器来实现,该净化器通过使用图随机注意力和希尔伯特-施密特独立性准则消除与标签无关的干扰,从而增强节点级和语义级的鲁棒性;同时还配合全局图解缠方法,通过解决信息泄露来提高图级鲁棒性。在三个图分类基准数据集中的实验表明,算法在所有三种攻击设置下准确率平均提高5.06%,同时在干净数据上提高4.33%。相关成果在人工智能顶级会议AAAI上发表。
异常检测模型轻量化算法
安全场景中,为了捕捉多样化的异常模式,模型趋向于堆叠更多层数与更多特征提取器(滤波器或神经元),导致模型参数量和模型推导计算量迅速膨胀。然而安全场景多在本地或边缘设备上进行实时检测(如监控摄像头、本地服务器、移动终端等),这些设备往往计算资源受限(CPU、GPU 功耗有限,存储与内存空间受限)。为了满足实时预警的需求,降低模型推理耗时,亟需将异常检测模型轻量化。

为了实现上述目标,即在不损失原模型精度的情况下实现异常检测模型的轻量化,我们研究小组利用超图结构建模异常检测模型中各个特征提取器之间的高阶相关性,通过超图谱聚类,有效发现模型中冗余的特征提取器,将冗余部分从网络模型中移除,得到了轻量的异常检测模型,最后通过重新学习恢复轻量模型的精度。在多个分类任务中,我们的方法均在压缩了2倍以上模型推理计算量的前提下,保证了模型的零精度损失。相关成果发表在期刊TPAMI上。
细粒度和类增量的安全行为图抽象
基于学习的安全行为图抽象在互联网基础设施中被广泛应用于相似安全行为图的划分和识别。然而,研究界在实际场景部署现有方案时发现了显著的局限性。这些挑战主要涉及细粒度新类行为图以及模型增量适应。为了解决这些问题,研究小组提出利用大语言模型(LLMs)在上下文学习(ICL)框架下挖掘多源日志的语义信息,以及架起分布外(OOD)检测与类增量图学习之间的桥梁。

为了实现这一点,研究小组开发了第一个统一框架,称为细粒度和类增量行为图分类(FG-CIBGC)。为验证FG-CIBGC的有效性,研究小组引入了一个新的基准测试,包括一个由8个攻击场景生成的新数据集,包含4,992个图和32个类别以及一个新的评估指标也就是边交并比(EIoU)。大量实验表明FG-CIBGC在细粒度和类增量BGC任务上具有优越性能,同时该框架能够生成有助于下游任务的细粒度行为图。相关成果在人工智能顶级会议WWW上发表。
基于层次传播与自适应高斯混合模型的单分类图数据欺诈检测
互联网和电子商务的快速发展导致了复杂欺诈活动的显著增加,给电商平台、金融服务等领域带来了财务损失和重大挑战。为了解决这些问题,研究人员正在探索利用复杂网络关系的先进技术解决方案。传统基于监督学习的图神经网络方法依赖大量标注的欺诈样本进行训练,但在实际场景中欺诈样本稀缺且标注成本高昂,传统方法面临训练数据不足的困境。同时,节点在不同的关系下表现出异构的连接模式,这使得异构网络中节点之间的复杂交互难以捕获,正常与欺诈节点的特征难以区分。

研究小组提出了OC-GFD模型,通过层次消息传播机制(HMP)分离局部关系特征与全局结构表征,结合自适应高斯混合模块(AGM)构建多模态概率分布。该方法采用EM算法迭代优化高斯参数与GNN嵌入,在Yelp/Amazon数据集上实现84.07%和93.56%的AUC值,较现有最优方法提升2.23-2.14%,突破单类场景下异构关系建模与分布拟合的技术瓶颈。相关成果发表于ICME国际会议上。
基于影子路径引导的网络攻击调查方法
在网络攻击发生后,开展攻击调查以分析其根本原因及影响至关重要。目前,基于溯源图的技术已成为主流方法,但该方法面临依赖爆炸问题。最新研究通过整合审计日志和应用日志,在一定程度上缓解了这一问题,并展现出无需程序插桩、模型训练或污点分析的优点。然而,现有日志融合技术要么依赖复杂的融合规则,要么需要进行应用程序逆向工程,且在应对新应用时需重新调整算法,限制了其通用性。

研究小组提出了一种新的基于日志融合的攻击调查方法ProvNavigator。该方法在构图阶段通过分析日志间的相关性,将不同日志源的独立溯源图合并为全局融合溯源图。在攻击调查阶段,当面对依赖爆炸的节点时,利用“影子路径对”引导调查,以选择适当的边进行追踪,从而重构整个攻击链。本研究方法无须插桩或逆向分析,具备通用性。相关研究成果发表于期刊《通信学报》。