Posts

万海小组国家自然科学基金项目结题成果科普性介绍

国家自然科学基金项目结题成果科普性介绍——微处理器敏捷设计方法关键技术研究 本项目来源于国家自然科学基金区域创新联合发展基金项目“微处理器敏捷设计方法关键技术研究(No. U19A2062)”,起止时间 2020.1-2023.12。本项目工作概括如下。 一、 主要研究内容 针对微处理器敏捷设计方法的关键科学问题和应用方法开展研究,突破微处理器敏捷设计方法理论与关键技术,包括前端设计建模、微处理器自动生成、设计验证、前端和后端各阶段数据采集和特征提取方法、基于机器学习的后端预测与优化技术,构建前后端设计一体化框架等。将构建的前后端EDA工具链,应用于实际微处理器设计实践,突破微处理器敏捷设计应用方法。提出并构建微处理器敏捷设计方法学及其支撑EDA工具集。 本项目主要研究内容可概括为“一个方法学”和“一套EDA工具链”,如图1所示。 图1 项目主要研究内容 研究内容共涉及到4个环节,首先,项目将依托现有设计流程开展微处理器敏捷设计关键技术的研究。其次在RTL设计建模、设计验证、设计库等环节,通过提升设计建模的描述能力,以支持更广泛的设计重用、更灵活的设计修改、支持基于特征集成的快速设计集成、快速生成微处理器设计的设计探索,以及基于特征的快速验证方法,来加速前端设计的快速设计迭代。第三,引入基于机器学习的预测与优化方法,通过前后端无缝数据收集与共享,对底层设计环节进行基于机器学习的设计预测和优化增强,以减少人工干预,加快设计迭代。第四,通过前后端无缝数据的集成,支持EDA工具的快速重构适配。 二、研究方法与研究结果 2.1 微处理器敏捷设计前端设计、建模与优化方法 进入后摩尔时代后,登纳德缩放定律和摩尔定律走向终结,微处理器设计和架构的新方法变得越来越重要,需要领域特定体系结构(domain specific architecture,DSA)和新的开发方法,来快速生成针对不同应用需求的高效专用芯片[2]。因此,集成电路设计领域也将面临应用需求不断变化、快速应对应用需求和芯片上市时间等压力。芯片设计方法对提高微处理器设计效率的重要性越来越高。与软件开发领域相比,将敏捷设计方法应用于微处理器设计已成为一种可选的解决方法。 可以在软件设计方法中找到对这种多特征同时集成与探索的类比场景—面向特征编程(Feature Oriented Programming,FOP)方法。FOP是在面向对象编程方法之上的一种软件开发方法。其核心思想是将软件分解为更小的块(称为特征),并根据用户的需求进行组合。FOP 称对象在特征实现中所起的作用为角色(role)。特征模块与对象之间往往是一种正交关系,应用程序的对象通常同时参与多个特征的实现,每个特征的实现通常依赖多个角色之间的合作,因此一个对象可能编码几个不同的角色。通常,一系列的特征组成一个最终的程序,这个程序本身就是一个特征。这样,一个特征既可以是一个可以执行的完整程序,也可以是一个需要进一步组合其它特征才能形成完整程序的程序增量。 遵循微处理器敏捷设计方法的研究成果,项目基于PyRTL语言开展该方法学落地研究,具体为基于PyRTL的FOP建模方法支撑机制的设计与实现,包括设计描述、特征建模、特征集成等,基于等价饱和的组合后设计优化技术,以及基于模糊测试方法的验证技术。 2.1.1 基于PyRTL的FOP设计建模 为支持面向特征编程,我们从两个方面对PyRTL进行了扩展。一方面是扩展Python以支持FOP在语法和语义上的建模。另一方面是实时合成算法。 首先,仍以PyRTL提供的各种RTL建模机制来建模特征模块,且每个特征模块用面向对象方法进行设计与描述。其次,定义了一些机制来帮助设计人员灵活地建模和组合功能,以增加设计的可重用性。具体实现上,在语法上将“+”操作符定义为“合成”(“·”)操作符。在语义上重载PyRTLBlock类的__add__方法来返回组成电路的Block。因此,特征组合公式P=C·B·A可以表示为P=A+B+C。 第三,进一步重载PyRTLBlock类中的__getattr__方法。因此,设计者可以使用信号的名称直接从模块中选择相应的信号。最后,在Block类中增加了一个新的input_circuit方法,将设计细化到PyRTLIR块中,使我们的组合算法能够实时生成组合设计。 2.1.2 基于等价饱和技术的设计优化技术 由于FIRRTL应用较广,且成为事实上的标准,而PyRTL IR可等价自动地转换为FIRRTL,因此,本项目中对组合后设计的优化是在FIRRTL格式上进行的。 项目提出一种基于等价饱和的FIRRTL优化方法。该方法首先从输入的FIRRTL文件创建初始的等价图(E-Graph),然后利用等价饱和引擎不断运行一组重写规则,直到E-Graph达到饱和。接下来,提取算法会根据给定的 开销模型选择最优的子图,最后,将优化后的子图写回FIRRTL。 直观来说,基于等价饱和的优化技术,是将所有可能的等价的优化都枚举出来,并记录所有这些等价优化的中间结果。最后,基于优化目标函数,扫描一遍所有的优化中间结果,得到最优化的函数解,该解对应的优化中间结果组合成的设计,即为最优的优化设计。 2.1.3 基于模糊测试的设计验证方法 针对目前基于模糊测试方法的不足,本项目在种子输入生成、变异策略选择、覆盖率测度等方面进行了改进: 覆盖率测度方面:选择多路选择器,特别是2-1选择器的控制信号作为覆盖率目标。我们通过定义全选择器跳变覆盖率(Full Multiplexer Toggle Coverage,FMTC)来等效地实现对电路中控制信号的覆盖。FMTC定义为多路选择器在一次测试中,其控制信号值应从0切换到1再切换到0,或从1切换到0再切换到1。此外,定义了断言覆盖率,以体现对功能覆盖的度量。 在种子输入生成方面:根据被测器件的电路结构产生种子输入。计算每个多路选择器的影响锥(Cone-of-Influence,COI)。然后,选择具有最大COI集的复用器,并使用符号模拟和约束求解技术生成能够覆盖所选复用器的测试。生成的测试作为种子输入来启动测试过程。 变异策略选择技术:项目中面向数字电路位向量运算的特点,针对性地实现了AFL中常用的确定性变异和非确定性变异算子。在变异算子和种子输入的选择上,提出了基于马尔科夫链的变异算子选择策略,根据测试反馈,预测并选择能到达更多新覆盖的变异算子和种子输入。 2.1.4 研究结果 研究取得的成果通过在典型微处理器设计上的应用及评估得到验证。首先,以RISC-V和OpenRISC1200两个典型微处理器作为实验案例,评估基于FOP的微处理器敏捷建模方法的有效性。OR1200是一个32位RISC处理器,具有五级流水线。 对比OOP、FOP和直接修改代码三种增量式设计方法的时间开销,可以看出FOP方法相比于其他方法,随着新增指令或指令类型的增加,设计效率显著提升。 表1 OOP、FOP与直接修改代码三种方法的设计效率 其次,评估了本项目设计优化算法的效率,结果如表2所示。评估过程首先利用PyRTL 提供的转化接口将组合的特征模块的中间格式转化为FIRRTL文件。其次,在此基础上生成对应的Verilog文件送入yosys进行逻辑综合得到实际的逻辑单元数,结果如表中第3列所列。同时,将该FIRRTL文件运用框架中的等价饱和优化模块进行优化,与上述类似,生成对应的Verilog文件送入yosys进行逻辑综合得到实际的逻辑单元数,结果如表中第4列所列。表中最后1列给出了基于等价饱和优化方法与FIRRTL库原生的优化方法,在单元数节约上的节约率。 表2 设计优化效果 从表中数据可以看出,基于等价饱和的优化方法可以有效降低面向特征的设计的硬件开销,一些设计的优化效果可以达到 9.764%。 最后是基于马尔科夫链的微处理器模糊测试方法的评估,我们采用了分别在RFUZZ和MPFUZZ中提出的(Mux Toggle Coverage)MTC和(Full Multiplexer Toggle Coverage)FMTC覆盖度量。这两个覆盖率评价标准广泛用于HDSL相关模糊测试工具的覆盖收集。为了实现MTC,多路复用器的控制信号值需要实现0-1或1-0跳转,而为了实现FMTC,多路复用器的控制信号值需要实现0-1-0或1-0-1跳转。 图2 OpenRISC1200测试结果 图2与图3展示了基于马尔科夫链的微处理器模糊测试方法与RFUZZ工具,分别在OpenRISC与RocketChip两个典型微处理器设计上,在两个不同覆盖标准上的结果对比,其中星型标记的折线评价在MTC标准上的结果,红色线条代表本文工具,蓝色代表RFUZZ工具;圆型标记的折现评价在FMTC标准上的结果,绿色线条代表本项目工具,紫色线条代表RFUZZ工具。 从图中得出初步结论,对于两种不同的覆盖标准,在相同的突变次数下,基于马尔科夫链的微处理器模糊测试方法可以获得比RFUZZ更高的覆盖。由于在FMTC覆盖标准中,在单次测试中需要比在MTC覆盖标准中多实现一个信号切换,所以在所有测试用例中,这两种工具在FMTC覆盖标准上的结果比在MTC覆盖标准上表现更差。 图3 RocketCore测试结果 2.2 结合机器学习的微处理器敏捷设计后端设计与优化方法 敏捷设计的主要目标是实现无人参与的设计自动化,因此需要依靠各设计阶段性能的准确预测来有效地指导各个阶段的设计优化,尽可能减少人工干预以及设计的返工迭代。在芯片RTL-to-GDSII设计流程中,敏捷设计方法需要广泛借助机器学习技术,寻求“无人参与”的解决方案。时序性能作为芯片的重要性能指标,在RTL-to-GDSII设计的各个流程中均需要进行静态时序分析。快速、准确和可靠的时序预测,可以将签核(Sign-Off)阶段的时序性能前馈到早期设计流程中,指导早期设计的时序优化和时序收敛,减少芯片设计的迭代次数,缩短迭代周期。

团队介绍

团队顾问 孙家广,中国工程院院士,软件及其应用领域专家。教育部软件工程教指委主任、国家企业信息化应用支撑软件工程技术研究中心主任、中国图学学会理事长、清华大学学术委员会副主任、中华人民共和国最高人民法院信息化专家咨询委员会常务副主任。先后获得国家高技术研究发展计划先进个人、国家级有突出贡献的中青年专家、北京市教育创新标兵、北京市高等学校教学名师、北京市优秀教师等称号,国家级精品课“软件工程”责任教授。 长期从事计算机图形学、计算机辅助设计、软件系统建模与验证及软件工程与系统的教学、研究、开发工作,负责研制了具有自主知识产权的二维CAD系统、三维几何造型核心平台、产品数据全生命周期管理系统及企业信息化集成系统 (EIS) 等大型软件,并在数百家大中型企业中得到应用,为推动我国制造业信息化、提升我国软件产业化能力做出了贡献。 主页:https://www.thss.tsinghua.edu.cn/faculty/sunjiaguang.htm 学术带头人 赵曦滨,长聘副教授、博士生导师,清华大学信息系统安全教育部重点实验室副主任,清华大学-中央国债登记结算有限责任公司金融信息科技创新联合研究院院长,清华大学-中车四方所智能装备工业物联网联合研究中心副主任。科技部“十二五”863先进制造领域重大项目“核心软件”总体专家组成员,“十四五”国家重点研发计划“社会治理与智慧社会科技支撑”专家。CCF高级会员、IEEE高级会员、中国自动化学会高级会员、中国自动化学会智能制造专业委员会委员、中国城市轨道交通协会装备认证技术委员会委员、中国指挥与控制学会时空安全信息服务专业委员会常务委员。长期致力于企业信息化、工业网络安全和智能制造领域的理论与实践研究。近年来,作为负责人和主要参与者主持或参与省部级以上项目40余项,其中包括25项国家级项目(863、973和自然科学基金)、9项省部级科研项目及1项全国博士后基金项目。在国内外重要学术会议及期刊上发表了200余篇学术论文,其中70余篇被SCI和EI收录,总被引次数超过3300次。出版合作专著1部,申请100余项发明专利,其中获得授权的有40余项。荣获省部级科技进步一等奖3项、二等奖2项和三等奖1项。 主页:https://www.thss.tsinghua.edu.cn/faculty/zhaoxibin.htm 邮箱:zxb@tsinghua.edu.cn 万海,博士,清华大学软件学院副研究员,清华大学-中央国债登记结算有限责任公司金融信息科技创新联合研究院副院长。研究方向为信息安全、网络安全、工业网络、形式化方法、实时系统等,作为负责人/子课题负责人承担国家自然基金委重点项目、重大仪器项目、北京市科技计划重大项目、国家科技部支撑计划项目、广东省重点研发计划;作为骨干参与了十一五、十二五国家科技支撑计划,国家自然科学基金重大项目,国家科技重大专项等在内的多项国家课题;作为负责人承担了多项校企合作项目。在S&P、TIFS、NeurIPS、TON、TCAD、TPAMI、TIE、TII等国际顶级会议和期刊上发表论文 70余篇,授权专利50余项。与工业界合作紧密,相关系统已经在多家企业得到实际应用和批量应用。获得清华软件奖、日内瓦国际发明展“评审团特别嘉许金奖”、交通运输协会科技奖二等奖,中车科技进步奖一等奖一项、三等奖,上海市科技进步奖三等奖,中国航空学会科学技术奖三等奖,中国电工技术学会科技进步奖一等奖、CCF中国高校计算机教育大会教学案例大赛一等奖。 主页:https://www.thss.tsinghua.edu.cn/faculty/wanhai.htm 邮箱:wanhai@tsinghua.edu.cn 博士研究生 林航2020级 陈昌骅2021级 倪志彬2022级 席昊2022级 彭贻豪2023级 魏日升2023级 李霄翔2024级 许智威2024级 硕士研究生 2024级 陈江旺 刘畅 穆新宇 邱天 张成骅 张程皓 张景润 王子宁 2023级 汪世恒 党浩然 吴奕鸣 张博 朱子震 吴雨娟 蒋欣雨 戴声濯 2022级 吴都 程志阳 张童鑫 时辰轩 张郁璇 朱金宇 王子琪 颜廷震 樊志睿 樊攀 王震 袁沈阳 赖杰绍 杨兆宝 杨乐佳 毕业校友 2024届 张轩诚(博士)毕业去向:博世 梁若舟(硕士)毕业去向:华为 姜禹(硕士)毕业去向:腾讯 蔡泽斌(硕士)毕业去向:深圳公务员 孙逸伦(硕士)毕业去向:scitix 马易颜(硕士)毕业去向:腾讯 姜春飞(硕士)毕业去向:美团 谭仁轩(硕士)毕业去向:美团 陶洪元(硕士)毕业去向:腾讯 李晓佳(硕士)毕业去向:快手 胡浩(硕士)毕业去向:快手 2023届 蔡挺(硕士)毕业去向:字节跳动 王瑞华(硕士)毕业去向:微软 谢韬(硕士)毕业去向:字节跳动 周泽龙(硕士)毕业去向:华为 2022届 陆犇圆(硕士)毕业去向:华为 吕永康(硕士)毕业去向:美团 2021届 王楠(博士)毕业去向:北京交通大学 崔浩(硕士)毕业去向:阿里云

学术论文

2025 Zhibin Ni, Chang Liu, Hai Wan, Xibin Zhao: Robust Heterogeneous Graph Classification for Molecular Property Prediction with Information Bottleneck. AAAI. 2025. CCF A Bingjun Luo, Jinpeng Wang, Zewen Wang, Junjie Zhu, Xibin Zhao. Graph-Based Cross-Domain Knowledge Distillation for Cross-Dataset Text-to-Image Person Retrieval. AAAI. 2025. CCF A Hang Lin, Yifan Peng, Yubo Zhang, Lin Bie, Xibin Zhao, Yue Gao. Filter Pruning by High-Order Spectral Clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).

工程实践

“侦攻防溯”“教学评研”一体化软件平台DART DART是一个集侦、攻、防、溯及教、学、评、研一体化的课程创新研发平台。通过系统化教学、实战式学习、综合性评价与数智化科研解决网络安全教育过程中存在的痛点和难点。 DART平台具备快速构建场景的能力,内置逾百种常见CVE漏洞的漏洞库,并涵盖超过300个针对不同行业和应急情况设计的网络安全靶标库。平台配备直观的可视化编辑工具,用户可轻松定制和更新实验场景,结合丰富的科研资源和自动化编排功能,高效创建接近真实环境的攻防实验环境,有效推动教学与科研活动的发展。 DART平台具备面向实战的课程编排体系。平台提供高度逼真的教学环境,运用虚拟化技术将网络攻防理论无缝转化为实践操作。其核心特色是以Kill Chain模型和MITRE ATT&CK框架为指导,构建全面的知识和技能体系,帮助学习者深入理解从侦察到行动各个阶段的操作。 DART平台具备针对知识的内容管理功能,精心设计了内容难度等级划分,确保课程能够系统化地覆盖从基础知识到高级技能,为不同层次的高等教育机构提供全面的教学支持。平台通过场景与模板管理功能,支持快速构建与调整网络攻防环境,并结合自动化编排机制,显著提升了教学活动的灵活性和效率,提供强大的实践支撑。此外,平台引入课程场景分享机制,鼓励教师间共享资源,如预先设计的实验场景、漏洞数据库、攻防工具集及相关文献资料,促进跨校乃至跨地区的知识交流与合作,构建开放、协作的学习生态,进一步丰富教学内容,提升教学质量。 DART平台通过提供一个安全、可控的虚拟实验环境,使学生能够在靶场中学习安全技术,并通过攻防演练提升他们的安全意识和技能。这种真实的靶场实践体验不仅增强了学生的实践能力,还具有高度的交互性。此外,平台还提供了真实的科研场景,促使学生在科研实践中不断发现新问题,激发新的科研想法,实现自我突破。为了帮助学生更快速地掌握靶场操作技能,平台配备了新手引导、FAQ以及操作步骤的逐步提示等辅助功能,确保实践的安全性,并提高教学的效率和效果。配图展示了实验场景实例、新手引导和逐步操作提示,直观地呈现了平台的实践教学功能。 DART平台不仅提供了高交互性、安全可靠的实践环境,还特别注重学习过程中主动知识的推送。学生无需额外硬件或软件支持,通过易用的靶场操作设计,轻松完成网络安全的实践与学习任务。平台通过智能化的学习资源推荐和知识点建议,帮助学生系统化地学习和掌握网络安全知识,提高学习效率。此外,学生可以回顾和查看自己的操作记录,发现问题并不断自我突破,从而加深对实践操作的理解和记忆。DART平台还提供学生作业提交、实验报告撰写以及攻击Flag填写等功能,旨在提升学生的学习参与度和实践能力。通过直观的工具,学生能够更清晰地记录和反思自己的学习过程,进一步巩固和应用所学知识。 通过严格的场景隔离,DART平台确保学生在进行网络安全实践时不会影响外部网络环境,并避免受到外部攻击。此外,细粒度的权限控制使教师能够根据学生需求和学习进度,灵活调整访问权限,实现个性化教学。平台还不断进行安全加固,包括系统补丁更新、访问控制和日志监控,以提高系统的安全性和可靠性。DART通过技术手段实现对实践环境的监控和管理,为学生提供一个安全、可靠的学习环境。 DART平台通过教学与科研的互补,不仅在教学过程中培养学生的创新精神和实践能力,还激发学生的科研灵感,实现教学对科研的赋能。DART提供易用的科研工具,使学生能够在教学中发现问题,并探索初步解决方案,逐步形成成熟的科研思路。此外,教学科研一体化的平台设计使学生能够从简单的教学场景出发,不断扩展和深化,迅速提升至更复杂的科研场景。DART平台支持自动化溯源图构建功能,有助于学生和研究人员在科研过程中进行数据采集和分析,为科研工作提供稳定、安全的智能支持。 DART是一款挖掘灵感、面向数据、稳定安全的智能采集分析科研平台,旨在覆盖数据采集、处理与分析的全过程。其数据采集处理解析工具实现了对数据的全方位处理,以满足安全教学、实践和科研需求。多源数据聚合引擎能够自动从多个不同的数据源中收集数据,进行自动化清洗与去重,并对其进行深入分析。平台提供的多机融合溯源图功能,可视化地展现事件链路的全局视野,从而提升对场景理解的直观性,并赋能异常检测和攻击调查等算法。 DART是一款挖掘灵感、面向数据、稳定安全的智能采集分析科研平台,能够稳定、安全地进行场景运维。实时监控和管理功能确保能够及时发现并处理实验中出现的问题和异常情况,保障实验的安全与有效性。多种监控指标涵盖内存、CPU、网络和磁盘,多视角监控场景状态,同时可以查看集群状态信息,精确定位问题所在。场景容灾技术在事故发生时能够快速响应,采取相应措施恢复正常运行。 赵曦滨老师教授的《网络与信息安全技术》课程采用DART作为其实践平台。该课程获评清华大学精品课程,并荣获清华大学教学优秀奖、清华大学研究生院教学改革立项,以及CCF中国高校计算机教育大会CCEC2024教学案例大赛一等奖。DART平台还顺利支撑了2023年湖南省大学生计算机程序设计竞赛-网络攻防邀请赛的圆满举行。 研究小组在教学改革实践中,为学生提供了深入的指导,形成了一系列具有代表性的成果。具体包括在顶尖学术会议和期刊上发表的论文、获得的发明专利和软件著作权,以及各类竞赛奖项,比如第48届日内瓦国际发明展“评审团特别嘉许金奖”。

科研成果

面向Web应用的服务器端攻击调查技术 WEB应用一般采用浏览器-服务器架构(B-S架构),用户在PC上使用浏览器加载网站页面,通过各类界面操作来向服务端发送网络请求,以使用网站提供的各类功能。这种模式给了黑客可乘之机,他们可以通过攻击WEB应用来进入公司内网。当攻击发生并被入侵检测系统(IDS)报警后,安全人员希望找到精确的攻击入口,即黑客使用了什么功能、点击了什么按钮发起了这次攻击,以对漏洞进行精确的修复。但现有的攻击溯源手段无法达到理想的效果,无法成功溯源到黑客互动的界面元素(UI元素),其原因主要包括:缺少将攻击和UI元素进行关联的信息、很难采集客户端日志、以及部署于服务端的应用程序具有很高的并发量。 研究小组提出了一种基于行为流建模的攻击检测和溯源的方法,通过对UI正常行为流和底层系统溯源图的建模与匹配,能在底层安全事件发生时及时溯源到攻击的入口。通过设计基于AC自动机的行为流建模方法,在只需部署在WEB服务器,不需要采集PC端日志的条件下,实现了UI元素与网络请求的精确匹配。同时研究小组提出了一种创新的审计日志分区技术,实现了高并发下系统调用和WEB请求的精确匹配,并适配多进程、线程和协程的WEB开发框架,使其支持几乎所有现有场景。相关成果发表于S&P等网络安全顶级会议上。 多源攻击数据融合与特征空间机理挖掘 随着越来越多的攻击技术的涌现,异常攻击事件关联复杂,单次安全事件分为多步骤、多阶段,不同阶段会引发不同设备、不同系统的异常。单一数据源信息无法完整记录攻击行为,因此异常检测模型需要挖掘攻击行为相关的多粒度、全覆盖的数据信息,自动调整数据优化数据的结构特征,为攻击检测模型提供可靠的数据空间基础。 由于恶意攻击数据动态多变、攻击行为低频隐蔽,针对单一设备、数据源收集的检测信息无法完整记录恶意攻击行为,研究小组研究并提出多源异构数据资源的统一表征与融合管理机制,高效处理和利用大数据量、高冗余且低利用密度的多源异构数据,奠定恶意攻击行为精准检测数据基础。相关研究成果发表基于多源信息融合的攻击检测模型(IEEE TNNLS)、基于迭代度量的数据空间优化模型(IJCAI)等高水平学术论文。 漏检高风险驱动的异常高阶关联检测 由于大部分检测场景中恶意攻击数据样本稀疏,难以挖掘异常数据之间的高阶复杂关联,且系统运行过程中存在数据分布实时变动、异常信息稀疏的问题,因此异常检测模型需要挖掘多源异构数据之间的高阶复杂关联,动态处理和分析数据信息,自动调整模型边界条件、检测权重。此外,由于大量恶意攻击行为定向国家基础设施等关键领域,攻击针对性强导致漏报异常攻击数据后果严重,需要进一步增强检测模型的可靠性,降低攻击漏报风险。 针对恶意攻击数据样本稀疏导致难以挖掘异常数据之间的高阶复杂关联且漏报异常攻击数据后果严重的研究挑战,研究小组探索异常稀疏数据的高阶复杂关联规律,构建低虚警、低漏检、动态优化的异常攻击数据检测技术,精准识别多方位高级渗透攻击,实现恶意攻击高精准度检测,大幅度减轻异常攻击数据漏报引起的严重后果。相关研究成果发表漏报代价敏感的超图异常检测模型(Information Sciences),代价信息动态优化驱动超图学习模型(IEEE Transactions on Cybernetics)、代价区间优化的异常攻击分析模型 (AAAI)等多篇高水平学术论文。 复杂多步骤攻击的动态实时跟随 随着信息技术的快速发展,攻击手段也愈加复杂和隐蔽,恶意攻击者通常会采用间隔攻击的方式隐藏攻击踪迹并且会利用潜在未知攻击手段进行攻击,其隐蔽多变的特点对攻击安全防护提出了新要求。攻击检测有必要针对攻击数据在全面探知的基础上进行充分挖掘,避免被低频低速的攻击手段毒化,精准定位系统薄弱环节,提高系统的主动防御能力。 针对恶意攻击复杂多变且包含大量未知攻击手段的研究挑战,研究小组探索恶意行为的动态跟踪检测,持续性挖掘多步骤恶意攻击之间关联关系,提高系统的主动防御能力。研究小组研究并提出基于动态权重优化的适应性检测模型,突破现有检测技术对潜在攻击行为的检测局限性,持续性挖掘多步骤恶意攻击之间关联关系,提高攻击实时检测模型的检测精准度,精准识别潜在的恶意攻击行为,提高系统的主动防御能力。相关研究成果形成权重调节的自适应异常检测模型(IEEE TIE)等多篇高水平学术论文。 频谱及小样本增强的图异常检测 图异常检测在识别图数据中明显偏离大多数的异常实例方面扮演着至关重要的角色,它在网络入侵、金融欺诈、恶意评论等信息安全领域受到广泛关注。近年来,图神经网络(GNN)在图欺诈检测中得到广泛应用,通过聚合邻居信息来表示节点的异常可能性。然而,欺诈图本质上是异质的,因此大多数图神经网络由于其同质性假设而表现不佳。此外,由于异质性和类别不平衡问题的存在,现有模型未充分利用宝贵的节点标签信息。 针对这些挑战,课题探索了多频段图小波变换在节点级别异常检测的应用,及其解决异质性问题和远程信息传播的能力。具体来说,根据频谱能量分布和异质性之间的相关性将频谱划分为各种混合频段。此外,由于实际场景中难以获取大量标记数据,进一步提出了少样本消息增强对比的图异常检测,利用视图内部和视图之间的自我监督对比学习策略来捕获内在的和可转移的结构表示。相关研究成果发表基于频谱增强和环境增强的图欺诈检测器(AAAI),基于混合视角的图级别异常检测模型(ECML PKDD)等多篇高水平学术论文。 日志融合攻击检测模型的对抗增强 在攻击调查领域,为应对依赖爆炸和语义鸿沟的挑战,日志融合通过引入多层级日志的丰富语义得到系统实体之间细粒度的因果关系,以逼近实际的执行历史。然而,由于审计日志的系统调用和应用日志的程序消息被用来推断复杂的系统状态,基于日志融合的攻击调查系统存在被对抗攻击的弱点,研究小组率先提出并称之为日志重融合攻击(log refusion attacks),其演示了攻击者如何增强实际漏洞来破坏日志完整性,绕过现有防御,破坏溯源中的联结并陷害良性用户。 研究小组提出一种攻击调查的新设计ProvGuard (Provenance Guardian),它利用同时包含程序调用控制流和应用消息数据流的建模来交叉验证审计日志和应用日志的历史记录,以确保执行的合法性和一致性。如果攻击者毁损溯源数据,将检测到矛盾并告警,修正执行路径,得到正确的攻击根因和后果。研究小组在Linux系统上实现了原型,并在覆盖各类执行模型的14个实际应用场景及程序上进行了广泛评估。实验结果显示,其成功验证还原了正确的攻击故事,且平均性能开销比传统审计框架仅高 3.62%,同时在最坏情况下只重新引入0.78%的错误依赖,证明了原型的有效性及其防御攻击的新颖性。相关研究成果发表于《中国科学:信息科学》。 面向克隆源代码的代码安全脆弱性检测 在软件开发与维护中,功能性代码克隆检测方法非常重要。若在软件系统中大量出现克隆代码,将导致该软件难以维护且较为脆弱。近年来,功能性代码克隆检测的方法要么通过传统的、针对源代码比较的思路进行;要么则使用深度学习技术,将源代码的结构信息和语义信息融入到表示向量中,通过比较代码表示向量的相似性来检测克隆代码。然而,深度学习技术并未考虑与传统的代码克隆检测器中基于比较的思路相结合,未完全释放二者交叉的潜力。且深度学习技术在处理源代码时,应解决以下三个挑战:一是具备显著的有效性,保证所生成源代码表示的质量与进一步下游任务的性能;二是让模型尽可能的轻量、计算效率尽可能高,使得其可以较为方便的运用到工业场景中;三是模型的可扩展性、可泛化性强,从而可以被运用到不同种类、不同长度的编程语言源代码上。 研究小组针对源代码表示学习,提出了一种基于抽象语法树的神经网络源代码表示模型,提出一种动态批处理方法,允许模型并行处理一个批次的树状结构数据,相比之前的方法提升了十倍以上的计算效率。此外,设计了一种基于深度子树交互的功能性代码克隆检测方法,该方法首先将源代码转换为抽象语法树,进而切割为子树,再通过比较子树的表示来实现功能性代码克隆检测。基于3个经典数据集上广泛的实验,本项目验证了所提方法的有效性,指明了功能性代码克隆新的发展可能。相关成果在软件工程顶级会议ICSE、ESEC/FSE发表。 面向攻击调查的软件漏洞定位 网络攻击在各个领域造成了巨大损失。虽然现有的针对网络攻击的攻击调查专注于识别受损的系统实体和重建攻击故事,但缺乏安全分析师可以用来定位软件漏洞并因此修复它们的信息。研究小组提出了AiVl,一种创新的软件漏洞定位方法,以进一步推动攻击调查。AiVl依赖于操作系统内置的默认系统审计工具所采集的日志和操作系统内的程序二进制文件。给定通过传统攻击调查获得的恶意日志条目序列,AiVl能够识别生成这些日志的函数,并追踪相应的函数调用路径,即源代码中漏洞的位置。 为实现这一点,研究小组提出了一种准确、精简且完备的特定领域程序建模方法,其通过二进制文件的静态-动态分析技术构建所有系统调用流,并开发了日志序列与程序模型之间的有效匹配算法。为了评估AiVl的有效性,研究小组在18个真实世界的攻击场景和一个APT场景上进行了实验,涵盖了漏洞和程序执行模型的各个类别。结果显示,与实际漏洞修复报告相比,AiVl实现了100%的准确率和90%的平均召回率。此外,方法的运行时开销是合理的,平均为7%。相关成果发表在TIFS上。 基于异质图信息瓶颈的鲁棒异质图异常检测 异质图神经网络(HGNNs)在图级别异常检测中已经取得了最先进的性能,这得益于它们捕捉丰富语义的能力。然而,用于图级别异常检测的HGNNs面临两个鲁棒性问题:具有更大影响的全局直接扰动和具有更多脆弱性的局部中间扰动。全局直接扰动应用于异质图会产生更大的影响,这是因为异质图包含依赖于异质性的隐式模式,使其容易受到全局直接扰动的影响。由异质性引入的局部中间扰动暴露了更多脆弱性。最流行的HGNNs变体,即基于元路径的HGNNs,采用分层聚合方法(即包括节点级和语义级),通过元路径将异质图转换为多个中间图。攻击者可以在寻求最优扰动时轻易地制定针对各个中间图的策略,从而破坏异质图的语义。 为了填补这一空白,研究小组引入了首个针对异质图的鲁棒图级别异常检测的研究。为实现这一目标,研究小组提出了一个基于信息瓶颈原理的综合鲁棒异质图级别异常检测框架,旨在识别最具信息性且最少噪声的异质子图,以获得鲁棒且全面的表示。这通过精心设计的节点语义净化器来实现,该净化器通过使用图随机注意力和希尔伯特-施密特独立性准则消除与标签无关的干扰,从而增强节点级和语义级的鲁棒性;同时还配合全局图解缠方法,通过解决信息泄露来提高图级鲁棒性。在三个图分类基准数据集中的实验表明,算法在所有三种攻击设置下准确率平均提高5.06%,同时在干净数据上提高4.33%。相关成果在人工智能顶级会议AAAI上发表。 异常检测模型轻量化算法 安全场景中,为了捕捉多样化的异常模式,模型趋向于堆叠更多层数与更多特征提取器(滤波器或神经元),导致模型参数量和模型推导计算量迅速膨胀。然而安全场景多在本地或边缘设备上进行实时检测(如监控摄像头、本地服务器、移动终端等),这些设备往往计算资源受限(CPU、GPU 功耗有限,存储与内存空间受限)。为了满足实时预警的需求,降低模型推理耗时,亟需将异常检测模型轻量化。 为了实现上述目标,即在不损失原模型精度的情况下实现异常检测模型的轻量化,我们研究小组利用超图结构建模异常检测模型中各个特征提取器之间的高阶相关性,通过超图谱聚类,有效发现模型中冗余的特征提取器,将冗余部分从网络模型中移除,得到了轻量的异常检测模型,最后通过重新学习恢复轻量模型的精度。在多个分类任务中,我们的方法均在压缩了2倍以上模型推理计算量的前提下,保证了模型的零精度损失。相关成果发表在期刊TPAMI上。 细粒度和类增量的安全行为图抽象 基于学习的安全行为图抽象在互联网基础设施中被广泛应用于相似安全行为图的划分和识别。然而,研究界在实际场景部署现有方案时发现了显著的局限性。这些挑战主要涉及细粒度新类行为图以及模型增量适应。为了解决这些问题,研究小组提出利用大语言模型(LLMs)在上下文学习(ICL)框架下挖掘多源日志的语义信息,以及架起分布外(OOD)检测与类增量图学习之间的桥梁。 为了实现这一点,研究小组开发了第一个统一框架,称为细粒度和类增量行为图分类(FG-CIBGC)。为验证FG-CIBGC的有效性,研究小组引入了一个新的基准测试,包括一个由8个攻击场景生成的新数据集,包含4,992个图和32个类别以及一个新的评估指标也就是边交并比(EIoU)。大量实验表明FG-CIBGC在细粒度和类增量BGC任务上具有优越性能,同时该框架能够生成有助于下游任务的细粒度行为图。相关成果在人工智能顶级会议WWW上发表。 基于层次传播与自适应高斯混合模型的单分类图数据欺诈检测 互联网和电子商务的快速发展导致了复杂欺诈活动的显著增加,给电商平台、金融服务等领域带来了财务损失和重大挑战。为了解决这些问题,研究人员正在探索利用复杂网络关系的先进技术解决方案。传统基于监督学习的图神经网络方法依赖大量标注的欺诈样本进行训练,但在实际场景中欺诈样本稀缺且标注成本高昂,传统方法面临训练数据不足的困境。同时,节点在不同的关系下表现出异构的连接模式,这使得异构网络中节点之间的复杂交互难以捕获,正常与欺诈节点的特征难以区分。 研究小组提出了OC-GFD模型,通过层次消息传播机制(HMP)分离局部关系特征与全局结构表征,结合自适应高斯混合模块(AGM)构建多模态概率分布。该方法采用EM算法迭代优化高斯参数与GNN嵌入,在Yelp/Amazon数据集上实现84.07%和93.56%的AUC值,较现有最优方法提升2.23-2.14%,突破单类场景下异构关系建模与分布拟合的技术瓶颈。相关成果发表于ICME国际会议上。 基于影子路径引导的网络攻击调查方法 在网络攻击发生后,开展攻击调查以分析其根本原因及影响至关重要。目前,基于溯源图的技术已成为主流方法,但该方法面临依赖爆炸问题。最新研究通过整合审计日志和应用日志,在一定程度上缓解了这一问题,并展现出无需程序插桩、模型训练或污点分析的优点。然而,现有日志融合技术要么依赖复杂的融合规则,要么需要进行应用程序逆向工程,且在应对新应用时需重新调整算法,限制了其通用性。 研究小组提出了一种新的基于日志融合的攻击调查方法ProvNavigator。该方法在构图阶段通过分析日志间的相关性,将不同日志源的独立溯源图合并为全局融合溯源图。在攻击调查阶段,当面对依赖爆炸的节点时,利用“影子路径对”引导调查,以选择适当的边进行追踪,从而重构整个攻击链。本研究方法无须插桩或逆向分析,具备通用性。相关研究成果发表于期刊《通信学报》。

科研项目

科研项目 工业软件组件通用模型、理论及其应用方法研究,国家自然科学基金委广东省联合基金重大项目 输变电设各表征缺陷的视频图像检测平台研制,国家重大科研仪器设备研制专项 微处理器敏捷设计方法关键技术研究,国家自然科学基金委湖南省联合基金 离散制造过程人工智能驱动的优化与控制,国家自然科学基金委广东省联合基金 工业过程数据实时获取与知识自动化,国家自然科学基金委广东省联合基金 智能制造业物联网的数据感知、传输与海量数据处理,国家自然科学基金委广东省联合基金 工业场景多源异构数据异常自适应检测研究,国家自然科学基金委面上项目 面向领域的MANET服务访问可靠性研究,国家自然科学基金委面上项目 支撑个性化业务链的轨道交通装备制造企业数据空间构建方法与技术,国家重点研发计划 面向未来的高效轻量化环境友好列车系统技术与装备,国家重点研发计划 列车控制与信息服务网络(TCSN)关键技术及系统研制,科技部支撑计划 轨道交通装备基础软件和保障工具研发,国家科技重大专项(核高基) 城市轨道交通装备信号系统检测及安全评估公共服务平台,工信部科技项目 工业网络控制系统在轨道交通行业的应用示范,工信部电子发展基金 面向工业控制实时网络的软件定义理论与关键技术研发,广东省重点领域研发计划项目 铁路列车网络控制系统MVB通信控制器研制,北京市科委轨道交通技术创新和产业发展项目 联合研究机构项目 清华大学—中央国债登记结算有限责任公司金融信息技术创新联合研究院 清华大学—中车青岛四方车辆研究所有限公司智能装备工业物联网联合研究中心

联系方式

清华大学网络安全态势感知团队 我们的研究小组是一个开放包容、氛围和谐的团队,诚挚邀请积极进取、主动性强、踏实可靠,并怀有学术理想的青年才俊加入。欢迎志同道合的同学申请实习生、硕士生、博士生或博士后。 目前,2025年9月入学名额如下(更新时间2024年7月21日): 博士生:0名 硕士生:5名 我们团队专注于解决软件安全领域的前沿问题,研究方向包括多源安全数据采集、安全数据精简压缩、基于数据和学习的异常检测、多源融合的攻击溯源、软件缺陷定位与修复、安全大模型等。使用的技术涉及但不限于机器学习、软件逆向、符号执行、自动化测试和形式化方法等。 在联系之前,请确保你对上述研究方向和技术领域具有浓厚的兴趣和热情。我们鼓励申请者提前到研究小组进行为期两周的访问交流,以便更好地了解团队情况。通过考核后,我们将基于双方的最佳匹配做出最终决定。 联系方式 地址:北京市海淀区清华大学东配楼 邮编:100084 电话:010-62797017 邮箱:zxb@tsinghua.edu.cn(赵老师),wanhai@tsinghua.edu.cn(万老师)

荣誉奖项

荣誉奖项 2019年,江苏省科学技术进步奖,二等奖 2019年,中国中车科学技术奖,三等奖 2021年,清华软件奖 2022年,中国中车科学技术奖,一等奖 2022年,广东省科学技术进步奖,一等奖 2023年,中国航空工业集团有限公司科学技术奖,三等奖 2023年,中国航空学会科学技术奖,三等奖 2023年,上海市科技进步奖,三等奖 2023年,中国交通运输协会科学技术奖,二等奖 2023年,日内瓦国际发明展“评审团特别嘉许金奖” 2023年,“挑战杯”首都大学生课外学术科技作品竞赛主体赛,特等奖 2023年,“挑战杯”全国大学生课外学术科技作品竞赛,一等奖 2023年,中国电工技术学会科技进步奖,一等奖 2023年,电力科学技术奖,三等奖 2023年,中国自动化学会科技进步奖,一等奖 2023年,清华大学教学优秀奖 2023年,“网络与信息安全技术”获评清华大学精品课程 2024年,CCF中国高校计算机教育大会,教学案例大赛,一等奖