日前,第39次全国计算机安全学术交流会在西安成功举行,作为活动重要环节,本届优秀论文评选结果在活动现场重磅揭晓。天融信科技集团李娇、吴亚飚,中国科学院大学计算机科学与技术学院张玉清撰写的《面向网络安全关系抽取的大型语言模型数据增强》,从496篇论文中脱颖而出,成为本届唯一的优秀论文,并刊登于《信息网络安全》2024年第10期。
当前,以人工智能为代表的新一轮科技革命和产业变革正在孕育兴起,带来新的机遇和发展空间,只有坚定不移进行科技创新,加快培育和形成新质生产力,才能占得先机、赢得优势。今年9月,全国网络安全标准化技术委员会发布《人工智能安全治理框架》1.0版,以鼓励人工智能创新发展为第一要务,以有效防范化解人工智能安全风险为出发点和落脚点。
在第39次全国计算机安全学术交流会-网络综合治理分论坛上,天融信科技集团李娇针对《面向网络安全关系抽取的大型语言模型数据增强》论文进行了分享。她指出,随着信息技术的持续进步,网络威胁日益多样。为有效掌控网络威胁态势并应对未知风险,收集与分析网络威胁情报至关重要,这有助于我们迅速洞察新兴的网络威胁和漏洞。
天融信科技集团 李娇
网络威胁情报大多以非结构化文本形式存在,如安全分析报告和博客,其内部关联信息难以直接获取。关系抽取技术能够有效挖掘和分析这些情报,为网络安全防御提供重要信息。然而,网络安全领域的关系抽取任务常面临数据集稀缺的问题。
为解决这一问题,数据增强技术应运而生,它能够在标注数据有限的情况下自动生成大量伪训练数据。但现有的数据增强方法,例如随机删除、插入和同义词替换等,虽然能够生成数据,但往往存在噪声,准确性和多样性受限,难以完全替代人工标注数据。近年来,大型语言模型凭借卓越的文本生成能力,为数据增强提供了强大支持。基于此,我们提出一种基于大型语言模型的多粒度数据增强方法MGDA。
该方法首先基于贪心算法的基本思想,从原始标注数据集中选择最具代表性的数据进行增强,以提高运行效率。然后,从单词、短语、语法和语义四个粒度对采样数据进行转化,确保生成的新数据在符合原始训练数据语义要求的同时,具备更高的多样性,从而提升后续模型训练的有效性。为了提高大型语言模型生成文本的准确性,我们采用角色扮演和思维链提示相结合的方式构造提示模板,以获取高质量的输出。实验结果表明,文章所提数据增强方法有效改善了网络安全关系抽取任务上的有效性以及生成数据的多样性。
人工智能赋能网络攻防、开源情报等国家安全相关领域,是筑牢国家安全屏障的有力抓手。近两年来,人工智能在大模型技术上的突破让网络安全智能化进程加速,天融信2014年开始开展AI技术在产品中的工程化应用,融合大小模型面向全能力打造智能协同,并推出天问系列产品,提供一站式安全智能化解决方案,助力构建网络安全新格局。