-
作者
廉龙颖高传凯刘兴丽
-
单位
黑龙江大学信息管理学院黑龙江科技大学计算机与信息工程学院
-
摘要
针对网络空间安全领域标注数据成本高且难度大的问题,提出了数据增强改进方法。通过改进EDA算法,研究基于领域词典的同类型实体替换、实体保护的同词性替换、词性保护的随机插入以及语义保护的随机删除策略,采用单一策略和组合策略对小样本数据集进行数据扩充,利用BiLSTM-CRF模型进行实体识别验证。结果表明,单一策略及其组合策略能够增加数据集的规模,单一策略DER的F1值提升比例达38.18%,组合策略EPR+PRI的F1值提升比例达31.16%。该方法可以有效提升网络空间安全领域实体识别模型性能。
-
关键词
实体识别数据增强网络空间安全
-
基金项目(Foundation)
黑龙江省省属高等学校基本科研业务费项目(2022-KYYWF-0569);黑龙江省教育科学“十四五”规划2023年度重点课题(GJB1423098);
-
文章目录
0 引 言
1 数据增强方法
(1)基于领域词典的同类型实体替换策略DER(Dictionary entity replacement):
(2)基于实体保护的同词性替换策略EPR(Entity part-of-speech replacement):
(3)基于词性保护的随机插入策略PRI(Part-of-speech random insertion):
(4)基于语义保护的随机删除策略SRD(Semanteme random deletion):
2 实 验
2.1 数据集
2.2 对比实验及结果分析
2.2.1 不同增强句数增强性能测试
2.2.2 不同增强策略增强性能测试
2.2.3 EDA改进策略增强性能测试
3 结 论
-
引用格式
[1]廉龙颖,高传凯,刘兴丽.网络空间安全领域实体识别的数据增强方法[J].黑龙江科技大学学报,2024,34(04):655-660.
-
相关文章