PRIMEVUL是由哥伦比亚大学、华盛顿大学及谷歌DeepMind等机构联合创建的一个新的安全漏洞检测数据集,旨在提升代码语言模型(Code LMs)在实际漏洞检测中的性能评估。该数据集包含6,968个易受攻击的函数和228,800个良性函数,覆盖了140种常见的缺陷枚举(CWEs)。PRIMEVUL采用了一套新颖的数据标注技术,实现了与人工验证基准相当的标注准确性,同时显著扩大了数据集规模。此外,PRIMEVUL还实施了严格的数据去重和按时间顺序划分数据的策略,以缓解数据泄露问题,并引入了更现实的评估指标和设置。此数据集不仅为研究人员提供了更具挑战性的评估平台,也揭示了现有模型在应对现实世界漏洞时的不足,凸显了在安全领域加强Code LMs训练的紧迫性。
详情请参见五号雷达:https://www.5radar.com/result?key=PRIMEVUL
领取专属 10元无门槛券
私享最新 技术干货