从勒索软件到僵尸网络,恶意软件的形态似乎无穷无尽,而且在不停增加。尽管我们已经试过了各种方法,那些为电脑提供防护的软件还是会被恶意攻击淹没,所以人们开始向人工智能寻求帮助。
但是有一个问题:机器学习方法需要大量的数据。对于像计算机视觉或自然语言处理这样的任务来说,这是可以实现的。在这些任务中,有着大型的开源数据集可以用来训练算法,比如猫的特征,或者是单词之间的联系。不久之前,在恶意软件的世界里,这样的数据集不曾存在。
上个月,网络安全公司Endgame发布了一个名为EMBER的大型开源数据集(即“Endgame恶意软件基准测试”的缩写)。EMBER收集了超过100万份正常程序和恶意程序,都是可移植Windows平台的可执行文件,这是一种常见的恶意软件的伪装格式。该公司的一个团队还发布了一个用该数据集训练的人工智能软件。它的思路是,如果人工智能软件可以成为对抗恶意软件的有力武器,它首先要能找到打击的对象。
网络安全公司有大量的数据来训练他们的算法,但这件事其实好坏参半。那些制造恶意软件的开发者会不断地调整他们的代码,以保证自己的程序不会被检测出来。因此,使用过时的恶意软件样本训练算法最终可能徒劳无功。
“这就像是一场打地鼠的游戏。”马里兰大学巴尔的摩分校计算机科学教授查尔斯·尼古拉斯(Charles Nicholas)说。 EMBER旨在帮助自动化网络安全程序保持最新的检测能力。 EMBER不只是实际文件的集合,研究人员如果打开这样的文件有可能导致他们的电脑被感染。EMBER为每个文件建立了一种数字化身,这种数字化身可以在不让电脑冒险接触到真实文件的前提下让算法了解文件的性质。
这将有助于网络安全社区的人们快速训练和测试更多的算法,使他们能够构建更好的、适应性更强的恶意软件搜索AI。 当然,将这些数据完全开放给所有人也存在不利因素,那就是它有可能落入坏人之手。该公司的数据科学技术总监海勒姆·安德森(Hyrum Anderson)表示,恶意软件的制造者可以利用这些数据来设计病毒搜索AI无法识别的程序,该公司也认真考虑过这个问题。安德森曾从事EMBER相关工作,他说他希望数据集开源带来的好处超过风险。此外,网络犯罪相当有利可图,恶意软件背后的开发者有足够动力继续完善他们的攻击软件。
加州大学伯克利分校的计算机科学教授杰拉尔德·弗里德兰(Gerald Friedland)说:“黑客无论如何都会去找可参考的例子的。”
领取专属 10元无门槛券
私享最新 技术干货