首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AVAR 2017 之感悟

12 月 6 日 ,以“不忘初心——对抗日益严重的网络犯罪”为主题的第二十届亚洲反病毒大会 (AVAR 2017) 在京召开,来自全球 20 多个国家和地区的 200 多位顶级专家学者汇聚一堂,共议反病毒前沿技术及发展趋势。

依我的看法,反病毒的工作以后会越来越依赖三样东西:互联网、大数据和人工智能。病毒和反病毒本身就是一正一反的两个面,大家也在不断地借鉴对方的新技术、新趋势、新的发展方向,魔高一尺道高一丈的情况会继续演绎下去,只是看哪一边走的更快一些,在短期内获得更大的主动权。

会议中,腾讯的马斌发表名为《开放、共享、共建 数字经济时代的网络安全》主题演讲。他指出,伴随着互联网与现实世界的不断融合,人工智能技术的应用拓宽,网络安全领域的研究要实现思维升级,网络安全人才的培养要实现知识升级,网络安全概念的普及要实现认知进化,由此才能从容应对数字经济下的网络安全展趋势。

瑞星安全研究院院长叶超则表示,瑞星一直以来都致力于 AI 技术的研究与落地,早在2012年瑞星就开始探索机器学习在反病毒中的应用,基于指令流的 Malware-Crypter 识别、PDF Exploits 识别,同年,瑞星又尝试了基于决策树的恶意软件识别方案。

2016 年,瑞星根据之前应用机器学习获得的经验,研发了高维度、大规模的基于随机森林的 Windows 恶意软件识别引擎 - RDM+。高维度特征提取自文件结构、内容以及分析,训练样本达数千万。

坊间常说,“数据和特征决定了机器学习的上限。模型和算法只是逼近这个上限而已”。瑞星在研发RDM+时,主要的工作放在了特征工程上,设定了 4778 维的特征向量,这些特征来自文件基本指标、编译器分析、异常节表分析、PE 结构各指标、关键数据熵、指令流及指令流分析以及代码数据分析。

上次老庄参加 AVAR 会议还是在 2007 年,在韩国首都首尔认识了包括金山、江民、安博士、K7、ESet等一大群反病毒行业的同行,当时大家谈论的焦点还在于如何识别变形病毒,如何实现快速的家族病毒处理,如何运用虚拟机来分辨病毒。当年的ESet的模式匹配算法给我印象深刻。

今年的 AVAR 会议上,可以看到大家的研究都在向大数据分析,人工智能、深度学习等方向延伸。无论是有互联网基因的腾讯还是老牌的反病毒厂商瑞星,在这些领域上都进行了深入的研究并开始和自身业务结合。

谈到大数据,就不能不介绍一位好友:赵国栋(中关村大数据产业联盟秘书长、北京大数据研究院副院长)。早在2014年,我们两家一起去海南度假时,一整晚的闲聊,让我获益匪浅,真正认识到大数据的魅力和力量,也对老赵渊博的知识,清晰的思路、卓越的理念及敏锐的直觉钦佩不已。

在此之前,自己觉得对大数据也还算是有些了解,对大数据的认识限于:对很多很多的数据进行标准化、清洗后,根据业务进行分析,得出一些潜在或者隐含的结论。

被老赵扫盲后,突然发现原来搭建一个大数据分析平台其实并不难,难就难在如何和现有的业务相结合,获得现有业务无法获取或很难获取到结论。收集到的大数据,不仅需要进行简单的数据分析,更需要懂得业务相关专业知识的人员,建立在专业知识基础上的分析模型。这就需要一批既了解大数据理念,又熟悉自身行业的专业知识人员。现在市面上绝大多数的“大数据”公司,都是通过 Hadoop 、MapReduse、Spark 等工具来搭建个大数据平台,然后利用别人的数据来生成一些“有用”的结论,轻易赚个盆满钵满,和真正的要求相差较远,这也是近几年来,大家对“大数据”诟病的一点。私下认为:大数据中最值钱的就是【大数据】,其次是【模型】,中间的联系就是最重要的【专业知识】。

在我看来,人工智能无法脱离深度学习,深度学习无法脱离分析模型,而分析模型的建立还是脱离不开大数据的支持,至少短期内是不会发生太大变化的(不知道短期内,Google会不会弄出个创造人工智能的人工智能)。

反病毒行业应把人工病毒处理的方法和经验整理出来,把大量的病毒样本和判断方法导入大数据,通过大数据来分析活跃病毒的行为特征、文件特征、网络特征,获得病毒识别的新方法、新模型。利用新的识别方法和现有的分析方法进行比对,不断调整模型,进行深度学习。

另外一个方向应该是充分利用互联网,监听互联网上的网络传输特征包,通过大数据分析出病毒网络数据特点的时候,自动获取样本,加入数据分析及病毒判断处理。一旦能够确认是病毒的情况,可以自动进行病毒库的更新,快速抵御病毒的侵袭。

从今年AVAR会议的报告内容上来看,无论是大数据还是人工智能分析,都对反病毒技术产生了促进作用。我们期盼着,也许真的有一天,能够像瑞星的叶超介绍的那样:反病毒工程师能够脱离繁重的体力劳动,能够真正做到比病毒快那么一点点。相信最终总有一天,通过大数据的识别方法能够超越现有分析的数据和准确率,让我们能够真正享用安全的计算机环境。

关注信息安全,关注老庄(^_^ )

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171210G0ODK300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券