2017国际反病毒大会瑞星已在反病毒领域全面使用人工智能技术 bbs.ikaka.com

麦青儿 - 2017-11-9 14:29:00

11月8日，“2017国际反病毒大会”在天津召开，大会以“万物互联背景下反病毒的新挑战”为主题，邀请数十位国内外信息网络安全和反病毒领域的知名院士、专家以及互联网安全企业参加，瑞星作为反病毒领域优秀企业应邀出席，瑞星安全研究院院长叶超在会上发表了“机器学习在反恶意软件中的应用实践”的主题演讲。

随着人工智能的快速发展，AI技术被广泛应用在各大领域，包括电商零售、个人助理、自动驾驶、医疗、教育、金融等行业，安全行业也早就开始探索如何利用AI技术为大众服务，技术的发展必然伴随着技术的落地，不能真正为用户解决问题的技术不能算是好技术。

瑞星安全研究院院长叶超表示，瑞星一直以来都致力于AI技术的研究与落地，早在2012年瑞星就开始探索机器学习在反病毒中的应用，基于指令流的Malware-Crypter识别、PDF Exploits识别，同年，瑞星又尝试了基于决策树的恶意软件识别方案。

2013年，研发了基于Min-Hash和LSH的恶意软件家族聚类系统。该系统可以迅速找到相似的历史样本并归为一类。它很好地解决了恶意软件家族的自动归类问题，大大提高了生产效率。

2016年，瑞星根据之前几年应用机器学习获得的经验，研发了高维度、大规模的基于随机森林的Windows恶意软件识别引擎－RDM+。高维度特征提取自文件结构、内容以及分析，训练样本达数千万（囊括了1亿以上的文件）。在RDM+设计之初就考虑了误报控制，以牺牲恶意软件检出率来降低误报率，所以，RDM+可以说是一个较为谨慎的智能引擎，以至于它看上去并不那么“聪明”，后期则以“勤能补拙”的方式，通过高频次的迭代学习来弥补“谨慎”带来的检出能力下降问题。

坊间常说，“数据和特征决定了机器学习的上限。模型和算法只是逼近这个上限而已”。瑞星在研发RDM+时，主要的工作放在了特征工程上，设定了4778维的特征向量，这些特征来自文件基本指标、编译器分析、异常节表分析、PE结构各指标、关键数据熵、指令流及指令流分析以及代码数据分析。

RDM+的训练样本集来自超过一亿个的恶意软件和可信文件，经过聚类筛选、向量去重等方式后，保留了数千万训练样本作为基础训练集合。模型设计上，RDM+采用“降维模型＋预测模型”的双随机森林组合的方式，在实际预测过程中，降维模型负责高维度向量转换成低维度向量，并将该输出作为预测模型的输入，最终以预测模型的输出作为结果。这种方式一是解决了“在大规模、高维度样本集合上训练模型较为耗时”的问题，二是实现了“高频迭代的小规模样本近增量训练”的需求。降维模型数月训练一次，而预测模型则数十分钟训练一次，不仅可以及时学习到最新的恶意软件，也可以快速地去除不正确的预测结果。

另外，误报是人工智能在恶意软件检测领域应用的最大障碍。即使模型的错误率是1%，这也是无法接受的。为此，在RDM+设计的初期就设定了一个原则：“宁可不报，也不误报”。为此，瑞星首先从训练样本集合入手，调配黑白名单文件的比例，其次是选择了尽量将模型训练成过拟合，再利用超大的训练样本集来弥补过拟合带来的缺陷。再次，就是设计了“降维＋预测”的双层模型，来提高训练频率和误报响应。最后，在实际的生产过程中，RDM+通过云服务的方式对外提供服务，不仅可以使用传统的文件哈希来抑制误报，还使用特征向量的哈希值来直接遮蔽误报，为下一次预测模型更新争取时间。

RDM＋的运行表现目前来看达到了设计之初的要求，“降维模型”更新后的一星期之内，对训练集外的恶意软件检出率可以达到80~90%，误报率小于0.2%（部分灰色软件），对新产生的勒索软件的检出率可达92%以上。三个月之后整体检出率衰减约20%，误报率降至0.1%以下，但在勒索软件/Malware-crypter等特殊家族上并无明显衰减。

除了RDM+，瑞星正逐渐在传统的检测技术上全面叠加人工智能检测技术，首先是将人工智能应用到最重要的APT攻击检测领域上，对于主要的APT攻击投递载体，例如：Flash文件，PDF文件，MSOffice文件，都在进行对应的特征工程以及方案验证。目前已经应用的针对Flash-Exploits智能检测机制，可以检出92%以上的Flash恶意软件，几乎封杀所有的Flash ExpKit。另外，在勒索软件检测领域，也针对其主要的投递形式“经过混淆的恶意脚本”进行针对性识别，从实验数据看效果非常理想，但离实际应用还有一点时间。

瑞星安全研究院院长叶超就人工智能在恶意软件检测领域的应用总结了四点，第一，人工智能可在恶意软件工业化处理的各个环节应用，并提高生产效率。第二，应用机器学习时对最终目标的定位非常重要，瑞星的目标是让人工智能更多地去解决零日恶意软件的问题，而不是取代现有的检测技术。第三，目前来看特征工程直接影响预测效果，更多地观察恶意软件演变的规律，选取针对性的特征，是让模型更准确的一个途径。第四，误报依然是人工智能在恶意软件检测领域应用的主要阻碍，“误报控制”应该贯穿于整个设计、实施和应用过程。

接下来，瑞星还将继续更多的尝试，一是技术落地，逐步完成人工智能检测技术对传统检测技术的全面叠加，二是持续探索，尝试更多不同角度的特征工程和学习方案。虽然人工智能在恶意软件检测领域目前还不成熟，以“人工智能”为核心的“下一代”反病毒引擎目前也经常遭人诟病，但在全球恶意软件爆炸式增长、持续变化、高速迭代的今天，以纯粹的人工、简单的哈希或模糊哈希等方式来响应，是无法在持续的“猫鼠游戏”中获得优势的，因为攻击者总是走在防御者之前那么一点点。而人工智能，恰恰可以让我们有机会走在攻击者前面那么一点点，同时让人从持续的“猫鼠游戏”消耗中解脱出来，将智慧发挥到更需要的领域。

瑞星卡卡安全论坛