IBM超级计算机Watson用途广：可打击网络犯罪

作者：网络转载发布时间：[ 2016/5/13 9:44:28 ] 推荐标签：超级计算机 IBM

IBM的Watson超级计算机的简历十分出色，它赢得了综艺节目危险边缘（Jeopardy），写了一本食谱，并涉足了革新医疗。而其传奇生涯的下一站是什么？应对网络犯罪。近日IBM宣布，Watson正在把其认知学习的能力用在云上，应用到分析、识别、并希望能阻止网络安全的威胁。但首先，它不得不快速学习。
防守
目前已经有大量计算机增强的方法打击网络犯罪，其中大部分涉及识别异常，或当用户登录密码错误太多次时，确定其是否构成某种威胁。
收集和分析数据的这种方法是可行的。然而它的效果并不理想。首先，数据简直是太多了。IBM近的报告指出，组织平均每天要看20多万件安全事件数据，根本没有办法看完。虽然像麻省理工学院（MIT）近的AI2解决方案可以减少人类研究人员筛选事件的数量，还是有一个问题，这些数据只是大局的一小部分。
“这是有关解释、学习、引进非结构化数据、把博客、白皮书和研究报告等带入其中，”IBM公司安全副总裁Caleb Barlow说，“那些其他形式的分析结构并不完善，也不能轻易被机器识别，很难进一步补充上下文洞察潜在的危险。”
而Watson在处理同样的信息量时有得天独厚的优势，而且还能分辨出关键的上下文决定其存在什么样的威胁。人类安全研究人员可能不知道所有75000条已知的软件漏洞的坚定命令，或者从头到尾阅读了6万篇安全相关的博客文章，但Watson会。
“公司有相关的团队，他们的工作是看遍所有的新闻源，并从该消息试图找出风险，然后把它与他们的基础设施和电脑实际连接起来，并询问风险是否适用于他们的系统。”Syracuse University（雪城大学）计算机安全教授Kevin Du博士说，“这需要花费大量的人力。”如果一切顺利，这些人力可能会转嫁到机器学习上。
Barlow早期的职业生涯是急诊医学人员，他把Watson比喻为一个护理人员，赶到可能有头部受伤的受害者现场。“喝太多酒的人和头部受伤人员其他经常出现相同的症状，”Barlow说，“护理人员必须找出到底是哪个。”
护理人员着眼于结构化数据——血压、心脏率、呼吸等等，但也考虑到非结构化数据，如口头答复，或者病人卷入了什么样的事故。换句话说，护理人员考虑了所有不在数据范围内的东西，有助于他们理清到底发生了什么。他们能够通过利用所有可用信息，并在医院给医生的诊断提供帮助。“这是Watson将为安全运营中心所做的工作。”Barlow说。
Du指出，这并不是一个新的想法；此前已经有研究论文和小规模的研究，讨论非结构化数据采集的效率。但是因为Watson，IBM才能做到第一个尝试大规模的研究。“我认为技术是早已存在的。由于缺乏计算能力和投资，没有人能实际上证明，这是非常有用的。”Du说。“如果这个机器训练有素，它可以代替很多人力。”
这不是说Watson必将取代人类的工作；事实上，在行业内具有显著的人才缺口。“即使到2020年，行业能够填补大概150万人的网络安全工作空缺，我们仍然会陷入安全危机，”IBM安全的总经理Marc van Zadelhoff说。Watson应该帮助减轻其对我们的影响。
学习
当然在此之前，Watson需要学习网络安全是如何工作的。
它尚未，或至少不很好。虽然IBM已经开始安排Watson学习安全文件，直到它准备好实战之前，要学的东西还很多，可以说长路漫漫。鉴于网络安全的复杂性和重要性，这壮举实属不易。
“这不是一个普通的软件工作，”Barlow说，“这不像你工作，软件能发布了。你要训练它。”
IBM全面的研究图书馆有助于Watson这个关键的训练。但并不像只是给Watson看一堆文章和研究报告那么简单。你要教它这些都意味着什么，然后它可以教自己这些都是如何互相作用的。
“想想它在看文件的时候要做的事情。它要了解这些术语是什么意思。什么是战役？什么是攻击目标？什么是事件？什么是事件的指示？“Barlow说。“这些是安全的行话。而且它必须理解其中的关系。一个组织的恶意软件，针对其他组织，具有一定的指示。”
而这些，还不包括所有网络安全世界交易的缩略语。
为了帮助Watson，IBM的研究人员手动标注了进入它系统的文件，暂时是手工选取文档和源代码。一旦Watson开始掌握一定的概念，并证明了它能够诠释自身，他们会在美国各地的八所大学学生的帮助下，加快这个过程。在培训的第一阶段，Watson每月将学习高达1.5万份安全文件，连接到各个图书馆和新闻提要，以确保它不会落后。如果任何超级计算机能做到这一点，Watson也可以。
“这是一个真正的突破，”Forrester Research的首席分析师Andras Cser说，“Watson的概率决策人工智能技术远远超过了其他任何厂商。它可以依靠更大规模的数据集命令；使用更快幅度的处理、机器学习算法的命令。”
“我们教Watson在工作中要有点辩论性，”Barlow说，“我们希望它给我们带来一个结论，该结论需基于两点：这紧迫吗？你了解到什么能使这个可行？”
假设它加快速度，今年晚些时候Watson应该会被企业客户有效利用。虽然它旨在确定已经发生的威胁，Barlow认为，其还有预防危险的潜力。一些网络攻击可能需要数天，数周或数月；理想情况下，Watson能够识别长时间攻击的信号，并在中途帮助人们关闭攻击。
这对一台仍然在试图区分动词和名次的超级计算机而言要求太高了，但还是可能的。
“教Watson和教我的孩子之间令人着迷的差异是，”Barlow说，“Watson永远不会忘记。”