原创 利用 NVIDIA Morpheus 设计一个用于网络钓鱼检测的全新网络

在数字化革命过程中,电子邮件成为最普遍、最强大的通信工具之一。试图通过电子邮件伪装成合法的人或机构来欺骗用户变得十分普遍,以至于它有了自己的名字:网络钓鱼(phishing)。

如今,随着数字世界与我们的工作和个人生活深度交织在一起,网络钓鱼仍然是 2021 勒索软件事件的前三大诱因之一,其复杂度和规模都在增长。随着网络钓鱼造成的损失持续增加,风险也随之会增加。

如今的网络钓鱼

大多数的钓鱼网络安全防御结合了基于规则的电子邮件过滤器和人员培训来检测欺诈电子邮件。当过滤器失效时,尽管经过培训加强了对可疑电子邮件的检测,但是人员仍然也会面临同样的风险。

只需一次人为错误,企业就可能蒙受数百万美元的损失,并需要时间来解决问题。为了减少违规行为,至关重要的就是杜绝网络钓鱼进入任何收件箱。

目前,基于规则的系统在他们看来是有限的。他们只能“看到”已知的问题,而欺诈者通常比这些系统领先一步。捕捉这些问题的过滤器只有在发现漏洞和弱点之后才能改进,这为时已晚。

为了提前解决网络钓鱼问题,机器必须能够预测弱点,而不是成为弱点的牺牲品,并开发增强的情感分析,以跟上甚至比欺诈者先走一步。

基于 NVIDIA Morpheus 的网络钓鱼检测

NVIDIA Morpheus 是一个开放的人工智能框架,用于实现网络安全特定的推理管道,现可从 NVIDIA NGC 和 NVIDIA/Morpheus GitHub repo 下载。

通过 NVIDIA Morpheus ,我们的网络安全团队应用了一种流行的人工智能技术 – 自然语言处理(NLP),从而创建了一个网络钓鱼检测应用程序,该应用程序能够以 99% 以上的准确率对网络钓鱼电子邮件进行正确分类。

使用 Morpheus 管道进行网络钓鱼检测,您可以使用自己的模型来进一步提高准确性。当您的公司收到新的网络钓鱼邮件时,您可以对模型进行微调,使模型得到持续改进。

因为 Morpheus 支持大规模的无监督学习,所以您并不必依赖基于规则的方法来检测网络钓鱼行为,也不需要这些方法所需的 URL 或可疑的电子邮件地址。相反,Morpheus 从接收到的电子邮件中学习,使其成为管理网络钓鱼检测的更全面、可持续的方法。

方法

网络安全团队遵循典型人工智能工作流程的前三个步骤来开发网络钓鱼检测概念验证(POC):

数据准备

人工智能建模

展开全文

模拟与测试

通过使用预训练的模型,他们能够快速执行。我们将逐步执行每个步骤,深入了解网络安全团队是如何进行开发的。

数据准备

要开发人工智能模型,必须使用预先存在的相关数据对其进行训练。通常,大部分开发时间都集中在处理数据集上,使其可用于训练中的模型进行分析。

在这种情况下,该团队采用了现存的、公开来源的英语网络钓鱼数据集,并进行重新调整以符合概念验证的需求,从而显著加快了开发进程。

概念验证需要大量良性和欺诈电子邮件数据集,以供网络钓鱼模型进行训练。该团队从 SPAM_ASSASSIN 数据集 开始,该数据集包含一个预先存在的电子邮件数据组合,标记为 phishing (网络钓鱼)、hard ham(不易识别的正常邮件)和 easy ham (容易识别的正常邮件)。ham 类是各种复杂的良性电子邮件。出于我们的目的,我们将分类简化为 benign (良性)和 phishing (网络钓鱼),将 hard ham 和 easy ham 分类的电子邮件合并为一个良性类别。

虽然 SPAM_Assassin 数据集是一个有用的起点,但该模型需要更多的训练数据。该团队将 Enron Emails 数据集作为良性数据源,Clair 数据集 的网络钓鱼类作为网络钓鱼数据源。该模型在这些数据集的各种组合上进行了训练和评估。

ML 建模

ML(机器学习)开发的核心是使用数据对模型进行培训和评估,模型最终学会自己执行所需的功能。

该团队没有从头开始创建一个新的人工智能模型,而是选择了一个预训练的 BERT 模型作为改进 POC 的人工智能模型。BERT 是一个面向 NLP 的开源机器学习框架。BERT 旨在通过使用周围的文本建立上下文来帮助计算机理解文本中模糊语言的含义。

该团队通过使用早期数据集对现有的网络钓鱼检测模型进行培训和评估,并对其进行了微调。

模拟与测试

这是对模型进行测试、评估和训练以实现网络钓鱼检测目的的阶段。

SPAM_Assassin、Clair 和 Enron 数据集都被随机分成训练集和验证集。然后,对 BERT 模型进行训练,将来自不同组合的邮件分类为良性邮件或网络钓鱼邮件。当使用一个混合了 Enron、Clair 和 SPAM_Assassin 的验证数据集对改进后的 BERT 模型进行测试时,该模型在根据邮件分类解析电子邮件方面的准确率再次达到 99.68%。

我们的测试表明,在验证数据集上使用经过训练的 BERT 模型检测网络钓鱼或良性电子邮件方面的准确率超过 99%。

总结

人工智能可以在解决组织每天面临的网络安全问题方面发挥重要作用,但许多组织对在其组织中发展人工智能感到害怕。

NVIDIA 正在使人工智能大众化,使其在任何用例中都能简单而高效的为任何企业所开发。该 POC 就是这样一个示例, 展示 NVIDIA Morpheus 中的可用资源是如何为期望增强其网络安全武器库的企业开发者缩短和简化人工智能应用程序开发的。

为了进一步加快企业的网络安全,请使用 NVIDIA Morpheus 提供的预训练网络钓鱼模型。NVIDIA Morpheus 人工智能网络安全框架不仅展示了应用人工智能解决网络安全威胁的变革能力,而且还使组织能够轻松地将人工智能与前面描述的开发周期相结合。随着更多的数据来训练模型,它将变得更加强大。

Morpheus 是一个开放的人工智能框架,供开发者实现网络安全特定的推理管道。Morpheus 为安全开发者和数据科学家提供了一个简单的接口,用以创建和部署端到端管道,使其可以解决网络安全、信息安全和通用基于日志管道的问题。本系列重点介绍 Morpheus 与各种技术网络安全战略相关的用例和实现。

发表评论