50个大模型的网络攻击能力深度测评 | 投资回报率最高的AI应用:漏洞猎人

原文链接: https://mp.weixin.qq.com/s?__biz=MzI1OTA1MzQzNA==&mid=2651248217&idx=1&sn=bf2ae52fcc281de6779f18bb044e6710

50个大模型的网络攻击能力深度测评 | 投资回报率最高的AI应用:漏洞猎人

e安在线 e安在线 2025-07-15 02:02

50个大模型的网络攻击能力深度测评 | 投资回报率最高的AI应用:漏洞猎人

50个大模型的网络攻击能力深度测评

7月14日消息,研究显示,大语言模型(LLM)在执行漏洞发现和开发利用代码等任务时,表现依然不尽如人意。因此,许多威胁行为者对将AI工具用于此类任务仍持怀疑态度。这是网络风险管理厂商Forescout的最新研究洞察。该研究测试了来自商业、开源和地下渠道的50个AI模型,以评估其在漏洞研究(VR)和漏洞利用开发(ED)两方面的能力。没有一个大模型能完成全部任务研究人员评估了三种不同类型的大模型:托管在HuggingFace上的开源模型、地下模型(如WormGPT、EvilAI和GhostGPT,这些模型可在网络犯罪论坛或Telegram频道获取)以及商业模型(如OpenAI的ChatGPT、谷歌的Gemini、微软的Copilot和Anthropic的Claude)。测试时间周期为今年2月至4月。研究人员让每个大模型执行两类漏洞研究任务:第一类漏洞研究任务旨在识别特定短代码片段中的漏洞;第二类漏洞利用开发任务则需要为存在漏洞的二进制文件生成可运行的攻击利用代码。结果显示,48%的模型未能完成第一类任务,55%的模型未能完成第二类任务。随后,他们指示那些完成任务的模型为每个漏洞生成利用代码,结果其失败率分别上升至66%和93%。没有任何模型能够完成全部任务。研究人员强调,他们并非以初学者的视角测试这些大模型,而是假设自己是经验丰富的安全研究员,在分析漏洞时借助大模型协助;之后再假设自己是资深的渗透测试人员,利用大模型帮助开发漏洞利用代码。研究人员表示:“这些任务需要通过交互式协作来构建、测试并调试漏洞利用程序。”大多数模型表现不稳定,运行多次经常得出不一致的结果,且常常出现超时或报错。在一些漏洞开发任务中,生成一段可行的利用代码往往需要反复尝试,并耗费数小时。此外,即使模型最终完成了漏洞利用任务,也需要大量用户引导,例如解释错误信息、调试输出,或手动引导模型找到可行路径。报告指出:“没有任何一个模型完成全部任务,这突显出攻击者目前仍无法依赖单一工具来贯穿整个漏洞利用流程。我们仍然离能够自主生成完全可用漏洞利用的大模型非常遥远。”网络犯罪分子对AI能力仍持怀疑态度该研究于7月10日发布,同时分析了多个地下论坛,以了解网络犯罪社区如何看待AI的潜力。有经验的威胁行为者通常持怀疑或谨慎态度,许多评论对当前大模型的实际用途进行了淡化。AI辅助漏洞利用的热情主要来自缺乏经验的用户。研究人员写道:“尽管近期有报道称大模型在编写代码方面表现惊人,但目前尚无明确证据表明真正的威胁行为者已能稳定利用这些模型发现并开发新漏洞。”许多威胁行为者确实指出,大模型在执行某些技术辅助任务方面表现不错,例如生成模板代码和其他基本的软件自动化操作。不同大模型的能力差异显著总体来看,Forescout研究人员发现不同类型的大模型在能力上存在显著差异:开源模型:测试的16个模型“甚至不适合用于基础的漏洞研究”;地下模型:测试的23个模型“受限于可用性问题,包括访问受限、不稳定行为、输出格式混乱以及上下文长度限制”;商业模型:测试的18个模型普遍受到保护机制限制,“仅有3个模型成功生成了可用的漏洞利用代码”,且前提是有专家用户提供大量引导。开源模型在漏洞研究和漏洞利用开发任务中的表现最不可靠。测试的16个模型在所有任务中整体表现较差。这些模型主要来自HuggingFace平台,该平台为社区提供了成千上万的预训练AI模型。研究人员指出:“总体而言,这类模型甚至无法胜任基础的漏洞研究任务。”地下模型则是在暗网论坛和Telegram频道中,经过针对恶意用途的微调。这类模型包括基于开源模型改造的定制工具,例如WormGPT和GhostGPT。尽管这些模型的表现优于开源模型,但仍存在可用性方面的诸多限制,比如访问受限、行为不稳定、输出格式混乱以及上下文长度受限等问题。来自主要科技公司的通用商业模型,如ChatGPT、Gemini和Copilot,在测试中表现最佳,尽管部分模型会受到对齐机制的保护限制。即便如此,在这一类别中,也仅有3个模型成功为最复杂的测试案例生成了可用的漏洞利用代码。AI能力预计将持续增长尽管目前仍有限制,研究人员在为期三个月的测试期中观察到,生成式AI在漏洞研究和漏洞利用开发方面表现出快速进步的趋势。研究人员补充道:“这些结果显示,尽管生成式AI尚未彻底改变威胁行为者发现和利用漏洞的方式,但这种变革可能即将到来。‘AI驱动的自主性黑客’(vibe hacking)时代正逐步逼近,防御者应立即做好准备。”Forescout表示,AI可能会使漏洞利用事件变得更加频繁,但不会让其变得更加复杂。因此,最小权限、网络分段和零信任等核心网络安全策略在应对此类攻击中仍至关重要。

投资回报率最高的AI应用:漏洞猎人

智能合约向来以“去中心化”和“不可篡改”为卖点,承载着加密世界的梦想与风险。但现在,一种全新的威胁正悄然浮现:AI不再只是工具,它正成为攻击者手中的“漏洞猎人”。近日,伦敦大学学院(UCL)和澳大利亚悉尼大学(USYD)的研究人员联合发布一项预印本论文,揭示他们开发的名为“AI”的AI系统能够自主发现并利用智能合约漏洞实施攻击。这标志着AI在网络攻击中的应用进入了一个新的阶段——AI不再是协助分析漏洞的助手,而是具备完整攻击能力的“类人黑客”。从识别漏洞到盗取资金:AI的完整攻击流程AI并非单一模型,而是一个结合多个大语言模型(LLMs)和自动化工具的智能体系统。它接入包括OpenAI的o3-pro、Google的Gemini、阿里巴巴的 Qwen以及DeepSeek的R1等六种主流模型,并结合自动化代码获取、函数解析、代码净化、运行测试和收益估算等功能,能够实现端到端的攻击代码生成。此类漏洞也可以通过手动代码分析以及静态和动态模糊测试工具来识别。但作者指出,由于智能合约的数量和复杂性、人类安全专家的缓慢和稀缺,以及现有自动化工具的高误报率,手动方法存在局限性。与传统AI安全工具只生成报告不同,AI直接输出可编译、可部署的Solidity攻击合约。正如研究者Liyi Zhou所言:“AI更像是一个真正的黑客。”在Ethereum和BSC两大主流链上的36个真实漏洞合约中,AI成功攻击了其中的26个,命中率达到62.96%。更惊人的是,这些攻击平均每个可带来 高达859万美元 的潜在收益,总计高达933万美元。测试结果显示,OpenAI的o3-pro和o3的成功率最高,分别为88.5%和 73.1%,前提是模型有五轮预算用于在代理循环中与自身交互。o3模型在保持高收益优化的同时,分别从已利用的合约中获得了69.2%和65.4%的最大收益。AI 攻击性远超传统防护工具研究指出,在AI的辅助下,攻击方的投入产出比出现严重“非对称”。攻击者平均每发现一个漏洞需要约1000次扫描,花费3000美元,而若漏洞价值达到10万美元,攻击者即可再投资3.3万次扫描。而反观防守方,即便悬赏金额为1万美元,也仅能支撑3300次扫描。更重要的是,AI识别的部分漏洞甚至出现在训练数据截止之后,意味着这不是“记忆复现”,而是AI在真正具备分析并发现新漏洞的能力。网络犯罪的“黄金赛道”?加密行业本身就已是攻击者的重点目标。根据Web3安全平台Immunefi的数据,仅2023年加密领域因攻击导致的损失就接近15亿美元,而自2017年以来,总损失更已达到117亿美元。AI的出现,不仅进一步压缩了攻击门槛,也让黑客操作具备了规模化、工业化的可能性。论文中甚至建模指出,即便每1000次扫描中仅有一次成功,只要该漏洞是在近30天内产生的“新鲜漏洞”,就仍有盈利空间。值得注意的是,尽管目前研究团队表示AI尚未用于发现真实世界中的“零日漏洞”,但他们也承认,随着模型能力不断提升,这一天并不遥远。对此,Zhou提出建议:项目方不应被动依赖第三方安全审计或白帽赏金计划,而是应主动使用类似AI的工具,持续监测自家合约状态,进行“对称”式防御。他指出,当前白帽奖励通常仅为漏洞价值的10%,远低于攻击者所能获得的全部资金。继续假设黑客会“讲道德”、遵守规则并不现实。“如果你在安全建模中仍认为所有参与者都出于善意,那基本等于放弃了主动防御。”结语:AI正在重构网络安全论文最后警告称,在防御者依赖传统工具、而攻击者使用AI的情况下,安全博弈将出现10倍非对称优势,这是目前最需要正视的现实。更令人警觉的是,研究团队曾在论文草稿中暗示将开源AI。尽管后来Zhou表示暂无此计划,但这并不妨碍未来类似工具在地下社区出现。AI被誉为“最具价值的生产力工具”。而这一次,它在加密世界最先兑现的“价值”,是帮黑客赚取数百万美元级别的收益。

声明:除发布的文章无法追溯到作者并获得授权外,我们均会注明作者和文章来源。如涉及版权问题请及时联系我们,我们会在第一时间删改,谢谢!文章来源: 

GoUpSec、安全内参

参考链接:https://arxiv.org/abs/2507.05558

参考资料:infosecurity-magazine.com

图片