CSO说安全 | 张天力：智能安全运营体系探索—分布式多智能体在漏洞修复中的应用与实践

发布于2025年3月19日2025年7月19日作者:cve-20

CSO说安全 | 张天力：智能安全运营体系探索—分布式多智能体在漏洞修复中的应用与实践

原创张天力安在 2025-03-18 18:30

由安在新媒体联合中国网络安全审查认证和市场监管大数据中心（CCRC）共同举办的第五届“超级CSO研修班”现已圆满结营。在导师引领和课程启发下，学员们均完成极具代表性的毕业论文，是各自相关领域网络安全建设、实践与思考的精华之作。

本着分享交流之精神，我们特别精选几篇，以连载的方式呈现公众。希望借“CSO说安全”，让更多CSO们关注、支持并参与到CSO文化的沉淀积累和广泛传播中来。

张天力

某医疗科技

安全运营经理

摘要

随着数字化转型的不断深入，企业在面对网络安全威胁时，除了需要实时防护外，更需在漏洞修复环节迅速响应并保障业务连续性。然而，传统的漏洞修复流程往往存在知识覆盖面广、人力依赖度高、操作成本大等问题，导致许多企业在实际运营中面临漏洞积压、风险不可控等难题。为此，不少组织开始探索将人工智能（AI）技术融入安全运营体系中，期望以更低成本和更高效率来应对复杂的安全挑战。

为了化解这些难题，越来越多的企业开始在安全运营流程中引入自动化与智能化技术。然而，大多数解决方案基于现有基座模型结合安全全领域语料训练一个安全全领域的模型，从而尝试进行安全提效，但在实际使用中由于安全领域的复杂性，这种AI 性价比较低，难以产生价值。

在此背景下，本文提出一种“分布式多安全智能体-DMSIA（Distributed Multi – Secure Intelligent Agents）”的安全运营体系构想，并以漏洞修复为例进行实践探索。不同于传统的“大而全”统一 AI 模型，本方案将安全运营流程拆分为更细的子任务，分别交由专门的智能体节点处理从而构造“分布式多安全智能体安全运营体系”。通过合理的调度与知识检索手段，各节点既相对独立，又能协同配合，从而降低安全团队在多系统与多层级场景下的实施成本，提升整体安全运营成效。

关键字：
安全运营，智能体，降本增效

引言

1.1 研究背景与痛点

1.1.1 多样化系统带来的复杂性

在现代企业环境中，Windows、Linux、macOS、网络设备、云原生容器等往往同时存在，且每类系统的漏洞修复方式、补丁发布渠道都有所差异。以人工方式“扫遍”所有平台，不仅效率低，还容易出错。

1.1.2 传统大模型方案的局限

早期尝试在安全领域内直接应用通用大语言模型（LLM）时，普遍面临以下问题：

●知识库过于庞大：混合了不同操作系统和安全文档后，检索和推理效率明显下降；

●更新维护难度：安全事件和漏洞信息需要及时更新，大模型一旦离线训练后就难以快速迭代；

●幻觉风险：当模型面对大量专业内容容易出现“编造”式的错误信息，导致修复建议失准。

1.1.3 传统大模型方案的局限

不少安全团队希望通过自动化编排工具、智能化技术实现降本增效，但又担心高昂的硬件与服务成本（如GPU集群、大规模模型训练等）。因此，能够在现有基础上叠加的“轻量”且“可扩展”方案，更易被中小型企业或预算有限的组织所接受。

“分布式多智能体”在安全运营中的概念

2.1 多智能体的内涵

“多智能体”思路源自人工智能与软件工程领域，强调将复杂任务切割为多个更小的、相对独立的模块（Agent），每个 Agent 针对特定的知识域或功能进行精细化处理。

●独立性：每个智能体拥有自己的知识库或专用算法；

●协同性：在可视化工作流或消息总线的驱动下，各智能体可以共享中间结果或触发后续动作。

2.2 分布式的意义

“分布式”并不一定指完全去中心化，而是指在架构上允许每个节点独立部署或执行，再通过统一的编排层进行调度。这样做既能提升系统弹性，也能让企业根据自身需求选择在私有云、公共云或混合云中搭建这些节点，从而控制整体成本。

2.3 对漏洞修复的适配性

漏洞修复流程包含“分析—排查—修复—验证”多个阶段，不同操作系统的修复方式也各异。多智能体模式有助于在每个子环节切换到最合适的“专精”节点，从而在不大幅改变企业现有安全工具链的前提下，实现高效率与高准确度。

分布式多智能体的部署与实践案例

3.1 分布式多智能体的部署与实践

为了将多智能体构想付诸实践，本文选择了以下三类关键组件，通过这些组件并以“分布式”形式灵活组合，从而达成分布式多智能体的实现。

3.1.1 工作流与流程编排

所使用如n8n等可视化工作流工具，将漏洞发现、情报收集、资产排查、修复执行、复测报告等环节串联成有机流水线。每个环节通过不同智能体节点完成。

●优点：降低集成难度，灵活编排，易于条件判断（如当严重度高时通知人工审批）。

●低成本性：n8n可在普通服务器或Docker容器上运行，无需昂贵硬件。

3.1.2 定制各节点AI

使用Dify 平台举例，企业可以灵活地通过dify定制所需的 AI 智能体，使智能体实现各个场景的特殊功能，包括不限于数据库读取、调用外部接口或执行其他特定行为等。这种高度定制化的能力使得每个智能体能够根据具体任务的需求，灵活调整其功能，从而更精准地处理漏洞修复、资产排查等不同环节。与传统的统一模型不同，Dify 允许智能体根据不同的操作环境和需求动态适配，大大提升了修复过程的效率和灵活性。

3.1.3 增强型知识检索RAG（Retrieval-Augmented Generation）

通过RAG（Retrieval-Augmented Generation）来实现各智能体独立的本地增强知识库，知识库中不仅放入贴合公司业务场景的语料外（IP规律，系统架构等）。并且每个智能体仅使用与其节点职责相关的知识，避免了信息的过度扩展。提升任务执行的准确性，并减少智能体的训练难度。因为它允许每个节点在处理任务时，只检索和使用基于这个智能体职责的相关领域知识，确保智能体能够高效且精确地完成任务。

3.2 应用案例：基于分布式多智能体的漏洞修复流程

Log4j 是一个广泛使用的 Java 日志库，在 2021 年末，Log4j 2.x 中爆发了一个严重的 RCE（远程代码执行）漏洞，CVE-2021-44228，广泛影响了多个行业和服务。这一漏洞允许攻击者通过特制的日志消息触发远程代码执行，导致严重的安全问题，特别是云服务和应用系统中可能存在易受攻击的组件。

在这一场景中，本文将展示如何利用分布式多智能体模型，以低成本的方式防御这一 0day 漏洞，并实现自动化修复。

3.2.1 资产排查节点

对 Log4j RCE 漏洞进行初步分析后，根据漏洞分析结果，识别和筛选出企业内部可能受影响的资产。

资产排查智能体根据分析的影响版本信息，根据dify配置的相应接口与本地RAG知识库中的企业资产知识与主机资产知识，调用企业 CMDB 或 HIDS，列出所有运行受影响版本 Log4j 的服务器、服务和应用。

3.2.2 资产修复节点

以此漏洞为例，可分为Linux 修复节点或 Windows 服务修复节点，针对不同的资产，分别采取特定的修复措施。修复节点将资产按操作系统类型（如 Ubuntu、CentOS、Windows）和应用类型（如 Java Web、API 服务等）进行分组，分别加载对应的修复建议。

以java修复智能体举例，根据RAG库中的修复知识，结合dify的特定编排进行下列操作从而进行自动执行－调用企业内部安全/运维操作统一下发平台自动植入，虚拟补丁（javaagent疫苗热加载/RASP热补丁）

3.2.3 验证与报告节点

验证与报告节点在修复完成后，负责验证漏洞是否已被有效修复，并生成修复报告。

验证方法：修复节点通过 n8n 调用“验证与报告节点”，对受影响的系统进行漏洞复测。通过执行已知的恶意测试（如构造恶意 JNDI 字符串进行模拟攻击），确认漏洞是否已完全修复。

若验证成功，说明漏洞已经修复，系统可以安全运行。

若复测失败，验证节点会要求回滚到上一智能体并重新执行修复步骤。

报告生成：当验证通过后，报告节点会根据修复过程中的信息自动生成报告。

“分布式多智能体”的优势与挑战

4.1 “分布式多智能体”的优势

4.1.1 更高精度

专用的知识库结合相应的 AI 节点，减少“杂乱”知识引发的混淆。

4.1.2 灵活扩展

企业可根据需求增设节点或知识库（如容器修复、网络设备修复），无需推翻全部架构。

4.1.3 成本可控

无需大型 GPU 集群训练统一模型，分布式节点可利用普通服务器部署或云端服务，部署门槛相对较低。

4.2 “分布式多智能体”的挑战

4.2.1 知识库维护

由于架构问题，导致节点对于知识库有着强依赖性，需持续更新各个智能体节点知识信息，内部接口变动必须及时更新，否则 AI 节点的准确度会随时间下降甚至出现执行失败

4.2.2 分布式节点的流程设计与节点设计

多节点协同需良好的工作流编排与异常处理机制，过度复杂可能增加人工对系统额外的维护负担。同时如果节点设计存在问题，可能会引发误报甚至误操作问题。

“分布式多智能体”的展望

在目前降本增效的大环境背景下，通过将漏洞修复流程拆分为多个子任务，并在每个子任务中配置专用的智能节点协同，企业得以以较低成本实现安全运营效能的显著提升。与传统“大一统”模型相比，“分布式多智能体”在精度、灵活度与可扩展性上都有明显优势，尤其适合多操作系统并存、缺乏大规模训练资源与降本增效的甲方公司。未来，随着云原生、边缘计算与物联网（IoT）的兴起，安全运营将更加去中心化、实时化。多智能体的理念在威胁情报共享、跨环境安全策略协同、自动化应急响应等方面，都有更广阔的应用空间。通过进一步探索节点之间的自学习与共享机制，或采用更完善的知识图谱来提升检索与推理效率，从而构建真正的“下一代智能化安全运营体系”。