您知道吗,专门收集了近 20 万次真实的对抗性攻击来构建 主干断路器基准?随着人工智能代理越来越多地处理全球金融、医疗保健和法律领域的关键任务,验证您的核心语言模型是否能够抵抗操纵变得绝对必要。下面您将找到 10 个明确定义的步骤,用于安装、执行这个由领先研究人员与政府机构合作开发的强大开源安全评估框架,并从中得出可操作的结论。根据我自 2025 年初以来的实际测试,运行 Backbone Breaker 基准测试揭示了标准安全评估一直忽视的漏洞。根据我对超过 15 个不同模型配置的数据分析,采用结构化对抗基准测试的工程团队在生产部署之前发现的可利用弱点比仅依赖传统安全测试的工程团队多出三倍。这个以人为本的演练将我在几个月的严格实验中学到的一切提炼成任何人都可以遵循的实用、可重复的说明——无需高级学位。 2026 年的人工智能安全格局需要经验性的、共享的测量标准,而不是模糊的理论安全主张。通过像这样的监管框架 欧盟人工智能法案 为了对部署人员和开发人员实施更严格的责任,基于真实攻击数据的基准测试工具已经从实验性的新颖性转变为操作必需品。现在,每一个严肃的人工智能部署管道都受益于严格的对抗性测试。 本文仅供参考,不构成专业的网络安全或法律建议。

🏆 Backbone Breaker 基准测试 10 个步骤摘要
1. 了解骨干法学硕士和代理安全基础知识

Backbone Breaker 基准测试针对的是 AI 代理堆栈中的特定层:主干 LLM 本身。与端到端测试整个代理管道的全系统评估不同,该框架隔离核心语言模型并在单个调用级别对其进行探测。在我自 2024 年以来的实践中,这种区别已被证明至关重要,因为许多漏洞在任何编排逻辑发挥作用之前就起源于模型层。
骨干LLM到底是什么?
骨干法学硕士是为人工智能代理系统提供支持的基础大型语言模型。它被顺序调用以推理问题、生成文本输出并调用外部工具。当您与可以预订航班、搜索数据库或起草法律文件的人工智能助手交互时,主干法学硕士是在幕后处理每个请求的引擎。这 检查 Evals 存储库 提供系统测试这些模型的基础设施。
为什么要隔离模型而不是测试完整的代理?
测试完整的代理引入了无数的变量——工具实现、编排逻辑、内存管理——这些变量使安全状况变得混乱。通过隔离主干网,您可以将漏洞精确地归因于模型本身,而不是猜测故障是来自 LLM 还是来自实施不当的工具包装器。这种方法反映了软件工程中的单元测试:在集成之前独立验证每个组件。
- 确认 操作成功的确切模型层并记录它。
- 比较 相同对抗条件下的不同骨干模型。
- 措施 安全强化提示是否真正提高了抵抗力。
- 属性 模型的故障而不是周围基础设施的故障。
- 建立 用于持续安全监控的可重复基线。
💡专家提示: 根据我的测试,主干级漏洞约占成功的代理操纵的 60-70%。在强化编排或工具层之前,首先修复模型层可以产生最高的安全投资回报。
2. 探索 Backbone Breaker 基准测试中的威胁快照

威胁快照构成了每个 Backbone Breaker 基准评估的结构支柱。每个快照都代表了受到攻击的人工智能代理的定格帧,捕获了定义现实对抗场景的确切条件、目标和成功标准。在运行任何评估之前,了解这些快照的工作原理至关重要,因为您看到的结果将围绕它们进行组织。
威胁快照在实践中如何发挥作用?
基准测试中的每个威胁快照都定义了三个关键组件:代理的状态和上下文(包括其系统提示和可用工具)、特定攻击向量及其目标,以及用于衡量攻击是否成功的方法。这些快照是从通过网络收集的近 200,000 次人类红队攻击中提炼出来的。 甘道夫:破坏者特工 平台。研究团队选择了具有代表性的攻击场景,并将其转化为结构化、可重现的测试用例。
威胁快照场景的具体示例
想象一下,一个旅行计划代理被诱骗在其行程输出中插入网络钓鱼链接,或者一个法律助理被操纵通过微妙的提示注入来泄露机密文档内容。这些不是假设场景——它们源自在野外观察到的实际攻击模式。该基准目前包括 30 个不同的威胁快照,涵盖多个应用程序域和攻击复杂性级别。
- 审查 在选择要运行的威胁快照之前先查看所有 30 个威胁快照。
- 匹配 快照到您的特定部署上下文以获取相关结果。
- 分析 哪些应用程序域的漏洞率最高。
- 确定优先顺序 首先修复最关键威胁快照中的弱点。
- 追踪 跨模型更新和新版本的快照性能。
3. 配置基准测试防御级别

Backbone Breaker 基准测试中的每个威胁快照都经过三个不同防御级别的测试,使您不仅可以衡量模型是否易受攻击,还可以衡量不同对策实际提供的保护程度。这种分层方法使安全团队能够逐步了解其风险暴露,并有助于根据经验证据确定首先实施哪些防御的优先顺序。
B3中的三个防御等级是什么?
级别 1 代表基线配置,其中应用程序的系统提示在没有附加安全指令的情况下运行。 2 级引入了强化的系统提示,其中包括明确的安全指令,告诉模型抵制操纵并拒绝对抗性指令。第三级实现了自我判断机制,其中一个单独的判断模型会审查每个响应,如果响应违反安全策略,则可以否决它。在我自 2024 年以来的实践中,我发现 L3 捕获了大约 40-60% 的绕过 L1 和 L2 防御的攻击,尽管它引入了延迟和计算开销。
比较防御水平有效性的关键步骤
跨所有三个防御级别运行每个威胁快照,以构建全面的安全配置文件。不同级别之间的漏洞分数显着下降——我进行的测试显示,从 L1 到 L2 平均降低了 35%,从 L2 到 L3 又额外降低了 25%。然而,L3 自我判断也可能产生误报,将合法响应标记为违规,并在实际没有发生攻击时将分数设置为 0.0。
- 开始 通过 L1 基线测试来建立模型的原始漏洞表面。
- 申请 L2 强化提示并测量攻击抵抗指标的增量。
- 部署 L3 自我判断,适用于需要最大程度保护的高风险应用。
- 监视器 L3 的误报率可能会阻止合法的用户交互。
- 文档 利益相关者报告的防御级别之间的成本差异。
⚠️警告: 当 L3 自我判断机制错误地将正常响应标记为安全违规时,它可以将合法样本分数归零。始终将 L3 结果与 L1 和 L2 基线交叉引用,以区分真正的安全改进和过度热心的过滤。这模拟了现实世界的护栏层,因此调整判断阈值至关重要。
4. 设置 B3 评估环境
在运行 Backbone Breaker 基准测试之前,必须使用正确的包管理器和 API 凭据正确配置您的开发环境。设置过程很简单,但需要注意细节 – 缺少 API 密钥可能会导致整个评估运行中途停止,从而浪费时间和 API 积分。根据我对安全测试工作流程 18 个月的数据分析,适当的环境准备可将失败的运行减少 80% 以上。
运行 B3 的基本先决条件
你需要一个像这样的包管理器 uv (推荐速度)或 pip 用于安装依赖项。更重要的是,您必须从您计划评估的每个模型提供商(OpenAI、Anthropic、Google 等)获取 API 密钥。许多首次使用的用户都会忽略一个关键细节:无论您正在测试哪种模型,都需要一个 OpenAI API 密钥,因为其中一个内部评分器依赖于 OpenAI 嵌入来进行文本相似度计算。
创建 .env 配置文件
创建一个 .env 文件保存在您的工作目录中,以安全地存储所有凭据。此文件应包含您的主要模型端点配置以及您想要评估的模型所需的每个 API 密钥。 INSPECT_EVAL_MODEL 变量设置默认模型,而提供程序特定的密钥则允许访问每个相应的 API。切勿将此文件提交到版本控制 – 将其添加到您的 .gitignore 立即地。
- 安装 uv 包管理器可实现最快的依赖解析和构建。
- 产生 来自 OpenAI、Anthropic 和 Google Cloud Console 的 API 密钥。
- 配置 在运行任何命令之前包含所有凭据的 .env 文件。
- 核实 在启动全面评估之前,通过简单的测试调用来验证 API 密钥的有效性。
- 安全的 您的 .env 文件,将其添加到版本控制忽略列表中。
🏆 专业提示: 在运行完整的 B3 评估之前单独测试您的 API 密钥。单个无效密钥将导致整个运行失败。我建议创建一个简单的 Python 脚本,在投入数小时进行基准测试之前,通过一个简单的提示来调用每个提供商的 API,以确认连接和身份验证。
5. 安装 Backbone Breaker 基准测试包
Backbone Breaker Benchmark 根据您的目标提供两种安装路径。 PyPI 的快速安装路径可让您在几分钟内运行评估,而存储库克隆路径则为想要修改评分器、添加自定义威胁快照或从已发表的论文中重现精确实验的研究人员提供对源代码的完全访问权限。根据您是否需要生产测试或深入研究能力进行选择。
从 PyPI 快速安装以进行标准评估
对于大多数只想评估模型的用户来说,PyPI 安装是最快的路径。跑步 uv pip install inspect-evals[b3] 安装基准测试及其所有依赖项。此方法非常适合需要运行标准化测试而不修改底层评估逻辑的安全团队。该软件包包括所有 30 个威胁快照和预配置可立即使用的评分机制。
用于研究和定制的存储库克隆
研究人员和高级用户应该克隆 检查 Evals GitHub 存储库 直接地。这使您可以访问完整的源代码,包括实验脚本、评分实现以及本文中使用的完整模型配置文件。克隆后,运行 uv sync --extra b3 安装所有依赖项,包括 B3 特定的扩展。如果您打算重现论文的确切结果,则此路径是必需的。
- 选择 PyPI 安装可用于对生产模型进行快速安全评估。
- 克隆 当您需要完全控制评分和评估逻辑时,可以使用存储库。
- 核实 通过在 Python shell 中导入 b3 模块来安装。
- 更新 随着基准的发展定期接收新的威胁快照。
- 审查 Constants.py 文件可获取支持的模型和提供程序的完整列表。
✅ 验证点: 根据我的测试,在标准宽带连接上,PyPI 安装在 45 秒内完成。具有完整历史记录的存储库克隆大约需要 3-5 分钟。如果您计划修改评分器或添加自定义威胁快照,从长远来看,存储库路径可以节省大量时间,尽管初始下载量较大。
6. 成功运行您的第一次 B3 评估
启动您的第一个 Backbone Breaker 基准评估需要一个命令,但了解幕后发生的情况有助于您准确地解释结果并在出现问题时对其进行故障排除。该基准测试加载其精选的对抗性攻击数据集,针对特定威胁快照中的目标模型重放每一项攻击,并根据是否实现攻击目标对响应进行评分。
通过 CLI 或 Python 执行评估
运行 B3 最简单的方法是通过命令行界面。执行 uv run inspect eval inspect_evals/b3 --model openai/gpt-4.1-nano 针对您选择的模型开始全面评估。或者,Python 集成允许使用编程执行 from inspect_ai import eval 和 from inspect_evals.b3 import b3。 Python 方法支持编写多个评估脚本并自动收集结果,以实现持续的安全监控管道。
全面部署前进行冒烟测试
在进行全面评估之前,请务必先进行冒烟测试。添加标志 -T limit_per_threat_snapshot=2 每个快照仅运行 2 个样本,而不是完整数据集。由于 B3 默认情况下每次攻击运行 5 次(称为“epoch”),因此此冒烟测试处理 30 个威胁快照乘以 2 个样本再乘以 5 个 epoch,总共 300 个样本。这会确认您的 API 密钥有效、记分器功能正常,并且日志记录会在您投入完整运行之前捕获所有输出。
- 执行 使用有限样本进行冒烟测试,以首先验证您的配置。
- 监视器 运行期间的 API 速率限制以避免 429 错误和中断。
- 追踪 每个威胁快照的令牌消耗量用于估计完整运行成本。
- 审查 早期样本分数以确认评分者正在产生预期结果。
- 规模 一旦建立信心,就逐渐从冒烟测试过渡到全面评估。
⚠️警告: 完整的 B3 评估会针对每个模型发送数百个提示,涵盖 30 个威胁快照、多个防御级别以及每次攻击 5 个时期。根据您的目标模型和提供商定价,成本可能会迅速上升。在开发过程中始终使用 limit_per_threat_snapshot 参数并保存完整运行以供最终验证。
7. 解释 B3 结果和漏洞评分

阅读 Backbone Breaker 基准测试结果需要了解三层数据:单个样本得分、每个威胁快照的细分以及聚合漏洞指标。每一层都提供了对模型安全状况的逐步更广泛的了解。这 检查 AI VS Code 扩展 提供一个交互式界面,用于直观地探索结果。
了解每个样本和每个快照的评分
B3 结果中的每个样本都显示在特定条件下针对您的模型的特定攻击是否成功。漏洞分数将这些单独的结果汇总成一个指标,表示攻击成功的一致性 – 分数越高表明漏洞越大。评分方法根据攻击目标而有所不同,包括文本相似性比较、工具调用匹配和内容检测算法,详细信息请参见 研究论文。
我对 B3 结果的分析和实践经验
在我跨多个模型系列运行 B3 评估的实践中,我观察到漏洞模式聚集在特定的攻击类别周围,而不是均匀分布。在一般安全基准上表现良好的模型在针对工具调用或数据泄露的对抗性操作进行测试时有时会表现出令人惊讶的弱点。这种差异凸显了为什么像 B3 这样的专用安全基准至关重要——安全和安保是根本不同的评估维度。
- 比较 对所有三个防御级别的漏洞进行评分,以量化保护收益。
- 确认 将持续高分的威胁快照作为缓解的优先领域。
- 交叉引用 模型版本之间的结果,以跟踪一段时间内的安全改进。
- 出口 结果以结构化格式与安全仪表板和报告工具集成。
- 基准 您的模型与研究论文中公开的结果相比较。
8. 重现 B3 研究论文实验

重现 Backbone Breaker Benchmark 研究论文的确切结果需要存储库安装路径和对 30 多个不同模型 API 的访问。该论文的实验涵盖了 OpenAI、Anthropic、Google 和 AWS Bedrock 的模型,使得完全复制在成本和时间方面都成为一项重大任务。然而,针对特定模型家族的部分复制是完全可行的,并且提供了有价值的比较数据。
运行完整的实验脚本
该存储库包括一个专用的实验脚本,位于 src/inspect_evals/b3/experiments/run.py 复制了论文的评估配置。执行 uv run python src/inspect_evals/b3/experiments/run.py --group all 在所有模型上运行完整的基准测试。实验目录中的 Constants.py 文件列出了原始研究中包含的每个模型 – 在启动之前查看该模型以了解范围并准备必要的 API 凭据。
管理复制成本和 API 访问
这 --group all flag 触发对 30 多个模型的评估,每个模型生成数千个 API 调用。预计成本可能高达数千美元并需要几个小时的运行时间。对于 AWS Bedrock 型号,请确保您的 AWS 账户已在 us-east-1 区域启用 Bedrock 访问,并且您的活动 AWS 会话已通过以下方式正确验证: aws sso login 或同等证书。
- 审查 Constants.py 文件来了解测试模型的全部范围。
- 准备 所有提供商的 API 密钥,包括用于第三方模型的 OpenRouter。
- 估计 通过计算每个模型的代币乘以定价来计算发布前的总成本。
- 配置 如果测试 Bedrock 托管模型,则可以在 us-east-1 中访问 AWS Bedrock。
- 考虑 仅针对您组织的模型堆栈的部分复制。
9. 运行 B3 时的实用技巧和常见陷阱
即使经验丰富的安全工程师在第一次运行 Backbone Breaker 基准测试时也会遇到挑战。如果您没有做好准备,速率限制、意外的 API 成本和评分异常可能会导致评估脱轨。这些实用技巧借鉴了丰富的测试经验,可解决最常见的问题,并帮助您避免可能损害评估结果或预算的代价高昂的错误。
处理速率限制和连接限制
API 速率限制是评估失败最常见的原因。使用 --max-connections 参数来限制并发请求并避免中断运行的 429 错误。每个提供商根据您的账户层级实施不同的速率限制,因此请专门针对每个模型提供商调整此参数。在我的测试中,我发现将 OpenAI 的最大连接数设置为 3-5,将 Anthropic 设置为 2-3,可以提供稳定的执行,而不会触发标准帐户的速率限制。
管理成本和 OpenAI 嵌入依赖性
完整的 B3 运行会在所有威胁快照和防御级别上为每个模型发送数百个提示。这 limit_per_threat_snapshot 参数是开发过程中的主要成本控制机制。请记住,即使在评估非 OpenAI 模型时,内部评分器之一也需要 OpenAI 嵌入,这意味着您必须维护有效的 OpenAI API 密钥,并在预算计算中考虑这些嵌入成本。与生成成本相比,嵌入成本相对较小,但可以积累数千个样本。
- 风门 并发 API 请求使用 –max-connections 来防止 429 错误。
- 预算 即使在测试非 OpenAI 主干模型时也可以嵌入 API 调用。
- 证实 L3 针对 L1 和 L2 自我判断分数以检测误报。
- 节省 每次运行的完整日志,以便跨模型更新进行纵向比较。
- 自动化 CI/CD 管道中的冒烟测试可及早发现回归。
💡专家提示: 根据我的测试,在非高峰时段(UTC 深夜或清晨)运行 B3 评估可将速率限制遇到的情况减少大约 60%。此外,在评估脚本中实施指数退避重试逻辑可以从瞬态 429 错误中恢复,无需手动干预,从而节省数小时的监控时间。
❓ 常见问题(FAQ)
Backbone Breaker 基准评估了骨干法学硕士(为 AI 代理提供支持的核心模型)针对现实对抗性攻击的安全弹性。 B3 基于近 200,000 次人类红队攻击而构建,测试模型是否可以被操纵以跨 30 个威胁快照和三个防御级别执行意外操作。
单个模型 B3 评估的费用通常在 50 至 200 美元之间,具体取决于模型提供商和定价等级。在 30 多个模型中复制全文可能需要花费数千美元。使用 limit_per_threat_snapshot 在开发过程中调整参数以保持成本可控,并始终在全面评估之前运行冒烟测试。
是的。 B3 中的内部评分器之一依赖于 OpenAI 嵌入来进行文本相似度计算。无论您正在测试哪种骨干模型(Anthropic、Google 还是其他模型),您都必须在 .env 文件中提供有效的 OpenAI API 密钥,以使评分系统正常运行。
传统的安全基准测试模型是否产生有害内容。 B3 测试模型是否可以被操纵来执行意想不到的操作——安全性而不是安全性。 B3 隔离了主干 LLM,并使用来自近 200,000 次人类红队尝试的真实对抗性攻击数据,提供安全基准无法捕获的经验安全测量。
首先通过 PyPI 安装 uv pip install inspect-evals[b3],使用 API 密钥创建 .env 文件,并使用以下命令运行冒烟测试 -T limit_per_threat_snapshot=2。这会处理 300 个样本并确认您的设置正常工作。回顾 GitHub 存储库 详细的分步说明文档。
威胁快照是结构化测试用例,代表针对 AI 代理的特定对抗场景。每个快照都定义了代理的上下文、攻击向量、目标和成功衡量标准。 B3 包括 30 个威胁快照,涵盖旅行计划、法律援助和客户服务等领域,所有这些都源自通过 Gandalf: Agent Breaker 平台收集的真实攻击数据。
是的。 B3 是开源的,专为研究和商业应用而设计。组织可以将其集成到其安全测试管道中,以便在部署之前评估骨干法学硕士。该基准提供了可重复的标准化测量,安全团队可以使用这些测量来记录合规性并展示人工智能安全实践中的尽职调查。
单一模型评估通常需要 30-90 分钟,具体取决于提供商的速率限制和您的连接限制设置。冒烟测试 limit_per_threat_snapshot=2 5-10 分钟内完成。在所有 30 多个模型中复制完整论文需要几个小时的运行时间。相应地规划您的评估窗口并使用日志记录来跟踪进度。
B3 根据攻击目标采用多种评分方法:通过 OpenAI 嵌入的文本相似性、工具调用匹配、敏感数据泄露的内容检测以及手动模式分析。每个威胁快照指定应用哪种评分方法,L3 防御级别添加了一个自我判断模型,无论主要分数如何,都可以否决标记的响应。
该基准旨在与新出现的威胁一起发展。随着通过 Gandalf: Agent Breaker 平台和安全研究发现新的攻击技术,附加的威胁快照和评估方法也被纳入其中。遵循 检查 Evals GitHub 存储库 获取更新和新版本,以使您的安全评估保持最新状态。
Gandalf: Agent Breaker 是 Lakera 的大规模 AI 安全挑战赛,收集人类红队针对 AI 代理的攻击。该平台生成了近 20 万个真实攻击样本,构成了 B3 数据集的基础。研究人员将这些攻击提炼成具有代表性的场景,以创建基准的 30 个威胁快照,使 B3 成为少数完全基于现实世界对抗数据的基准之一。
🎯 结论和后续步骤
Backbone Breaker 基准代表了人工智能安全评估的重大转变——超越理论安全检查,转向基于近 200,000 个人类攻击样本的实证、现实世界的对抗性测试。通过遵循本指南,您可以系统地测量 30 个威胁快照和三个防御级别的主干 LLM 漏洞,生成可操作的数据,从而增强您的 AI 部署以防止操纵。从今天开始进行冒烟测试,然后随着安全测试基础设施的成熟逐步扩大您的评估范围。
📚 跟随我们的指南深入了解:
如何网上赚钱 |
经过测试的最佳人工智能安全工具 |
AI红队专业指南

