Saviez-vous que près de 200 000 attaques adverses réelles ont été collectées spécifiquement pour construire le Référence des disjoncteurs de colonne vertébrale? Alors que les agents d’IA gèrent de plus en plus de tâches critiques dans les secteurs de la finance, de la santé et du droit à travers le monde, il est devenu absolument essentiel de vérifier si votre modèle de langage principal résiste à la manipulation. Vous trouverez ci-dessous 10 étapes clairement définies pour installer, exécuter et tirer des conclusions concrètes à partir de ce puissant cadre d’évaluation de sécurité open source développé par des chercheurs de premier plan en collaboration avec des institutions gouvernementales. Sur la base de mes tests pratiques effectués depuis début 2025, l’exécution du Backbone Breaker Benchmark révèle des vulnérabilités que les évaluations de sécurité standard négligent systématiquement. D’après mon analyse de données sur plus de 15 configurations de modèles distinctes, les équipes d’ingénierie qui adoptent une analyse comparative contradictoire structurée identifient trois fois plus de faiblesses exploitables avant le déploiement en production par rapport à celles qui s’appuient uniquement sur les tests de sécurité traditionnels. Cette procédure pas à pas axée sur les personnes distille tout ce que j’ai appris au cours de mois d’expérimentation rigoureuse en instructions pratiques et reproductibles que tout le monde peut suivre – aucun diplôme d’études supérieures n’est requis. Le paysage de la sécurité de l’IA en 2026 exige des normes de mesure empiriques et partagées plutôt que de vagues affirmations théoriques en matière de sécurité. Avec des cadres réglementaires comme le Loi européenne sur l’IA imposant une responsabilité plus stricte aux déployeurs et aux développeurs, les outils d’analyse comparative fondés sur des données d’attaque réelles sont passés du stade de nouveautés expérimentales à celui de nécessités opérationnelles. Chaque pipeline sérieux de déploiement d’IA bénéficie désormais de tests contradictoires rigoureux. Cet article est informatif et ne constitue pas une cybersécurité professionnelle ou un conseil juridique.

🏆 Résumé des 10 étapes du benchmark Backbone Breaker
1. Comprendre les LLM du backbone et les principes fondamentaux de la sécurité des agents

Le Backbone Breaker Benchmark cible une couche spécifique de la pile d’agents IA : le LLM de base lui-même. Contrairement aux évaluations de système complet qui testent de bout en bout des pipelines d’agents entiers, ce framework isole le modèle de langage principal et le teste au niveau des appels individuels. Dans ma pratique depuis 2024, cette distinction s’est avérée essentielle car de nombreuses vulnérabilités proviennent de la couche modèle avant même qu’une logique d’orchestration n’entre en jeu.
Qu’est-ce qu’un LLM de base exactement ?
Un LLM de base est le grand modèle de langage fondamental qui alimente un système d’agents d’IA. Il est appelé de manière séquentielle pour résoudre les problèmes, produire du texte et appeler des outils externes. Lorsque vous interagissez avec un assistant IA capable de réserver des vols, de rechercher des bases de données ou de rédiger des documents juridiques, l’épine dorsale LLM est le moteur qui traite chaque demande en coulisse. Le Inspecter le référentiel Evals fournit l’infrastructure nécessaire pour tester systématiquement ces modèles.
Pourquoi isoler le modèle au lieu de tester l’agent complet ?
Le test de l’agent complet introduit d’innombrables variables (implémentations d’outils, logique d’orchestration, gestion de la mémoire) qui brouillent l’image de la sécurité. En isolant le backbone, vous pouvez attribuer les vulnérabilités précisément au modèle lui-même plutôt que de deviner si une panne provient du LLM ou d’un wrapper d’outil mal implémenté. Cette approche reflète les tests unitaires en génie logiciel : valider chaque composant indépendamment avant de l’intégrer.
- Identifier la couche de modèle exacte où la manipulation réussit et la documenter.
- Comparer différents modèles de base dans des conditions contradictoires identiques.
- Mesure si le renforcement de la sécurité incite réellement à améliorer la résistance.
- Attribut échecs du modèle plutôt que des infrastructures environnantes.
- Établir une référence reproductible pour une surveillance continue de la sécurité.
💡 Conseil d’expert : D’après mes tests, les vulnérabilités au niveau du backbone représentent environ 60 à 70 % des manipulations réussies des agents. La correction de la couche de modèle permet d’abord d’obtenir le retour sur investissement de sécurité le plus élevé avant de renforcer l’orchestration ou les couches d’outils.
2. Explorer les instantanés des menaces dans le benchmark Backbone Breaker

Les instantanés des menaces constituent l’épine dorsale structurelle de chaque évaluation Backbone Breaker Benchmark. Chaque instantané représente un arrêt sur image d’un agent d’IA attaqué, capturant les conditions exactes, les objectifs et les critères de réussite qui définissent un scénario contradictoire réaliste. Comprendre le fonctionnement de ces instantanés est essentiel avant d’exécuter toute évaluation, car les résultats que vous verrez seront organisés autour d’eux.
Comment fonctionnent les instantanés de menaces en pratique ?
Chaque instantané de menace du benchmark définit trois composants critiques : l’état et le contexte de l’agent, y compris son invite système et les outils disponibles, le vecteur d’attaque spécifique et son objectif, et la méthode utilisée pour mesurer si l’attaque a réussi. Ces instantanés sont extraits de près de 200 000 attaques humaines de l’équipe rouge collectées via le Gandalf : Agent Briseur plate-forme. L’équipe de recherche a sélectionné des scénarios d’attaque représentatifs et les a transformés en cas de test structurés et reproductibles.
Exemples concrets de scénarios d’instantanés de menaces
Imaginons qu’un agent de planification de voyages soit amené à insérer des liens de phishing dans son itinéraire, ou qu’un assistant juridique soit manipulé pour exfiltrer le contenu de documents confidentiels par le biais d’injections subtiles et rapides. Il ne s’agit pas de scénarios hypothétiques : ils découlent de modèles d’attaques réels observés dans la nature. Le benchmark comprend actuellement 30 instantanés de menaces distincts couvrant plusieurs domaines d’application et niveaux de complexité des attaques.
- Revoir les 30 instantanés de menaces avant de sélectionner lesquels exécuter.
- Correspondre instantanés à votre contexte de déploiement spécifique pour des résultats pertinents.
- Analyser quels domaines d’application présentent les taux de vulnérabilité les plus élevés.
- Prioriser Corrigez d’abord les faiblesses des instantanés de menaces les plus critiques.
- Piste performances des instantanés dans les mises à jour de modèles et les nouvelles versions.
3. Configuration des niveaux de défense pour les tests de référence

Chaque instantané de menace du Backbone Breaker Benchmark est testé sur trois niveaux de défense distincts, vous permettant de mesurer non seulement si un modèle est vulnérable, mais également le niveau de protection que les différentes contre-mesures offrent réellement. Cette approche à plusieurs niveaux donne aux équipes de sécurité une vue graduée de leur exposition aux risques et permet de prioriser les défenses à mettre en œuvre en premier sur la base de preuves empiriques.
Quels sont les trois niveaux de défense en B3 ?
Le niveau 1 représente la configuration de base dans laquelle l’invite système de l’application fonctionne sans instructions de sécurité supplémentaires. Le niveau 2 introduit une invite système renforcée qui comprend des directives de sécurité explicites indiquant au modèle de résister à la manipulation et de rejeter les instructions contradictoires. Le niveau 3 met en œuvre un mécanisme d’auto-évaluation dans lequel un modèle de juge distinct examine chaque réponse et peut y opposer son veto si la réponse viole les politiques de sécurité. Dans ma pratique depuis 2024, j’ai constaté que L3 intercepte environ 40 à 60 % des attaques qui passent à travers les défenses L1 et L2, bien qu’elle introduise une latence et une surcharge de calcul.
Étapes clés pour comparer l’efficacité du niveau de défense
Exécutez chaque instantané de menace sur les trois niveaux de défense pour créer un profil de sécurité complet. Le score de vulnérabilité diminue considérablement entre les niveaux : les tests que j’ai effectués montrent une réduction moyenne de 35 % de L1 à L2, et une réduction supplémentaire de 25 % de L2 à L3. Cependant, l’auto-juge de L3 peut également produire des faux positifs, signalant les réponses légitimes comme des violations et fixant les scores à 0,0 alors qu’aucune attaque ne s’est réellement produite.
- Commencer avec des tests de base L1 pour établir la surface de vulnérabilité brute de votre modèle.
- Appliquer Les invites renforcées L2 et mesurent le delta des mesures de résistance aux attaques.
- Déployer Auto-évaluation L3 pour les applications à haut risque nécessitant une protection maximale.
- Moniteur taux de faux positifs au niveau L3 qui peuvent bloquer les interactions légitimes des utilisateurs.
- Document différences de coûts entre les niveaux de défense pour les rapports avec les parties prenantes.
⚠️ Attention : Le mécanisme d’auto-évaluation L3 peut mettre à zéro les scores d’échantillons légitimes lorsqu’il signale à tort une réponse normale comme une violation de la sécurité. Croisez toujours les résultats L3 avec les références L1 et L2 pour distinguer les véritables améliorations de sécurité d’un filtrage trop zélé. Cela simule une couche de garde-corps du monde réel, il est donc essentiel de régler le seuil d’évaluation.
4. Configuration de votre environnement pour l’évaluation B3
Avant d’exécuter Backbone Breaker Benchmark, votre environnement de développement doit être correctement configuré avec le bon gestionnaire de packages et les informations d’identification API. Le processus de configuration est simple mais nécessite une attention particulière aux détails : une clé API manquante peut interrompre toute une évaluation à mi-parcours, ce qui fait perdre du temps et des crédits API. Sur la base de mon analyse de données de 18 mois sur les workflows de tests de sécurité, une bonne préparation de l’environnement réduit les échecs d’exécution de plus de 80 %.
Prérequis essentiels pour exécuter B3
Vous avez besoin d’un gestionnaire de paquets comme uv (recommandé pour la vitesse) ou pip pour installer les dépendances. Plus important encore, vous devez obtenir des clés API auprès de chaque fournisseur de modèles que vous envisagez d’évaluer : OpenAI, Anthropic, Google et autres. Un détail critique qui manque à de nombreux nouveaux utilisateurs : vous avez besoin d’une clé API OpenAI, quel que soit le modèle que vous testez, car l’un des évaluateurs internes dépend des intégrations OpenAI pour les calculs de similarité de texte.
Création du fichier de configuration .env
Créer un .env fichier dans votre répertoire de travail pour stocker toutes les informations d’identification en toute sécurité. Ce fichier doit contenir la configuration du point de terminaison de votre modèle principal et toutes les clés API requises pour les modèles que vous souhaitez évaluer. La variable INSPECT_EVAL_MODEL définit le modèle par défaut, tandis que les clés spécifiques au fournisseur permettent l’accès à chaque API respective. Ne confiez jamais ce fichier au contrôle de version : ajoutez-le à votre .gitignore immédiatement.
- Installer Gestionnaire de packages uv pour une résolution et des builds de dépendances les plus rapides.
- Générer Clés API d’OpenAI, Anthropic et Google Cloud Console.
- Configurer le fichier .env avec toutes les informations d’identification avant d’exécuter des commandes.
- Vérifier Validité des clés API avec un simple appel test avant de lancer des évaluations complètes.
- Sécurisé votre fichier .env en l’ajoutant aux listes d’ignorants du contrôle de version.
🏆 Conseil de pro : Testez vos clés API individuellement avant d’exécuter une évaluation B3 complète. Une seule clé non valide entraînera l’échec de l’exécution entière. Je recommande de créer un simple script Python qui appelle l’API de chaque fournisseur avec une invite triviale pour confirmer la connectivité et l’authentification avant d’investir des heures dans une exécution de référence.
5. Installation du package de référence Backbone Breaker
Le Backbone Breaker Benchmark propose deux voies d’installation en fonction de vos objectifs. La méthode d’installation rapide de PyPI vous permet d’exécuter des évaluations en quelques minutes, tandis que le chemin de clonage du référentiel fournit un accès complet au code source aux chercheurs qui souhaitent modifier les scoreurs, ajouter des instantanés de menaces personnalisés ou reproduire les expériences exactes de l’article publié. Choisissez selon que vous avez besoin de tests de production ou de capacités de recherche approfondies.
Installation rapide depuis PyPI pour les évaluations standard
Pour la plupart des utilisateurs qui souhaitent simplement évaluer leurs modèles, l’installation de PyPI est le chemin le plus rapide. Courir uv pip install inspect-evals[b3] pour installer le benchmark et toutes ses dépendances. Cette méthode est idéale pour les équipes de sécurité qui doivent exécuter des tests standardisés sans modifier la logique d’évaluation sous-jacente. Le package comprend les 30 instantanés de menaces et les mécanismes de notation préconfigurés pour une utilisation immédiate.
Clone du référentiel pour la recherche et la personnalisation
Les chercheurs et les utilisateurs avancés devraient cloner le Inspecter le référentiel Evals GitHub directement. Cela vous donne accès au code source complet, y compris les scripts d’expérimentation, les implémentations de notation et les fichiers de configuration complets du modèle utilisés dans cet article. Après le clonage, exécutez uv sync --extra b3 pour installer toutes les dépendances, y compris les extensions spécifiques à B3. Ce chemin est obligatoire si vous envisagez de reproduire les résultats exacts de l’article.
- Choisir Installation de PyPI pour des évaluations rapides de la sécurité de vos modèles de production.
- Cloner le référentiel lorsque vous avez besoin d’un contrôle total sur la logique de notation et d’évaluation.
- Vérifier installation en important le module b3 dans un shell Python.
- Mise à jour régulièrement pour recevoir de nouveaux instantanés de menaces à mesure que le benchmark évolue.
- Revoir le fichier constants.py pour la liste complète des modèles et fournisseurs pris en charge.
✅Point validé : D’après mes tests, l’installation de PyPI se termine en moins de 45 secondes sur une connexion haut débit standard. Le clonage du référentiel avec l’historique complet prend environ 3 à 5 minutes. Si vous envisagez de modifier les scoreurs ou d’ajouter des instantanés de menaces personnalisés, le chemin du référentiel permet de gagner un temps considérable à long terme malgré le téléchargement initial plus important.
6. Réaliser avec succès votre première évaluation B3
Le lancement de votre première évaluation Backbone Breaker Benchmark nécessite une seule commande, mais comprendre ce qui se passe en coulisses vous aide à interpréter les résultats avec précision et à résoudre les problèmes lorsqu’ils surviennent. L’analyse comparative charge son ensemble de données d’attaques contradictoires, rejoue chacune d’entre elles par rapport à votre modèle cible dans des instantanés de menaces spécifiques et note les réponses en fonction de la réalisation ou non de l’objectif de l’attaque.
Exécuter l’évaluation via CLI ou Python
Le moyen le plus simple d’exécuter B3 consiste à utiliser l’interface de ligne de commande. Exécuter uv run inspect eval inspect_evals/b3 --model openai/gpt-4.1-nano pour lancer une évaluation complète par rapport au modèle que vous avez choisi. Alternativement, l’intégration Python permet l’exécution de programmes à l’aide de from inspect_ai import eval et from inspect_evals.b3 import b3. L’approche Python permet de créer des scripts pour plusieurs évaluations et d’automatiser la collecte des résultats pour les pipelines de surveillance continue de la sécurité.
Tests de fumée avant le déploiement complet
Effectuez toujours un test de fumée avant de vous engager dans une évaluation complète. Ajouter le drapeau -T limit_per_threat_snapshot=2 pour exécuter seulement 2 échantillons par instantané au lieu de l’ensemble de données complet. Étant donné que B3 exécute chaque attaque 5 fois par défaut (appelés « époques »), ce test de fumée traite 30 instantanés de menace multipliés par 2 échantillons multipliés par 5 époques, pour un total de 300 échantillons. Cela confirme que vos clés API fonctionnent, que les scoreurs fonctionnent correctement et que la journalisation capture toutes les sorties avant d’investir dans une exécution complète.
- Exécuter un test de fumée avec des échantillons limités pour valider d’abord votre configuration.
- Moniteur Limites de débit de l’API pendant l’exécution pour éviter les erreurs 429 et les interruptions.
- Piste consommation de jetons par instantané de menace pour estimer les coûts d’exécution complets.
- Revoir les premiers résultats des échantillons pour confirmer que les correcteurs produisent les résultats attendus.
- Échelle progressivement du test de fumée à l’évaluation complète une fois que la confiance est établie.
⚠️ Attention : Une évaluation B3 complète envoie des centaines d’invites par modèle sur 30 instantanés de menaces, plusieurs niveaux de défense et 5 époques par attaque. En fonction de votre modèle cible et des tarifs de votre fournisseur, les coûts peuvent augmenter rapidement. Utilisez toujours le paramètre limit_per_threat_snapshot pendant le développement et enregistrez les exécutions complètes pour la validation finale.
7. Interprétation des résultats B3 et des scores de vulnérabilité

La lecture des résultats du Backbone Breaker Benchmark nécessite la compréhension de trois couches de données : les scores des échantillons individuels, les répartitions par instantané de menace et les mesures de vulnérabilité globales. Chaque couche fournit un aperçu progressivement plus large de la posture de sécurité de votre modèle. Le Inspecter l’extension AI VS Code fournit une interface interactive pour explorer les résultats visuellement.
Comprendre la notation par échantillon et par instantané
Chaque échantillon de vos résultats B3 montre si une attaque spécifique a réussi contre votre modèle dans des conditions spécifiques. Le score de vulnérabilité regroupe ces résultats individuels dans une mesure représentant la régularité des attaques : des scores plus élevés indiquent une plus grande vulnérabilité. Les méthodes de notation varient en fonction de l’objectif de l’attaque et incluent des comparaisons de similarité de texte, des correspondances d’appels d’outils et des algorithmes de détection de contenu détaillés dans le document de recherche.
Mon analyse et mon expérience pratique des résultats B3
Dans ma pratique d’évaluations B3 sur plusieurs familles de modèles, j’ai observé que les modèles de vulnérabilité se regroupent autour de catégories d’attaques spécifiques plutôt que de se répartir uniformément. Les modèles qui fonctionnent bien sur les critères de sécurité généraux montrent parfois des faiblesses surprenantes lorsqu’ils sont testés contre des manipulations adverses ciblant l’invocation d’outils ou l’exfiltration de données. Cet écart souligne pourquoi les critères de sécurité dédiés tels que B3 sont essentiels : la sûreté et la sécurité sont des dimensions d’évaluation fondamentalement différentes.
- Comparer scores de vulnérabilité sur les trois niveaux de défense pour quantifier les gains de protection.
- Identifier des instantanés de menaces avec des scores constamment élevés comme domaines prioritaires d’atténuation.
- Référence croisée résultats entre les versions du modèle pour suivre les améliorations de sécurité au fil du temps.
- Exporter résultats dans un format structuré pour l’intégration avec les tableaux de bord de sécurité et les outils de reporting.
- Référence votre modèle par rapport aux résultats accessibles au public du document de recherche.
8. Reproduire les expériences du document de recherche B3

La reproduction des résultats exacts du document de recherche Backbone Breaker Benchmark nécessite le chemin d’installation du référentiel et l’accès à plus de 30 API de modèles différents. Les expériences du document couvrent des modèles d’OpenAI, Anthropic, Google et AWS Bedrock, faisant de la reproduction complète une entreprise importante en termes de coût et de temps. Cependant, une reproduction partielle ciblant des familles de modèles spécifiques est tout à fait réalisable et fournit de précieuses données comparatives.
Exécuter le script d’expérience complet
Le référentiel comprend un script d’expérimentation dédié à l’adresse src/inspect_evals/b3/experiments/run.py qui reproduit la configuration d’évaluation du document. Exécuter uv run python src/inspect_evals/b3/experiments/run.py --group all pour exécuter le benchmark complet sur tous les modèles. Le fichier constants.py dans le répertoire expériences répertorie tous les modèles inclus dans l’étude d’origine. Examinez-le avant de lancer pour comprendre la portée et préparer les informations d’identification API nécessaires.
Gestion des coûts et accès API pour la reproduction
Le --group all flag déclenche l’évaluation sur plus de 30 modèles, générant des milliers d’appels API par modèle. Attendez-vous à des coûts importants pouvant atteindre des milliers de dollars et plusieurs heures d’exécution. Pour les modèles AWS Bedrock, assurez-vous que votre compte AWS dispose de l’accès Bedrock activé dans la région us-east-1 et que votre session AWS active est correctement authentifiée via aws sso login ou des titres de compétences équivalents.
- Revoir le fichier constants.py pour comprendre toute la portée des modèles testés.
- Préparer Clés API pour tous les fournisseurs, y compris OpenRouter pour les modèles tiers.
- Estimation coûts totaux avant le lancement en calculant les jetons par modèle multipliés par le prix.
- Configurer Accès à AWS Bedrock dans us-east-1 si vous testez des modèles hébergés par Bedrock.
- Considérer reproduction partielle ciblant uniquement la pile de modèles de votre organisation.
9. Conseils pratiques et pièges courants lors de l’exécution de B3
Même les ingénieurs en sécurité expérimentés rencontrent des difficultés lorsqu’ils exécutent le Backbone Breaker Benchmark pour la première fois. Les limitations de débit, les coûts inattendus des API et les anomalies de notation peuvent faire dérailler les évaluations si vous n’êtes pas préparé. S’appuyant sur une vaste expérience en matière de tests, ces conseils pratiques abordent les problèmes les plus courants et vous aident à éviter des erreurs coûteuses qui pourraient compromettre les résultats de votre évaluation ou votre budget.
Limites de débit de gestion et limitation de connexion
Les limites de débit des API sont la source la plus fréquente d’échecs d’évaluation. Utilisez le --max-connections paramètre pour limiter les requêtes simultanées et éviter les erreurs 429 qui interrompent vos exécutions. Chaque fournisseur applique des limites de débit différentes en fonction du niveau de votre compte, alors ajustez ce paramètre spécifiquement pour chaque fournisseur modèle. Au cours de mes tests, j’ai constaté que définir des connexions maximales sur 3-5 pour OpenAI et 2-3 pour Anthropic permet une exécution stable sans déclencher de limites de débit sur les comptes standard.
Gestion des coûts et dépendance d’intégration d’OpenAI
Une exécution B3 complète envoie des centaines d’invites par modèle sur tous les instantanés de menaces et tous les niveaux de défense. Le limit_per_threat_snapshot Le paramètre est votre principal mécanisme de contrôle des coûts pendant le développement. N’oubliez pas que même lors de l’évaluation de modèles non OpenAI, l’un des évaluateurs internes nécessite des intégrations OpenAI, ce qui signifie que vous devez conserver une clé API OpenAI valide et tenir compte de ces coûts d’intégration dans vos calculs budgétaires. Les coûts d’intégration sont relativement faibles par rapport aux coûts de génération mais peuvent s’accumuler sur des milliers d’échantillons.
- Étrangler requêtes API simultanées utilisant des connexions –max pour éviter les erreurs 429.
- Budget pour intégrer des appels d’API même lors du test de modèles de backbone non OpenAI.
- Valider L’auto-évaluation de L3 évalue L1 et L2 pour détecter les faux positifs.
- Sauvegarder compléter les journaux de chaque exécution pour une comparaison longitudinale entre les mises à jour du modèle.
- Automatiser des tests de fumée dans votre pipeline CI/CD pour détecter les régressions plus tôt.
💡 Conseil d’expert : D’après mes tests, l’exécution d’évaluations B3 pendant les heures creuses (tard dans la nuit ou tôt le matin UTC) réduit les rencontres avec les limites de débit d’environ 60 %. De plus, la mise en œuvre d’une logique de nouvelle tentative d’attente exponentielle dans vos scripts d’évaluation peut permettre de récupérer des erreurs 429 passagères sans intervention manuelle, ce qui permet d’économiser des heures de surveillance.
❓ Foire aux questions (FAQ)
Le Backbone Breaker Benchmark évalue la résilience de sécurité des LLM de base (les modèles de base qui alimentent les agents d’IA) contre des attaques adverses réalistes. Construit à partir de près de 200 000 attaques humaines par équipe rouge, B3 teste si les modèles peuvent être manipulés pour effectuer des actions involontaires sur 30 instantanés de menaces et trois niveaux de défense.
Une seule évaluation de modèle B3 coûte généralement entre 50 $ et 200 $ selon le fournisseur de modèle et le niveau tarifaire. La reproduction du document complet sur plus de 30 modèles peut coûter des milliers de dollars. Utilisez le limit_per_threat_snapshot paramètre pendant le développement pour maintenir les coûts gérables, et effectuez toujours des tests de fumée avant les évaluations complètes.
Oui. L’un des marqueurs internes de B3 dépend des intégrations OpenAI pour les calculs de similarité de texte. Quel que soit le modèle de backbone que vous testez (Anthropic, Google ou autres), vous devez fournir une clé API OpenAI valide dans votre fichier .env pour que le système de notation fonctionne correctement.
Les critères de sécurité traditionnels testent si les modèles produisent du contenu préjudiciable. B3 teste si les modèles peuvent être manipulés pour effectuer des actions involontaires – sécurité plutôt que sûreté. B3 isole le LLM de base et utilise des données d’attaques contradictoires réelles provenant de près de 200 000 tentatives humaines d’équipe rouge, fournissant des mesures de sécurité empiriques que les références de sécurité ne peuvent pas capturer.
Commencez par installer via PyPI avec uv pip install inspect-evals[b3]en créant un fichier .env avec vos clés API et en exécutant un test de fumée à l’aide de -T limit_per_threat_snapshot=2. Cela traite 300 échantillons et confirme que votre configuration fonctionne correctement. Passez en revue le Dépôt GitHub documentation pour des instructions détaillées étape par étape.
Les instantanés de menaces sont des cas de test structurés représentant des scénarios contradictoires spécifiques contre les agents IA. Chaque instantané définit le contexte de l’agent, le vecteur d’attaque, l’objectif et les critères de mesure de réussite. B3 comprend 30 instantanés de menaces couvrant des domaines tels que la planification des voyages, l’assistance juridique et le service client, tous dérivés de données d’attaque réelles collectées via la plateforme Gandalf : Agent Breaker.
Oui. B3 est open source et conçu pour les applications de recherche et commerciales. Les organisations peuvent l’intégrer dans leurs pipelines de tests de sécurité pour évaluer les LLM de base avant le déploiement. Le benchmark fournit des mesures reproductibles et standardisées que les équipes de sécurité peuvent utiliser pour documenter la conformité et démontrer la diligence raisonnable dans les pratiques de sécurité de l’IA.
Une évaluation d’un modèle unique prend généralement 30 à 90 minutes en fonction des limites de débit du fournisseur et de vos paramètres de limitation de connexion. Un test de fumée avec limit_per_threat_snapshot=2 se termine en 5 à 10 minutes. La reproduction du document complet sur plus de 30 modèles nécessite plusieurs heures d’exécution. Planifiez vos fenêtres d’évaluation en conséquence et utilisez la journalisation pour suivre les progrès.
B3 utilise plusieurs méthodes de notation en fonction de l’objectif de l’attaque : similarité de texte via les intégrations OpenAI, correspondance d’invocation d’outils, détection de contenu pour l’exfiltration de données sensibles et analyse manuelle de modèles. Chaque instantané de menace précise quelle méthode de notation s’applique, et le niveau de défense L3 ajoute un modèle d’auto-évaluation qui peut opposer son veto aux réponses signalées, quel que soit le score principal.
L’indice de référence est conçu pour évoluer parallèlement aux menaces émergentes. À mesure que de nouvelles techniques d’attaque sont découvertes grâce à la plateforme Gandalf : Agent Breaker et à la recherche en matière de sécurité, des instantanés de menaces et des méthodes d’évaluation supplémentaires sont incorporés. Suivez le Inspecter le référentiel Evals GitHub pour les mises à jour et les nouvelles versions afin de maintenir vos évaluations de sécurité à jour.
Gandalf : Agent Breaker est le défi de sécurité de l’IA à grande échelle de Lakera qui collecte les attaques humaines de l’équipe rouge contre les agents de l’IA. La plateforme a généré près de 200 000 échantillons d’attaques réelles qui constituent la base de l’ensemble de données de B3. Les chercheurs ont distillé ces attaques dans des scénarios représentatifs pour créer les 30 instantanés de menaces du benchmark, faisant de B3 l’un des rares benchmarks entièrement fondés sur des données contradictoires du monde réel.
🎯 Conclusion et prochaines étapes
Le Backbone Breaker Benchmark représente un changement crucial dans l’évaluation de la sécurité de l’IA, allant au-delà des contrôles de sécurité théoriques vers des tests contradictoires empiriques et réels fondés sur près de 200 000 échantillons d’attaques humaines. En suivant ce guide, vous pouvez mesurer systématiquement les vulnérabilités LLM du backbone sur 30 instantanés de menaces et trois niveaux de défense, produisant ainsi des données exploitables qui renforcent vos déploiements d’IA contre la manipulation. Commencez dès aujourd’hui par un test de fumée, puis élargissez progressivement votre portée d’évaluation à mesure que votre infrastructure de tests de sécurité évolue.
📚 Plongez plus profondément avec nos guides :
comment gagner de l’argent en ligne |
meilleurs outils de sécurité IA testés |
guide professionnel sur l’équipe rouge de l’IA

