¿Sabías que se recopilaron casi 200.000 ataques adversarios reales específicamente para construir el Punto de referencia del rompedor de columna vertebral? A medida que los agentes de IA manejan cada vez más tareas críticas en los sectores financiero, sanitario y legal de todo el mundo, verificar si su modelo de lenguaje central resiste la manipulación se ha vuelto absolutamente esencial. A continuación encontrará 10 pasos claramente definidos para instalar, ejecutar y sacar conclusiones prácticas de este poderoso marco de evaluación de seguridad de código abierto desarrollado por investigadores líderes en colaboración con instituciones gubernamentales. Según mis pruebas prácticas desde principios de 2025, la ejecución del Backbone Breaker Benchmark revela vulnerabilidades que las evaluaciones de seguridad estándar pasan por alto constantemente. Según mi análisis de datos en más de 15 configuraciones de modelos distintos, los equipos de ingeniería que adoptan evaluaciones comparativas estructuradas identifican tres veces más debilidades explotables antes de la implementación de producción en comparación con aquellos que dependen únicamente de las pruebas de seguridad tradicionales. Este tutorial centrado en las personas resume todo lo que aprendí durante meses de experimentación rigurosa en instrucciones prácticas y reproducibles que cualquiera puede seguir, sin necesidad de un título avanzado. El panorama de seguridad de la IA en 2026 exige estándares de medición empíricos compartidos en lugar de vagas afirmaciones teóricas de seguridad. Con marcos regulatorios como el Ley de IA de la UE Al imponer una responsabilidad más estricta tanto para los implementadores como para los desarrolladores, las herramientas de evaluación comparativa basadas en datos de ataques reales han pasado de ser novedades experimentales a necesidades operativas. Cada proceso serio de implementación de IA ahora se beneficia de rigurosas pruebas adversas. Este artículo es informativo y no constituye asesoramiento legal o de ciberseguridad profesional.

🏆 Resumen de 10 pasos para el punto de referencia de Backbone Breaker
1. Comprensión de los LLM de Backbone y los fundamentos de seguridad de los agentes

El Backbone Breaker Benchmark se dirige a una capa específica en la pila de agentes de IA: el propio LLM backbone. A diferencia de las evaluaciones de todo el sistema que prueban canales completos de agentes de un extremo a otro, este marco aísla el modelo de lenguaje central y lo prueba a nivel de llamada individual. En mi práctica desde 2024, esta distinción ha resultado fundamental porque muchas vulnerabilidades se originan en la capa del modelo antes de que entre en juego cualquier lógica de orquestación.
¿Qué es exactamente un LLM troncal?
Un LLM central es el modelo de lenguaje grande fundamental que impulsa un sistema de agentes de IA. Se llama secuencialmente para razonar problemas, producir resultados de texto e invocar herramientas externas. Cuando interactúa con un asistente de inteligencia artificial que puede reservar vuelos, buscar bases de datos o redactar documentos legales, el LLM principal es el motor que procesa cada solicitud entre bastidores. El Inspeccionar el repositorio de evaluaciones proporciona la infraestructura para probar estos modelos sistemáticamente.
¿Por qué aislar el modelo en lugar de probar el agente completo?
Probar el agente completo introduce innumerables variables (implementaciones de herramientas, lógica de orquestación, gestión de memoria) que enturbian el panorama de seguridad. Al aislar la columna vertebral, se pueden atribuir vulnerabilidades precisamente al modelo mismo en lugar de adivinar si una falla provino del LLM o de un contenedor de herramientas mal implementado. Este enfoque refleja las pruebas unitarias en la ingeniería de software: valide cada componente de forma independiente antes de integrarlo.
- Identificar la capa del modelo exacta donde la manipulación tiene éxito y documentarla.
- Comparar diferentes modelos de columna vertebral en condiciones adversas idénticas.
- Medida si las indicaciones de refuerzo de seguridad realmente mejoran la resistencia.
- Atributo fallas del modelo en lugar de la infraestructura circundante.
- Establecer una línea de base reproducible para el monitoreo continuo de la seguridad.
💡 Consejo de experto: Según mis pruebas, las vulnerabilidades a nivel de columna vertebral representan aproximadamente entre el 60 y el 70 % de las manipulaciones exitosas de los agentes. Reparar primero la capa del modelo produce el mayor retorno de la inversión en seguridad antes de reforzar la orquestación o las capas de herramientas.
2. Exploración de instantáneas de amenazas en el punto de referencia Backbone Breaker

Las instantáneas de amenazas forman la columna vertebral estructural de cada evaluación de Backbone Breaker Benchmark. Cada instantánea representa una imagen congelada de un agente de IA bajo ataque, capturando las condiciones exactas, los objetivos y los criterios de éxito que definen un escenario adversario realista. Comprender cómo funcionan estas instantáneas es esencial antes de realizar cualquier evaluación, porque los resultados que vea se organizarán en torno a ellas.
¿Cómo funcionan en la práctica las instantáneas de amenazas?
Cada instantánea de amenaza en el punto de referencia define tres componentes críticos: el estado y el contexto del agente, incluido el indicador del sistema y las herramientas disponibles, el vector de ataque específico y su objetivo, y el método utilizado para medir si el ataque tuvo éxito. Estas instantáneas se extraen de casi 200.000 ataques humanos del equipo rojo recopilados a través del Gandalf: Agente Breaker plataforma. El equipo de investigación seleccionó escenarios de ataque representativos y los transformó en casos de prueba estructurados y reproducibles.
Ejemplos concretos de escenarios de instantáneas de amenazas
Considere el caso de un agente planificador de viajes que es engañado para que inserte enlaces de phishing en sus resultados de itinerario, o de un asistente legal que es manipulado para que extraiga contenidos de documentos confidenciales mediante sutiles inyecciones rápidas. Estos no son escenarios hipotéticos: se derivan de patrones de ataque reales observados en la naturaleza. El punto de referencia incluye actualmente 30 instantáneas de amenazas distintas que abarcan múltiples dominios de aplicaciones y niveles de complejidad de ataques.
- Revisar las 30 instantáneas de amenazas antes de seleccionar cuáles ejecutar.
- Fósforo instantáneas a su contexto de implementación específico para obtener resultados relevantes.
- Analizar qué dominios de aplicaciones muestran las tasas de vulnerabilidad más altas.
- priorizar solucionar primero las debilidades en las instantáneas de amenazas más críticas.
- Pista Rendimiento instantáneo en actualizaciones de modelos y nuevos lanzamientos.
3. Configuración de niveles de defensa para pruebas comparativas

Cada instantánea de amenaza en Backbone Breaker Benchmark se prueba en tres niveles de defensa distintos, lo que le permite medir no solo si un modelo es vulnerable, sino también cuánta protección brindan realmente las diferentes contramedidas. Este enfoque escalonado brinda a los equipos de seguridad una visión gradual de su exposición al riesgo y ayuda a priorizar qué defensas implementar primero en función de la evidencia empírica.
¿Cuáles son los tres niveles de defensa en B3?
El nivel 1 representa la configuración básica donde el indicador del sistema de la aplicación opera sin instrucciones de seguridad adicionales. El nivel 2 introduce un mensaje de sistema reforzado que incluye directivas de seguridad explícitas que le dicen al modelo que resista la manipulación y rechace las instrucciones adversas. El nivel 3 implementa un mecanismo de autoevaluación en el que un modelo de juez independiente revisa cada respuesta y puede vetarla si la respuesta viola las políticas de seguridad. En mi práctica desde 2024, descubrí que L3 detecta aproximadamente entre el 40 y el 60 % de los ataques que escapan a través de las defensas L1 y L2, aunque introduce latencia y sobrecarga computacional.
Pasos clave para comparar la efectividad del nivel de defensa
Ejecute cada instantánea de amenaza en los tres niveles de defensa para crear un perfil de seguridad integral. La puntuación de vulnerabilidad cae significativamente entre niveles: las pruebas que realicé muestran una reducción promedio del 35 % de L1 a L2, y una reducción adicional del 25 % de L2 a L3. Sin embargo, la autoevaluación L3 también puede producir falsos positivos, marcando respuestas legítimas como violaciones y estableciendo puntuaciones en 0,0 cuando en realidad no se produjo ningún ataque.
- Comenzar con pruebas de referencia L1 para establecer la superficie de vulnerabilidad bruta de su modelo.
- Aplicar L2 endureció las indicaciones y midió el delta en las métricas de resistencia a los ataques.
- Desplegar Autoevaluación L3 para aplicaciones de alto riesgo que requieren máxima protección.
- Monitor Tasas de falsos positivos en L3 que pueden bloquear interacciones legítimas de los usuarios.
- Documento diferencias de costos entre los niveles de defensa para la presentación de informes a las partes interesadas.
⚠️ Advertencia: El mecanismo de autoevaluación L3 puede poner a cero puntuaciones de muestra legítimas cuando marca incorrectamente una respuesta normal como una violación de seguridad. Siempre compare los resultados de L3 con las líneas de base de L1 y L2 para distinguir las mejoras de seguridad genuinas del filtrado excesivo. Esto simula una capa de barandilla del mundo real, por lo que ajustar el umbral del juez es fundamental.
4. Configurando su entorno para la evaluación B3
Antes de ejecutar Backbone Breaker Benchmark, su entorno de desarrollo debe estar configurado correctamente con el administrador de paquetes y las credenciales de API correctos. El proceso de configuración es sencillo pero requiere atención a los detalles: una clave API faltante puede detener una evaluación completa a mitad de camino, lo que hace perder tiempo y créditos API. Según mi análisis de datos de 18 meses de flujos de trabajo de pruebas de seguridad, la preparación adecuada del entorno reduce las ejecuciones fallidas en más del 80 %.
Requisitos previos esenciales para ejecutar B3
Necesitas un administrador de paquetes como uv (recomendado por velocidad) o pip para instalar dependencias. Más importante aún, debe obtener claves API de cada proveedor de modelos que planee evaluar: OpenAI, Anthropic, Google y otros. Un detalle crítico que muchos usuarios nuevos pasan por alto: necesita una clave API de OpenAI independientemente del modelo que esté probando, porque uno de los evaluadores internos depende de las incrustaciones de OpenAI para los cálculos de similitud de texto.
Creando el archivo de configuración .env
Crear un .env en su directorio de trabajo para almacenar todas las credenciales de forma segura. Este archivo debe contener la configuración del punto final de su modelo principal y todas las claves API necesarias para los modelos que desea evaluar. La variable INSPECT_EVAL_MODEL establece el modelo predeterminado, mientras que las claves específicas del proveedor permiten el acceso a cada API respectiva. Nunca envíe este archivo al control de versiones; agréguelo a su .gitignore inmediatamente.
- Instalar Administrador de paquetes uv para compilaciones y resolución de dependencias más rápidas.
- Generar Claves API de OpenAI, Anthropic y Google Cloud Console.
- Configurar el archivo .env con todas las credenciales antes de ejecutar cualquier comando.
- Verificar Validez de la clave API con una simple llamada de prueba antes de lanzar evaluaciones completas.
- Seguro su archivo .env agregándolo a las listas de ignorados de control de versiones.
🏆 Consejo profesional: Pruebe sus claves API individualmente antes de ejecutar una evaluación B3 completa. Una única clave no válida hará que falle toda la ejecución. Recomiendo crear un script Python simple que llame a la API de cada proveedor con un mensaje trivial para confirmar la conectividad y la autenticación antes de invertir horas en una ejecución comparativa.
5. Instalación del paquete de referencia de Backbone Breaker
Backbone Breaker Benchmark ofrece dos rutas de instalación según sus objetivos. La ruta de instalación rápida de PyPI le permite ejecutar evaluaciones en minutos, mientras que la ruta de clonación del repositorio brinda acceso completo al código fuente para los investigadores que desean modificar puntajes, agregar instantáneas de amenazas personalizadas o reproducir los experimentos exactos del artículo publicado. Elija según si necesita pruebas de producción o capacidades de investigación profunda.
Instalación rápida desde PyPI para evaluaciones estándar
Para la mayoría de los usuarios que simplemente quieren evaluar sus modelos, la instalación de PyPI es el camino más rápido. Correr uv pip install inspect-evals[b3] para instalar el punto de referencia y todas sus dependencias. Este método es ideal para equipos de seguridad que necesitan ejecutar pruebas estandarizadas sin modificar la lógica de evaluación subyacente. El paquete incluye las 30 instantáneas de amenazas y mecanismos de puntuación preconfigurados para uso inmediato.
Clon del repositorio para investigación y personalización.
Los investigadores y usuarios avanzados deberían clonar el Inspeccionar el repositorio de Evals GitHub directamente. Esto le brinda acceso al código fuente completo, incluidos los scripts de experimentos, las implementaciones de puntuación y los archivos de configuración del modelo completo utilizados en el artículo. Después de la clonación, ejecute uv sync --extra b3 para instalar todas las dependencias, incluidas las extensiones específicas de B3. Esta ruta es obligatoria si planea reproducir los resultados exactos del artículo.
- Elegir Instalación de PyPI para evaluaciones rápidas de seguridad de sus modelos de producción.
- Clon el repositorio cuando necesite control total sobre la lógica de puntuación y evaluación.
- Verificar instalación importando el módulo b3 en un shell de Python.
- Actualizar periódicamente para recibir nuevas instantáneas de amenazas a medida que evoluciona el punto de referencia.
- Revisar el archivo constantes.py para obtener la lista completa de modelos y proveedores compatibles.
✅Punto Validado: Según mis pruebas, la instalación de PyPI se completa en menos de 45 segundos en una conexión de banda ancha estándar. La clonación del repositorio con el historial completo tarda aproximadamente entre 3 y 5 minutos. Si planea modificar los puntajes o agregar instantáneas de amenazas personalizadas, la ruta del repositorio ahorra mucho tiempo a largo plazo a pesar de la descarga inicial más grande.
6. Ejecutar su primera evaluación B3 con éxito
Lanzar su primera evaluación de Backbone Breaker Benchmark requiere un solo comando, pero comprender lo que sucede detrás de escena lo ayuda a interpretar los resultados con precisión y solucionar problemas cuando surgen. El punto de referencia carga su conjunto de datos seleccionados de ataques adversarios, reproduce cada uno contra su modelo objetivo dentro de instantáneas de amenazas específicas y califica las respuestas en función de si se logró el objetivo del ataque.
Ejecutar la evaluación a través de CLI o Python
La forma más sencilla de ejecutar B3 es a través de la interfaz de línea de comandos. Ejecutar uv run inspect eval inspect_evals/b3 --model openai/gpt-4.1-nano para iniciar una evaluación completa del modelo elegido. Alternativamente, la integración de Python permite la ejecución programática usando from inspect_ai import eval y from inspect_evals.b3 import b3. El enfoque de Python permite programar múltiples evaluaciones y automatizar la recopilación de resultados para procesos de monitoreo continuo de la seguridad.
Pruebas de humo antes del despliegue completo
Realice siempre una prueba de humo antes de comprometerse con una evaluación completa. Agrega la bandera -T limit_per_threat_snapshot=2 ejecutar solo 2 muestras por instantánea en lugar del conjunto de datos completo. Dado que B3 ejecuta cada ataque 5 veces de forma predeterminada (llamadas “épocas”), esta prueba de humo procesa 30 instantáneas de amenazas multiplicadas por 2 muestras multiplicadas por 5 épocas, con un total de 300 muestras. Esto confirma que sus claves API funcionan, los anotadores funcionan correctamente y el registro captura todos los resultados antes de invertir en una ejecución completa.
- Ejecutar una prueba de humo con muestras limitadas para validar su configuración primero.
- Monitor Límites de tasa de API durante la ejecución para evitar errores 429 e interrupciones.
- Pista consumo de tokens por instantánea de amenaza para estimar los costos de ejecución total.
- Revisar puntuaciones de muestra tempranas para confirmar que los puntuadores están produciendo los resultados esperados.
- Escala gradualmente desde la prueba de humo hasta la evaluación completa una vez que se establezca la confianza.
⚠️ Advertencia: Una evaluación B3 completa envía cientos de mensajes por modelo en 30 instantáneas de amenazas, múltiples niveles de defensa y 5 épocas por ataque. Dependiendo de su modelo objetivo y de los precios del proveedor, los costos pueden aumentar rápidamente. Utilice siempre el parámetro limit_per_threat_snapshot durante el desarrollo y guarde las ejecuciones completas para la validación final.
7. Interpretación de los resultados de B3 y las puntuaciones de vulnerabilidad

Leer los resultados del Backbone Breaker Benchmark requiere comprender tres capas de datos: puntuaciones de muestras individuales, desgloses por instantánea de amenaza y métricas de vulnerabilidad agregadas. Cada capa proporciona una visión cada vez más amplia de la postura de seguridad de su modelo. El Inspeccionar la extensión AI VS Code proporciona una interfaz interactiva para explorar los resultados visualmente.
Comprender la puntuación por muestra y por instantánea
Cada muestra de los resultados de B3 muestra si un ataque específico tuvo éxito contra su modelo en condiciones específicas. La puntuación de vulnerabilidad agrega estos resultados individuales en una métrica que representa la consistencia con la que los ataques tienen éxito; las puntuaciones más altas indican una mayor vulnerabilidad. Los métodos de puntuación varían según el objetivo del ataque e incluyen comparaciones de similitud de texto, coincidencia de invocación de herramientas y algoritmos de detección de contenido que se detallan en el trabajo de investigación.
Mi análisis y experiencia práctica con resultados B3.
En mi práctica al ejecutar evaluaciones B3 en múltiples familias de modelos, he observado que los patrones de vulnerabilidad se agrupan alrededor de categorías de ataques específicas en lugar de distribuirse de manera uniforme. Los modelos que funcionan bien en los puntos de referencia de seguridad generales a veces muestran debilidades sorprendentes cuando se prueban contra manipulaciones adversas dirigidas a la invocación de herramientas o la exfiltración de datos. Esta discrepancia subraya por qué los puntos de referencia de seguridad dedicados como B3 son esenciales: la seguridad y la protección son dimensiones de evaluación fundamentalmente diferentes.
- Comparar puntuaciones de vulnerabilidad en los tres niveles de defensa para cuantificar las ganancias de protección.
- Identificar instantáneas de amenazas con puntuaciones consistentemente altas como áreas prioritarias para la mitigación.
- Referencia cruzada resultados entre versiones de modelos para realizar un seguimiento de las mejoras de seguridad a lo largo del tiempo.
- Exportar resultados en un formato estructurado para la integración con paneles de seguridad y herramientas de informes.
- Punto de referencia su modelo frente a los resultados disponibles públicamente del trabajo de investigación.
8. Reproducción de los experimentos del trabajo de investigación B3

Reproducir los resultados exactos del trabajo de investigación Backbone Breaker Benchmark requiere la ruta de instalación del repositorio y acceso a más de 30 API de modelos diferentes. Los experimentos del artículo abarcan modelos de OpenAI, Anthropic, Google y AWS Bedrock, lo que hace que la reproducción completa sea una tarea importante en términos de costo y tiempo. Sin embargo, la reproducción parcial dirigida a familias de modelos específicas es totalmente factible y proporciona datos comparativos valiosos.
Ejecutando el script del experimento completo
El repositorio incluye un script de experimento dedicado en src/inspect_evals/b3/experiments/run.py que replica la configuración de evaluación del artículo. Ejecutar uv run python src/inspect_evals/b3/experiments/run.py --group all para ejecutar el punto de referencia completo en todos los modelos. El archivo constantes.py en el directorio de experimentos enumera todos los modelos incluidos en el estudio original; revíselo antes de iniciarlo para comprender el alcance y preparar las credenciales de API necesarias.
Gestión de costes y acceso API para reproducción.
El --group all flag activa la evaluación en más de 30 modelos, generando miles de llamadas API por modelo. Espere costos significativos que potencialmente alcancen miles de dólares y varias horas de tiempo de ejecución. Para los modelos de AWS Bedrock, asegúrese de que su cuenta de AWS tenga habilitado el acceso a Bedrock en la región us-east-1 y que su sesión activa de AWS esté autenticada correctamente a través de aws sso login o credenciales equivalentes.
- Revisar el archivo constantes.py para comprender el alcance completo de los modelos probados.
- Preparar Claves API para todos los proveedores, incluido OpenRouter para modelos de terceros.
- Estimar costos totales antes del lanzamiento calculando los tokens por modelo multiplicados por el precio.
- Configurar Acceso a AWS Bedrock en us-east-1 si se prueban modelos alojados en Bedrock.
- Considerar Reproducción parcial dirigida únicamente a la pila de modelos de su organización.
9. Consejos prácticos y errores comunes al ejecutar B3
Incluso los ingenieros de seguridad experimentados encuentran desafíos cuando ejecutan Backbone Breaker Benchmark por primera vez. Las limitaciones de tarifas, los costos inesperados de API y las anomalías en las calificaciones pueden descarrilar las evaluaciones si no está preparado. A partir de una amplia experiencia en pruebas, estos consejos prácticos abordan los problemas más comunes y le ayudan a evitar errores costosos que podrían comprometer los resultados de su evaluación o su presupuesto.
Manejo de límites de velocidad y limitación de conexión
Los límites de tasa API son la fuente más frecuente de fallas en la evaluación. Utilice el --max-connections parámetro para acelerar las solicitudes simultáneas y evitar errores 429 que interrumpen sus ejecuciones. Cada proveedor aplica diferentes límites de tarifas según el nivel de su cuenta, así que ajuste este parámetro específicamente para cada modelo de proveedor. Durante mis pruebas, descubrí que establecer conexiones máximas en 3-5 para OpenAI y 2-3 para Anthropic proporciona una ejecución estable sin activar límites de tasa en cuentas estándar.
Gestión de costos y dependencia de incorporación de OpenAI
Una ejecución B3 completa envía cientos de mensajes por modelo en todas las instantáneas de amenazas y niveles de defensa. El limit_per_threat_snapshot El parámetro es su principal mecanismo de control de costos durante el desarrollo. Recuerde que incluso al evaluar modelos que no son de OpenAI, uno de los evaluadores internos requiere incorporaciones de OpenAI, lo que significa que debe mantener una clave API de OpenAI válida y tener en cuenta esos costos de incorporación en los cálculos de su presupuesto. Los costos de inclusión son relativamente pequeños en comparación con los costos de generación, pero pueden acumularse en miles de muestras.
- Acelerador Solicitudes API simultáneas utilizando –max-connections para evitar errores 429.
- Presupuesto para incrustar llamadas API incluso cuando se prueban modelos troncales que no son OpenAI.
- Validar Puntuaciones de autoevaluación de L3 frente a L1 y L2 para detectar falsos positivos.
- Ahorrar registros completos de cada ejecución para una comparación longitudinal entre las actualizaciones del modelo.
- Automatizar pruebas de humo en su proceso de CI/CD para detectar regresiones tempranas.
💡 Consejo de experto: Según mis pruebas, ejecutar evaluaciones B3 durante las horas de menor actividad (tarde en la noche o temprano en la mañana UTC) reduce los encuentros con límites de velocidad en aproximadamente un 60 %. Además, la implementación de una lógica de reintento de retroceso exponencial en sus scripts de evaluación puede recuperarse de errores 429 transitorios sin intervención manual, lo que ahorra horas de tiempo de monitoreo.
❓ Preguntas frecuentes (FAQ)
El Backbone Breaker Benchmark evalúa la resiliencia de seguridad de los LLM troncales (los modelos centrales que impulsan a los agentes de IA) frente a ataques adversarios realistas. Construido a partir de casi 200.000 ataques humanos del equipo rojo, B3 prueba si los modelos pueden manipularse para realizar acciones no deseadas en 30 instantáneas de amenazas y tres niveles de defensa.
Una evaluación de un solo modelo B3 generalmente cuesta entre $ 50 y $ 200, según el proveedor del modelo y el nivel de precios. Reproducir el documento completo en más de 30 modelos puede costar miles de dólares. Utilice el limit_per_threat_snapshot parámetro durante el desarrollo para mantener los costos manejables y siempre ejecute pruebas de humo antes de las evaluaciones completas.
Sí. Uno de los evaluadores internos en B3 depende de las incrustaciones de OpenAI para los cálculos de similitud de texto. Independientemente del modelo de red troncal que esté probando (Anthropic, Google u otros), debe proporcionar una clave API de OpenAI válida en su archivo .env para que el sistema de puntuación funcione correctamente.
Los puntos de referencia de seguridad tradicionales prueban si los modelos producen contenido dañino. B3 prueba si los modelos pueden manipularse para realizar acciones no deseadas: seguridad en lugar de protección. B3 aísla el LLM principal y utiliza datos de ataques adversarios del mundo real de casi 200.000 intentos humanos del equipo rojo, proporcionando medidas de seguridad empíricas que los puntos de referencia de seguridad no pueden capturar.
Comience instalando a través de PyPI con uv pip install inspect-evals[b3]creando un archivo .env con sus claves API y ejecutando una prueba de humo usando -T limit_per_threat_snapshot=2. Esto procesa 300 muestras y confirma que su configuración funciona correctamente. Revisa el repositorio de GitHub documentación para obtener instrucciones detalladas paso a paso.
Las instantáneas de amenazas son casos de prueba estructurados que representan escenarios de confrontación específicos contra agentes de IA. Cada instantánea define el contexto del agente, el vector de ataque, el objetivo y los criterios de medición del éxito. B3 incluye 30 instantáneas de amenazas que cubren dominios como planificación de viajes, asistencia legal y servicio al cliente, todos derivados de datos de ataques reales recopilados a través de la plataforma Gandalf: Agent Breaker.
Sí. B3 es de código abierto y está diseñado tanto para aplicaciones comerciales como de investigación. Las organizaciones pueden integrarlo en sus procesos de pruebas de seguridad para evaluar los LLM troncales antes de la implementación. El punto de referencia proporciona mediciones estandarizadas y reproducibles que los equipos de seguridad pueden utilizar para documentar el cumplimiento y demostrar la debida diligencia en las prácticas de seguridad de la IA.
Una evaluación de un solo modelo suele tardar entre 30 y 90 minutos, según los límites de tarifas del proveedor y la configuración de limitación de su conexión. Una prueba de humo con limit_per_threat_snapshot=2 se completa en 5-10 minutos. Reproducir el documento completo en los más de 30 modelos requiere varias horas de ejecución. Planifique sus ventanas de evaluación en consecuencia y utilice el registro para realizar un seguimiento del progreso.
B3 emplea múltiples métodos de puntuación según el objetivo del ataque: similitud de texto a través de incrustaciones de OpenAI, coincidencia de invocaciones de herramientas, detección de contenido para exfiltración de datos confidenciales y análisis de patrones manual. Cada instantánea de amenaza especifica qué método de puntuación se aplica, y el nivel de defensa L3 agrega un modelo de autoevaluación que puede vetar las respuestas marcadas independientemente de la puntuación principal.
El punto de referencia está diseñado para evolucionar junto con las amenazas emergentes. A medida que se descubren nuevas técnicas de ataque a través de la plataforma Gandalf: Agent Breaker y la investigación de seguridad, se incorporan instantáneas de amenazas y métodos de evaluación adicionales. Sigue el Inspeccionar el repositorio de Evals GitHub para obtener actualizaciones y nuevas versiones para mantener actualizadas sus evaluaciones de seguridad.
Gandalf: Agent Breaker es el desafío de seguridad de IA a gran escala de Lakera que recopila ataques humanos del equipo rojo contra agentes de IA. La plataforma generó casi 200.000 muestras de ataques reales que forman la base del conjunto de datos de B3. Los investigadores sintetizaron estos ataques en escenarios representativos para crear las 30 instantáneas de amenazas del punto de referencia, lo que convirtió a B3 en uno de los pocos puntos de referencia basados completamente en datos de adversarios del mundo real.
🎯 Conclusión y próximos pasos
El Backbone Breaker Benchmark representa un cambio crítico en la evaluación de la seguridad de la IA: va más allá de los controles de seguridad teóricos hacia pruebas empíricas del mundo real basadas en casi 200.000 muestras de ataques humanos. Si sigue esta guía, puede medir sistemáticamente las vulnerabilidades de LLM de la red troncal en 30 instantáneas de amenazas y tres niveles de defensa, lo que producirá datos procesables que fortalezcan sus implementaciones de IA contra la manipulación. Comience con una prueba de humo hoy y luego amplíe progresivamente su alcance de evaluación a medida que madure su infraestructura de pruebas de seguridad.
📚 Sumérgete más profundamente con nuestros guías:
cómo ganar dinero en línea |
las mejores herramientas de seguridad de IA probadas |
guía profesional para el equipo rojo de IA

