Resumen: Los sistemas de inteligencia artificial de frontera son cada vez más capaces y se implementan en entornos multiagente de alto riesgo. Sin embargo, los puntos de referencia de seguridad de la IA existentes evalúan en gran medida a agentes individuales, lo que deja poco comprendidos los riesgos de múltiples agentes, como la falla de coordinación y los conflictos. Presentamos GT-HarmBench, un punto de referencia de 2009 escenarios de alto riesgo que abarcan estructuras de teoría de juegos como el dilema del prisionero, la caza del ciervo y el pollo. Los escenarios se extraen de contextos de riesgo de IA realistas en el Repositorio de riesgos de IA del MIT. En 15 modelos de frontera, los agentes eligen acciones socialmente beneficiosas en sólo el 62% de los casos, lo que con frecuencia conduce a resultados perjudiciales. Medimos la sensibilidad al encuadre y ordenamiento de las indicaciones de la teoría de juegos, y analizamos los patrones de razonamiento que impulsan las fallas. Además, mostramos que las intervenciones de teoría de juegos mejoran los resultados socialmente beneficiosos hasta en un 18%. Nuestros resultados resaltan importantes brechas de confiabilidad y proporcionan un amplio banco de pruebas estandarizado para estudiar la alineación en entornos de múltiples agentes. El punto de referencia y el código están disponibles en esta URL https.
Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original
