GT-HarmBench: Evaluación comparativa de los riesgos de seguridad de la IA a través de la lente de la teoría de juegos

Resumen: Los sistemas de inteligencia artificial de frontera son cada vez más capaces y se implementan en entornos multiagente de alto riesgo. Sin embargo, los puntos de referencia de seguridad de la IA existentes evalúan en gran medida a agentes individuales, lo que deja poco comprendidos los riesgos de múltiples agentes, como la falla de coordinación y los conflictos. Presentamos GT-HarmBench, un punto de referencia de 2009 escenarios de alto riesgo que abarcan estructuras de teoría de juegos como el dilema del prisionero, la caza del ciervo y el pollo. Los escenarios se extraen de contextos de riesgo de IA realistas en el Repositorio de riesgos de IA del MIT. En 15 modelos de frontera, los agentes eligen acciones socialmente beneficiosas en sólo el 62% de los casos, lo que con frecuencia conduce a resultados perjudiciales. Medimos la sensibilidad al encuadre y ordenamiento de las indicaciones de la teoría de juegos, y analizamos los patrones de razonamiento que impulsan las fallas. Además, mostramos que las intervenciones de teoría de juegos mejoran los resultados socialmente beneficiosos hasta en un 18%. Nuestros resultados resaltan importantes brechas de confiabilidad y proporcionan un amplio banco de pruebas estandarizado para estudiar la alineación en entornos de múltiples agentes. El punto de referencia y el código están disponibles en esta URL https.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Impacto y relación de IA, IoT y Edge Continuum en 5G/6G: tecnologías habilitantes y desafíos R5

Por qué Estados Unidos y Europa podrían perder la carrera por la energía de la fusión

Sobre el desempeño de LLMS para la evaluación de bienes raíces

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido