En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->GT-HarmBench: Evaluación comparativa de los riesgos de seguridad de la IA a través de la lente de la teoría de juegos

GT-HarmBench: Evaluación comparativa de los riesgos de seguridad de la IA a través de la lente de la teoría de juegos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los sistemas de inteligencia artificial de frontera son cada vez más capaces y se implementan en entornos multiagente de alto riesgo. Sin embargo, los puntos de referencia de seguridad de la IA existentes evalúan en gran medida a agentes individuales, lo que deja poco comprendidos los riesgos de múltiples agentes, como la falla de coordinación y los conflictos. Presentamos GT-HarmBench, un punto de referencia de 2009 escenarios de alto riesgo que abarcan estructuras de teoría de juegos como el dilema del prisionero, la caza del ciervo y el pollo. Los escenarios se extraen de contextos de riesgo de IA realistas en el Repositorio de riesgos de IA del MIT. En 15 modelos de frontera, los agentes eligen acciones socialmente beneficiosas en sólo el 62% de los casos, lo que con frecuencia conduce a resultados perjudiciales. Medimos la sensibilidad al encuadre y ordenamiento de las indicaciones de la teoría de juegos, y analizamos los patrones de razonamiento que impulsan las fallas. Además, mostramos que las intervenciones de teoría de juegos mejoran los resultados socialmente beneficiosos hasta en un 18%. Nuestros resultados resaltan importantes brechas de confiabilidad y proporcionan un amplio banco de pruebas estandarizado para estudiar la alineación en entornos de múltiples agentes. El punto de referencia y el código están disponibles en esta URL https.

Publicado originalmente en export.arxiv.org el 15 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web