En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Verificación de confianza en tiempo real para acciones agentes seguras utilizando TrustBench

Verificación de confianza en tiempo real para acciones agentes seguras utilizando TrustBench

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:A medida que los grandes modelos lingüísticos evolucionan desde asistentes conversacionales hasta agentes autónomos, garantizar la confiabilidad requiere un cambio fundamental de la evaluación post hoc a la verificación de acciones en tiempo real. Los marcos actuales como AgentBench evalúan la finalización de las tareas, mientras que TrustLLM y HELM evalúan la calidad de los resultados tras generación. Sin embargo, ninguno de estos previene acciones dañinas durante la ejecución del agente. Presentamos TrustBench, un marco de trabajo de modo dual que (1) compara la confianza en múltiples dimensiones utilizando métricas tradicionales y evaluaciones de LLM como juez, y (2) proporciona un conjunto de herramientas que los agentes invocan antes de tomar medidas para verificar la seguridad y la confiabilidad. A diferencia de los enfoques existentes, TrustBench interviene en el punto crítico de decisión: después de que un agente formula una acción pero antes de su ejecución. Los complementos específicos de dominio codifican requisitos de seguridad especializados para dominios técnicos, financieros y de atención médica. En múltiples tareas de agencia, TrustBench redujo las acciones dañinas en un 87 %. Los complementos específicos de dominio superaron la verificación genérica y lograron una reducción de daños un 35 % mayor. Con una latencia inferior a 200 ms, TrustBench permite una práctica verificación de confianza en tiempo real para agentes autónomos.

Publicado originalmente en export.arxiv.org el 10 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web