En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Mitigación de riesgos interpretable en los sistemas de agentes LLM

Mitigación de riesgos interpretable en los sistemas de agentes LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes autónomos impulsados ​​por modelos de idiomas grandes (LLM) permiten nuevos casos de uso en dominios donde la acción responsable es cada vez más importante. Sin embargo, la imprevisibilidad inherente de LLM plantea preocupaciones de seguridad sobre la confiabilidad del agente. En este trabajo, exploramos el comportamiento del agente en un entorno teórico del juguete, basado en una variación del dilema del prisionero iterado. Introducimos un método de modificación de estrategia independiente tanto del juego como del juego de dirección a la transmisión residual con características interpretables extraídas de un espacio latente de autoencoder escaso. La dirección con la función de negociación de buena fe reduce la probabilidad de deserción promedio en 28 puntos porcentuales. También identificamos rangos de dirección factibles para varios agentes LLM de código abierto. Finalmente, planteamos la hipótesis de que la evaluación teórica del juego de los agentes LLM, combinados con la alineación de la representación de representación, puede generalizarse a aplicaciones del mundo real en dispositivos de usuario final y plataformas incorporadas.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web