En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Mejora de la seguridad del agente de LLM mediante influencia causal de impulso

Mejora de la seguridad del agente de LLM mediante influencia causal de impulso

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: a medida que los agentes autónomos impulsados ​​por modelos de lenguaje grande (LLM) continúan demostrando potencial en varias tareas de asistencia, asegurar que su comportamiento seguro y confiable sea crucial para prevenir las consecuencias no deseadas. En este trabajo, presentamos CIP, una técnica novedosa que aprovecha los diagramas de influencia causal (CID) para identificar y mitigar los riesgos que surgen de la toma de decisiones de los agentes. Los CID proporcionan una representación estructurada de las relaciones de causa y efecto, lo que permite a los agentes anticipar resultados dañinos y tomar decisiones más seguras. Nuestro enfoque consta de tres pasos clave: (1) inicializar un CID basado en las especificaciones de la tarea para describir el proceso de toma de decisiones, (2) interacciones de agente guía con el entorno utilizando el CID y (3) refinar iterativamente el CID basado en comportamientos y resultados observados. Los resultados experimentales demuestran que nuestro método mejora efectivamente la seguridad tanto en la ejecución del código como en las tareas de control de dispositivos móviles.

Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web