En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Diagnóstico de fallas cognitivas en sistemas expertos de múltiples agentes utilizando protocolos de evaluación dinámica y la posterior mutación del contexto de procesamiento

Diagnóstico de fallas cognitivas en sistemas expertos de múltiples agentes utilizando protocolos de evaluación dinámica y la posterior mutación del contexto de procesamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La rápida evolución de las arquitecturas neuronales, desde perceptrones multicapa hasta modelos basados ​​en transformadores a gran escala, ha habilitado los modelos de idiomas (LLM) para exhibir comportamientos de agente emergentes cuando están equipados con memoria, planificación y uso de herramientas externas. Sin embargo, su estocasticidad inherente y los procesos de decisión de múltiples pasos hacen que los métodos de evaluación clásica sean inadecuados para diagnosticar el rendimiento de los agentes. Este trabajo introduce un marco de diagnóstico para sistemas expertos que no solo evalúa sino que también facilita la transferencia de comportamiento experto a los agentes propulsados ​​por LLM. El marco integra (i) conjuntos de datos dorados curados de anotaciones de expertos, (ii) conjuntos de datos de plata generados a través de una mutación conductual controlada y (iii) un agente basado en LLM que juega y prescribe mejoras dirigidas. Estas recetas se integran en un mapa de recomendaciones vectorizadas, lo que permite que las intervenciones expertas se propagen como trayectorias de mejora reutilizables en múltiples instancias del sistema. Demostramos el marco en un sistema asistente de reclutadores de múltiples agentes, que muestra que descubre fallas cognitivas latentes, como frases sesgadas, deriva de extracción y maleting de herramientas, al tiempo que dirige a los agentes hacia el razonamiento y el estilo de nivel experto. Los resultados establecen una base para la transferencia estandarizada de comportamiento de expertos reproducibles en agentes LLM estocásticos y acuáticos, que se alejan más allá de la evaluación estática al refinamiento del sistema experto activo.

Publicado Originalme en export.arxiv.org El 21 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web