Resumen: Evaluar la calidad de las interacciones de chatbot múltiples sigue siendo desafiante, ya que la mayoría de los métodos existentes evalúan las interacciones a nivel de turno sin abordar si se cumplió el objetivo general de un usuario. Un “ objetivo ” aquí se refiere a una necesidad o tarea de información, como solicitar información de política o solicitar licencia. Proponemos un marco integral para la evaluación orientada a objetivos de los sistemas de múltiples agentes (MAS), introduciendo la taza textbf {tasa de éxito de objetivos (GSR)} para medir el porcentaje de objetivos cumplidos y un textbf {causa raíz de falla (RCOF)} para identificar razones por falla en chatbots múltiples de agentes. Nuestro método segmenta conversaciones por objetivos del usuario y evalúa el éxito utilizando todos los giros relevantes. Presentamos un sistema de evaluación basado en modelos que combina el maestro LLM, donde los expertos en dominios definen objetivos, establecen estándares de calidad que sirven como guía para los LLM. Los LLM usan “ tokens de pensamiento ” para producir fundamentos interpretables, habilitando textit {explicable}, textit {data-eficiente} evaluaciones. En un entorno empresarial, aplicamos nuestro marco para evaluar AIDA, un sistema de agente de conversación de empleados cero a uno construido como un agente conversacional múltiple de agente múltiple y observar la mejora de GSR de 63 % a 79 % durante seis meses desde su inicio. Nuestro marco es genérico y ofrece información procesable a través de una taxonomía de defectos detallada basada en el análisis de los puntos de falla en chatbots de múltiples agentes, diagnosticando el éxito general, identificando modos de falla clave e informar las mejoras del sistema.
Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original
