Resumen: Los modelos de lenguaje grande (LLM) han demostrado capacidades de razonamiento notables en tareas matemáticas y científicas. Para mejorar el razonamiento complejo, se han propuesto sistemas multiagente para aprovechar la inteligencia colectiva de los agentes LLM. Sin embargo, las estructuras de colaboración existentes están predefinidas o dependen de la votación por mayoría o de debates en mesas redondas, lo que puede suprimir las contribuciones correctas pero menos dominantes de los agentes. Los enfoques recientes modelan sistemas de múltiples agentes como redes de gráficos, pero optimizan exclusivamente el rendimiento de los agentes, descuidando la calidad de las interacciones. Nuestra hipótesis es que la comunicación eficaz entre agentes es crucial para el razonamiento entre múltiples agentes y que la calidad del debate juega un papel importante. Para abordar esto, proponemos $ours$, un algoritmo de aprendizaje por refuerzo verbal de múltiples agentes que construye y refina dinámicamente estructuras de colaboración de múltiples agentes. Nuestro método define espacios de acción y un mecanismo de retroalimentación que evalúa la solidez y coherencia de la comunicación a lo largo del debate. La decisión final se logra mediante el voto mayoritario de todos los agentes. Evaluamos los nuestros en varias tareas de razonamiento, incluido el razonamiento matemático, la escritura creativa, el razonamiento científico y la clasificación numérica. Los resultados demuestran que nuestro enfoque supera significativamente los métodos de activación de un solo agente y los marcos de última generación de múltiples agentes en diversas tareas.
Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original