OPTAGENT: Optimización de las interacciones LLM entre múltiples agentes mediante el aprendizaje por refuerzo verbal para mejorar el razonamiento

Resumen: Los modelos de lenguaje grande (LLM) han demostrado capacidades de razonamiento notables en tareas matemáticas y científicas. Para mejorar el razonamiento complejo, se han propuesto sistemas multiagente para aprovechar la inteligencia colectiva de los agentes LLM. Sin embargo, las estructuras de colaboración existentes están predefinidas o dependen de la votación por mayoría o de debates en mesas redondas, lo que puede suprimir las contribuciones correctas pero menos dominantes de los agentes. Los enfoques recientes modelan sistemas de múltiples agentes como redes de gráficos, pero optimizan exclusivamente el rendimiento de los agentes, descuidando la calidad de las interacciones. Nuestra hipótesis es que la comunicación eficaz entre agentes es crucial para el razonamiento entre múltiples agentes y que la calidad del debate juega un papel importante. Para abordar esto, proponemos $ours$, un algoritmo de aprendizaje por refuerzo verbal de múltiples agentes que construye y refina dinámicamente estructuras de colaboración de múltiples agentes. Nuestro método define espacios de acción y un mecanismo de retroalimentación que evalúa la solidez y coherencia de la comunicación a lo largo del debate. La decisión final se logra mediante el voto mayoritario de todos los agentes. Evaluamos los nuestros en varias tareas de razonamiento, incluido el razonamiento matemático, la escritura creativa, el razonamiento científico y la clasificación numérica. Los resultados demuestran que nuestro enfoque supera significativamente los métodos de activación de un solo agente y los marcos de última generación de múltiples agentes en diversas tareas.

Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Marco de recuperación acuático para el apoyo a la decisión clínica basada en LLM

Atención fundamentada de hecho: eliminar la alucinación en modelos de idiomas grandes a través de la integración del conocimiento del nivel de atención

standict.eu & aioti webinar “Conectando los puntos en el panorama de estándares de computación IoT y Edge en evolución”

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido