Resumen: Los modelos de lenguaje grande (LLM) han logrado un progreso notable en tareas de razonamiento complejas, sin embargo, siguen siendo fundamentalmente limitados por su dependencia del conocimiento interno estático y el razonamiento de solo texto. La resolución de problemas del mundo real a menudo exige un razonamiento dinámico, de varios pasos, la toma de decisiones adaptativas y la capacidad de interactuar con herramientas y entornos externos. En este trabajo, presentamos el artista (razonamiento de agente e integración de herramientas en transformadores de administración automática), un marco unificado que combina el razonamiento agente, el aprendizaje de refuerzo e integración de herramientas para LLM. Artista permite que los modelos decidan de forma autónoma cuándo, cómo y qué herramientas invocar dentro de las cadenas de razonamiento múltiples, aprovechando RL basado en resultados para aprender estrategias sólidas para el uso de herramientas y la interacción del entorno sin requerir una supervisión a nivel de paso. Experimentos extensos sobre razonamiento matemático y funciones de múltiples vueltas que llaman a los puntos de referencia muestran que el artista supera constantemente a las líneas de base de última generación, con una mejora absoluta de hasta un 22% sobre los modelos base y fuertes ganancias en las tareas más desafiantes. Los estudios detallados y los análisis métricos revelan que el entrenamiento de RL de agente conduce a un razonamiento más profundo, un uso de herramientas más efectivo y soluciones de mayor calidad. Nuestros resultados establecen RL de agente con la integración de herramientas como una nueva frontera poderosa para la resolución de problemas robusta, interpretable y generalizable en LLM.
Razonamiento de agente e integración de herramientas para LLM a través del aprendizaje de refuerzo
- Autor de la entrada:admin
- Publicación de la entrada:5 mayo, 2025
- Categoría de la entrada:Noticias en general
Etiquetas: cs.AI
Please Share This Compartir este contenido
admin
Usuario de administración del sitio web