Resumen: a pesar de los rápidos avances en los agentes de LLM, aún enfrentan el desafío de generar reflexiones significativas debido a un análisis de errores inadecuados y una dependencia de trayectorias exitosas raras, especialmente en tareas complejas. En este trabajo, proponemos Samule, un nuevo marco para los agentes de autoaprendizaje impulsados por un modelo de lenguaje retrospectivo que se capacita en función de la síntesis de reflexión de niveles múltiples. Primero sintetiza reflexiones de alta calidad en tres niveles complementarios: aprendizaje de trayectoria única (micro nivel) para una corrección de errores detallados; Aprendizaje intra-tarta (nivel meso) para construir taxonomías de errores en múltiples pruebas de la misma tarea, y el aprendizaje entre tareas (nivel macro) para extraer ideas transferibles basadas en los mismos errores tipados de diversas fallas de tareas. Luego ajustamos un modelo de lenguaje que sirve como modelo retrospectivo para generar reflexiones durante la inferencia. Extendemos aún más nuestro marco a la configuración interactiva a través de un mecanismo de reflexión basado en la previsión, lo que permite a los agentes reflexionar y adaptarse de manera proactiva durante las interacciones del usuario al comparar las respuestas predichas y reales. Experimentos extensos en tres puntos de referencia desafiantes (Planner de viajes, Plan Natural y Bench Tau) demuestran que nuestro enfoque supera significativamente las líneas de base basadas en la reflexión. Nuestros resultados resaltan el papel crítico de la síntesis de reflexión bien diseñada y el aprendizaje centrado en la falla en la construcción de agentes de LLM de administración automática.

Publicado Originalme en export.arxiv.org El 25 de septiembre de 2025.
Ver Fuente Original

Samule: Agentes de autoaprendizaje mejorados por la reflexión de niveles múltiples

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Asociarse con IA generativa en la función financiera

Fluid: integración unificada en latencia de flujo a través de la destilación de tokens para la especialización de expertos en el aprendizaje multimodal

Cambio de nombre de predicados mediante modelos de lenguaje grandes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido