En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Pre-Act: la planificación y el razonamiento de varios pasos mejora la actuación en los agentes de LLM

Pre-Act: la planificación y el razonamiento de varios pasos mejora la actuación en los agentes de LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La capacidad React (razonamiento + acción) en modelos de lenguaje grande (LLMS) se ha convertido en la base de los sistemas de agente modernos. Los LLM recientes, como Deepseek-R1 y OpenAI O1/O3, ejemplifican esto al enfatizar el razonamiento a través de la generación de amplios tokens intermedios, que ayudan a generar una premisa fuerte antes de producir los tokens de salida finales. En este artículo, presentamos Pre-Act, un enfoque novedoso que mejora el rendimiento del agente al crear un plan de ejecución de varios pasos junto con el razonamiento detallado para la entrada del usuario dada. Este plan incorpora incrementalmente pasos anteriores y salidas de herramientas, refinándose después de cada paso de ejecución hasta que se obtenga la respuesta final. Nuestro enfoque es aplicable a los agentes conversacionales y no conversacionales. Para medir el rendimiento de los agentes orientados a la tarea de manera integral, proponemos un marco de evaluación de dos niveles: (1) nivel de giro y (2) de extremo a extremo. Nuestra evaluación a nivel de turno, promediada en cinco modelos, muestra que nuestro enfoque, pre-Act, reacciona en un 70% en el retiro de la acción en el conjunto de datos Almita. Si bien este enfoque es efectivo para modelos más grandes, los modelos más pequeños cruciales para aplicaciones prácticas, donde la latencia y el costo son restricciones clave, a menudo luchan con tareas de razonamiento complejas necesarias para los sistemas de agente. Para abordar esta limitación, ajustamos modelos relativamente pequeños como Llama 3.1 (8b y 70b) utilizando el enfoque propuesto de pre-Act. Nuestros experimentos muestran que el modelo 70B ajustado supera a GPT-4, logrando una mejora del 69.5% en la precisión de acción (nivel de turno) y una mejora del 28% en la tasa de finalización de objetivos (de extremo a extremo) en el conjunto de datos Almita (fuera del dominio).

Publicado Originalme en rss.arxiv.org El 15 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web