En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Comportamientos de razonamiento beneficiosos en la búsqueda agente y post-entrenamiento efectivo para obtenerlos

Comportamientos de razonamiento beneficiosos en la búsqueda agente y post-entrenamiento efectivo para obtenerlos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La búsqueda agencial aprovecha los grandes modelos de lenguaje (LLM) para interpretar las necesidades complejas de información del usuario y ejecutar un proceso de varios pasos de planificación, búsqueda y síntesis de información para proporcionar respuestas. Este paradigma introduce desafíos únicos para las capacidades de razonamiento y agencia de los LLM cuando interactúan con sistemas de recuperación y la web en general. En este artículo, proponemos un proceso de LLM basado en el razonamiento para estudiar patrones de comportamiento de razonamiento efectivo en la búsqueda de agentes. Utilizando este canal, analizamos trayectorias exitosas de búsqueda de agentes e identificamos cuatro comportamientos de razonamiento beneficiosos: verificación de información, evaluación de autoridad, búsqueda adaptativa y recuperación de errores. Con base en estos hallazgos, proponemos una técnica llamada Behaviour Priming para entrenar modelos de búsqueda agentes más efectivos. Sintetiza trayectorias de búsqueda agente que exhiben estos cuatro comportamientos y las integra en el modelo de búsqueda agente mediante ajuste fino supervisado (SFT), seguido de aprendizaje por refuerzo estándar (RL). Los experimentos en tres puntos de referencia (GAIA, WebWalker y HLE) demuestran que la preparación del comportamiento produce ganancias de más del 35 % en Llama3.2-3B y Qwen3-1.7B en comparación con el entrenamiento directo de modelos de búsqueda agentes con RL. Fundamentalmente, demostramos que los comportamientos de razonamiento deseados en los datos SFT, en lugar de la exactitud de la respuesta final, son el factor crítico para lograr un desempeño final sólido después de RL: el ajuste fino de trayectorias con comportamientos de razonamiento deseables pero respuestas incorrectas conduce a un mejor desempeño que el ajuste fino de trayectorias con respuestas correctas. Nuestro análisis revela además el mecanismo subyacente: los comportamientos de razonamiento introducidos dotan a los modelos de capacidades de exploración más efectivas (mayor pass@k y entropía) y de escalamiento en el tiempo de prueba (trayectorias más largas), lo que proporciona una base sólida para RL. Nuestro código se publicará como código abierto.

Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web