Comportamientos de razonamiento beneficiosos en la búsqueda agente y post-entrenamiento efectivo para obtenerlos

Resumen:La búsqueda agencial aprovecha los grandes modelos de lenguaje (LLM) para interpretar las necesidades complejas de información del usuario y ejecutar un proceso de varios pasos de planificación, búsqueda y síntesis de información para proporcionar respuestas. Este paradigma introduce desafíos únicos para las capacidades de razonamiento y agencia de los LLM cuando interactúan con sistemas de recuperación y la web en general. En este artículo, proponemos un proceso de LLM basado en el razonamiento para estudiar patrones de comportamiento de razonamiento efectivo en la búsqueda de agentes. Utilizando este canal, analizamos trayectorias exitosas de búsqueda de agentes e identificamos cuatro comportamientos de razonamiento beneficiosos: verificación de información, evaluación de autoridad, búsqueda adaptativa y recuperación de errores. Con base en estos hallazgos, proponemos una técnica llamada Behaviour Priming para entrenar modelos de búsqueda agentes más efectivos. Sintetiza trayectorias de búsqueda agente que exhiben estos cuatro comportamientos y las integra en el modelo de búsqueda agente mediante ajuste fino supervisado (SFT), seguido de aprendizaje por refuerzo estándar (RL). Los experimentos en tres puntos de referencia (GAIA, WebWalker y HLE) demuestran que la preparación del comportamiento produce ganancias de más del 35 % en Llama3.2-3B y Qwen3-1.7B en comparación con el entrenamiento directo de modelos de búsqueda agentes con RL. Fundamentalmente, demostramos que los comportamientos de razonamiento deseados en los datos SFT, en lugar de la exactitud de la respuesta final, son el factor crítico para lograr un desempeño final sólido después de RL: el ajuste fino de trayectorias con comportamientos de razonamiento deseables pero respuestas incorrectas conduce a un mejor desempeño que el ajuste fino de trayectorias con respuestas correctas. Nuestro análisis revela además el mecanismo subyacente: los comportamientos de razonamiento introducidos dotan a los modelos de capacidades de exploración más efectivas (mayor pass@k y entropía) y de escalamiento en el tiempo de prueba (trayectorias más largas), lo que proporciona una base sólida para RL. Nuestro código se publicará como código abierto.

Publicado originalmente en export.arxiv.org el 8 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Apuesta por la precisión del LLM: mercados de predicción falsos, señales de confianza reales

Razonamiento sándwich: un enfoque de respuesta-razonamiento-respuesta para la corrección de consultas de baja latencia

¿Cuándo pueden los grandes modelos de razonamiento guardar el pensamiento? Análisis mecanicista de la divergencia conductual en el razonamiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido