Resumen: Los paradigmas de búsqueda profunda se han convertido en un habilitador central para los modelos de razonamiento profundo, permitiéndoles invocar herramientas de búsqueda externas para acceder a conocimientos actualizados y específicos de un dominio más allá de los límites paramétricos, mejorando así la profundidad y la confiabilidad fáctica del razonamiento. Sobre la base de esta base, los avances recientes en el aprendizaje por refuerzo (RL) han potenciado aún más los modelos para controlar de forma autónoma y estratégica el uso de las herramientas de búsqueda, optimizando cuándo y cómo consultar fuentes de conocimiento externas. Sin embargo, estos sistemas DeepSearch impulsados por RL a menudo revelan un equilibrio entre precisión y eficiencia: las invocaciones frecuentes de herramientas pueden mejorar la corrección de los hechos, pero generar una sobrecarga computacional innecesaria y una menor eficiencia. Para abordar este desafío, proponemos LightSearcher, un marco de RL eficiente que incorpora memoria experiencial textual mediante el aprendizaje de trayectorias de razonamiento contrastantes para generar resúmenes interpretables de patrones de razonamiento exitosos. Además, emplea un mecanismo adaptativo de configuración de recompensas que penaliza las llamadas redundantes a herramientas sólo en escenarios de respuesta correcta. Este diseño equilibra eficazmente el equilibrio inherente entre precisión y eficiencia en los paradigmas de DeepSearch. Los experimentos en cuatro puntos de referencia de control de calidad de múltiples saltos muestran que LightSearcher mantiene una precisión comparable a la base de SOTA ReSearch, al tiempo que reduce las invocaciones de herramientas de búsqueda en un 39,6 %, el tiempo de inferencia en un 48,6 % y el consumo de tokens en un 21,2 %, lo que demuestra su eficiencia superior.
Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original
