LightSearcher: Búsqueda profunda eficiente a través de memoria experiencial

Resumen: Los paradigmas de búsqueda profunda se han convertido en un habilitador central para los modelos de razonamiento profundo, permitiéndoles invocar herramientas de búsqueda externas para acceder a conocimientos actualizados y específicos de un dominio más allá de los límites paramétricos, mejorando así la profundidad y la confiabilidad fáctica del razonamiento. Sobre la base de esta base, los avances recientes en el aprendizaje por refuerzo (RL) han potenciado aún más los modelos para controlar de forma autónoma y estratégica el uso de las herramientas de búsqueda, optimizando cuándo y cómo consultar fuentes de conocimiento externas. Sin embargo, estos sistemas DeepSearch impulsados por RL a menudo revelan un equilibrio entre precisión y eficiencia: las invocaciones frecuentes de herramientas pueden mejorar la corrección de los hechos, pero generar una sobrecarga computacional innecesaria y una menor eficiencia. Para abordar este desafío, proponemos LightSearcher, un marco de RL eficiente que incorpora memoria experiencial textual mediante el aprendizaje de trayectorias de razonamiento contrastantes para generar resúmenes interpretables de patrones de razonamiento exitosos. Además, emplea un mecanismo adaptativo de configuración de recompensas que penaliza las llamadas redundantes a herramientas sólo en escenarios de respuesta correcta. Este diseño equilibra eficazmente el equilibrio inherente entre precisión y eficiencia en los paradigmas de DeepSearch. Los experimentos en cuatro puntos de referencia de control de calidad de múltiples saltos muestran que LightSearcher mantiene una precisión comparable a la base de SOTA ReSearch, al tiempo que reduce las invocaciones de herramientas de búsqueda en un 39,6 %, el tiempo de inferencia en un 48,6 % y el consumo de tokens en un 21,2 %, lo que demuestra su eficiencia superior.

Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

IRL-VLA: Capacitación de una política de acción-idioma de visión a través del modelo de recompensa mundial

La Fundación Linux revela el programa de eventos globales 2026, que promueve la IA de código abierto y permite la innovación basada en la comunidad

El índice de exageración de la IA: la gente no se cansa del desperdicio de la IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido