En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->PaperScout: un agente autónomo para la búsqueda de artículos académicos con optimización de políticas a nivel de secuencia basada en procesos

PaperScout: un agente autónomo para la búsqueda de artículos académicos con optimización de políticas a nivel de secuencia basada en procesos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La búsqueda de artículos académicos es una tarea fundamental en la investigación científica; sin embargo, la mayoría de los enfoques existentes se basan en flujos de trabajo rígidos y predefinidos que luchan con consultas complejas y condicionales. Para abordar esta limitación, proponemos PaperScout, un agente autónomo que reformula la búsqueda de artículos como un proceso secuencial de toma de decisiones. A diferencia de los flujos de trabajo estáticos, PaperScout decide dinámicamente si, cuándo y cómo invocar herramientas de búsqueda y expansión en función del contexto de recuperación acumulado. Sin embargo, capacitar a dichos agentes presenta un desafío fundamental: los métodos estándar de aprendizaje por refuerzo, típicamente diseñados para tareas de un solo turno, sufren de una falta de coincidencia de granularidad cuando se aplican a tareas de agentes de múltiples turnos, donde la optimización a nivel de token diverge de la granularidad de las interacciones a nivel de secuencia, lo que lleva a una asignación de créditos ruidosa. Presentamos la optimización de políticas de secuencia próxima (PSPO), un método de optimización de políticas a nivel de secuencia que tiene en cuenta los procesos y que alinea la optimización con la interacción agente-entorno. Experimentos exhaustivos en puntos de referencia tanto sintéticos como del mundo real demuestran que PaperScout supera significativamente las sólidas líneas de base impulsadas por el flujo de trabajo y RL tanto en recuperación como en relevancia, lo que valida la efectividad de nuestro marco agente adaptativo y nuestra estrategia de optimización.

Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web