Resumen:La búsqueda de artículos académicos es una tarea fundamental en la investigación científica; sin embargo, la mayoría de los enfoques existentes se basan en flujos de trabajo rígidos y predefinidos que luchan con consultas complejas y condicionales. Para abordar esta limitación, proponemos PaperScout, un agente autónomo que reformula la búsqueda de artículos como un proceso secuencial de toma de decisiones. A diferencia de los flujos de trabajo estáticos, PaperScout decide dinámicamente si, cuándo y cómo invocar herramientas de búsqueda y expansión en función del contexto de recuperación acumulado. Sin embargo, capacitar a dichos agentes presenta un desafío fundamental: los métodos estándar de aprendizaje por refuerzo, típicamente diseñados para tareas de un solo turno, sufren de una falta de coincidencia de granularidad cuando se aplican a tareas de agentes de múltiples turnos, donde la optimización a nivel de token diverge de la granularidad de las interacciones a nivel de secuencia, lo que lleva a una asignación de créditos ruidosa. Presentamos la optimización de políticas de secuencia próxima (PSPO), un método de optimización de políticas a nivel de secuencia que tiene en cuenta los procesos y que alinea la optimización con la interacción agente-entorno. Experimentos exhaustivos en puntos de referencia tanto sintéticos como del mundo real demuestran que PaperScout supera significativamente las sólidas líneas de base impulsadas por el flujo de trabajo y RL tanto en recuperación como en relevancia, lo que valida la efectividad de nuestro marco agente adaptativo y nuestra estrategia de optimización.
Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original
