PaperScout: un agente autónomo para la búsqueda de artículos académicos con optimización de políticas a nivel de secuencia basada en procesos

Resumen:La búsqueda de artículos académicos es una tarea fundamental en la investigación científica; sin embargo, la mayoría de los enfoques existentes se basan en flujos de trabajo rígidos y predefinidos que luchan con consultas complejas y condicionales. Para abordar esta limitación, proponemos PaperScout, un agente autónomo que reformula la búsqueda de artículos como un proceso secuencial de toma de decisiones. A diferencia de los flujos de trabajo estáticos, PaperScout decide dinámicamente si, cuándo y cómo invocar herramientas de búsqueda y expansión en función del contexto de recuperación acumulado. Sin embargo, capacitar a dichos agentes presenta un desafío fundamental: los métodos estándar de aprendizaje por refuerzo, típicamente diseñados para tareas de un solo turno, sufren de una falta de coincidencia de granularidad cuando se aplican a tareas de agentes de múltiples turnos, donde la optimización a nivel de token diverge de la granularidad de las interacciones a nivel de secuencia, lo que lleva a una asignación de créditos ruidosa. Presentamos la optimización de políticas de secuencia próxima (PSPO), un método de optimización de políticas a nivel de secuencia que tiene en cuenta los procesos y que alinea la optimización con la interacción agente-entorno. Experimentos exhaustivos en puntos de referencia tanto sintéticos como del mundo real demuestran que PaperScout supera significativamente las sólidas líneas de base impulsadas por el flujo de trabajo y RL tanto en recuperación como en relevancia, lo que valida la efectividad de nuestro marco agente adaptativo y nuestra estrategia de optimización.

Publicado originalmente en export.arxiv.org el 15 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Comportamiento contra la inferencia en sistemas cognitivos naturales y artificiales

Jornada informativa del Consejo Europeo de Innovación (EIC) en Copenhague, Dinamarca

Galax: Modelo de lenguaje acuático gráfico para el razonamiento de subgraph guiado por refuerzo explicable en medicina de precisión

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido