PRISMA: Optimización de políticas de dos etapas guiada por aprendizaje por refuerzo en una arquitectura de múltiples agentes para la respuesta de preguntas de múltiples saltos en dominio abierto

Resumen:Responder preguntas de múltiples saltos de dominio abierto del mundo real sobre corpus masivos es un desafío crítico en los sistemas de generación aumentada de recuperación (RAG). Investigaciones recientes emplean el aprendizaje por refuerzo (RL) para optimizar de un extremo a otro el proceso de razonamiento de recuperación aumentada, mejorando directamente su capacidad para resolver consultas complejas. Sin embargo, un despliegue fiable se ve obstaculizado por dos obstáculos. 1) Colapso de la recuperación: la recuperación iterativa de grandes corpus no logra localizar evidencia intermedia que contenga respuestas puente sin una planificación guiada por el razonamiento, lo que provoca el colapso del razonamiento posterior. 2) Inestabilidad del aprendizaje: la capacitación en trayectorias de un extremo a otro sufre de una débil asignación de créditos en las cadenas de razonamiento y una mala localización de errores en los módulos, lo que provoca un sobreajuste de heurísticas específicas de referencia que limitan la transferibilidad y la estabilidad. Para abordar estos problemas, proponemos PRISMA, un marco guiado por RL desacoplado que presenta una arquitectura Planificar-Recuperar-Inspeccionar-Resolver-Memorizar. La fortaleza de PRISMA radica en la colaboración guiada por el razonamiento: el Inspector proporciona retroalimentación basada en el razonamiento para refinar la descomposición del Planificador y la recuperación detallada, mientras aplica el razonamiento basado en evidencia en el Solver. Optimizamos las capacidades de los agentes individuales a través de la optimización de políticas relativas al grupo (GRPO) en dos etapas. La Etapa I calibra al Planificador y al Solver como expertos especializados en planificación y razonamiento, mientras que la Etapa II utiliza la Optimización de Políticas Residuales Consciente de la Observación (OARPO) para mejorar la capacidad del Inspector para verificar el contexto y desencadenar una recuperación específica. Los experimentos muestran que PRISMA logra un rendimiento de vanguardia en diez puntos de referencia y puede implementarse de manera eficiente en escenarios del mundo real.

Publicado originalmente en export.arxiv.org el 11 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

ZAPGPT: Significación de lenguaje de forma libre para el control celular simulado

ReEfBench: cuantificación de la eficiencia del razonamiento de los LLM

OpenSearch Software Foundation marca un aniversario de 1 año con crecimiento de la comunidad, IA agente y mejoras de búsqueda híbrida

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido