Resumen: Los agentes de recuperación aumentada pueden consultar evidencia externa, pero su confiabilidad en el razonamiento de múltiples pasos sigue siendo limitada: la recuperación ruidosa puede descarrilar la respuesta a preguntas de múltiples saltos, mientras que el aprendizaje reforzado basado solo en resultados proporciona señales de crédito que son demasiado burdas para optimizar los pasos intermedios. Proponemos textsc{EvalAct} (Evaluar como acción), que convierte la evaluación de calidad de recuperación implícita en una acción explícita y aplica un protocolo de búsqueda para evaluar acoplado para que cada recuperación sea seguida inmediatamente por una puntuación de evaluación estructurada, generando señales de proceso alineadas con la trayectoria de interacción. Para aprovechar estas señales, presentamos el Rescalamiento de Ventajas Calibradas por Procesos (PCAR), un método de optimización basado en GRPO que reescala las ventajas a nivel de segmento de acuerdo con los puntajes de evaluación, enfatizando los segmentos confiables y actualizando los inciertos de manera conservadora. Los experimentos en siete puntos de referencia de control de calidad de dominio abierto muestran que textsc{EvalAct} logra la mejor precisión promedio, con las mayores ganancias en tareas de múltiples saltos, y las ablaciones verifican que el ciclo de evaluación explícito impulsa las mejoras principales, mientras que PCAR proporciona beneficios adicionales consistentes.
Publicado originalmente en export.arxiv.org el 10 de marzo de 2026.
Ver fuente original
