BAPO: optimización de políticas con reconocimiento de límites para una búsqueda agente confiable

Resumen:La búsqueda agente basada en RL permite a los LLM resolver preguntas complejas mediante planificación dinámica y búsqueda externa. Si bien este enfoque mejora significativamente la precisión con políticas de agentes optimizadas a través del aprendizaje reforzado a gran escala, identificamos una brecha crítica en la confiabilidad: estos agentes no reconocen sus límites de razonamiento y rara vez admiten “NO SÉ” (IDK), incluso cuando la evidencia es insuficiente o el razonamiento alcanza su límite. La falta de confiabilidad a menudo conduce a respuestas plausibles pero poco confiables, lo que introduce riesgos significativos en muchos escenarios del mundo real. Con este fin, proponemos la optimización de políticas con reconocimiento de límites (BAPO), un novedoso marco de RL diseñado para cultivar un conocimiento de límites confiable sin comprometer la precisión. BAPO introduce dos componentes clave: (i) una recompensa grupal basada en límites que fomenta una respuesta IDK solo cuando el razonamiento alcanza su límite, y (ii) un modulador de recompensa adaptativo que suspende estratégicamente esta recompensa durante la exploración temprana, evitando que el modelo explote IDK como un atajo. Amplios experimentos en cuatro puntos de referencia demuestran que BAPO mejora sustancialmente la confiabilidad general de la búsqueda agente.

Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Consistencia CHECKER: Evaluación basada en árbol de las capacidades de generalización de LLM

Un marco colaborativo de múltiples funciones y evolución automática con orientación de dificultad detallada para la generación de problemas matemáticos innovadores

Vodafone crosses 200M IoT connections milestone

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido