En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->BAPO: optimización de políticas con reconocimiento de límites para una búsqueda agente confiable

BAPO: optimización de políticas con reconocimiento de límites para una búsqueda agente confiable

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La búsqueda agente basada en RL permite a los LLM resolver preguntas complejas mediante planificación dinámica y búsqueda externa. Si bien este enfoque mejora significativamente la precisión con políticas de agentes optimizadas a través del aprendizaje reforzado a gran escala, identificamos una brecha crítica en la confiabilidad: estos agentes no reconocen sus límites de razonamiento y rara vez admiten “NO SÉ” (IDK), incluso cuando la evidencia es insuficiente o el razonamiento alcanza su límite. La falta de confiabilidad a menudo conduce a respuestas plausibles pero poco confiables, lo que introduce riesgos significativos en muchos escenarios del mundo real. Con este fin, proponemos la optimización de políticas con reconocimiento de límites (BAPO), un novedoso marco de RL diseñado para cultivar un conocimiento de límites confiable sin comprometer la precisión. BAPO introduce dos componentes clave: (i) una recompensa grupal basada en límites que fomenta una respuesta IDK solo cuando el razonamiento alcanza su límite, y (ii) un modulador de recompensa adaptativo que suspende estratégicamente esta recompensa durante la exploración temprana, evitando que el modelo explote IDK como un atajo. Amplios experimentos en cuatro puntos de referencia demuestran que BAPO mejora sustancialmente la confiabilidad general de la búsqueda agente.

Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web