En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Mejora de TableQA mediante recompensas de rastreo de razonamiento verificable

Mejora de TableQA mediante recompensas de rastreo de razonamiento verificable

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Un desafío importante en el entrenamiento de agentes TableQA, en comparación con los agentes estándar basados ​​en texto e imágenes, es que las respuestas no pueden inferirse a partir de una entrada estática, sino que deben razonarse mediante transformaciones graduales del estado de la tabla, lo que introduce complejidad de razonamiento de varios pasos e interacción ambiental. Esto lleva a una pregunta de investigación: ¿Puede la retroalimentación explícita sobre la acción de transformación de tablas mejorar la capacidad de razonamiento del modelo? En este trabajo, presentamos RE-Tab, un marco plug-and-play que mejora arquitectónicamente la búsqueda de trayectorias mediante un modelado de recompensas liviano y sin entrenamiento al formular el problema como un proceso de decisión de Markov parcialmente observable. Demostramos que proporcionar recompensas explícitas y verificables durante la transición de estado (“¿Cuál es la mejor acción?”) y el razonamiento simulativo (“¿Estoy seguro del resultado?”) es crucial para dirigir la navegación del agente en los estados de la tabla. Al imponer un razonamiento paso a paso con retroalimentación de recompensa en las transformaciones de tablas, RE-Tab logra un rendimiento de vanguardia en TableQA con una caída de casi un 25% en el costo de inferencia. Además, una implementación directa plug-and-play de RE-Tab ofrece una mejora de hasta un 41,77 % en la precisión del control de calidad y una caída del 33,33 % en las muestras de inferencia en el momento de la prueba para una respuesta consistente. El patrón de mejora constante en varios LLM y puntos de referencia de última generación confirma aún más la generalización de RE-Tab. El repositorio está disponible en esta URL https .

Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web