Mejora de TableQA mediante recompensas de rastreo de razonamiento verificable

Resumen: Un desafío importante en el entrenamiento de agentes TableQA, en comparación con los agentes estándar basados en texto e imágenes, es que las respuestas no pueden inferirse a partir de una entrada estática, sino que deben razonarse mediante transformaciones graduales del estado de la tabla, lo que introduce complejidad de razonamiento de varios pasos e interacción ambiental. Esto lleva a una pregunta de investigación: ¿Puede la retroalimentación explícita sobre la acción de transformación de tablas mejorar la capacidad de razonamiento del modelo? En este trabajo, presentamos RE-Tab, un marco plug-and-play que mejora arquitectónicamente la búsqueda de trayectorias mediante un modelado de recompensas liviano y sin entrenamiento al formular el problema como un proceso de decisión de Markov parcialmente observable. Demostramos que proporcionar recompensas explícitas y verificables durante la transición de estado (“¿Cuál es la mejor acción?”) y el razonamiento simulativo (“¿Estoy seguro del resultado?”) es crucial para dirigir la navegación del agente en los estados de la tabla. Al imponer un razonamiento paso a paso con retroalimentación de recompensa en las transformaciones de tablas, RE-Tab logra un rendimiento de vanguardia en TableQA con una caída de casi un 25% en el costo de inferencia. Además, una implementación directa plug-and-play de RE-Tab ofrece una mejora de hasta un 41,77 % en la precisión del control de calidad y una caída del 33,33 % en las muestras de inferencia en el momento de la prueba para una respuesta consistente. El patrón de mejora constante en varios LLM y puntos de referencia de última generación confirma aún más la generalización de RE-Tab. El repositorio está disponible en esta URL https .

Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cómo la red puede resistir las tormentas invernales

Jornada Oportunidades en Industria en Horizonte Europa. Castilla y León

Esta herramienta elimina las protecciones anti-AI del arte digital

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido