JudgeSQL: razonamiento sobre candidatos de SQL con torneo de consenso ponderado

Resumen:Text-to-SQL es una tarea fundamental que une la comprensión del lenguaje natural y el acceso a datos estructurados, pero sigue siendo fundamentalmente desafiante debido a la ambigüedad semántica y el complejo razonamiento compositivo. Si bien los modelos de lenguajes grandes (LLM) han avanzado enormemente en la generación de SQL a través de solicitudes, ajustes supervisados y ajustes reforzados, el cambio hacia el escalamiento en el tiempo de prueba expone un nuevo cuello de botella: seleccionar la consulta correcta de un grupo diverso de candidatos. Los enfoques de selección existentes, como la autoconsistencia o la decodificación del mejor de $N$, proporcionan solo señales superficiales, lo que los hace propensos a puntuaciones inconsistentes, cadenas de razonamiento frágiles y a la imposibilidad de capturar distinciones semánticas detalladas entre candidatos de SQL estrechamente relacionados. Con este fin, presentamos JudgeSQL, un marco de principios que redefine la selección de candidatos de SQL mediante razonamiento estructurado y un mecanismo de torneo de consenso ponderado. JudgeSQL desarrolla un modelo de juicio SQL basado en el razonamiento que destila rastros de razonamiento con aprendizaje reforzado guiado por recompensas verificables, lo que permite juicios precisos e interpretables. A partir de esto, un torneo de consenso ponderado integra preferencias de razonamiento explícitas con confianza implícita del generador, lo que produce selecciones que son más confiables y más eficientes. Amplios experimentos en el punto de referencia BIRD demuestran que JudgeSQL exhibe capacidades superiores de juicio SQL y una buena generalización entre escalas y robustez para la capacidad del generador.

Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Razonamiento en acción: recuperación de conocimientos impulsada por MCTS para modelos de lenguaje grandes

Evaluación del razonamiento causal para modelos de lenguaje grandes en escenarios clínicos contextualizados de interpretación de pruebas de laboratorio

La descarga: el próximo arma anti-drone y el crecimiento de la IA impulsando

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido