Resumen: Si bien los modelos de lenguaje grande tienen una generación text2sql significativamente avanzada, una brecha semántica crítica persiste cuando las consultas sintácticamente válidas a menudo malinterpretan la intención del usuario. Para mitigar este desafío, proponemos GBV-SQL, un nuevo marco de agente múltiple que introduce la generación guiada con la validación de la transentación de retroceso SQL2Text. Este mecanismo utiliza un agente especializado para traducir el SQL generado nuevamente al lenguaje natural, lo que verifica su alineación lógica con la pregunta original. Críticamente, nuestra investigación revela que la evaluación actual se ve socavada por un problema sistémico: la mala calidad de los puntos de referencia en sí. Introducimos una tipología formal para los “errores de oro”, que son defectos generalizados en los datos de verdad en tierra, y demostramos cómo oscurecen el rendimiento del modelo verdadero. En el desafiante punto de referencia de aves, GBV-SQL alcanza la precisión de ejecución del 63.23%, una mejora absoluta del 5.8%. Después de eliminar ejemplos defectuosos, GBV-SQL logra una precisión de ejecución del 96.5% (DEV) y 97.6% (prueba) en el punto de referencia de araña. Nuestro trabajo ofrece un marco robusto para la validación semántica y una perspectiva crítica sobre la integridad de referencia, lo que resalta la necesidad de una curación de conjunto de datos más rigurosa.
Publicado Originalme en export.arxiv.org El 16 de septiembre de 2025.
Ver Fuente Original