BIRD-INTERACT: Reimaginación de la evaluación de texto a SQL para modelos de lenguaje grandes a través de lentes de interacciones dinámicas

Resumen: Los modelos de lenguajes grandes (LLM) han demostrado un rendimiento notable en tareas de texto a SQL de un solo turno, pero las aplicaciones de bases de datos del mundo real requieren predominantemente interacciones de varios turnos para manejar consultas ambiguas, errores de ejecución y requisitos de usuario en evolución. Los puntos de referencia de múltiples turnos existentes se quedan cortos al tratar los historiales de conversaciones como contexto estático o limitar la evaluación a operaciones de solo lectura, lo que no refleja los desafíos del asistente de base de datos de nivel de producción. Presentamos BIRD-INTERACT, un punto de referencia que restaura este realismo a través de: (1) un entorno de interacción integral que combina cada base de datos con una base de conocimiento jerárquica, archivos de metadatos y un simulador de usuario basado en funciones, lo que permite a los modelos solicitar aclaraciones, recuperar conocimientos y recuperarse de errores sin supervisión humana; (2) dos entornos de evaluación que constan de un protocolo conversacional predefinido (c-Interact) y un entorno agente abierto (a-Interact) donde los modelos deciden de forma autónoma cuándo consultar el simulador del usuario o explorar el entorno; (3) un conjunto de tareas desafiantes que cubre todo el espectro CRUD para casos de uso operativo y de inteligencia empresarial, protegido por casos de prueba ejecutables. Cada tarea presenta subtareas ambiguas y de seguimiento que requieren interacción dinámica. La suite comprende BIRD-INTERACT-FULL (600 tareas, hasta 11,796 interacciones) para una evaluación integral del desempeño y BIRD-INTERACT-LITE (300 tareas con bases de datos simplificadas) para un análisis de comportamiento detallado y un desarrollo rápido de métodos. Nuestros resultados empíricos resaltan la dificultad de BIRD-INTERACT: GPT-5 completa solo el 8,67% de las tareas en c-Interact y el 17,00% en a-Interact. El análisis mediante injerto de memoria y escalado de tiempo de prueba de interacción valida la importancia de una interacción efectiva para tareas complejas y dinámicas de texto a SQL.

Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Equilibrios de razonamiento y comportamiento en juegos de Nash LLM: desde la mentalidad hasta las acciones

Adaptación de disparo cero del ajuste fino de los parámetros en los modelos de difusión

El pensamiento de paso cero: un estudio empírico de la selección de modo como una salida temprana más difícil en los modelos de razonamiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido