En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->BIRD-INTERACT: Reimaginación de la evaluación de texto a SQL para modelos de lenguaje grandes a través de lentes de interacciones dinámicas

BIRD-INTERACT: Reimaginación de la evaluación de texto a SQL para modelos de lenguaje grandes a través de lentes de interacciones dinámicas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM) han demostrado un rendimiento notable en tareas de texto a SQL de un solo turno, pero las aplicaciones de bases de datos del mundo real requieren predominantemente interacciones de varios turnos para manejar consultas ambiguas, errores de ejecución y requisitos de usuario en evolución. Los puntos de referencia de múltiples turnos existentes se quedan cortos al tratar los historiales de conversaciones como contexto estático o limitar la evaluación a operaciones de solo lectura, lo que no refleja los desafíos del asistente de base de datos de nivel de producción. Presentamos BIRD-INTERACT, un punto de referencia que restaura este realismo a través de: (1) un entorno de interacción integral que combina cada base de datos con una base de conocimiento jerárquica, archivos de metadatos y un simulador de usuario basado en funciones, lo que permite a los modelos solicitar aclaraciones, recuperar conocimientos y recuperarse de errores sin supervisión humana; (2) dos entornos de evaluación que constan de un protocolo conversacional predefinido (c-Interact) y un entorno agente abierto (a-Interact) donde los modelos deciden de forma autónoma cuándo consultar el simulador del usuario o explorar el entorno; (3) un conjunto de tareas desafiantes que cubre todo el espectro CRUD para casos de uso operativo y de inteligencia empresarial, protegido por casos de prueba ejecutables. Cada tarea presenta subtareas ambiguas y de seguimiento que requieren interacción dinámica. La suite comprende BIRD-INTERACT-FULL (600 tareas, hasta 11,796 interacciones) para una evaluación integral del desempeño y BIRD-INTERACT-LITE (300 tareas con bases de datos simplificadas) para un análisis de comportamiento detallado y un desarrollo rápido de métodos. Nuestros resultados empíricos resaltan la dificultad de BIRD-INTERACT: GPT-5 completa solo el 8,67% de las tareas en c-Interact y el 17,00% en a-Interact. El análisis mediante injerto de memoria y escalado de tiempo de prueba de interacción valida la importancia de una interacción efectiva para tareas complejas y dinámicas de texto a SQL.

Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web