Resumen: Los modelos de lenguaje grande (LLM) han mostrado prometedor en la tabla de respuesta a las preguntas (Tabla QA). Sin embargo, extender estas capacidades al control de calidad múltiple sigue siendo un desafío debido a un esquema poco confiable que se vincula entre tablas complejas. Los métodos existentes basados en la similitud semántica funcionan bien solo en conjuntos de datos hechos a mano simplificados y luchan para manejar escenarios complejos del mundo real con numerosas y diversas columnas. Para abordar esto, proponemos un marco basado en gráficos que aprovecha el conocimiento relacional curado por los humanos para codificar explícitamente los enlaces de esquema y las rutas de unión. Dada una consulta del lenguaje natural, nuestro método busca este gráfico para construir cadenas de razonamiento interpretables, ayudadas por la poda y las estrategias de fusión de subpatación para mejorar la eficiencia y la coherencia. Los experimentos tanto en puntos de referencia estándar como en un conjunto de datos realista a gran escala demuestran la efectividad de nuestro enfoque. Hasta donde sabemos, este es el primer sistema de control de calidad múltiple aplicado a datos tabulares industriales verdaderamente complejos.
Publicado Originalme en rss.arxiv.org El 5 de junio de 2025.
Ver Fuente Original