Resumen: En los sistemas de gestión del talento, la información crítica a menudo reside en formatos tabulares complejos, presentando desafíos de recuperación significativos para los modelos de idiomas convencionales. Estos desafíos se pronuncian al procesar la documentación del talento que requiere una interpretación precisa de las relaciones tabulares para la recuperación de información precisa y la toma de decisiones posteriores. Los métodos actuales de extracción de tabla luchan con la comprensión semántica, lo que resulta en un bajo rendimiento cuando se integran en las aplicaciones de chat de recuperación. Este documento identifica un cuello de botella clave: mientras se puede extraer información de la tabla estructural, se pierden las relaciones semánticas entre los elementos tabulares, lo que causa fallas de consulta aguas abajo. Para abordar esto, presentamos TalentMine, un nuevo marco mejorado con LLM que transforma las tablas extraídas en representaciones semánticamente enriquecidas. A diferencia de los enfoques convencionales que se basan en CSV o linealización de texto, nuestro método emplea un razonamiento multimodal especializado para preservar las dimensiones estructurales y semánticas de los datos tabulares. La evaluación experimental a través de las colecciones de documentos de beneficios para empleados demuestra el rendimiento superior de la mina de talento, logrando una precisión del 100% en las tareas de respuesta de consulta en comparación con el 0% para la extracción estándar de AWS Textract y 40% para las capacidades de preguntas y respuestas visuales de AWS Textract. Nuestro análisis comparativo también revela que el modelo Claude V3 Haiku logra un rendimiento óptimo para las aplicaciones de gestión del talento. Las contribuciones clave de este trabajo incluyen (1) un análisis sistemático de la pérdida de información semántica en las tuberías de extracción de tabla actual, (2) un nuevo método basado en LLM para la representación de la tabla enriquecida semánticamente, (3) un marco de integración eficiente para los sistemas de recuperación de recuperación a través de los sistemas de extremo a extremo, y (4) comprensivos en las tareas analíticas de talento que muestran mejoras de recuperación en múltiples categorías de categorías múltiples.
Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original