Construcción y recuperación de gráficos de conocimiento eficiente a partir de texto no estructurado para sistemas de trapo a gran escala

Resumen: Proponemos un marco escalable y rentable para implementar la generación aumentada de recuperación basada en gráficos (Graphrag) en entornos empresariales. Si bien Graphrag ha demostrado ser prometedor para el razonamiento múltiple y la recuperación estructurada, su adopción ha estado limitada por el alto costo computacional de construir gráficos de conocimiento utilizando modelos de idiomas grandes (LLM) y la latencia de la recuperación basada en gráficos. Para abordar estos desafíos, presentamos dos innovaciones centrales: (1) una tubería de construcción de gráficos de conocimiento basado en dependencia que aprovecha las bibliotecas de PNL de grado industrial para extraer entidades y relaciones de texto no estructurado que elimina por completo la dependencia de las LLM; y (2) una estrategia de recuperación de gráficos liviano que combina la identificación del nodo de consulta híbrida con un recorrido eficiente de un salto para una extracción de subgrafos de alta recuperación y baja latencia. Evaluamos nuestro marco en dos conjuntos de datos SAP centrados en la migración de código heredado y demostramos un fuerte rendimiento empírico. Nuestro sistema alcanza mejoras de hasta 15% y 4.35% sobre las líneas de base tradicionales de RAG basadas en métricas LLM-As-Judge y Ragas, respectivamente. Además, nuestro enfoque de construcción basado en la dependencia alcanza el 94% del rendimiento de los gráficos de conocimiento generados por LLM (61.87% frente a 65.83%) al tiempo que reduce significativamente los costos y la mejora de la escalabilidad. Estos resultados validan la viabilidad de implementar sistemas GraphRAG en aplicaciones empresariales a gran escala del mundo real sin incurrir en requisitos de recursos prohibitivos que allanen el camino para el razonamiento práctico, explicable y adaptable a la recuperación de dominio.

Publicado Originalme en export.arxiv.org El 7 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Escala hacia el límite de información del conjunto de instrucciones: Informe técnico de InfinityInstruct-Sugject

El primer paso crucial para diseñar un sistema de IA empresarial exitoso

Descubrimiento de heurísticas con modelos de lenguajes grandes (LLM) para programas enteros mixtos: programación en una sola máquina

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido