Una historia de LLM y pequeños proxies inducidos: agentes escalables para la minería de conocimiento

Resumen: en el núcleo de la investigación profunda está la minería de conocimiento, la tarea de extraer información estructurada del texto no estructurado masivo en respuesta a las instrucciones del usuario. Los modelos de lenguaje grande (LLMS) se destacan en la interpretación de tales instrucciones, pero son prohibitivamente costosos de desplegar a escala, mientras que las tuberías tradicionales de clasificadores y extractores siguen siendo eficientes pero quebradizos y no pueden generalizarse a nuevas tareas. Introducimos a Falconer, un marco de colaboración que combina el razonamiento agente de los LLM con modelos proxy livianos para la minería de conocimiento escalable. En Falconer, LLMS actúa como planificadores, descomponiendo las instrucciones del usuario en tuberías ejecutables y como anotadores, generando supervisión para capacitar a pequeños proxies. El marco unifica la clasificación y la extracción en dos operaciones atómicas, obtenga etiqueta y obtenga un tramo, lo que permite un solo modelo de seguimiento de instrucciones para reemplazar múltiples componentes específicos de la tarea. Para evaluar la consistencia entre los modelos proxy incubados por Falconer y las anotaciones proporcionadas por humanos y modelos grandes, construimos nuevos puntos de referencia que cubren la planificación y la ejecución de extremo a extremo. Los experimentos muestran que Falconer coincide estrechamente con LLM de última generación en la precisión de seguimiento de instrucciones, al tiempo que reduce el costo de inferencia en hasta un 90% y acelera la minería de conocimiento a gran escala en más de 20X, ofreciendo una base eficiente y escalable para investigaciones profundas.

Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El procesador fotónico podría optimizar el procesamiento de señal inalámbrica 6G

Ultrahorizon: Capacidades de agentes de evaluación comparativa en escenarios de Horizon Ultra Long

Graml: reconocimiento de objetivos dinámicos como aprendizaje métrico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido