FlashInfer-Bench: Construyendo el círculo virtuoso para sistemas LLM impulsados por IA

Resumen: Los avances recientes muestran que los grandes modelos de lenguaje (LLM) pueden actuar como agentes autónomos capaces de generar núcleos de GPU, pero la integración de estos núcleos generados por IA en sistemas de inferencia del mundo real sigue siendo un desafío. FlashInfer-Bench aborda esta brecha estableciendo un marco estandarizado de circuito cerrado que conecta la generación, la evaluación comparativa y la implementación del kernel. En esencia, FlashInfer Trace proporciona un esquema unificado que describe definiciones, cargas de trabajo, implementaciones y evaluaciones del kernel, lo que permite una comunicación consistente entre agentes y sistemas. Basado en seguimientos de servicio reales, FlashInfer-Bench incluye un conjunto de datos curado, un sólido marco de evaluación comparativa que tiene en cuenta la corrección y el rendimiento, una tabla de clasificación pública para rastrear las capacidades de programación de GPU de los agentes de LLM y un mecanismo de sustitución dinámica (apply()) que inyecta sin problemas los núcleos de mejor rendimiento en motores de LLM de producción como SGLang y vLLM. Utilizando FlashInfer-Bench, evaluamos más a fondo el rendimiento y las limitaciones de los agentes LLM, comparamos las compensaciones entre diferentes lenguajes de programación de GPU y brindamos información para el diseño futuro de agentes. FlashInfer-Bench establece así una vía práctica y reproducible para mejorar continuamente los núcleos generados por IA e implementarlos en la inferencia LLM a gran escala.

Publicado originalmente en export.arxiv.org el 4 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: Conozca a los jueces con AI y las promesas de salud de GPT-5

Detección de patrones de ataque temporales en flujos de trabajo de IA de múltiples agentes: un marco abierto para entrenar modelos de seguridad basados ​​en seguimiento

La descarga: progreso de energía limpia y trilema de OpenAi

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Detección de patrones de ataque temporales en flujos de trabajo de IA de múltiples agentes: un marco abierto para entrenar modelos de seguridad basados en seguimiento