En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->FlashInfer-Bench: Construyendo el círculo virtuoso para sistemas LLM impulsados ​​por IA

FlashInfer-Bench: Construyendo el círculo virtuoso para sistemas LLM impulsados ​​por IA

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los avances recientes muestran que los grandes modelos de lenguaje (LLM) pueden actuar como agentes autónomos capaces de generar núcleos de GPU, pero la integración de estos núcleos generados por IA en sistemas de inferencia del mundo real sigue siendo un desafío. FlashInfer-Bench aborda esta brecha estableciendo un marco estandarizado de circuito cerrado que conecta la generación, la evaluación comparativa y la implementación del kernel. En esencia, FlashInfer Trace proporciona un esquema unificado que describe definiciones, cargas de trabajo, implementaciones y evaluaciones del kernel, lo que permite una comunicación consistente entre agentes y sistemas. Basado en seguimientos de servicio reales, FlashInfer-Bench incluye un conjunto de datos curado, un sólido marco de evaluación comparativa que tiene en cuenta la corrección y el rendimiento, una tabla de clasificación pública para rastrear las capacidades de programación de GPU de los agentes de LLM y un mecanismo de sustitución dinámica (apply()) que inyecta sin problemas los núcleos de mejor rendimiento en motores de LLM de producción como SGLang y vLLM. Utilizando FlashInfer-Bench, evaluamos más a fondo el rendimiento y las limitaciones de los agentes LLM, comparamos las compensaciones entre diferentes lenguajes de programación de GPU y brindamos información para el diseño futuro de agentes. FlashInfer-Bench establece así una vía práctica y reproducible para mejorar continuamente los núcleos generados por IA e implementarlos en la inferencia LLM a gran escala.

Publicado originalmente en export.arxiv.org el 4 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web