MoE-SpAc: inferencia eficiente de MoE basada en la utilidad de activación especulativa en escenarios de borde heterogéneos

Resumen: Los modelos de mezcla de expertos (MoE) permiten un rendimiento escalable pero enfrentan graves limitaciones de memoria en los dispositivos perimetrales. Las estrategias de descarga existentes luchan contra los cuellos de botella de E/S debido a la naturaleza dinámica y con poca información de la activación experta autorregresiva.

Leer más →

Comentarios desactivados en MoE-SpAc: inferencia eficiente de MoE basada en la utilidad de activación especulativa en escenarios de borde heterogéneos

Más allá de los escalares: evaluación y comprensión del razonamiento LLM a través del progreso y la estabilidad geométricos

Resumen: La evaluación de la confiabilidad del LLM mediante probabilidades escalares a menudo no logra capturar la dinámica estructural del razonamiento. Presentamos TRACED, un marco que evalúa la calidad del razonamiento a través de cinemática geométrica fundamentada teóricamente.

Leer más →

Comentarios desactivados en Más allá de los escalares: evaluación y comprensión del razonamiento LLM a través del progreso y la estabilidad geométricos

AraModernBERT: inicialización transtokenizada y modelado de codificador de contexto largo para árabe

Resumen: Los modelos de transformadores de solo codificador siguen siendo ampliamente utilizados para tareas discriminativas de PNL, sin embargo, los avances arquitectónicos recientes se han centrado en gran medida en el inglés.

Leer más →

Comentarios desactivados en AraModernBERT: inicialización transtokenizada y modelado de codificador de contexto largo para árabe

Fin del contenido

No hay más páginas por cargar