Resumen: El advenimiento incesante de los servicios en línea exige a alta velocidad y sistemas de recomendación eficientes (Res) que pueden mantener un rendimiento en tiempo real junto con el procesamiento de interacciones de ítems de usuario muy complejas. El presente estudio, por lo tanto, considera cuellos de botella computacionales involucrados en la red neuronal de gráficos híbridos (GNN) y RES basados en el modelo de lenguaje grande (LLM) con el objetivo que optimiza su latencia de inferencia y eficiencia de entrenamiento. Se utilizó una metodología extensa: estrategias híbridas de optimización de arquitectura integrada GNN-LLM (cuantización, lora, destilación)-aceleración de hardware (FPGA, Deepsede) -TO en R 4.4.2. Las mejoras experimentales fueron significativas, con la configuración óptima híbrida + FPGA + de velocidad profunda que alcanzó el 13.6% más de precisión (NDCG@10: 0.75) a 40-60 ms de latencia, mientras que Lora redujo el tiempo de entrenamiento en un 66% (3.8 horas) en comparación con la línea de base no optimizada. Independientemente del dominio, como la precisión o la eficiencia, se puede establecer que el codiseño de hardware codiseñe y el ajuste de los parámetros y los modelos híbridos superan los enfoques de GNN o LLM implementados de forma independiente. Recomienda el uso de FPGA y Lora para la implementación en tiempo real. El trabajo futuro debe involucrar el aprendizaje federado junto con las arquitecturas de fusión avanzadas para una mejor escalabilidad y preservación de la privacidad. Por lo tanto, esta investigación marca la base fundamental con respecto a RES de próxima generación que equilibra la respuesta de baja latencia con la personalización de vanguardia.

Publicado Originalme en export.arxiv.org El 2 de julio de 2025.
Ver Fuente Original

Investigación sobre inferencia de baja latencia y optimización de eficiencia de capacitación para la red neuronal gráfica y los sistemas de recomendación basados en modelos de idiomas grandes

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

AI incorporada: de LLM a modelos mundiales

Aprendizaje para el enrutamiento: una revisión guiada de desarrollos recientes y direcciones futuras

Cómo las políticas de Trump están afectando a los científicos de la carrera temprana, en sus propias palabras

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido