Resumen: El advenimiento incesante de los servicios en línea exige a alta velocidad y sistemas de recomendación eficientes (Res) que pueden mantener un rendimiento en tiempo real junto con el procesamiento de interacciones de ítems de usuario muy complejas. El presente estudio, por lo tanto, considera cuellos de botella computacionales involucrados en la red neuronal de gráficos híbridos (GNN) y RES basados en el modelo de lenguaje grande (LLM) con el objetivo que optimiza su latencia de inferencia y eficiencia de entrenamiento. Se utilizó una metodología extensa: estrategias híbridas de optimización de arquitectura integrada GNN-LLM (cuantización, lora, destilación)-aceleración de hardware (FPGA, Deepsede) -TO en R 4.4.2. Las mejoras experimentales fueron significativas, con la configuración óptima híbrida + FPGA + de velocidad profunda que alcanzó el 13.6% más de precisión (NDCG@10: 0.75) a 40-60 ms de latencia, mientras que Lora redujo el tiempo de entrenamiento en un 66% (3.8 horas) en comparación con la línea de base no optimizada. Independientemente del dominio, como la precisión o la eficiencia, se puede establecer que el codiseño de hardware codiseñe y el ajuste de los parámetros y los modelos híbridos superan los enfoques de GNN o LLM implementados de forma independiente. Recomienda el uso de FPGA y Lora para la implementación en tiempo real. El trabajo futuro debe involucrar el aprendizaje federado junto con las arquitecturas de fusión avanzadas para una mejor escalabilidad y preservación de la privacidad. Por lo tanto, esta investigación marca la base fundamental con respecto a RES de próxima generación que equilibra la respuesta de baja latencia con la personalización de vanguardia.
Publicado Originalme en export.arxiv.org El 2 de julio de 2025.
Ver Fuente Original