Resumen: La computación en memoria (IMC) representa un cambio de paradigma en la aceleración del aprendizaje profundo al mitigar los cuellos de botella en el movimiento de datos y aprovechar el paralelismo inherente de los cálculos basados en memoria. La implementación eficiente de redes neuronales convolucionales (CNN) en hardware basado en IMC requiere el uso de estrategias avanzadas de asignación de tareas para lograr la máxima eficiencia computacional. En este trabajo, explotamos un emulador IMC (IMCE) con múltiples unidades de procesamiento (PU) para investigar cómo la implementación de un modelo CNN en un sistema multiprocesamiento afecta su rendimiento, en términos de velocidad de procesamiento y latencia. Para ello, presentamos el algoritmo Load-Balance-Longest-Path (LBLP), que asigna dinámicamente todos los nodos CNN a las PU IMCE disponibles, para maximizar la velocidad de procesamiento y minimizar la latencia debido a la utilización eficiente de los recursos. Estamos comparando LBLP con otras estrategias de programación alternativas para varios modelos de CNN y los resultados experimentales demuestran la efectividad del algoritmo propuesto.
Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original
