Implementación eficiente de modelos CNN en múltiples unidades informáticas en memoria

Resumen: La computación en memoria (IMC) representa un cambio de paradigma en la aceleración del aprendizaje profundo al mitigar los cuellos de botella en el movimiento de datos y aprovechar el paralelismo inherente de los cálculos basados en memoria. La implementación eficiente de redes neuronales convolucionales (CNN) en hardware basado en IMC requiere el uso de estrategias avanzadas de asignación de tareas para lograr la máxima eficiencia computacional. En este trabajo, explotamos un emulador IMC (IMCE) con múltiples unidades de procesamiento (PU) para investigar cómo la implementación de un modelo CNN en un sistema multiprocesamiento afecta su rendimiento, en términos de velocidad de procesamiento y latencia. Para ello, presentamos el algoritmo Load-Balance-Longest-Path (LBLP), que asigna dinámicamente todos los nodos CNN a las PU IMCE disponibles, para maximizar la velocidad de procesamiento y minimizar la latencia debido a la utilización eficiente de los recursos. Estamos comparando LBLP con otras estrategias de programación alternativas para varios modelos de CNN y los resultados experimentales demuestran la efectividad del algoritmo propuesto.

Publicado originalmente en export.arxiv.org el 9 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Estudio de reproducibilidad de “Cooperar o colapsar: aparición de cooperación sostenible en una sociedad de agentes LLM”

Maersk y Onomondo implementan la Red Global Sea IoT

Tabla de clasificación holística de agentes: la infraestructura que falta para la evaluación de agentes de IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido