Enfoque adaptativo para mejorar los algoritmos de programación de aprendizaje automático durante el tiempo de ejecución utilizando el aprendizaje de refuerzo en aplicaciones de metasquedulación

Resumen: MetaScheduling en las arquitecturas activadas por el tiempo ha sido crucial para adaptarse a entornos dinámicos e impredecibles, asegurando la confiabilidad y la eficiencia de la ejecución de la tarea. Sin embargo, los enfoques tradicionales enfrentan desafíos significativos al capacitar a las inferencias de inteligencia artificial (IA) fuera de línea, particularmente debido a las complejidades involucradas en la construcción de un gráfico integral de múltiples tonos (MSG) que explica todos los escenarios posibles. El proceso de generación de un MSG que captura el gran espacio de probabilidad, especialmente cuando se considera eventos de contexto como fallas de hardware, variaciones flojas o cambios en el modo, es intensivo en recursos y a menudo infalible. Para abordar estos desafíos, proponemos una unidad de aprendizaje en línea adaptativa integrada dentro del MetaScheduler para mejorar el rendimiento en tiempo real. La principal motivación para desarrollar esta unidad se deriva de las limitaciones de la capacitación fuera de línea, donde el MSG creado es inherentemente un subconjunto del espacio completo, centrándose solo en los eventos de contexto más probables y críticos. En el modo en línea, el aprendizaje de refuerzo (RL) juega un papel fundamental al explorar y descubrir continuamente nuevas soluciones de programación, ampliando así el MSG y mejorando el rendimiento del sistema con el tiempo. Esta adaptación dinámica permite al sistema manejar eventos inesperados y escenarios de programación complejos de manera más efectiva. Se implementaron varios modelos RL dentro de la unidad de aprendizaje en línea, cada uno diseñado para abordar desafíos específicos en la programación. Estos modelos no solo facilitan el descubrimiento de nuevas soluciones, sino que también optimizan los programadores existentes, particularmente cuando se introducen plazos más estrictos o nuevos criterios de rendimiento. Al refinar continuamente las inferencias de IA a través de la capacitación en tiempo real, el sistema sigue siendo flexible y capaz de satisfacer las demandas en evolución, lo que garantiza la robustez y la eficiencia en entornos de seguridad a gran escala.

Publicado Originalme en export.arxiv.org El 25 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Punto de estabilización del razonamiento: una señal de tiempo de entrenamiento para evidencia estable y confianza en atajos

Un marco de la generación de grafos-retrieval-augmented mejora la toma de decisiones en la economía circular

Consolidación del aprendizaje de refuerzo para modelos de difusión discretos multimodales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido