Resumen: El advenimiento de los modelos de lenguaje de visión (VLMS) pre-entrenado ha transformado significativamente el aprendizaje continuo (CL), principalmente debido a sus habilidades de clasificación de disparo cero. Dicha competencia hace que VLMS sea adecuado para aplicaciones del mundo real, lo que permite un rendimiento robusto en nuevas clases invisibles sin requerir la adaptación. Sin embargo, el ajuste fino sigue siendo esencial cuando las tareas aguas abajo se desvían significativamente del dominio previo a la capacitación. Los enfoques de CL anteriores se centran principalmente en preservar las capacidades de disparo cero de los VLM durante el ajuste fino incremental en una tarea posterior. Llevamos un paso más allá al idear un enfoque que transforma la preservación en la mejora de las capacidades de disparo cero de los VLM. Nuestro enfoque, llamado Recomposición de incrustación modular (moder), introduce un marco modular que entrena a múltiples expertos textuales, cada uno especializado en una clase única y los almacena en un centro fundamental. En el momento de la inferencia, para cada clase invisible, consultamos el Hub y componemos a los expertos recuperados para sintetizar un prototipo refinado que mejora la clasificación. Mostramos la efectividad de nuestro método en dos protocolos incrementales populares de disparo cero, clase-IL y MTIL, que comprenden un total de 14 conjuntos de datos. La base de código está disponible en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 24 de agosto de 2025.
Ver Fuente Original