Resumen: Investigaciones recientes han destacado el riesgo de colapso del modelo generativo, donde el rendimiento se degrada progresivamente cuando se capacita continuamente en datos autogenerados. Sin embargo, la exploración existente en el colapso del modelo se limita a modelos individuales y unimodales, limitando nuestra comprensión en escenarios más realistas, como diversos agentes de IA multimodales que interactúan de forma autónoma a través de datos sintéticos y evolucionan continuamente. Expandimos el estudio de entrenamiento de datos sintéticos y colapso de modelos a sistemas generativos de lenguaje de visión multimodal, como modelos de lenguaje de visión (VLMS) y modelos de difusión de texto a imagen, así como bucles recursivos de entrenamiento generado con múltiples modelos. Encontramos que el colapso del modelo, previamente observado en modelos generativos de modalidad única, exhibe características distintas en el contexto multimodal, como la alineación mejorada del lenguaje de la visión y la mayor varianza en la tarea de subsistencia de imágenes VLM. Además, encontramos que los enfoques generales, como los mayores presupuestos de decodificación, una mayor diversidad de modelos y la relabinación con modelos congelados pueden mitigar efectivamente el colapso del modelo. Nuestros hallazgos proporcionan ideas iniciales y pautas prácticas para reducir el riesgo de colapso del modelo en los sistemas de IA de múltiples agentes autointerpretados y la curación de conjuntos de datos sintéticos multimodales robustos.
Publicado Originalme en rss.arxiv.org El 14 de mayo de 2025.
Ver Fuente Original