Resumen: Los modelos de difusión han remodelado significativamente el campo de la inteligencia artificial generativa y ahora se exploran cada vez más por su capacidad en el aprendizaje de representación discriminativa. El transformador de difusión (DiT) ha llamado recientemente la atención como una alternativa prometedora a los modelos de difusión convencionales basados en U-Net, lo que demuestra una vía prometedora para tareas discriminativas posteriores a través del preentrenamiento generativo. Sin embargo, su eficiencia de capacitación y capacidad de representación actuales siguen estando en gran medida limitadas debido a la búsqueda inadecuada de pasos de tiempo y la explotación insuficiente de las representaciones de características específicas de DiT. A la luz de esta visión, presentamos el paso de tiempo seleccionado automáticamente (A-SelecT) que señala dinámicamente el paso de tiempo más rico en información de DiT a partir de la característica del transformador seleccionado en una sola ejecución, eliminando la necesidad de una búsqueda exhaustiva de pasos de tiempo computacionalmente intensiva y una selección de características discriminativas subóptimas. Amplios experimentos sobre puntos de referencia de clasificación y segmentación demuestran que DiT, potenciado por A-SelecT, supera todos los intentos anteriores basados en difusión de manera eficiente y efectiva.
Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original
