En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Maestro: generación de texto a imagen a través de autoinscripción a través de la orquestación del agente

Maestro: generación de texto a imagen a través de autoinscripción a través de la orquestación del agente

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: los modelos de texto a imagen (T2I), al tiempo que ofrecen un inmenso potencial creativo, dependen en gran medida de la intervención humana, planteando desafíos de usabilidad significativos que a menudo requieren ingeniería rápida manual, iterativa sobre las indicaciones a menudo subestimadas. Este documento presenta Maestro, un nuevo sistema de generación de imágenes de evolución auto evolución que permite que los modelos T2I sean de autónoma a través de las imágenes generadas a través de la evolución iterativa de las indicaciones, utilizando solo una solicitud inicial. El maestro incorpora dos innovaciones clave: 1) Auto-Crítico, donde los agentes multimodales especializados de LLM (MLLM) actúan como ‘críticos’ para identificar las debilidades en las imágenes generadas, corrigen las señales de edición interpretables, que luego están integradas por un agente ‘verificador’ mientras presionan intenciones de los usuarios; y 2) autoevolución, utilizando MLLM-AS-A-A-Judge para comparaciones de cabeza a cabeza entre imágenes generadas iterativamente, evolucionar imágenes problemáticas y evolucionar candidatos de inmediato creativos que se alinean con los intentos de los usuarios. Experimentos extensos en tareas complejas de T2I que utilizan modelos de caja negra demuestran que Maestro mejora significativamente la calidad de la imagen sobre las indicaciones iniciales y los métodos automatizados de última generación, con una escala de efectividad con componentes MLLM más avanzados. Este trabajo presenta una vía robusta, interpretable y efectiva hacia la generación de T2I a administración automática.

Publicado Originalme en export.arxiv.org El 15 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web