Resumen: La IA alineada por humanos es un componente crítico de la co-creatividad, ya que permite a los modelos interpretar con precisión la intención humana y generar salidas controlables que se alinean con los objetivos de diseño en la creación de contenido colaborativo. Esta dirección es especialmente relevante en la generación de contenido de procedimiento a través del aprendizaje de refuerzo (PCGRL), que está destinado a servir como una herramienta para los diseñadores humanos. Sin embargo, los sistemas existentes a menudo no tienen un comportamiento centrado en el ser humano, lo que limita la utilidad práctica de las herramientas de generación impulsadas por la IA en los flujos de trabajo de diseño del mundo real. En este documento, proponemos VIPCGRL (PCGRL de instrucción de visión), un nuevo marco de aprendizaje de refuerzo profundo que incorpora tres modalidades de texto, nivel y bocetos para extender la modalidad de control y mejorar la probabilidad humana. Presentamos un espacio de incrustación compartido entrenado a través del aprendizaje contrastante cuádruple a través de modalidades y estilos de AI humanos, y alineamos la política utilizando una recompensa auxiliaria basada en la similitud de incrustación. Los resultados experimentales muestran que VIPCGRL supera a las líneas de base existentes en la probabilidad humana, como se valida tanto por las métricas cuantitativas como por las evaluaciones humanas. El código y el conjunto de datos estarán disponibles después de la publicación.
Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original