Aprendizaje de refuerzo de generación a nivel de procedimiento alineado por humanos a través de la representación compartida

Resumen: La IA alineada por humanos es un componente crítico de la co-creatividad, ya que permite a los modelos interpretar con precisión la intención humana y generar salidas controlables que se alinean con los objetivos de diseño en la creación de contenido colaborativo. Esta dirección es especialmente relevante en la generación de contenido de procedimiento a través del aprendizaje de refuerzo (PCGRL), que está destinado a servir como una herramienta para los diseñadores humanos. Sin embargo, los sistemas existentes a menudo no tienen un comportamiento centrado en el ser humano, lo que limita la utilidad práctica de las herramientas de generación impulsadas por la IA en los flujos de trabajo de diseño del mundo real. En este documento, proponemos VIPCGRL (PCGRL de instrucción de visión), un nuevo marco de aprendizaje de refuerzo profundo que incorpora tres modalidades de texto, nivel y bocetos para extender la modalidad de control y mejorar la probabilidad humana. Presentamos un espacio de incrustación compartido entrenado a través del aprendizaje contrastante cuádruple a través de modalidades y estilos de AI humanos, y alineamos la política utilizando una recompensa auxiliaria basada en la similitud de incrustación. Los resultados experimentales muestran que VIPCGRL supera a las líneas de base existentes en la probabilidad humana, como se valida tanto por las métricas cuantitativas como por las evaluaciones humanas. El código y el conjunto de datos estarán disponibles después de la publicación.

Publicado Originalme en export.arxiv.org El 13 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Repensar la ilusión del pensamiento

Samsung and Stanford Medicine advance sleep apnea research

Multi-Rag: un sistema de generación de recuperación multimodal para la comprensión de video adaptativo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido