En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->RLMR: Aprendizaje de refuerzo con recompensas mixtas por escritura creativa

RLMR: Aprendizaje de refuerzo con recompensas mixtas por escritura creativa

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande se utilizan ampliamente en aplicaciones de escritura creativa. La escritura creativa requiere un equilibrio entre la calidad de la escritura subjetiva (por ejemplo, literidad y expresión emocional) y la restricción objetiva siguiendo (por ejemplo, requisitos de formato y límites de palabras). Los métodos de aprendizaje de refuerzo existentes luchan por equilibrar estos dos aspectos: las estrategias de recompensa única no pueden mejorar ambas habilidades simultáneamente, mientras que los métodos de recompensa mixto de peso fijo carecen de la capacidad de adaptarse a diferentes escenarios de escritura. Para abordar este problema, proponemos el aprendizaje de refuerzo con recompensas mixtas (RLMR), utilizando un sistema de recompensa dinámicamente mixto a partir de un modelo de recompensa de escritura que evalúa la calidad de escritura subjetiva y un modelo de verificación de restricciones que evalúa la restricción objetiva. La restricción que sigue el peso de la recompensa se ajusta dinámicamente de acuerdo con la calidad de escritura dentro de los grupos muestreados, asegurando que las muestras que violan las restricciones obtienen una ventaja negativa en GRPO y, por lo tanto, se penaliza durante la capacitación, que es la innovación clave de este método propuesto. Realizamos evaluaciones automatizadas y manuales en diversas familias modelo de parámetros 8B a 72B. Además, construimos un punto de referencia de escritura del mundo real llamado Writeeval para una evaluación integral. Los resultados ilustran que nuestro método logra mejoras consistentes en ambas instrucciones siguientes (Ifeval de 83.36 % a 86.65 %) y la calidad de escritura (tasa de ganancia de 72.75 % en evaluaciones manuales de expertos por pares en Writeeval). Hasta donde sabemos, RLMR es el primer trabajo para combinar las preferencias subjetivas con la verificación objetiva en la capacitación en línea de RL, proporcionando una solución efectiva para la optimización de escritura creativa multidimensional.

Publicado Originalme en export.arxiv.org El 26 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web