Resumen: Los modelos de lenguaje grande se utilizan ampliamente en aplicaciones de escritura creativa. La escritura creativa requiere un equilibrio entre la calidad de la escritura subjetiva (por ejemplo, literidad y expresión emocional) y la restricción objetiva siguiendo (por ejemplo, requisitos de formato y límites de palabras). Los métodos de aprendizaje de refuerzo existentes luchan por equilibrar estos dos aspectos: las estrategias de recompensa única no pueden mejorar ambas habilidades simultáneamente, mientras que los métodos de recompensa mixto de peso fijo carecen de la capacidad de adaptarse a diferentes escenarios de escritura. Para abordar este problema, proponemos el aprendizaje de refuerzo con recompensas mixtas (RLMR), utilizando un sistema de recompensa dinámicamente mixto a partir de un modelo de recompensa de escritura que evalúa la calidad de escritura subjetiva y un modelo de verificación de restricciones que evalúa la restricción objetiva. La restricción que sigue el peso de la recompensa se ajusta dinámicamente de acuerdo con la calidad de escritura dentro de los grupos muestreados, asegurando que las muestras que violan las restricciones obtienen una ventaja negativa en GRPO y, por lo tanto, se penaliza durante la capacitación, que es la innovación clave de este método propuesto. Realizamos evaluaciones automatizadas y manuales en diversas familias modelo de parámetros 8B a 72B. Además, construimos un punto de referencia de escritura del mundo real llamado Writeeval para una evaluación integral. Los resultados ilustran que nuestro método logra mejoras consistentes en ambas instrucciones siguientes (Ifeval de 83.36 % a 86.65 %) y la calidad de escritura (tasa de ganancia de 72.75 % en evaluaciones manuales de expertos por pares en Writeeval). Hasta donde sabemos, RLMR es el primer trabajo para combinar las preferencias subjetivas con la verificación objetiva en la capacitación en línea de RL, proporcionando una solución efectiva para la optimización de escritura creativa multidimensional.

Publicado Originalme en export.arxiv.org El 26 de agosto de 2025.
Ver Fuente Original

RLMR: Aprendizaje de refuerzo con recompensas mixtas por escritura creativa

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un enfoque multimodal para la preservación del patrimonio en el contexto del cambio climático

Construyendo un ecosistema de innovación para el próximo siglo

VLM@School – Evaluación de la comprensión de la imagen de IA sobre el conocimiento alemán de la escuela secundaria

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido