RL-Struct: un marco de aprendizaje por refuerzo ligero para resultados estructurados confiables en LLM

Resumen: Los modelos de lenguaje grande (LLM) han demostrado capacidades notables en la generación y el razonamiento del lenguaje natural. Sin embargo, su integración en ecosistemas de software automatizados a menudo se ve obstaculizada por la “brecha estructural”: la tensión inherente entre la naturaleza probabilística de la generación de tokens y los requisitos deterministas de los formatos de datos estructurados (por ejemplo, JSON, XML). El ajuste fino supervisado (SFT) tradicional a menudo no logra imponer restricciones sintácticas estrictas, lo que lleva a claves “alucinadas” o estructuras mal formadas, mientras que los métodos de decodificación restringidos imponen una latencia de inferencia significativa. En este artículo, proponemos un marco de aprendizaje por refuerzo (RL) ligero y eficiente para cerrar esta brecha. Introducimos una novedosa función de recompensa multidimensional que descompone la tarea de salida estructurada en una jerarquía de restricciones: integridad estructural, corrección del formato, precisión del contenido y validez. Aprovechando la optimización de políticas regularizadas de gradiente (GRPO), permitimos que el modelo internalice estas restricciones sin la necesidad de una red crítica separada, lo que reduce el uso máximo de VRAM en un 40 % en comparación con PPO. Validamos nuestro enfoque en múltiples tareas, incluida la generación de recetas complejas y el razonamiento matemático estructurado (GSM8K-JSON). Los resultados experimentales demuestran que nuestro método logra una precisión estructural del 89,7 % y una validez JSON del 92,1 %, superando significativamente tanto las líneas de base de disparo cero (por ejemplo, GPT-3.5) como SFT en modelos más grandes como LLaMA-3-8B. Además, proporcionamos un análisis detallado de la dinámica de entrenamiento, que revela un plan de estudios distinto a su propio ritmo donde el modelo adquiere secuencialmente competencia sintáctica antes que precisión semántica. Nuestro modelo está disponible públicamente en esta URL https.

Publicado originalmente en export.arxiv.org el 1 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los GNN agregados de combina son más expresivos que la lógica C2

Los multimillonarios tecnológicos están haciendo una apuesta arriesgada con el futuro de la humanidad

WELD: un conjunto de datos longitudinales a gran escala de dinámica emocional para la informática afectiva ubicua

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido