RLNVR: Aprendizaje de refuerzo de recompensas no verificadas del mundo real

Resumen: Este documento presenta RLNVR (aprendizaje de refuerzo de recompensas no verificadas), un marco para capacitar modelos de lenguaje que utiliza señales de retroalimentación ruidosas y del mundo real sin requerir una verificación humana explícita. RLHF tradicional requiere señales de recompensa costosas y verificadas que no son prácticas en muchos dominios del mundo real. RLNVR aborda este desafío a través de la normalización basal y la transferencia de recompensa semántica basada en similitud. Demostramos RLNVR a través de Walter, un sistema prototipo que optimiza la generación de contenido de las redes sociales utilizando datos de participación reales de Bluesky. Nuestros resultados experimentales muestran mejoras significativas en la calidad del contenido y la estabilidad de la capacitación, con una evaluación integral planificada para el trabajo futuro. Posicionamiento: presentamos un marco práctico que combina RLNVR con GSPO (optimización de políticas de secuencia de grupo) y un plan de estudios opcional de UED (diseño de entorno no supervisado) para mejorar la estabilidad y la diversidad bajo recompensas ruidosas e implícitas. Hasta donde sabemos, combinar la normalización al estilo GSPO con un plan de estudios de estilo UED para la generación de contenido LLM a partir de la participación social implícita no se ha documentado previamente en este entorno aplicado; Enmarcamos esto como una integración aplicada en lugar de un nuevo algoritmo.

Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Entrenamiento de datos sintéticos multimodales y colapso del modelo: ideas de VLMS y modelos de difusión

Chat de coincidencia: IA generativa en tiempo real y computación generativa para tenis

Oportunidadas de financieras a la Colaboración Internacional en i+D+I: Industria

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido