En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->RLNVR: Aprendizaje de refuerzo de recompensas no verificadas del mundo real

RLNVR: Aprendizaje de refuerzo de recompensas no verificadas del mundo real

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Este documento presenta RLNVR (aprendizaje de refuerzo de recompensas no verificadas), un marco para capacitar modelos de lenguaje que utiliza señales de retroalimentación ruidosas y del mundo real sin requerir una verificación humana explícita. RLHF tradicional requiere señales de recompensa costosas y verificadas que no son prácticas en muchos dominios del mundo real. RLNVR aborda este desafío a través de la normalización basal y la transferencia de recompensa semántica basada en similitud. Demostramos RLNVR a través de Walter, un sistema prototipo que optimiza la generación de contenido de las redes sociales utilizando datos de participación reales de Bluesky. Nuestros resultados experimentales muestran mejoras significativas en la calidad del contenido y la estabilidad de la capacitación, con una evaluación integral planificada para el trabajo futuro. Posicionamiento: presentamos un marco práctico que combina RLNVR con GSPO (optimización de políticas de secuencia de grupo) y un plan de estudios opcional de UED (diseño de entorno no supervisado) para mejorar la estabilidad y la diversidad bajo recompensas ruidosas e implícitas. Hasta donde sabemos, combinar la normalización al estilo GSPO con un plan de estudios de estilo UED para la generación de contenido LLM a partir de la participación social implícita no se ha documentado previamente en este entorno aplicado; Enmarcamos esto como una integración aplicada en lugar de un nuevo algoritmo.

Publicado Originalme en export.arxiv.org El 18 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web