En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Lenguaje auto-juego para capacitación sin datos

Lenguaje auto-juego para capacitación sin datos

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de idiomas grandes (LLM) han avanzado rápidamente en los últimos años, impulsados ​​por la escala, abundantes datos de entrenamiento de alta calidad y aprendizaje de refuerzo. Sin embargo, este progreso enfrenta un cuello de botella fundamental: la necesidad de cada vez más datos de los cuales los modelos pueden continuar aprendiendo. En este trabajo, proponemos un enfoque de aprendizaje de refuerzo que elimina esta dependencia al permitir que los modelos mejoren sin datos adicionales. Nuestro método aprovecha un marco teórico del juego de autoplaz, donde las capacidades de un modelo se presentan como rendimiento en un juego competitivo y las políticas más fuertes surgen al hacer que el modelo juegue contra sí mismo, un proceso que llamamos auto-juego (LSP). Los experimentos con el instrucciones LLAMA-3.2-3B en los puntos de referencia de seguimiento de instrucciones muestran que los modelos previos a la aparición no solo pueden mejorar su rendimiento en tareas desafiantes solo a través de la autoplaz, sino que también pueden hacerlo de manera más efectiva que las líneas de base basadas en datos.

Publicado Originalme en export.arxiv.org El 9 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web