Lenguaje auto-juego para capacitación sin datos

Resumen: Los modelos de idiomas grandes (LLM) han avanzado rápidamente en los últimos años, impulsados por la escala, abundantes datos de entrenamiento de alta calidad y aprendizaje de refuerzo. Sin embargo, este progreso enfrenta un cuello de botella fundamental: la necesidad de cada vez más datos de los cuales los modelos pueden continuar aprendiendo. En este trabajo, proponemos un enfoque de aprendizaje de refuerzo que elimina esta dependencia al permitir que los modelos mejoren sin datos adicionales. Nuestro método aprovecha un marco teórico del juego de autoplaz, donde las capacidades de un modelo se presentan como rendimiento en un juego competitivo y las políticas más fuertes surgen al hacer que el modelo juegue contra sí mismo, un proceso que llamamos auto-juego (LSP). Los experimentos con el instrucciones LLAMA-3.2-3B en los puntos de referencia de seguimiento de instrucciones muestran que los modelos previos a la aparición no solo pueden mejorar su rendimiento en tareas desafiantes solo a través de la autoplaz, sino que también pueden hacerlo de manera más efectiva que las líneas de base basadas en datos.

Publicado Originalme en export.arxiv.org El 9 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Esquina de rompecabezas

Agent ideate: un marco para la generación de ideas de productos de patentes que usan AI de agente

La descarga: los modelos de peso abierto de Openai y el futuro de la búsqueda en Internet

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido