En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Alinear modelos de lenguaje a partir de interacciones de usuarios

Alinear modelos de lenguaje a partir de interacciones de usuarios

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las interacciones de los usuarios en múltiples turnos se encuentran entre los datos más abundantes producidos por los modelos de lenguaje, pero carecemos de métodos efectivos para aprender de ellos. Si bien normalmente se descartan, estas interacciones a menudo contienen información útil: los mensajes de seguimiento del usuario pueden indicar que una respuesta fue incorrecta, no siguió una instrucción o no se alineó con las preferencias del usuario. Es importante destacar que los modelos lingüísticos ya pueden utilizar esta información en contexto. Después de observar el seguimiento de un usuario, el mismo modelo suele ser capaz de revisar su comportamiento. Aprovechamos esta capacidad para proponer un método escalable y basado en principios para aprender directamente de las interacciones del usuario a través de la autodestilación. Al condicionar el modelo al mensaje de seguimiento del usuario y comparar la distribución de tokens resultante con la política original, obtenemos un objetivo para actualizar la política que captura cómo cambia el comportamiento del modelo en retrospectiva. Luego destilamos esta distribución retrospectiva en la política actual. Sorprendentemente, demostramos que la capacitación en conversaciones de usuarios del mundo real de WildChat mejora los modelos de lenguaje a través de la alineación estándar y los puntos de referencia de seguimiento de instrucciones, sin hacer retroceder otras capacidades. El mismo mecanismo permite la personalización, permitiendo que los modelos se adapten continuamente a los usuarios individuales a través de la interacción sin comentarios explícitos. Nuestros resultados demuestran que las interacciones brutas de los usuarios que surgen de forma natural durante la implementación permiten la alineación, la personalización y la adaptación continua.

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web