Alinear modelos de lenguaje a partir de interacciones de usuarios

Resumen: Las interacciones de los usuarios en múltiples turnos se encuentran entre los datos más abundantes producidos por los modelos de lenguaje, pero carecemos de métodos efectivos para aprender de ellos. Si bien normalmente se descartan, estas interacciones a menudo contienen información útil: los mensajes de seguimiento del usuario pueden indicar que una respuesta fue incorrecta, no siguió una instrucción o no se alineó con las preferencias del usuario. Es importante destacar que los modelos lingüísticos ya pueden utilizar esta información en contexto. Después de observar el seguimiento de un usuario, el mismo modelo suele ser capaz de revisar su comportamiento. Aprovechamos esta capacidad para proponer un método escalable y basado en principios para aprender directamente de las interacciones del usuario a través de la autodestilación. Al condicionar el modelo al mensaje de seguimiento del usuario y comparar la distribución de tokens resultante con la política original, obtenemos un objetivo para actualizar la política que captura cómo cambia el comportamiento del modelo en retrospectiva. Luego destilamos esta distribución retrospectiva en la política actual. Sorprendentemente, demostramos que la capacitación en conversaciones de usuarios del mundo real de WildChat mejora los modelos de lenguaje a través de la alineación estándar y los puntos de referencia de seguimiento de instrucciones, sin hacer retroceder otras capacidades. El mismo mecanismo permite la personalización, permitiendo que los modelos se adapten continuamente a los usuarios individuales a través de la interacción sin comentarios explícitos. Nuestros resultados demuestran que las interacciones brutas de los usuarios que surgen de forma natural durante la implementación permiten la alineación, la personalización y la adaptación continua.

Publicado originalmente en export.arxiv.org el 15 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Xpertbench: Tareas de nivel experto con evaluación basada en rúbricas

Stefania Milán: Breve de política: “Ver la sostenibilidad de manera diferente: nuevas métricas y gobernanza de datos éticos para una transición justa”

MediHive: un colectivo de agentes descentralizados para el razonamiento médico

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido