USERRL: Capacitación de agente interactivo centrado en el usuario a través del aprendizaje de refuerzo

Resumen: El aprendizaje de refuerzo (RL) ha demostrado ser prometedor en el entrenamiento de modelos de agente que van más allá de los puntos de referencia estáticos para participar en interacciones dinámicas y de múltiples vueltas. Sin embargo, el valor final de tales agentes radica en su capacidad para ayudar a los usuarios, una configuración donde la diversidad y la dinámica de la interacción del usuario plantean desafíos. En este trabajo, proponemos USERRL, un marco unificado para capacitar y evaluar las habilidades centradas en el usuario a través de entornos de gimnasio estandarizados combinados con usuarios simulados. Varimos sistemáticamente la asignación de recompensa a nivel de turno y el cálculo de puntaje de nivel de trayectoria para analizar cómo las diferentes formulaciones afectan el aprendizaje bajo el algoritmo GRPO. Nuestros experimentos en los modelos QWEN3 revelan tres hallazgos clave: (i) el arranque en frío SFT es fundamental para desbloquear la capacidad de interacción inicial y permitir mejoras RL sostenidas; (ii) la puntuación de la trayectoria deliberada produce interacciones más eficientes y efectivas de múltiples vueltas; y (iii) mientras que los usuarios simulados más fuertes (por ejemplo, GPT-4O) facilitan la capacitación, los simuladores de código abierto (por ejemplo, QWEN3-32B) siguen siendo una opción rentable y transferible. Juntos, estos resultados destacan que el diseño cuidadoso de la conformación de la recompensa y la elección de simulación de usuario es tan crucial como la escala de modelo, y establecer Userrl como una vía práctica para desarrollar modelos de agente sólidos centrados en el usuario. Todos los códigos y datos son públicos para futuras investigaciones.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Exploración segura de acciones novedosas en sistemas de recomendación mediante el aprendizaje de políticas con implementación eficiente

La gran apuesta de las Big Tech por una controvertida táctica de eliminación de carbono

3D y AI: excelentes ajustes para la industria de la moda

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido