En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->USERRL: Capacitación de agente interactivo centrado en el usuario a través del aprendizaje de refuerzo

USERRL: Capacitación de agente interactivo centrado en el usuario a través del aprendizaje de refuerzo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El aprendizaje de refuerzo (RL) ha demostrado ser prometedor en el entrenamiento de modelos de agente que van más allá de los puntos de referencia estáticos para participar en interacciones dinámicas y de múltiples vueltas. Sin embargo, el valor final de tales agentes radica en su capacidad para ayudar a los usuarios, una configuración donde la diversidad y la dinámica de la interacción del usuario plantean desafíos. En este trabajo, proponemos USERRL, un marco unificado para capacitar y evaluar las habilidades centradas en el usuario a través de entornos de gimnasio estandarizados combinados con usuarios simulados. Varimos sistemáticamente la asignación de recompensa a nivel de turno y el cálculo de puntaje de nivel de trayectoria para analizar cómo las diferentes formulaciones afectan el aprendizaje bajo el algoritmo GRPO. Nuestros experimentos en los modelos QWEN3 revelan tres hallazgos clave: (i) el arranque en frío SFT es fundamental para desbloquear la capacidad de interacción inicial y permitir mejoras RL sostenidas; (ii) la puntuación de la trayectoria deliberada produce interacciones más eficientes y efectivas de múltiples vueltas; y (iii) mientras que los usuarios simulados más fuertes (por ejemplo, GPT-4O) facilitan la capacitación, los simuladores de código abierto (por ejemplo, QWEN3-32B) siguen siendo una opción rentable y transferible. Juntos, estos resultados destacan que el diseño cuidadoso de la conformación de la recompensa y la elección de simulación de usuario es tan crucial como la escala de modelo, y establecer Userrl como una vía práctica para desarrollar modelos de agente sólidos centrados en el usuario. Todos los códigos y datos son públicos para futuras investigaciones.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web