En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Exploración segura de acciones novedosas en sistemas de recomendación mediante el aprendizaje de políticas con implementación eficiente

Exploración segura de acciones novedosas en sistemas de recomendación mediante el aprendizaje de políticas con implementación eficiente

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:En muchos sistemas de recomendación reales, con el tiempo se agregan elementos novedosos con frecuencia. Se ha reconocido ampliamente la importancia de presentar suficientemente acciones novedosas para mejorar la participación de los usuarios a largo plazo. Un trabajo reciente se basa en el aprendizaje fuera de políticas (OPL), que entrena una política a partir únicamente de datos registrados; sin embargo, los métodos existentes pueden resultar inseguros en presencia de acciones novedosas. Nuestro objetivo es desarrollar un marco para hacer cumplir la exploración de acciones novedosas con garantía de seguridad. Con este fin, primero desarrollamos Safe Off-Policy Policy Gradient (Safe OPG), que es un método OPL seguro sin modelo basado en una evaluación fuera de política de alta confianza. En nuestro primer experimento, observamos que Safe OPG casi siempre satisface un requisito de seguridad, incluso cuando los métodos existentes lo violan en gran medida. Sin embargo, el resultado también revela que Safe OPG tiende a ser demasiado conservador, lo que sugiere un equilibrio difícil entre garantizar la seguridad y explorar acciones novedosas. Para superar esta compensación, también proponemos un marco novedoso llamado Aprendizaje de políticas de implementación eficiente para una exploración segura del usuario, que aprovecha el margen de seguridad y relaja gradualmente la regularización de la seguridad durante múltiples (no muchas) implementaciones. Por lo tanto, nuestro marco permite la exploración de acciones novedosas al tiempo que garantiza la implementación segura de sistemas de recomendación.

Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web