Exploración segura de acciones novedosas en sistemas de recomendación mediante el aprendizaje de políticas con implementación eficiente

Resumen:En muchos sistemas de recomendación reales, con el tiempo se agregan elementos novedosos con frecuencia. Se ha reconocido ampliamente la importancia de presentar suficientemente acciones novedosas para mejorar la participación de los usuarios a largo plazo. Un trabajo reciente se basa en el aprendizaje fuera de políticas (OPL), que entrena una política a partir únicamente de datos registrados; sin embargo, los métodos existentes pueden resultar inseguros en presencia de acciones novedosas. Nuestro objetivo es desarrollar un marco para hacer cumplir la exploración de acciones novedosas con garantía de seguridad. Con este fin, primero desarrollamos Safe Off-Policy Policy Gradient (Safe OPG), que es un método OPL seguro sin modelo basado en una evaluación fuera de política de alta confianza. En nuestro primer experimento, observamos que Safe OPG casi siempre satisface un requisito de seguridad, incluso cuando los métodos existentes lo violan en gran medida. Sin embargo, el resultado también revela que Safe OPG tiende a ser demasiado conservador, lo que sugiere un equilibrio difícil entre garantizar la seguridad y explorar acciones novedosas. Para superar esta compensación, también proponemos un marco novedoso llamado Aprendizaje de políticas de implementación eficiente para una exploración segura del usuario, que aprovecha el margen de seguridad y relaja gradualmente la regularización de la seguridad durante múltiples (no muchas) implementaciones. Por lo tanto, nuestro marco permite la exploración de acciones novedosas al tiempo que garantiza la implementación segura de sistemas de recomendación.

Publicado originalmente en export.arxiv.org el 9 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aioti papel ai en fabricación

Logiplan: un punto de referencia estructurado para la planificación y el razonamiento relacional en LLMS en LLMS

El fino de la fina centrada en desambiguación hace que las herramientas empresariales llamen a las LLMS más realistas y menos riesgosas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido