Rompiendo la burbuja del filtro: un marco semántico de Pareto-DQN para la recomendación multiobjetivo

Resumen: Los sistemas de recomendación a menudo inducen burbujas de filtro y homogeneización semántica mediante la optimización monolítica para la participación inmediata del usuario. Los modelos estándar de un solo objetivo, incluidas las tradicionales Deep Q-Networks, no están bien equipados para navegar las compensaciones entre la retención de la plataforma y los valores sociales críticos como la diversidad de la información y la equidad de los proveedores. Para abordar estas limitaciones, introducimos un marco de aprendizaje por refuerzo multiobjetivo que formaliza la recomendación como un proceso de decisión semántico de Markov multiobjetivo. Al integrar incorporaciones semánticas de alta fidelidad con un agente Pareto-DQN, nuestra arquitectura trata el compromiso, la diversidad y la equidad como señales de recompensa distintas y no agregables, evitando los peligros de la escalarización de recompensa estática. Las evaluaciones empíricas del pequeño conjunto de datos de MovieLens muestran que nuestra selección de acciones basada en hipervolumen interrumpe los ciclos de retroalimentación responsables del colapso semántico. Al mantener una alta variación en la trayectoria del Estado, el Pareto-DQN mapea efectivamente la frontera de Pareto, logrando ganancias en objetivos sociales auxiliares con impactos sólo marginales en el compromiso. Este trabajo proporciona un camino hacia sistemas de recomendación responsables e intrínsecamente alineados.

Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Sobre el efecto de las trampas en el ajedrez

Una conjetura sobre una compensación fundamental entre certeza y alcance en la IA simbólica y generativa

Compartiendo el amor por el cálculo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido