Resumen: Los sistemas de recomendación a menudo inducen burbujas de filtro y homogeneización semántica mediante la optimización monolítica para la participación inmediata del usuario. Los modelos estándar de un solo objetivo, incluidas las tradicionales Deep Q-Networks, no están bien equipados para navegar las compensaciones entre la retención de la plataforma y los valores sociales críticos como la diversidad de la información y la equidad de los proveedores. Para abordar estas limitaciones, introducimos un marco de aprendizaje por refuerzo multiobjetivo que formaliza la recomendación como un proceso de decisión semántico de Markov multiobjetivo. Al integrar incorporaciones semánticas de alta fidelidad con un agente Pareto-DQN, nuestra arquitectura trata el compromiso, la diversidad y la equidad como señales de recompensa distintas y no agregables, evitando los peligros de la escalarización de recompensa estática. Las evaluaciones empíricas del pequeño conjunto de datos de MovieLens muestran que nuestra selección de acciones basada en hipervolumen interrumpe los ciclos de retroalimentación responsables del colapso semántico. Al mantener una alta variación en la trayectoria del Estado, el Pareto-DQN mapea efectivamente la frontera de Pareto, logrando ganancias en objetivos sociales auxiliares con impactos sólo marginales en el compromiso. Este trabajo proporciona un camino hacia sistemas de recomendación responsables e intrínsecamente alineados.
Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original
