En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->PreferThinker: Evaluación personalizada de preferencias de imágenes basada en el razonamiento

PreferThinker: Evaluación personalizada de preferencias de imágenes basada en el razonamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La evaluación personalizada de preferencias de imágenes tiene como objetivo evaluar las preferencias de imágenes de un usuario individual basándose únicamente en un pequeño conjunto de imágenes de referencia como información previa. Los métodos existentes se centran principalmente en la evaluación de preferencias generales, entrenando modelos con datos a gran escala para abordar tareas bien definidas, como la alineación de imágenes y texto. Sin embargo, estos enfoques tienen dificultades para manejar las preferencias personalizadas porque los datos específicos de los usuarios son escasos y no fácilmente escalables, y los gustos individuales suelen ser diversos y complejos. Para superar estos desafíos, presentamos un perfil de preferencias común que sirve como puente entre los usuarios, permitiendo aprovechar los datos de los usuarios a gran escala para entrenar la predicción del perfil y capturar preferencias personalizadas complejas. Partiendo de esta idea, proponemos un marco de evaluación de preferencias de imágenes personalizado basado en el razonamiento que sigue un paradigma textit{predecir-luego-evaluar}: primero predice el perfil de preferencia de un usuario a partir de imágenes de referencia y luego proporciona puntuaciones y evaluaciones multidimensionales interpretables de las imágenes candidatas basadas en el perfil predicho. Para respaldar esto, primero construimos un conjunto de datos de evaluación personalizada de estilo Cadena de pensamiento (CoT) a gran escala anotado con diversos perfiles de preferencia de usuario y razonamiento estilo CoT de alta calidad, lo que permite una supervisión explícita del razonamiento estructurado. A continuación, adoptamos una estrategia de capacitación de dos etapas: una fase de ajuste fino supervisada con arranque en frío para dotar al modelo de capacidades de razonamiento estructurado, seguida de un aprendizaje por refuerzo para incentivar el modelo a explorar caminos de evaluación más razonables y mejorar la generalización. Además, proponemos una recompensa de predicción consciente de la similitud para fomentar una mejor predicción del perfil de preferencias del usuario, lo que facilita una exploración de evaluaciones más razonables. Amplios experimentos demuestran la superioridad del método propuesto.

Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web