PreferThinker: Evaluación personalizada de preferencias de imágenes basada en el razonamiento

Resumen: La evaluación personalizada de preferencias de imágenes tiene como objetivo evaluar las preferencias de imágenes de un usuario individual basándose únicamente en un pequeño conjunto de imágenes de referencia como información previa. Los métodos existentes se centran principalmente en la evaluación de preferencias generales, entrenando modelos con datos a gran escala para abordar tareas bien definidas, como la alineación de imágenes y texto. Sin embargo, estos enfoques tienen dificultades para manejar las preferencias personalizadas porque los datos específicos de los usuarios son escasos y no fácilmente escalables, y los gustos individuales suelen ser diversos y complejos. Para superar estos desafíos, presentamos un perfil de preferencias común que sirve como puente entre los usuarios, permitiendo aprovechar los datos de los usuarios a gran escala para entrenar la predicción del perfil y capturar preferencias personalizadas complejas. Partiendo de esta idea, proponemos un marco de evaluación de preferencias de imágenes personalizado basado en el razonamiento que sigue un paradigma textit{predecir-luego-evaluar}: primero predice el perfil de preferencia de un usuario a partir de imágenes de referencia y luego proporciona puntuaciones y evaluaciones multidimensionales interpretables de las imágenes candidatas basadas en el perfil predicho. Para respaldar esto, primero construimos un conjunto de datos de evaluación personalizada de estilo Cadena de pensamiento (CoT) a gran escala anotado con diversos perfiles de preferencia de usuario y razonamiento estilo CoT de alta calidad, lo que permite una supervisión explícita del razonamiento estructurado. A continuación, adoptamos una estrategia de capacitación de dos etapas: una fase de ajuste fino supervisada con arranque en frío para dotar al modelo de capacidades de razonamiento estructurado, seguida de un aprendizaje por refuerzo para incentivar el modelo a explorar caminos de evaluación más razonables y mejorar la generalización. Además, proponemos una recompensa de predicción consciente de la similitud para fomentar una mejor predicción del perfil de preferencias del usuario, lo que facilita una exploración de evaluaciones más razonables. Amplios experimentos demuestran la superioridad del método propuesto.

Publicado originalmente en export.arxiv.org el 4 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un análisis multifacético de las habilidades cognitivas: evaluación de métodos rápidos con modelos de lenguaje grandes en la lista de verificación CONSORT

Aprendizaje de refuerzo guiado por LLM: abordar los cuellos de botella de capacitación a través de la modulación de políticas

Glia: una IA inspirada en el ser humano para el diseño y la optimización de sistemas automatizados

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido