Resumen: La optimización de preferencias directas (DPO) ha surgido como un enfoque efectivo para mitigar la alucinación en modelos de lenguaje grande (MLLM) multimodales. Aunque los métodos existentes han logrado un progreso significativo al utilizar los objetivos de contraste orientados a la visión para mejorar la atención de MLLM a las entradas visuales y, por lo tanto, reduciendo la alucinación, sufren una función de objetivos de optimización no rigorosa y una supervisión de preferencia indirecta. Para abordar estas limitaciones, proponemos una optimización simétrica de preferencia multimodal (SYMMPO), que realiza un aprendizaje de preferencia simétrica con supervisión de preferencia directa (es decir, pares de respuesta) para la mejora de la comprensión visual, al tiempo que mantiene una alineación teórica rigurosa con DPO estándar. Además del aprendizaje de preferencia ordinal convencional, SYMMPO introduce una pérdida de consistencia del margen de preferencia para regular cuantitativamente la brecha de preferencia entre los pares de preferencias simétricas. La evaluación integral en cinco puntos de referencia demuestra el rendimiento superior de Symmpo, validando su efectividad en la mitigación de alucinaciones de MLLM.
Publicado Originalme en rss.arxiv.org El 15 de junio de 2025.
Ver Fuente Original