Mitigando la alucinación a través de la optimización de preferencias multimodal simétricas consistentes en la teoría

Resumen: La optimización de preferencias directas (DPO) ha surgido como un enfoque efectivo para mitigar la alucinación en modelos de lenguaje grande (MLLM) multimodales. Aunque los métodos existentes han logrado un progreso significativo al utilizar los objetivos de contraste orientados a la visión para mejorar la atención de MLLM a las entradas visuales y, por lo tanto, reduciendo la alucinación, sufren una función de objetivos de optimización no rigorosa y una supervisión de preferencia indirecta. Para abordar estas limitaciones, proponemos una optimización simétrica de preferencia multimodal (SYMMPO), que realiza un aprendizaje de preferencia simétrica con supervisión de preferencia directa (es decir, pares de respuesta) para la mejora de la comprensión visual, al tiempo que mantiene una alineación teórica rigurosa con DPO estándar. Además del aprendizaje de preferencia ordinal convencional, SYMMPO introduce una pérdida de consistencia del margen de preferencia para regular cuantitativamente la brecha de preferencia entre los pares de preferencias simétricas. La evaluación integral en cinco puntos de referencia demuestra el rendimiento superior de Symmpo, validando su efectividad en la mitigación de alucinaciones de MLLM.

Publicado Originalme en rss.arxiv.org El 15 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: poder en Puerto Rico, y las trampas de los agentes de IA

Bots de puente: de la percepción a la acción a través de LMS multimodal y gráficos de conocimiento

Busque estas 7 nuevas tecnologías en el aeropuerto

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido