Defacto: pensamiento contrafáctico con imágenes para hacer cumplir la evidencia y el razonamiento fiel

Resumen: Los avances recientes en los modelos de lenguaje multimodal (MLLMS) han logrado un progreso notable en el razonamiento del idioma de la visión, especialmente con la aparición de “pensamiento con imágenes”, que integra pasos visuales explícitos en el proceso de razonamiento. Si bien este paradigma fortalece el razonamiento basado en imágenes, queda un desafío significativo: los modelos pueden llegar a las respuestas correctas al depender de regiones irrelevantes o espurias, impulsadas por conocimientos previos o sesgos de conjunto de datos. Incluso cuando la respuesta es correcta, el razonamiento defectuoso indica que el modelo no ha entendido realmente la imagen, destacando la importancia crítica del razonamiento de la fidelidad en las tareas multimodales. Para abordar este problema, proponemos defacto, un marco de razonamiento contrafactual que aplica conjuntamente la respuesta precisa y el razonamiento fiel. Un componente clave de nuestro enfoque es el diseño de tres paradigmas de capacitación complementarios: (i) positivo, (ii) contrafactual y (iii) modas aleatorias. Para habilitar estos paradigmas, desarrollamos una tubería que localiza automáticamente la evidencia relevante y construye variantes positivas, contrafactuales y aleatorias, lo que resulta en un conjunto de datos de aproximadamente 100k imágenes. Sobre la base de este marco, capacitamos modelos de lenguaje multimodal con aprendizaje de refuerzo basado en GRPO, donde diseñamos tres recompensas complementarias para guiar el modelo hacia una respuesta precisa y un razonamiento fundamentado. Los experimentos en diversos puntos de referencia demuestran que el defacto mejora sustancialmente tanto la precisión de la respuesta como la fidelidad del razonamiento, estableciendo una base más fuerte para el razonamiento multimodal interpretable. El código está disponible en GitHub y el conjunto de datos se lanza en Huggingface.

Publicado Originalme en export.arxiv.org El 25 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

2025 Informe de talento tecnológico de Japón ahora en vivo

Programa de Trabajo 2025 Horizonte Europa. Clúster 4: Digital E Industria

Beyond Benchmark: Evaluación de LLMS con una hoja de ruta antropomórfica y orientada al valor

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido