En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Defacto: pensamiento contrafáctico con imágenes para hacer cumplir la evidencia y el razonamiento fiel

Defacto: pensamiento contrafáctico con imágenes para hacer cumplir la evidencia y el razonamiento fiel

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los avances recientes en los modelos de lenguaje multimodal (MLLMS) han logrado un progreso notable en el razonamiento del idioma de la visión, especialmente con la aparición de “pensamiento con imágenes”, que integra pasos visuales explícitos en el proceso de razonamiento. Si bien este paradigma fortalece el razonamiento basado en imágenes, queda un desafío significativo: los modelos pueden llegar a las respuestas correctas al depender de regiones irrelevantes o espurias, impulsadas por conocimientos previos o sesgos de conjunto de datos. Incluso cuando la respuesta es correcta, el razonamiento defectuoso indica que el modelo no ha entendido realmente la imagen, destacando la importancia crítica del razonamiento de la fidelidad en las tareas multimodales. Para abordar este problema, proponemos defacto, un marco de razonamiento contrafactual que aplica conjuntamente la respuesta precisa y el razonamiento fiel. Un componente clave de nuestro enfoque es el diseño de tres paradigmas de capacitación complementarios: (i) positivo, (ii) contrafactual y (iii) modas aleatorias. Para habilitar estos paradigmas, desarrollamos una tubería que localiza automáticamente la evidencia relevante y construye variantes positivas, contrafactuales y aleatorias, lo que resulta en un conjunto de datos de aproximadamente 100k imágenes. Sobre la base de este marco, capacitamos modelos de lenguaje multimodal con aprendizaje de refuerzo basado en GRPO, donde diseñamos tres recompensas complementarias para guiar el modelo hacia una respuesta precisa y un razonamiento fundamentado. Los experimentos en diversos puntos de referencia demuestran que el defacto mejora sustancialmente tanto la precisión de la respuesta como la fidelidad del razonamiento, estableciendo una base más fuerte para el razonamiento multimodal interpretable. El código está disponible en GitHub y el conjunto de datos se lanza en Huggingface.

Publicado Originalme en export.arxiv.org El 25 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web