Resumen:Si bien trabajos recientes han extendido CoT a entornos multimodales, logrando resultados de vanguardia en preguntas científicas que responden a puntos de referencia como ScienceQA, la generalización de estos enfoques en diversos dominios sigue sin explorarse. Este trabajo presenta un análisis integral del razonamiento de Cadena de Pensamiento Multimodal (Multimodal-CoT), evaluando su efectividad en los conjuntos de datos A-OKVQA, OKVQA y ChartQA, lo que requiere un amplio sentido común y conocimiento mundial más allá del razonamiento científico. Implementamos el marco de dos etapas propuesto por Zhang et al. [3], que separa la generación de fundamentos de la inferencia de respuestas e integra características de visión a través de un mecanismo de fusión cerrado con modelos de lenguaje basados en T5. A través de estudios de ablación sistemática, analizamos las contribuciones de las características de la visión, la calidad racional y las opciones arquitectónicas. Nuestros hallazgos revelan que, si bien la integración de la visión reduce significativamente las alucinaciones en la generación de fundamentos, la efectividad del razonamiento CoT varía sustancialmente según los tipos de preguntas, y el razonamiento de sentido común presenta desafíos particulares. Este trabajo proporciona conocimientos prácticos para los investigadores que implementan sistemas de razonamiento multimodal e identifica áreas clave para mejoras futuras en la generalización entre dominios.
Publicado originalmente en export.arxiv.org el 26 de noviembre de 2025.
Ver fuente original
