Evaluación entre dominios del razonamiento de cadena de pensamiento multimodal de diferentes conjuntos de datos en el marco de Amazon CoT

Resumen:Si bien trabajos recientes han extendido CoT a entornos multimodales, logrando resultados de vanguardia en preguntas científicas que responden a puntos de referencia como ScienceQA, la generalización de estos enfoques en diversos dominios sigue sin explorarse. Este trabajo presenta un análisis integral del razonamiento de Cadena de Pensamiento Multimodal (Multimodal-CoT), evaluando su efectividad en los conjuntos de datos A-OKVQA, OKVQA y ChartQA, lo que requiere un amplio sentido común y conocimiento mundial más allá del razonamiento científico. Implementamos el marco de dos etapas propuesto por Zhang et al. [3], que separa la generación de fundamentos de la inferencia de respuestas e integra características de visión a través de un mecanismo de fusión cerrado con modelos de lenguaje basados en T5. A través de estudios de ablación sistemática, analizamos las contribuciones de las características de la visión, la calidad racional y las opciones arquitectónicas. Nuestros hallazgos revelan que, si bien la integración de la visión reduce significativamente las alucinaciones en la generación de fundamentos, la efectividad del razonamiento CoT varía sustancialmente según los tipos de preguntas, y el razonamiento de sentido común presenta desafíos particulares. Este trabajo proporciona conocimientos prácticos para los investigadores que implementan sistemas de razonamiento multimodal e identifica áreas clave para mejoras futuras en la generalización entre dominios.

Publicado originalmente en export.arxiv.org el 26 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Sobre el desempeño de LLMS para la evaluación de bienes raíces

Christian Nold: Delineando los contornos de la ciencia ciudadana: desarrollo de las características de la ECSA de la ciencia ciudadana

Agregación de clasificación difusa para un continuo de agentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido