Resumen: los modelos de base (FMS) implementados en tareas del mundo real, como los agentes de uso de la computadora, deben integrar diversas modalidades. ¿Qué tan buenos son los FM en el realización del razonamiento conjunto, razonando simultáneamente sobre múltiples modalidades, especialmente cuando las modalidades interactúan y se relacionan entre sí para formar un contexto intermodal? Para comprender mejor este problema, estudiamos FMS en conflictos intermodales: escenarios en los que se presenta evidencia conflictiva entre modalidades. Esto nos permite examinar si FMS prioriza una modalidad sobre otra o razón conjuntamente para conciliar el conflicto. Nuestros experimentos revelan que los FM pueden reconocer conflictos en contextos unimodales, compuestos de una sola modalidad, el 90% del tiempo, pero la relación cae tan baja como el 3% cuando la evidencia se divide en modalidades, observaciones similares en contextos interlingües, compuesta de múltiples idiomas. Trace esta falla en el desequilibrio de atención intermodal, mostrando que los FMS exhiben asimetría extrema en las puntuaciones de atención, priorizando desproporcionadamente ciertas modalidades. Mostramos que el desequilibrio de atención intermodal no desaparece simplemente ampliando los conjuntos de datos multimodales o multilingües a ciegas, ya que carecen de ejemplos de capacitación que requieren explícitamente un razonamiento intermodal. Demostramos que incluso un método simple y escalable para combinar explícitamente múltiples modalidades dentro de cada instancia de entrenamiento reduce significativamente el desequilibrio de atención. El desequilibrio de atención reducida se traduce directamente en un mejor rendimiento posterior en varios puntos de referencia en idioma de visión. Nuestros hallazgos subrayan la importancia de abordar sistemáticamente los contextos intermodales para crear modelos de base confiables.
Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original
