Resumen: El razonamiento abductivo multimodal (la generación y selección de hipótesis explicativas a partir de observaciones parciales) es una piedra angular de la inteligencia. Las evaluaciones actuales de esta capacidad en modelos de visión y lenguaje (VLM) se limitan en gran medida a tareas estáticas de un solo agente. Inspirándonos en Dixit, presentamos DixitWorld, un conjunto de evaluación integral diseñado para deconstruir este desafío. DIXITWORLD presenta dos componentes centrales: DixitArena, un entorno dinámico de múltiples agentes que evalúa tanto la generación de hipótesis (un “narrador” que elabora pistas crípticas) como la selección de hipótesis (“oyentes” que eligen la imagen objetivo entre señuelos) bajo información imperfecta; y DixitBench, un punto de referencia estático de control de calidad que aísla la tarea del oyente para una evaluación eficiente y controlada. Los resultados de DixitArena revelan comportamientos distintos y dependientes de roles: los modelos de código abierto más pequeños a menudo sobresalen como narradores creativos, produciendo pistas imaginativas pero menos discriminatorias, mientras que los modelos propietarios más grandes demuestran un rendimiento general superior, particularmente como oyentes. El rendimiento en DixitBench se correlaciona fuertemente con los resultados de los oyentes en DixitArena, lo que lo valida como un proxy confiable para la selección de hipótesis. Nuestros hallazgos revelan una compensación clave entre la creatividad generativa y la comprensión discriminativa en el razonamiento abductivo multimodal, un desafío central para desarrollar agentes de visión y lenguaje más equilibrados y capaces.
Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original