DixitWorld: Evaluación del razonamiento abductivo multimodal en modelos de visión y lenguaje con juego Dixit multiagente

Resumen: El razonamiento abductivo multimodal (la generación y selección de hipótesis explicativas a partir de observaciones parciales) es una piedra angular de la inteligencia. Las evaluaciones actuales de esta capacidad en modelos de visión y lenguaje (VLM) se limitan en gran medida a tareas estáticas de un solo agente. Inspirándonos en Dixit, presentamos DixitWorld, un conjunto de evaluación integral diseñado para deconstruir este desafío. DIXITWORLD presenta dos componentes centrales: DixitArena, un entorno dinámico de múltiples agentes que evalúa tanto la generación de hipótesis (un “narrador” que elabora pistas crípticas) como la selección de hipótesis (“oyentes” que eligen la imagen objetivo entre señuelos) bajo información imperfecta; y DixitBench, un punto de referencia estático de control de calidad que aísla la tarea del oyente para una evaluación eficiente y controlada. Los resultados de DixitArena revelan comportamientos distintos y dependientes de roles: los modelos de código abierto más pequeños a menudo sobresalen como narradores creativos, produciendo pistas imaginativas pero menos discriminatorias, mientras que los modelos propietarios más grandes demuestran un rendimiento general superior, particularmente como oyentes. El rendimiento en DixitBench se correlaciona fuertemente con los resultados de los oyentes en DixitArena, lo que lo valida como un proxy confiable para la selección de hipótesis. Nuestros hallazgos revelan una compensación clave entre la creatividad generativa y la comprensión discriminativa en el razonamiento abductivo multimodal, un desafío central para desarrollar agentes de visión y lenguaje más equilibrados y capaces.

Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Errores de cálculo matemático y razonamiento por modelos de idiomas grandes

AO ofrece ahorros multimillonarios en las operaciones de su flota con Samsara

Descubrimiento de heurísticas con modelos de lenguajes grandes (LLM) para programas enteros mixtos: programación en una sola máquina

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido