Aprendizaje de interacción de rompecabezas de agente para mejorar la percepción visual y el razonamiento en los modelos en idioma de la visión

Resumen: Aunque los modelos actuales de visión grande (VLMS) han avanzado en la comprensión y el razonamiento multimodal, sus habilidades de percepción y razonamiento fundamentales siguen siendo limitadas. Específicamente, incluso en tareas simples de rompecabezas, los VLM existentes funcionan casi al azar, revelando deficiencias en las capacidades de percepción central y razonamiento. Si bien los datos en idioma de visión de alta calidad pueden mejorar estas capacidades, su escasez y escalabilidad limitada imponen restricciones significativas. Para abordar esto, proponemos Agile, un aprendizaje de interacción de rompecabezas agente para mejorar la percepción visual y el razonamiento en VLM. Agile formula la resolución de rompecabezas como un proceso interactivo, lo que permite que el modelo se involucre progresivamente con el entorno. En cada paso, el modelo genera código ejecutable para realizar una acción basada en el estado actual, mientras que el entorno proporciona comentarios visuales de grano fino para guiar la finalización de la tarea. A través de este ciclo iterativo de observación e interacción, el modelo mejora de forma incremental sus capacidades perceptivas y de razonamiento a través de la exploración y la retroalimentación. Los resultados experimentales muestran que Agile no solo aumenta sustancialmente el rendimiento en las tareas de rompecabezas de complejidad variable (por ejemplo, una precisión aumentada de 9.5% a 82.8% en virtud de la configuración de 2 $ veces $ 2), sino que también demuestra una fuerte generalización en 9 tareas de visión general, logrando una mejora promedio de 3.1%. Estos resultados indican mejoras notables en las habilidades perceptivas y de razonamiento. Este trabajo abre una nueva vía para avanzar en el razonamiento y la generalización en modelos multimodales y proporciona una solución eficiente y escalable a la escasez de datos de aprendizaje de refuerzo multimodal. El código y los conjuntos de datos están disponibles en esta URL HTTPS .

Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Una física estadística del razonamiento del modelo de idioma

Resplandor: razonamiento agente para la predicción del juicio legal

STEMS: Coordinación multiagente segura mejorada espacio-temporal para la gestión energética de edificios

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido