Lang2Act: razonamiento visual detallado a través de cadenas de herramientas lingüísticas autoemergentes

Resumen: La generación aumentada de recuperación visual (VRAG) mejora los modelos de lenguaje-visión (VLM) al incorporar documentos visuales externos para abordar una consulta determinada. Los marcos VRAG existentes generalmente dependen de herramientas externas rígidas y predefinidas para ampliar las capacidades de percepción de los VLM, generalmente separando explícitamente la percepción visual de los procesos de razonamiento posteriores. Sin embargo, este diseño desacoplado puede provocar una pérdida innecesaria de información visual, especialmente cuando se aplican operaciones basadas en imágenes, como el recorte. En este artículo, proponemos Lang2Act, que permite la percepción visual y el razonamiento detallados a través de cadenas de herramientas lingüísticas autoemergentes. En lugar de invocar motores externos fijos, Lang2Act recopila acciones autoemergentes como herramientas lingüísticas y las aprovecha para mejorar las capacidades de percepción visual de los VLM. Para respaldar este mecanismo, diseñamos un marco de capacitación basado en aprendizaje por refuerzo (RL) de dos etapas. Específicamente, la primera etapa optimiza los VLM para autoexplorar acciones de alta calidad para construir una caja de herramientas lingüísticas reutilizable, y la segunda etapa optimiza aún más los VLM para explotar estas herramientas lingüísticas para el razonamiento posterior de manera efectiva. Los resultados experimentales demuestran la eficacia de Lang2Act para mejorar sustancialmente las capacidades de percepción visual de los VLM, logrando mejoras de rendimiento de más del 4%. Todos los códigos y datos están disponibles en esta URL https.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Por qué tanta gente piensa que el logotipo de Fruit of the Loom tenía una cornucopia?

El número de dispositivos activos de seguimiento de activos de consumo en Europa y América del Norte alcanzó los 15,0 millones a finales de 2024

UAVS de agente: autonomía impulsada por LLM con insultos integrados y razonamiento cognitivo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido