Resumen: La generación aumentada de recuperación visual (VRAG) mejora los modelos de lenguaje-visión (VLM) al incorporar documentos visuales externos para abordar una consulta determinada. Los marcos VRAG existentes generalmente dependen de herramientas externas rígidas y predefinidas para ampliar las capacidades de percepción de los VLM, generalmente separando explícitamente la percepción visual de los procesos de razonamiento posteriores. Sin embargo, este diseño desacoplado puede provocar una pérdida innecesaria de información visual, especialmente cuando se aplican operaciones basadas en imágenes, como el recorte. En este artículo, proponemos Lang2Act, que permite la percepción visual y el razonamiento detallados a través de cadenas de herramientas lingüísticas autoemergentes. En lugar de invocar motores externos fijos, Lang2Act recopila acciones autoemergentes como herramientas lingüísticas y las aprovecha para mejorar las capacidades de percepción visual de los VLM. Para respaldar este mecanismo, diseñamos un marco de capacitación basado en aprendizaje por refuerzo (RL) de dos etapas. Específicamente, la primera etapa optimiza los VLM para autoexplorar acciones de alta calidad para construir una caja de herramientas lingüísticas reutilizable, y la segunda etapa optimiza aún más los VLM para explotar estas herramientas lingüísticas para el razonamiento posterior de manera efectiva. Los resultados experimentales demuestran la eficacia de Lang2Act para mejorar sustancialmente las capacidades de percepción visual de los VLM, logrando mejoras de rendimiento de más del 4%. Todos los códigos y datos están disponibles en esta URL https.
Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original
