Resumen: Los modelos en idioma de visión (VLMS) son esenciales para permitir que los asistentes inteligentes con IA interpreten y razonen en entornos multimodales. Sin embargo, su aplicación en la capacitación de realidad aumentada (AR) sigue siendo en gran medida inexplorada. En este trabajo, presentamos un conjunto de datos integral adaptado para la capacitación AR, con tareas sistematizadas del idioma de la visión y evaluamos nueve VLM de vanguardia. Nuestros resultados revelan que incluso los modelos avanzados, incluido GPT-4O, luchan con tareas de ensamblaje de grano fino, logrando un puntaje F1 máximo de solo 40.54% en la detección de estado. Estos hallazgos destacan la demanda de conjuntos de datos mejorados, puntos de referencia e investigación adicional para mejorar la alineación del idioma de la visión de grano fino. Más allá de las contribuciones técnicas, nuestro trabajo tiene implicaciones sociales más amplias, particularmente para empoderar a los usuarios ciegos y con discapacidad visual con acceso equitativo a oportunidades de aprendizaje basadas en AI. Proporcionamos todos los recursos relacionados, incluido el conjunto de datos, el código fuente y los resultados de la evaluación, para apoyar a la comunidad de investigación.
Publicado Originalme en export.arxiv.org El 8 de julio de 2025.
Ver Fuente Original