WearVQA: un punto de referencia visual de respuesta a preguntas para dispositivos portátiles en escenarios egocéntricos auténticos del mundo real

Resumen:Presentamos WearVQA, el primer punto de referencia diseñado específicamente para evaluar las capacidades de respuesta visual a preguntas (VQA) del asistente de IA multimodelo en dispositivos portátiles como gafas inteligentes. A diferencia de los puntos de referencia anteriores que se centran en imágenes de alta calidad en tercera persona, WearVQA refleja los desafíos únicos de la interacción egocéntrica, donde las entradas visuales pueden estar ocluidas, mal iluminadas, sin zoom o borrosas, y las preguntas se basan en casos de uso realistas de dispositivos portátiles. El punto de referencia comprende 2520 tripletes de imagen-pregunta-respuesta cuidadosamente seleccionados, que abarcan 7 dominios de imagen diversos que incluyen escenas generales y centradas en el texto, 10 tipos de tareas cognitivas que van desde el reconocimiento básico hasta diversas formas de razonamiento y 6 problemas comunes de calidad de imagen específicos de los dispositivos portátiles. Todas las preguntas están diseñadas para poder responderse utilizando únicamente información visual y sentido común. WearVQA se combina con un riguroso marco de evaluación de LLM como juez con una precisión de etiquetado del 96 %. Los LLM multimodelo de código abierto y patentados lograron una precisión de control de calidad tan baja como 24-52 % en WearVQA, con caídas sustanciales en imágenes de menor calidad y tareas de razonamiento intenso. Estas observaciones posicionan a WearVQA como un punto de referencia integral y desafiante para guiar el avance técnico hacia sistemas de IA portátiles multimodelo robustos y del mundo real.

Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La evaluación comparativa no funciona: no permita que la IA sea su propia juez

La base híbrida automatizada utilizando heurísticas estructurales y basadas en datos

El gobierno del Reino Unido expande el esquema de actualización de la caldera para aumentar el acceso a la tecnología de calefacción baja en carbono

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido