En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->WearVQA: un punto de referencia visual de respuesta a preguntas para dispositivos portátiles en escenarios egocéntricos auténticos del mundo real

WearVQA: un punto de referencia visual de respuesta a preguntas para dispositivos portátiles en escenarios egocéntricos auténticos del mundo real

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Presentamos WearVQA, el primer punto de referencia diseñado específicamente para evaluar las capacidades de respuesta visual a preguntas (VQA) del asistente de IA multimodelo en dispositivos portátiles como gafas inteligentes. A diferencia de los puntos de referencia anteriores que se centran en imágenes de alta calidad en tercera persona, WearVQA refleja los desafíos únicos de la interacción egocéntrica, donde las entradas visuales pueden estar ocluidas, mal iluminadas, sin zoom o borrosas, y las preguntas se basan en casos de uso realistas de dispositivos portátiles. El punto de referencia comprende 2520 tripletes de imagen-pregunta-respuesta cuidadosamente seleccionados, que abarcan 7 dominios de imagen diversos que incluyen escenas generales y centradas en el texto, 10 tipos de tareas cognitivas que van desde el reconocimiento básico hasta diversas formas de razonamiento y 6 problemas comunes de calidad de imagen específicos de los dispositivos portátiles. Todas las preguntas están diseñadas para poder responderse utilizando únicamente información visual y sentido común. WearVQA se combina con un riguroso marco de evaluación de LLM como juez con una precisión de etiquetado del 96 %. Los LLM multimodelo de código abierto y patentados lograron una precisión de control de calidad tan baja como 24-52 % en WearVQA, con caídas sustanciales en imágenes de menor calidad y tareas de razonamiento intenso. Estas observaciones posicionan a WearVQA como un punto de referencia integral y desafiante para guiar el avance técnico hacia sistemas de IA portátiles multimodelo robustos y del mundo real.

Publicado originalmente en export.arxiv.org el 30 de noviembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web