En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Countqa: ¿Qué tan bien cuentan los MLLM en la naturaleza?

Countqa: ¿Qué tan bien cuentan los MLLM en la naturaleza?

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: los modelos de lenguaje grande multimodal (MLLMS) demuestran una fluidez notable en la comprensión de las escenas visuales, sin embargo, exhiben una falta crítica en una habilidad cognitiva fundamental: conteo de objetos. Este punto ciego limita severamente su confiabilidad en las aplicaciones del mundo real. Hasta la fecha, esta capacidad no se ha evaluado en gran medida en escenarios complejos, ya que los puntos de referencia existentes cuentan con densidades de objetos dispersos o se limitan a dominios visuales específicos, sin probar modelos en condiciones realistas. Al abordar esta brecha, presentamos Countqa, un nuevo punto de referencia desafiante diseñado para investigar esta deficiencia. Compuesto por más de 1,500 pares de respuesta-respuesta, Countqa presenta imágenes del mundo real con alta densidad de objetos, desorden y oclusión. Investigamos esta debilidad evaluando 15 MLLM prominentes en el punto de referencia CountQA y revelamos que el modelo de alto rendimiento logra una mera precisión del 42.9%, con una disminución del rendimiento a medida que aumenta los recuentos de objetos. Al proporcionar un punto de referencia dedicado para diagnosticar y rectificar esta debilidad central, Countqa allana el camino para una nueva generación de MLLM que no solo son descriptivamente fluidos, sino también numéricamente fundamentados y espacialmente conscientes. Estaremos abiertos el conjunto de datos y el código de la aceptación en papel para fomentar más investigaciones.

Publicado Originalme en export.arxiv.org El 11 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web