En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Qué importa en la conservación de datos para el razonamiento multimodal? Perspectivas del desafío DCVLR

¿Qué importa en la conservación de datos para el razonamiento multimodal? Perspectivas del desafío DCVLR

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Estudiamos la curación de datos para el razonamiento multimodal a través del desafío NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR), que aísla la selección del conjunto de datos fijando el modelo y el protocolo de entrenamiento. Utilizando un conjunto de datos compacto y seleccionado derivado principalmente de Walton Multimodal Cold Start, nuestra presentación quedó en primer lugar en el desafío. A través de ablaciones posteriores a la competencia, mostramos que la selección de ejemplos basada en la dificultad en un conjunto de datos base alineado es el impulsor dominante de las ganancias de rendimiento. Aumentar el tamaño del conjunto de datos no mejora de manera confiable la precisión media según la receta de entrenamiento fija, pero principalmente reduce la variación entre ejecuciones, mientras que las heurísticas de diversidad y de aumento sintético comúnmente utilizadas no brindan ningún beneficio adicional y, a menudo, degradan el rendimiento. Estos resultados caracterizan a DCVLR como una evaluación de régimen de saturación y resaltan el papel central de la alineación y la dificultad en el razonamiento multimodal eficiente en datos.

Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web