¿Qué importa en la conservación de datos para el razonamiento multimodal? Perspectivas del desafío DCVLR

Resumen: Estudiamos la curación de datos para el razonamiento multimodal a través del desafío NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR), que aísla la selección del conjunto de datos fijando el modelo y el protocolo de entrenamiento. Utilizando un conjunto de datos compacto y seleccionado derivado principalmente de Walton Multimodal Cold Start, nuestra presentación quedó en primer lugar en el desafío. A través de ablaciones posteriores a la competencia, mostramos que la selección de ejemplos basada en la dificultad en un conjunto de datos base alineado es el impulsor dominante de las ganancias de rendimiento. Aumentar el tamaño del conjunto de datos no mejora de manera confiable la precisión media según la receta de entrenamiento fija, pero principalmente reduce la variación entre ejecuciones, mientras que las heurísticas de diversidad y de aumento sintético comúnmente utilizadas no brindan ningún beneficio adicional y, a menudo, degradan el rendimiento. Estos resultados caracterizan a DCVLR como una evaluación de régimen de saturación y resaltan el papel central de la alineación y la dificultad en el razonamiento multimodal eficiente en datos.

Publicado originalmente en export.arxiv.org el 18 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El último producto de OpenAI le permite hacer vibrar la ciencia del código

Jeff Tao: Ayer, TdenGine lanzó oficialmente TDengine IDMP, una plataforma de gestión de datos industriales nativos de IA.

Infigui-G1: avance de la GUI con la optimización de políticas de exploración adaptativa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido