En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Razonamiento M2: empoderamiento de MLLM con razonamiento general y espacial unificado

Razonamiento M2: empoderamiento de MLLM con razonamiento general y espacial unificado

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los avances recientes en modelos de lenguaje grande multimodal (MLLM), particularmente a través del aprendizaje de refuerzo con recompensas verificables (RLVR), han mejorado significativamente sus habilidades de razonamiento. Sin embargo, una brecha crítica persiste: estos modelos luchan con interacciones espaciales dinámicas, una capacidad esencial para aplicaciones del mundo real. Para cerrar esta brecha, presentamos M2-Rasoning-7B, un modelo diseñado para sobresalir en el razonamiento general y espacial. Nuestro enfoque integra dos innovaciones clave: (1) una nueva tubería de datos que genera 294.2k muestras de datos de alta calidad (168k para ajuste fino de inicio en frío y 126.2k para RLVR), que cuentan con trayectorias de razonamiento lógicamente coherentes y han sufrido una evaluación integral; y (2) una estrategia dinámica de capacitación de varias tareas con optimización paso a paso para mitigar los conflictos entre los datos y las recompensas específicas de la tarea para entregar señales de incentivos a medida. Esta combinación de datos curados y capacitación avanzada permite que M2-Rasoning-7B establezca un nuevo estado de arte (SOTA) en 8 puntos de referencia, mostrando un rendimiento superior en dominios de razonamiento general y espacial.

Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web