Resumen: Los avances recientes en modelos de lenguaje grande multimodal (MLLM), particularmente a través del aprendizaje de refuerzo con recompensas verificables (RLVR), han mejorado significativamente sus habilidades de razonamiento. Sin embargo, una brecha crítica persiste: estos modelos luchan con interacciones espaciales dinámicas, una capacidad esencial para aplicaciones del mundo real. Para cerrar esta brecha, presentamos M2-Rasoning-7B, un modelo diseñado para sobresalir en el razonamiento general y espacial. Nuestro enfoque integra dos innovaciones clave: (1) una nueva tubería de datos que genera 294.2k muestras de datos de alta calidad (168k para ajuste fino de inicio en frío y 126.2k para RLVR), que cuentan con trayectorias de razonamiento lógicamente coherentes y han sufrido una evaluación integral; y (2) una estrategia dinámica de capacitación de varias tareas con optimización paso a paso para mitigar los conflictos entre los datos y las recompensas específicas de la tarea para entregar señales de incentivos a medida. Esta combinación de datos curados y capacitación avanzada permite que M2-Rasoning-7B establezca un nuevo estado de arte (SOTA) en 8 puntos de referencia, mostrando un rendimiento superior en dominios de razonamiento general y espacial.
Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original