Resumen: Los avances recientes en modelos de lenguaje grande multimodal (MLLM), particularmente a través del aprendizaje de refuerzo con recompensas verificables (RLVR), han mejorado significativamente sus habilidades de razonamiento. Sin embargo, una brecha crítica persiste: estos modelos luchan con interacciones espaciales dinámicas, una capacidad esencial para aplicaciones del mundo real. Para cerrar esta brecha, presentamos M2-Rasoning-7B, un modelo diseñado para sobresalir en el razonamiento general y espacial. Nuestro enfoque integra dos innovaciones clave: (1) una nueva tubería de datos que genera 294.2k muestras de datos de alta calidad (168k para ajuste fino de inicio en frío y 126.2k para RLVR), que cuentan con trayectorias de razonamiento lógicamente coherentes y han sufrido una evaluación integral; y (2) una estrategia dinámica de capacitación de varias tareas con optimización paso a paso para mitigar los conflictos entre los datos y las recompensas específicas de la tarea para entregar señales de incentivos a medida. Esta combinación de datos curados y capacitación avanzada permite que M2-Rasoning-7B establezca un nuevo estado de arte (SOTA) en 8 puntos de referencia, mostrando un rendimiento superior en dominios de razonamiento general y espacial.

Publicado Originalme en export.arxiv.org El 13 de julio de 2025.
Ver Fuente Original

Razonamiento M2: empoderamiento de MLLM con razonamiento general y espacial unificado

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Sistemas computacionales abductores: secuestro creativo y direcciones futuras

Los juguetes con inteligencia artificial están de moda en China y ahora también están apareciendo en los estantes de EE. UU.

Poda de canal automático consciente de la estructura buscando con incrustación de gráficos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido