Resumen: Los modelos de lenguaje grande multimodal (MLLMS) han demostrado capacidades impresionantes en varias tareas, pero aún así luchan con un razonamiento matemático complejo. La investigación existente se centra principalmente en la construcción de conjuntos de datos y la optimización de métodos, a menudo con vistas a dos aspectos críticos: diseño integral basado en el conocimiento y modelado de espacio de datos centrado en el modelo. En este documento, presentamos We-Math 2.0, un sistema unificado que integra un sistema de conocimiento matemático estructurado, modelado de espacio de datos centrado en el modelo y un paradigma de capacitación basado en el aprendizaje de refuerzo (RL) para mejorar integralmente las habilidades de razonamiento matemático de MLLM. Las contribuciones clave de We-Math 2.0 son cuatro veces: (1) Sistema de conocimiento de MathBook: construimos un sistema jerárquico de cinco niveles que abarca 491 puntos de conocimiento y 1.819 principios fundamentales. (2) Mathbook-Standard & Pro: Desarrollamos Mathbook-Standard, un conjunto de datos que garantiza una amplia cobertura conceptual y flexibilidad a través de la expansión dual. Además, definimos un espacio de dificultad tridimensional y generamos 7 variantes progresivas por problema para construir Mathbook-Pro, un conjunto de datos desafiante para una capacitación robusta. (3) Mathbook-RL: Proponemos un marco RL de dos etapas que comprende: (i) ajuste fino de inicio frío, que alinea el modelo con el razonamiento de la cadena de pensamiento orientado al conocimiento; y (ii) Alineación progresiva RL, aprovechando el aprendizaje promedio de recompensa y la programación de datos dinámicos para lograr la alineación progresiva en los niveles de dificultad. (4) Mathbookeval: presentamos un punto de referencia integral que cubre los 491 puntos de conocimiento con diversas distribuciones de paso de razonamiento. Los resultados experimentales muestran que Mathbook-RL se desempeña competitivamente con las líneas de base existentes en cuatro puntos de referencia ampliamente utilizados y logra fuertes resultados en Mathbookeval, lo que sugiere una generalización prometedora en el razonamiento matemático.
Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original
