Eduflow: avance de la competencia de resolución de problemas de MLLMS a través de una crítica multiperspectiva múltiple

Resumen: Los modelos de lenguaje grande multimodal (MLLM) todavía funcionan mal en las tareas científicas, particularmente aquellos que requieren razonamiento de múltiples pasos e interpretables. Sus limitaciones incluyen patrones de razonamiento científico insuficientes, falta de coherencia global en la inferencia de múltiples pasos y la ausencia de autocorrección reflexiva, haciéndolos poco confiables en contextos científicos estructurados. Introducimos a Eduflow, el primer marco de extremo a extremo que cubre la tubería completa del razonamiento científico educativo, incluida la selección de datos, la construcción de trayectoria basada en MCTS, la capacitación del modelo y la optimización de la producción. En esencia, es EDUPRM, un modelo de recompensa consciente de procesos que critica los pasos de razonamiento con etiquetas y justificaciones. EDUPRM está capacitado a través del aprendizaje curricular en tres fuentes de supervisión complementarias: trayectorias guiadas por MCTS, críticas inyectadas por error y diálogos de maestros-estudio, lo que permite una adaptación dinámica a la resolución de problemas en varias etapas y el refinamiento iterativo durante la inferencia. Además, proponemos EDUMCTS, un marco de búsqueda adaptado al dominio que introduce acciones de arranque diseñadas específicamente para el razonamiento educativo, como un mecanismo de autorreflexión que promueve la corrección de errores reflexivos. Además, aprovecha los comentarios de grano fino de EDUPRM para guiar la búsqueda hacia trayectorias de razonamiento de mayor calidad. Al aplicar la autoconsistencia y el muestreo de rechazo, construimos EDUMCTS-160K, un conjunto de datos a gran escala de trayectorias de razonamiento educativo. Experimentos extensos demuestran que EDUFLOW mejora la consistencia y la coherencia del razonamiento. Se lanzarán código, datos y modelos.

Publicado Originalme en export.arxiv.org El 14 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Más cerca del lenguaje que el vapor: la IA como el motor cognitivo de una nueva revolución de la productividad

RAVR: razonamiento variacional guiado por referencias y respuestas para modelos de lenguaje grandes

Identiv se asocia con TAG-N-TRAC a Market IoT Solutions para el seguimiento y el cumplimiento de la cadena de frío

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido