En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Eduflow: avance de la competencia de resolución de problemas de MLLMS a través de una crítica multiperspectiva múltiple

Eduflow: avance de la competencia de resolución de problemas de MLLMS a través de una crítica multiperspectiva múltiple

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande multimodal (MLLM) todavía funcionan mal en las tareas científicas, particularmente aquellos que requieren razonamiento de múltiples pasos e interpretables. Sus limitaciones incluyen patrones de razonamiento científico insuficientes, falta de coherencia global en la inferencia de múltiples pasos y la ausencia de autocorrección reflexiva, haciéndolos poco confiables en contextos científicos estructurados. Introducimos a Eduflow, el primer marco de extremo a extremo que cubre la tubería completa del razonamiento científico educativo, incluida la selección de datos, la construcción de trayectoria basada en MCTS, la capacitación del modelo y la optimización de la producción. En esencia, es EDUPRM, un modelo de recompensa consciente de procesos que critica los pasos de razonamiento con etiquetas y justificaciones. EDUPRM está capacitado a través del aprendizaje curricular en tres fuentes de supervisión complementarias: trayectorias guiadas por MCTS, críticas inyectadas por error y diálogos de maestros-estudio, lo que permite una adaptación dinámica a la resolución de problemas en varias etapas y el refinamiento iterativo durante la inferencia. Además, proponemos EDUMCTS, un marco de búsqueda adaptado al dominio que introduce acciones de arranque diseñadas específicamente para el razonamiento educativo, como un mecanismo de autorreflexión que promueve la corrección de errores reflexivos. Además, aprovecha los comentarios de grano fino de EDUPRM para guiar la búsqueda hacia trayectorias de razonamiento de mayor calidad. Al aplicar la autoconsistencia y el muestreo de rechazo, construimos EDUMCTS-160K, un conjunto de datos a gran escala de trayectorias de razonamiento educativo. Experimentos extensos demuestran que EDUFLOW mejora la consistencia y la coherencia del razonamiento. Se lanzarán código, datos y modelos.

Publicado Originalme en export.arxiv.org El 14 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web