En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->MorphoBench: un punto de referencia con dificultad para adaptarse al razonamiento del modelo

MorphoBench: un punto de referencia con dificultad para adaptarse al razonamiento del modelo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Con el avance de potentes modelos de razonamiento a gran escala, evaluar eficazmente las capacidades de razonamiento de estos modelos se ha vuelto cada vez más importante. Sin embargo, los puntos de referencia existentes diseñados para evaluar las capacidades de razonamiento de modelos grandes tienden a tener un alcance limitado y carecen de flexibilidad para adaptar su dificultad de acuerdo con la evolución de las capacidades de razonamiento de los modelos. Para abordar esto, proponemos MorphoBench, un punto de referencia que incorpora preguntas multidisciplinarias para evaluar las capacidades de razonamiento de modelos grandes y puede ajustar y actualizar la dificultad de las preguntas en función de las capacidades de razonamiento de modelos avanzados. Específicamente, seleccionamos el punto de referencia seleccionando y recopilando preguntas de razonamiento complejas de puntos de referencia y fuentes existentes, como competencias a nivel de Olimpíadas. Además, MorphoBench modifica de forma adaptativa el desafío analítico de las preguntas aprovechando las declaraciones clave generadas durante el proceso de razonamiento del modelo. Además, incluye preguntas generadas mediante software de simulación, lo que permite un ajuste dinámico de la dificultad del benchmark con un mínimo consumo de recursos. Hemos reunido más de 1300 preguntas de prueba y hemos ajustado iterativamente la dificultad de MorphoBench en función de las capacidades de razonamiento de modelos como o3 y GPT-5. MorphoBench mejora la amplitud y validez de la evaluación del razonamiento de modelos, proporcionando una guía confiable para mejorar tanto las capacidades de razonamiento como la solidez científica de modelos grandes. El código ha sido publicado en esta URL https.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web