MorphoBench: un punto de referencia con dificultad para adaptarse al razonamiento del modelo

Resumen:Con el avance de potentes modelos de razonamiento a gran escala, evaluar eficazmente las capacidades de razonamiento de estos modelos se ha vuelto cada vez más importante. Sin embargo, los puntos de referencia existentes diseñados para evaluar las capacidades de razonamiento de modelos grandes tienden a tener un alcance limitado y carecen de flexibilidad para adaptar su dificultad de acuerdo con la evolución de las capacidades de razonamiento de los modelos. Para abordar esto, proponemos MorphoBench, un punto de referencia que incorpora preguntas multidisciplinarias para evaluar las capacidades de razonamiento de modelos grandes y puede ajustar y actualizar la dificultad de las preguntas en función de las capacidades de razonamiento de modelos avanzados. Específicamente, seleccionamos el punto de referencia seleccionando y recopilando preguntas de razonamiento complejas de puntos de referencia y fuentes existentes, como competencias a nivel de Olimpíadas. Además, MorphoBench modifica de forma adaptativa el desafío analítico de las preguntas aprovechando las declaraciones clave generadas durante el proceso de razonamiento del modelo. Además, incluye preguntas generadas mediante software de simulación, lo que permite un ajuste dinámico de la dificultad del benchmark con un mínimo consumo de recursos. Hemos reunido más de 1300 preguntas de prueba y hemos ajustado iterativamente la dificultad de MorphoBench en función de las capacidades de razonamiento de modelos como o3 y GPT-5. MorphoBench mejora la amplitud y validez de la evaluación del razonamiento de modelos, proporcionando una guía confiable para mejorar tanto las capacidades de razonamiento como la solidez científica de modelos grandes. El código ha sido publicado en esta URL https.

Publicado originalmente en export.arxiv.org el 16 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprender a hacer amigos: capacitar a agentes de LLM hacia vínculos sociales emergentes

La IA podría predecir quién sufrirá un infarto

Abordar el sesgo en LLM: estrategias y aplicación al reclutamiento justo basado en IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido