En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá de resolver el cuestionario de matemáticas: evaluar la capacidad de los grandes modelos de razonamiento para solicitar información

Más allá de resolver el cuestionario de matemáticas: evaluar la capacidad de los grandes modelos de razonamiento para solicitar información

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Grandes modelos de razonamiento (LRMS) han demostrado notables habilidades de resolución de problemas en matemáticas, según lo evaluado por los puntos de referencia existentes exclusivamente en problemas bien definidos. Sin embargo, dicha configuración de evaluación constituye una brecha crítica, ya que un agente inteligente genuino no solo debe resolver problemas (como solucionador de cuestionarios de matemáticas), sino también poder solicitar información cuando los problemas carecen de información suficiente, lo que permite la proactividad en las solicitudes de los usuarios que responden. Para cerrar tal brecha, proponemos un nuevo conjunto de datos que consta de dos tipos de problemas incompletos con diversos contextos. Según el conjunto de datos, nuestra evaluación sistemática de LRM revela su incapacidad para solicitar información proactiva. Además, descubrimos los comportamientos relacionados con el pensamiento excesivo y la alucinación de los LRM, y destacamos el potencial y los desafíos del ajuste superior supervisado en el aprendizaje de tal habilidad. Esperamos proporcionar nuevas ideas para desarrollar LRM con inteligencia genuina, en lugar de solo resolver problemas.

Publicado Originalme en export.arxiv.org El 17 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web