Resumen: Grandes modelos de razonamiento (LRMS) han demostrado notables habilidades de resolución de problemas en matemáticas, según lo evaluado por los puntos de referencia existentes exclusivamente en problemas bien definidos. Sin embargo, dicha configuración de evaluación constituye una brecha crítica, ya que un agente inteligente genuino no solo debe resolver problemas (como solucionador de cuestionarios de matemáticas), sino también poder solicitar información cuando los problemas carecen de información suficiente, lo que permite la proactividad en las solicitudes de los usuarios que responden. Para cerrar tal brecha, proponemos un nuevo conjunto de datos que consta de dos tipos de problemas incompletos con diversos contextos. Según el conjunto de datos, nuestra evaluación sistemática de LRM revela su incapacidad para solicitar información proactiva. Además, descubrimos los comportamientos relacionados con el pensamiento excesivo y la alucinación de los LRM, y destacamos el potencial y los desafíos del ajuste superior supervisado en el aprendizaje de tal habilidad. Esperamos proporcionar nuevas ideas para desarrollar LRM con inteligencia genuina, en lugar de solo resolver problemas.
Publicado Originalme en export.arxiv.org El 17 de agosto de 2025.
Ver Fuente Original