Más allá de resolver el cuestionario de matemáticas: evaluar la capacidad de los grandes modelos de razonamiento para solicitar información

Resumen: Grandes modelos de razonamiento (LRMS) han demostrado notables habilidades de resolución de problemas en matemáticas, según lo evaluado por los puntos de referencia existentes exclusivamente en problemas bien definidos. Sin embargo, dicha configuración de evaluación constituye una brecha crítica, ya que un agente inteligente genuino no solo debe resolver problemas (como solucionador de cuestionarios de matemáticas), sino también poder solicitar información cuando los problemas carecen de información suficiente, lo que permite la proactividad en las solicitudes de los usuarios que responden. Para cerrar tal brecha, proponemos un nuevo conjunto de datos que consta de dos tipos de problemas incompletos con diversos contextos. Según el conjunto de datos, nuestra evaluación sistemática de LRM revela su incapacidad para solicitar información proactiva. Además, descubrimos los comportamientos relacionados con el pensamiento excesivo y la alucinación de los LRM, y destacamos el potencial y los desafíos del ajuste superior supervisado en el aprendizaje de tal habilidad. Esperamos proporcionar nuevas ideas para desarrollar LRM con inteligencia genuina, en lugar de solo resolver problemas.

Publicado Originalme en export.arxiv.org El 17 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Puede la IA percibir el peligro físico e intervenir?

La restricción de calorías puede ayudar a los animales a vivir más tiempo. ¿Qué pasa con los humanos?

Máquinas virtuosas: hacia la ciencia general artificial

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido