Resumen: Los modelos de lenguaje grande (LLM) han demostrado considerables habilidades de razonamiento en diversas tareas, como las matemáticas y la codificación. Sin embargo, estudios recientes indican que incluso los mejores modelos carecen de una verdadera comprensión de sus procesos de razonamiento. En este artículo, exploramos cómo la autoestima puede mejorar la racionalidad de los modelos en el proceso de razonamiento sin supervisión de humanos o modelos superiores. Diseñamos un juego de crítico-discernimiento (CDG) en el que un Prover primero proporciona una solución a un problema dado y posteriormente se ve desafiado por las críticas de su solución. Estas críticas apuntan a ayudar o engañar al Prover. El objetivo del Prover es mantener la respuesta correcta cuando se enfrenta a comentarios engañosos, mientras se corrige los errores en respuesta a la retroalimentación constructiva. Nuestros experimentos sobre tareas que involucran razonamiento matemático, detección de errores paso a paso, autocorrección y razonamiento de cadena larga demuestran que el entrenamiento de CDG puede mejorar significativamente la capacidad de LLM bien alineados para comprender su proceso de razonamiento.
Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original