Resumen: Grandes modelos de idiomas (LLM) han demostrado capacidades notables para resolver tareas de razonamiento complejos con la impulso de la cadena de pensamiento (COT), pero sus procesos de toma de decisiones siguen siendo un poco Blackbox. Introducimos el razonamiento de TextBfinverse, un nuevo paradigma que permite a LLMS descomponer y explicar sus propias cadenas de razonamiento post-hoc. Nuestro enfoque, utilizado en Sage-Nano, un modelo de razonamiento de 4 billones de parámetros, emplea una estructura metacognitiva que refleja los procesos de atención para identificar puntos de decisión importantes y generar explicaciones de las opciones de razonamiento. Si bien los enfoques de COT típicos se dirigen a la generación de razonamiento hacia adelante, el razonamiento inverso proporciona información sobre por qué se seleccionaron cadenas de razonamiento específicas sobre otras. Through thorough testing of logical reasoning puzzles, math problems and ethical dilemmas from AQUA-RAT, CommonsenseQA, and customized benchmarks, we demonstrate that SAGE-nano is at the cutting edge both on reasoning accuracy (74.6% on AQUA-RAT) and explanation quality (92.1% human preference score) for its task, and offers performance almost on par with models like Claude-3.5 Sonnet or GPT-4o. Nuestras contribuciones son: (i) el primer marco riguroso para la autorreflexión de LLM a través del razonamiento inverso, (ii) un nuevo marco de búsqueda de metal para revertir el flujo de atención, (iii) marcos de evaluación integrales para la transparencia de razonamiento y (iv) evidencia de que el aumento del razonamiento utilizando razonamiento inverso mejora la interpretación junto con el rendimiento razonador. Nuestro trabajo crea nuevas vías para los sistemas de IA transparentes y cierra brechas significativas en la seguridad de la IA, la educación y el descubrimiento científico.
Publicado Originalme en export.arxiv.org El 1 de julio de 2025.
Ver Fuente Original