Resumen: Los modelos de lenguaje grande (LLM) han demostrado considerables habilidades de razonamiento en diversas tareas, como las matemáticas y la codificación. Sin embargo, estudios recientes indican que incluso los mejores modelos carecen de una verdadera comprensión de sus procesos de razonamiento. En este artículo, exploramos cómo la autoestima puede mejorar la racionalidad de los modelos en el proceso de razonamiento sin supervisión de humanos o modelos superiores. Diseñamos un juego de crítico-discernimiento (CDG) en el que un Prover primero proporciona una solución a un problema dado y posteriormente se ve desafiado por las críticas de su solución. Estas críticas apuntan a ayudar o engañar al Prover. El objetivo del Prover es mantener la respuesta correcta cuando se enfrenta a comentarios engañosos, mientras se corrige los errores en respuesta a la retroalimentación constructiva. Nuestros experimentos sobre tareas que involucran razonamiento matemático, detección de errores paso a paso, autocorrección y razonamiento de cadena larga demuestran que el entrenamiento de CDG puede mejorar significativamente la capacidad de LLM bien alineados para comprender su proceso de razonamiento.

Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original

Mejora de la racionalidad en el proceso de razonamiento de los modelos de lenguaje a través del juego autoestimonado

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Meteorpred: un modelo y un conjunto de datos multimodal meteorológico para la predicción de eventos climáticos severos

Topología del razonamiento: Comprender los grandes modelos de razonamiento a través de propiedades de gráficos de razonamiento

Ajuste de condiciones semánticas: fusión del contexto de gráficos con modelos de lenguaje grandes para completar gráficos de conocimiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido