¿Cuándo pueden los grandes modelos de razonamiento guardar el pensamiento? Análisis mecanicista de la divergencia conductual en el razonamiento

Resumen: Grandes modelos de razonamiento (LRM) tienen un rendimiento significativamente avanzado en tareas complejas, pero su tendencia a pensar demasiado introduce ineficiencias. Este estudio investiga los mecanismos internos del aprendizaje de refuerzo (RL) LRM entrenados cuando se le solicita a salvar el pensamiento, revelando tres modos de pensamiento distintos: sin pensamiento (NT), pensamiento explícito (ET) y pensamiento implícito (IT). A través del análisis exhaustivo de la confianza en la terminación del pensamiento, la atención del pensamiento a la generación y el enfoque atencional en las secciones de entrada, descubrimos factores clave que influyen en los comportamientos de razonamiento. Además, encontramos que NT reduce la longitud de salida a costo de precisión, mientras que ET y TI mantienen la precisión con una longitud de respuesta reducida. Nuestros hallazgos exponen inconsistencias fundamentales en LRM optimizados por RL, lo que requiere mejoras adaptativas para una eficiencia confiable.

Publicado Originalme en rss.arxiv.org El 21 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Boletín AIOTI Octubre 2025

La IA podría predecir quién sufrirá un infarto

De las narrativas al razonamiento probabilístico: predecir e interpretar las acciones peligrosas de los conductores en accidentes utilizando un modelo de lenguaje grande

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido