Razonamiento matemático controlable mediante vectores de pensamiento autooptimizados

Resumen:Presentamos un enfoque novedoso para el razonamiento matemático controlable que aprovecha los vectores de pensamiento autooptimizados con minimización de entropía. Nuestro método introduce vectores de pensamiento que se pueden aprender y que modulan dinámicamente el proceso de razonamiento interno de grandes modelos de lenguaje. Al utilizar Gemma-2-9B en GSM8K, logramos una precisión del 90,1 % con una puntuación de controlabilidad de 0,42, lo que demuestra que las recompensas basadas en entropía guían de manera efectiva patrones de razonamiento enfocados sin requerir anotaciones de recompensa externas. Nuestro análisis revela distintos grupos de vectores de pensamiento y distribuciones consistentes de baja entropía en todas las condiciones de control, lo que valida nuestro marco para el razonamiento de IA controlable.

Publicado originalmente en export.arxiv.org el 27 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Pensamiento paralelo, respuesta secuencial: unir a NAR y AR para un razonamiento eficiente

e1: Aprendizaje del control adaptativo del esfuerzo de razonamiento

Aprendizaje de interacción de rompecabezas de agente para mejorar la percepción visual y el razonamiento en los modelos en idioma de la visión

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido