Promover un razonamiento eficiente con recompensa paso a paso verificable

Resumen: Los grandes modelos de razonamiento (LRM) han logrado recientemente un progreso significativo en tareas de razonamiento complejos, ayudado por el aprendizaje de refuerzo con recompensas verificables. Sin embargo, los LRM a menudo sufren de pensamiento excesivo, gastando un cálculo excesivo en problemas simples y reduciendo la eficiencia. Los métodos de razonamiento eficientes existentes generalmente requieren una evaluación de tareas precisa a los presupuestos de token preestablecidos o seleccionar modos de razonamiento, lo que limita su flexibilidad y confiabilidad. En este trabajo, revisamos la esencia del pensamiento excesivo e identificamos que alentar los pasos efectivos mientras penalizamos los ineficaces es clave para su solución. Con este fin, proponemos un novedoso mecanismo de recompensa paso a paso basado en reglas (VSRM), que asigna recompensas basadas en el rendimiento de los estados intermedios en la trayectoria de razonamiento. Este enfoque es intuitivo y naturalmente se ajusta a la naturaleza paso a paso de las tareas de razonamiento. Realizamos experimentos extensos sobre puntos de referencia de razonamiento matemático estándar, incluidos AIME24 y AIME25, integrando VSRM con PPO y Reforce ++. Los resultados muestran que nuestro método logra una reducción sustancial de la longitud de salida al tiempo que mantiene el rendimiento del razonamiento original, lo que tiene un equilibrio óptimo entre la eficiencia y la precisión. El análisis posterior de la frecuencia de pensamiento excesivo y la puntuación de aprobación de@k antes y después del entrenamiento demuestra que nuestro enfoque en la escritura suprime efectivamente los pasos ineficaces y fomenta un razonamiento efectivo, aliviando fundamentalmente el problema de pensamiento excesivo. Todo el código se publicará tras la aceptación.

Publicado Originalme en export.arxiv.org El 14 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Tres tecnologías que darán forma a la biotecnología en 2026

Finagentbench: un conjunto de datos de referencia para la recuperación de agente en la respuesta a las preguntas financieras

Microalgo desarrolla tecnología de auto-optimización del clasificador basada en algoritmos cuánticos variacionales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido