Razonamiento calibrado: un verificador explicativo para la resolución de problemas dinámico y eficiente

Resumen: Las estrategias de computación de tiempo de prueba avanzada son esenciales para escalar modelos de razonamiento, pero su efectividad está limitada por la mala autoevaluación de los modelos. Proponemos un verificador explicativo por pares, capacitado a través del aprendizaje de refuerzo (GRPO), que produce puntajes de confianza calibrados y un razonamiento de lenguaje natural asociado para soluciones generadas. Nuestro verificador mejora la precisión y la eficiencia de las estrategias de tiempo de prueba como el mejor de N y la autorreflexión. De manera crucial, se destaca para identificar modos de falla desafiantes, como cuando ambas soluciones candidatas son idénticamente incorrectas, teniendo éxito cuando los métodos estándar como la votación de la mayoría fallan.

Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Ragsynth: datos sintéticos para la optimización de componentes de trapo robustos y fieles

Emulando la cognición clínica a través de una investigación clínica profunda y autoevolutiva

Eso es tan difícil: las técnicas de conjunto de moda para la clasificación de LLM en la ingesta legal civil y la referencia

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido