Resumen: Las estrategias de computación de tiempo de prueba avanzada son esenciales para escalar modelos de razonamiento, pero su efectividad está limitada por la mala autoevaluación de los modelos. Proponemos un verificador explicativo por pares, capacitado a través del aprendizaje de refuerzo (GRPO), que produce puntajes de confianza calibrados y un razonamiento de lenguaje natural asociado para soluciones generadas. Nuestro verificador mejora la precisión y la eficiencia de las estrategias de tiempo de prueba como el mejor de N y la autorreflexión. De manera crucial, se destaca para identificar modos de falla desafiantes, como cuando ambas soluciones candidatas son idénticamente incorrectas, teniendo éxito cuando los métodos estándar como la votación de la mayoría fallan.
Publicado Originalme en export.arxiv.org El 24 de septiembre de 2025.
Ver Fuente Original