Resumen: El aprendizaje de refuerzo de las recompensas verificables (RLVR) mejora las habilidades de razonamiento de los modelos de idiomas grandes (LLM) pero lucha con una exploración inestable. Proponemos FR3E (primer retorno, exploración de la alicidad de entropía), un marco de exploración estructurado que identifica puntos de decisión de alta incertidumbre en trayectorias de razonamiento y realiza despliegos específicos para construir una retroalimentación intermedia semánticamente fundamentada. Nuestro método proporciona orientación específica sin depender de una densa supervisión. Los resultados empíricos en los puntos de referencia de razonamiento matemático (AIME24) muestran que FR3E promueve un entrenamiento más estable, produce respuestas más largas y más coherentes, y aumenta la proporción de trayectorias completamente correctas. Estos resultados destacan la efectividad del marco para mejorar el razonamiento de LLM a través de una exploración más robusta y estructurada.
Publicado Originalme en export.arxiv.org El 9 de julio de 2025.
Ver Fuente Original