Primer regreso, explorar la eliminación de entropía

Resumen: El aprendizaje de refuerzo de las recompensas verificables (RLVR) mejora las habilidades de razonamiento de los modelos de idiomas grandes (LLM) pero lucha con una exploración inestable. Proponemos FR3E (primer retorno, exploración de la alicidad de entropía), un marco de exploración estructurado que identifica puntos de decisión de alta incertidumbre en trayectorias de razonamiento y realiza despliegos específicos para construir una retroalimentación intermedia semánticamente fundamentada. Nuestro método proporciona orientación específica sin depender de una densa supervisión. Los resultados empíricos en los puntos de referencia de razonamiento matemático (AIME24) muestran que FR3E promueve un entrenamiento más estable, produce respuestas más largas y más coherentes, y aumenta la proporción de trayectorias completamente correctas. Estos resultados destacan la efectividad del marco para mejorar el razonamiento de LLM a través de una exploración más robusta y estructurada.

Publicado Originalme en export.arxiv.org El 9 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Escalado sobre escala: explorar el tiempo de prueba de escala Pareto en grandes modelos de razonamiento

El violinista que se enamoró del aprendizaje automático

Pasando la procrastinación

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido