En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Primer regreso, explorar la eliminación de entropía

Primer regreso, explorar la eliminación de entropía

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El aprendizaje de refuerzo de las recompensas verificables (RLVR) mejora las habilidades de razonamiento de los modelos de idiomas grandes (LLM) pero lucha con una exploración inestable. Proponemos FR3E (primer retorno, exploración de la alicidad de entropía), un marco de exploración estructurado que identifica puntos de decisión de alta incertidumbre en trayectorias de razonamiento y realiza despliegos específicos para construir una retroalimentación intermedia semánticamente fundamentada. Nuestro método proporciona orientación específica sin depender de una densa supervisión. Los resultados empíricos en los puntos de referencia de razonamiento matemático (AIME24) muestran que FR3E promueve un entrenamiento más estable, produce respuestas más largas y más coherentes, y aumenta la proporción de trayectorias completamente correctas. Estos resultados destacan la efectividad del marco para mejorar el razonamiento de LLM a través de una exploración más robusta y estructurada.

Publicado Originalme en export.arxiv.org El 9 de julio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web