En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Obtenga más información con menos: selección de consultas guiadas por coherencia e incertidumbre para RLVR

Obtenga más información con menos: selección de consultas guiadas por coherencia e incertidumbre para RLVR

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) han mejorado recientemente el razonamiento matemático a través del aprendizaje por refuerzo con recompensa verificable (RLVR). Sin embargo, los algoritmos RLVR existentes requieren grandes presupuestos de consulta, lo que hace que la anotación sea costosa. Investigamos si menos consultas pero más informativas pueden generar un rendimiento similar o superior, introduciendo el aprendizaje activo (AL) en RLVR. Identificamos que las estrategias clásicas de muestreo de AL no logran superar la selección aleatoria en este entorno, debido a que ignoran la incertidumbre objetiva cuando solo se selecciona por incertidumbre subjetiva. Este trabajo propone una métrica de consistencia de la incertidumbre para evaluar qué tan bien se alinea la incertidumbre subjetiva con la incertidumbre objetiva. En el entorno fuera de línea, esta alineación se mide utilizando el coeficiente de correlación punto-biserial (PBC). Para la capacitación en línea, debido al muestreo limitado y a las distribuciones de producción que cambian dinámicamente, la estimación del PBC es difícil. Por lo tanto, introducimos una nueva variante en línea, calculada a partir de la ventaja normalizada y la incertidumbre subjetiva. Teóricamente, demostramos que la variante en línea tiene una correlación estrictamente negativa con la PBC fuera de línea y admite una mejor selección de muestras. Los experimentos muestran que nuestro método supera consistentemente las líneas de base AL aleatorias y clásicas, logrando un rendimiento del conjunto de datos completo mientras entrena en solo el 30% de los datos, lo que reduce efectivamente el costo de RLVR para tareas de razonamiento.

Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web