Obtenga más información con menos: selección de consultas guiadas por coherencia e incertidumbre para RLVR

Resumen: Los modelos de lenguaje grande (LLM) han mejorado recientemente el razonamiento matemático a través del aprendizaje por refuerzo con recompensa verificable (RLVR). Sin embargo, los algoritmos RLVR existentes requieren grandes presupuestos de consulta, lo que hace que la anotación sea costosa. Investigamos si menos consultas pero más informativas pueden generar un rendimiento similar o superior, introduciendo el aprendizaje activo (AL) en RLVR. Identificamos que las estrategias clásicas de muestreo de AL no logran superar la selección aleatoria en este entorno, debido a que ignoran la incertidumbre objetiva cuando solo se selecciona por incertidumbre subjetiva. Este trabajo propone una métrica de consistencia de la incertidumbre para evaluar qué tan bien se alinea la incertidumbre subjetiva con la incertidumbre objetiva. En el entorno fuera de línea, esta alineación se mide utilizando el coeficiente de correlación punto-biserial (PBC). Para la capacitación en línea, debido al muestreo limitado y a las distribuciones de producción que cambian dinámicamente, la estimación del PBC es difícil. Por lo tanto, introducimos una nueva variante en línea, calculada a partir de la ventaja normalizada y la incertidumbre subjetiva. Teóricamente, demostramos que la variante en línea tiene una correlación estrictamente negativa con la PBC fuera de línea y admite una mejor selección de muestras. Los experimentos muestran que nuestro método supera consistentemente las líneas de base AL aleatorias y clásicas, logrando un rendimiento del conjunto de datos completo mientras entrena en solo el 30% de los datos, lo que reduce efectivamente el costo de RLVR para tareas de razonamiento.

Publicado originalmente en export.arxiv.org el 1 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Operai es enorme en la India. Sus modelos están llenos de sesgo de casta.

Las reglas fallan en el aviso, tienen éxito en el límite

El futuro digital del trabajo industrial y operativo

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido