En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Delegación general aprendida por clones.

Delegación general aprendida por clones.

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje de frontera mejoran con cálculos adicionales en el tiempo de prueba, pero el razonamiento en serie o el muestreo paralelo no coordinado pueden ser ineficientes desde el punto de vista computacional bajo presupuestos de inferencia fijos. Proponemos SELFCEST, que equipa un modelo base con la capacidad de generar clones del mismo peso en contextos paralelos separados mediante aprendizaje por refuerzo agente. La capacitación es de extremo a extremo bajo una recompensa de tarea global con implementaciones de parámetros compartidos, lo que produce un controlador aprendido que asigna presupuesto de generación y contexto entre sucursales. A través de desafiantes puntos de referencia de razonamiento matemático y control de calidad de múltiples saltos de contexto largo, SELFCEST mejora la frontera de Pareto de costo de precisión en relación con las líneas de base monolíticas con un presupuesto de inferencia coincidente, y muestra una generalización fuera de la distribución en ambos dominios.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web