Delegación general aprendida por clones.

Resumen: Los modelos de lenguaje de frontera mejoran con cálculos adicionales en el tiempo de prueba, pero el razonamiento en serie o el muestreo paralelo no coordinado pueden ser ineficientes desde el punto de vista computacional bajo presupuestos de inferencia fijos. Proponemos SELFCEST, que equipa un modelo base con la capacidad de generar clones del mismo peso en contextos paralelos separados mediante aprendizaje por refuerzo agente. La capacitación es de extremo a extremo bajo una recompensa de tarea global con implementaciones de parámetros compartidos, lo que produce un controlador aprendido que asigna presupuesto de generación y contexto entre sucursales. A través de desafiantes puntos de referencia de razonamiento matemático y control de calidad de múltiples saltos de contexto largo, SELFCEST mejora la frontera de Pareto de costo de precisión en relación con las líneas de base monolíticas con un presupuesto de inferencia coincidente, y muestra una generalización fuera de la distribución en ambos dominios.

Publicado originalmente en export.arxiv.org el 16 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Con-QA: QA de preservación de la privacidad utilizando Cloud LLMS en el dominio del contrato

Voyagervision: investigando el papel de la información multimodal para los sistemas de aprendizaje abiertos

Modelado asistido por LLM de sistemas multiagentes habilitados para web semántica con AJAN

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido