Resumen: La creciente implementación del ajuste eficiente de parámetros (PEFT) ha llevado a ecosistemas modelo en los que una única red troncal se combina con muchos adaptadores especializados en tareas.
Leer más →
Resumen: Los agentes del modelo de lenguaje se están convirtiendo en ejecutores competentes en tareas aisladas y de corto horizonte, como la ingeniería de software y el servicio al cliente.
Leer más →
Resumen: El RL de uso de herramientas de múltiples turnos se ve obstaculizado por el rápido agotamiento de muestras informativas en conjuntos de datos estáticos. Observamos que la señal de gradiente en GRPO se concentra en tareas con la mayor variación de recompensa de implementación, una consecuencia del límite superior de Popoviciu.
Leer más →