Resumen: La creciente implementación del ajuste eficiente de parámetros (PEFT) ha llevado a ecosistemas modelo en los que una única red troncal se combina con muchos adaptadores especializados en tareas.
Leer más →
Resumen: La detección de engaños multimodal es fundamental para identificar intenciones fraudulentas, sin embargo, los enfoques existentes se basan predominantemente en paradigmas de caja negra de extremo a extremo.
Leer más →
Resumen: El RL de uso de herramientas de múltiples turnos se ve obstaculizado por el rápido agotamiento de muestras informativas en conjuntos de datos estáticos. Observamos que la señal de gradiente en GRPO se concentra en tareas con la mayor variación de recompensa de implementación, una consecuencia del límite superior de Popoviciu.
Leer más →