Resumen: El RL de uso de herramientas de múltiples turnos se ve obstaculizado por el rápido agotamiento de muestras informativas en conjuntos de datos estáticos. Observamos que la señal de gradiente en GRPO se concentra en tareas con la mayor variación de recompensa de implementación, una consecuencia del límite superior de Popoviciu.
Leer más →
Resumen: Los agentes automatizados de IA son cada vez más capaces, pero muchas tareas científicas y profesionales requieren juicio humano y experiencia contextual. Estudiamos equipos humanos-IA en espacios de trabajo compartidos, donde los agentes de IA y los colaboradores humanos deben coordinar responsabilidades antes de enviar una respuesta final.
Leer más →
Resumen: La detección de engaños multimodal es fundamental para identificar intenciones fraudulentas, sin embargo, los enfoques existentes se basan predominantemente en paradigmas de caja negra de extremo a extremo.
Leer más →