Resumen: Los agentes del modelo de lenguaje se están convirtiendo en ejecutores competentes en tareas aisladas y de corto horizonte, como la ingeniería de software y el servicio al cliente.
Leer más →
Resumen: El RL de uso de herramientas de múltiples turnos se ve obstaculizado por el rápido agotamiento de muestras informativas en conjuntos de datos estáticos. Observamos que la señal de gradiente en GRPO se concentra en tareas con la mayor variación de recompensa de implementación, una consecuencia del límite superior de Popoviciu.
Leer más →
Resumen: Los agentes automatizados de IA son cada vez más capaces, pero muchas tareas científicas y profesionales requieren juicio humano y experiencia contextual. Estudiamos equipos humanos-IA en espacios de trabajo compartidos, donde los agentes de IA y los colaboradores humanos deben coordinar responsabilidades antes de enviar una respuesta final.
Leer más →