Resumen: Validamos el marco CAT a través de una simulación extensa utilizando datos de interacción sintética modelados después de Alexa+ Audio Services, un sofisticado sistema de IA agente que da forma a la experiencia del usuario para millones de usuarios a nivel mundial. Este enfoque de datos sintéticos permite una prueba integral de casos de borde y modos de falla al tiempo que protege la privacidad del usuario. Nuestros resultados demuestran que el marco CAT proporciona información sin precedentes sobre la alineación de la tarea de objetivos, lo que permite una optimización y el desarrollo más efectivos de los sistemas de IA agente.
Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original
