Resumen: Los agentes de aprendizaje de refuerzo profundo (DRL) a menudo exhiben modos de falla intrincados que son difíciles de entender, depurar y aprender. Esta opacidad obstaculiza su implementación confiable en aplicaciones del mundo real. Para abordar esta brecha crítica, presentamos “ políticas fantasmas ”, un concepto materializado a través de Arvolution, un nuevo marco de realidad aumentada (AR). Arvolution renders an agent’s historical failed policy trajectories as semi-transparent “ghosts” that coexist spatially and temporally with the active agent, enabling an intuitive visualization of policy divergence. La arvolución se integra exclusivamente: (1) Visualización de AR de las políticas fantasmas, (2) una taxonomía conductual de la malaadaptación DRL, (3) un protocolo para la interrupción humana sistemática para estudiar científicamente, y (4) un bucle de doble aprendizaje donde tanto los humanos como los agentes aprenden de estas fallas visualizadas. Proponemos un cambio de paradigma, transformando las fallas de los agentes de DRL de errores opacos y costosos en recursos de aprendizaje invaluables y procesables, estableciendo las bases para un nuevo campo de investigación: “ aprendizaje de visualización de fallas ”.
Publicado Originalme en rss.arxiv.org El 16 de junio de 2025.
Ver Fuente Original