Políticas fantasmas: un nuevo paradigma para comprender y aprender del fracaso en el aprendizaje de refuerzo profundo

Resumen: Los agentes de aprendizaje de refuerzo profundo (DRL) a menudo exhiben modos de falla intrincados que son difíciles de entender, depurar y aprender. Esta opacidad obstaculiza su implementación confiable en aplicaciones del mundo real. Para abordar esta brecha crítica, presentamos “ políticas fantasmas ”, un concepto materializado a través de Arvolution, un nuevo marco de realidad aumentada (AR). Arvolution renders an agent’s historical failed policy trajectories as semi-transparent “ghosts” that coexist spatially and temporally with the active agent, enabling an intuitive visualization of policy divergence. La arvolución se integra exclusivamente: (1) Visualización de AR de las políticas fantasmas, (2) una taxonomía conductual de la malaadaptación DRL, (3) un protocolo para la interrupción humana sistemática para estudiar científicamente, y (4) un bucle de doble aprendizaje donde tanto los humanos como los agentes aprenden de estas fallas visualizadas. Proponemos un cambio de paradigma, transformando las fallas de los agentes de DRL de errores opacos y costosos en recursos de aprendizaje invaluables y procesables, estableciendo las bases para un nuevo campo de investigación: “ aprendizaje de visualización de fallas ”.

Publicado Originalme en rss.arxiv.org El 16 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

A*-Codificación: escala de inferencia de eficiencia de token

Estado de la empresa IoT en 2025: recuperación del mercado, integración de IA y próximas regulaciones

Qaul es una aplicación de comunicación de malla inalámbrica independiente de Internet.

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido