Resumen: Este documento presenta Q-Ardns-Multi, un marco avanzado de aprendizaje de refuerzo cuántico de refuerzo cuántico (QRL) que extiende el modelo ARDNS-FN-Quantum, donde Q-ardns-Multi representa “simulador neural de recompensa adaptable cuántica? Integra los circuitos cuánticos con las puertas RY, la adaptación meta-cognitiva y los mecanismos de coordinación de múltiples agentes para entornos 3D complejos. Q-ardns-Multi aprovecha un circuito cuántico de 2 quits para la selección de acción, un sistema de doble memoria inspirado en la cognición humana, un módulo de memoria compartida para la cooperación de agentes y estrategias de exploración adaptativa moduladas por la varianza de recompensas y la motivación intrínseca. Evaluado en un entorno de $ 10 Times 10 Times 3 $ GridWorld con dos agentes de más de 5000 episodios, Q-ardns-multi alcanza las tasas de éxito de 99.6 % y 99.5 % para los agentes 0 y 1, respectivamente, superan a la evasión de la tecnología de la política de la hábita de mulio de la reducción de la determinación multicia y el marzo. Los registros del marco significan recompensas de $ -304.2891 PM 756.4636 $ y $ -295.7622 PM 752.7103 $, promediando 210 pasos a la meta, demostrando su robustez en configuraciones dinámicas. Los análisis exhaustivos, incluidas las curvas de aprendizaje, las distribuciones de recompensas, las pruebas estadísticas y las evaluaciones de eficiencia computacional, resaltan las contribuciones de los circuitos cuánticos y la adaptación metacognitiva. Al unir la computación cuántica, la ciencia cognitiva y el RL de múltiples agentes, Q-ARDNS-Multi ofrece un enfoque escalable y humano para aplicaciones en robótica, navegación autónoma y toma de decisiones bajo incertidumbre.
Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original