Resumen: Este documento presenta Q-Ardns-Multi, un marco avanzado de aprendizaje de refuerzo cuántico de refuerzo cuántico (QRL) que extiende el modelo ARDNS-FN-Quantum, donde Q-ardns-Multi representa “simulador neural de recompensa adaptable cuántica? Integra los circuitos cuánticos con las puertas RY, la adaptación meta-cognitiva y los mecanismos de coordinación de múltiples agentes para entornos 3D complejos. Q-ardns-Multi aprovecha un circuito cuántico de 2 quits para la selección de acción, un sistema de doble memoria inspirado en la cognición humana, un módulo de memoria compartida para la cooperación de agentes y estrategias de exploración adaptativa moduladas por la varianza de recompensas y la motivación intrínseca. Evaluado en un entorno de $ 10 Times 10 Times 3 $ GridWorld con dos agentes de más de 5000 episodios, Q-ardns-multi alcanza las tasas de éxito de 99.6 % y 99.5 % para los agentes 0 y 1, respectivamente, superan a la evasión de la tecnología de la política de la hábita de mulio de la reducción de la determinación multicia y el marzo. Los registros del marco significan recompensas de $ -304.2891 PM 756.4636 $ y $ -295.7622 PM 752.7103 $, promediando 210 pasos a la meta, demostrando su robustez en configuraciones dinámicas. Los análisis exhaustivos, incluidas las curvas de aprendizaje, las distribuciones de recompensas, las pruebas estadísticas y las evaluaciones de eficiencia computacional, resaltan las contribuciones de los circuitos cuánticos y la adaptación metacognitiva. Al unir la computación cuántica, la ciencia cognitiva y el RL de múltiples agentes, Q-ARDNS-Multi ofrece un enfoque escalable y humano para aplicaciones en robótica, navegación autónoma y toma de decisiones bajo incertidumbre.

Publicado Originalme en rss.arxiv.org El 4 de junio de 2025.
Ver Fuente Original

Q-ARDNS-MULTI: un marco de aprendizaje de refuerzo cuántico de múltiples agentes con adaptación meta-cognitiva para entornos 3D complejos

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Promover un razonamiento eficiente con recompensa paso a paso verificable

¿Hay valor en el aprendizaje de refuerzo?

La IA y el descentramiento de la creatividad disciplinaria

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido