Resumen: los métodos críticos del actor, como el gradiente de política determinista profundo retrasado de gemelo (TD3), dependen de la exploración básica basada en el ruido, lo que puede dar como resultado una convergencia de política menos que óptima. En este estudio, presentamos la búsqueda de haz de Monte Carlo (MCBS), un nuevo método híbrido que combina la búsqueda del haz y los despliegos de Monte Carlo con TD3 para mejorar la exploración y la selección de acciones. MCBS produce varias acciones candidatas en torno a la producción de la política y las evalúa a través de despliegue de horizonte corto, lo que permite al agente tomar decisiones mejor informadas. Probamos MCB a través de varios puntos de referencia de control continuo, incluidos HalfCheetah-V4, Walker2D-V5 y Swimmer-V5, que muestran una eficiencia y rendimiento de muestra mejorados en comparación con TD3 estándar y otros métodos de referencia como SAC, PPO y A2C. Nuestros hallazgos enfatizan la capacidad de MCB para mejorar el aprendizaje de políticas a través de la búsqueda estructurada del aspecto del aspecto al tiempo que garantizan la eficiencia computacional. Además, ofrecemos un análisis detallado de hiperparámetros cruciales, como el ancho del haz y la profundidad de despliegue, y exploramos estrategias adaptativas para optimizar MCB para tareas de control complejas. Nuestro método muestra una mayor tasa de convergencia en diferentes entornos en comparación con TD3, SAC, PPO y A2C. Por ejemplo, logramos el 90% de la recompensa máxima alcanzable en alrededor de 200 miles de tiempo en comparación con 400 mil times para el segundo mejor método.
Publicado Originalme en rss.arxiv.org El 14 de mayo de 2025.
Ver Fuente Original