Planificación de Monte Carlo asistida por un punto de referencia

Resumen: puntos de referencia $ unicode {x2013} $ condiciones que deben satisfacerse en algún momento de cada plan de solución $ unicode {x2013} $ han contribuido a avances importantes en la planificación clásica, pero rara vez se han utilizado en dominios estocásticos. Formalizamos los puntos de referencia probabilísticos y adaptamos el algoritmo UCT para aprovecharlos como subconocentes para descomponer los MDP; El núcleo de la adaptación se equilibra entre el logro histórico codicioso y el logro final de objetivos. Nuestros resultados en los dominios de referencia muestran que los puntos de referencia bien elegidos pueden mejorar significativamente el rendimiento de la UCT en la planificación probabilística en línea, mientras que el mejor equilibrio del logro de objetivos codicioso versus a largo plazo depende del problema. Los resultados sugieren que los puntos de referencia pueden proporcionar una guía útil para los algoritmos de cualquier momento que resuelvan los MDP.

Publicado Originalme en export.arxiv.org El 17 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Investigación sobre inferencia de baja latencia y optimización de eficiencia de capacitación para la red neuronal gráfica y los sistemas de recomendación basados ​​en modelos de idiomas grandes

La descarga: chatbots para la salud y luchas en EE.UU. por la regulación de la IA

Thelma: Evaluación holística basada en tareas de aplicaciones de modelos de lenguaje grande RAG RAG Respuesta

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Investigación sobre inferencia de baja latencia y optimización de eficiencia de capacitación para la red neuronal gráfica y los sistemas de recomendación basados en modelos de idiomas grandes