En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Más allá de lo conocido: Toma de decisiones con transformador de decisión de razonamiento contrafactual

Más allá de lo conocido: Toma de decisiones con transformador de decisión de razonamiento contrafactual

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los transformadores de decisión (DT) juegan un papel crucial en el aprendizaje de refuerzo moderno, aprovechando conjuntos de datos fuera de línea para lograr resultados impresionantes en varios dominios. Sin embargo, DT requiere datos integrales de alta calidad para funcionar de manera óptima. En aplicaciones del mundo real, la falta de datos de capacitación y la escasez de comportamientos óptimos hacen que la capacitación en conjuntos de datos fuera de línea sea un desafío, ya que los datos subóptimos pueden obstaculizar el rendimiento. Para abordar esto, proponemos el Transformador de decisión de razonamiento contrafactual (CRDT), un marco novedoso inspirado en el razonamiento contrafactual. CRDT mejora la capacidad de DT para razonar más allá de los datos conocidos mediante la generación y el uso de experiencias contrafactuales, lo que permite una mejor toma de decisiones en escenarios invisibles. Los experimentos a través de puntos de referencia Atari y D4RL, incluidos escenarios con datos limitados y dinámica alterada, demuestran que CRDT supera los enfoques de DT convencionales. Además, el razonamiento contrafactualmente permite que el agente DT obtenga habilidades de costura, combinando trayectorias subóptimas, sin modificaciones arquitectónicas. Estos resultados destacan el potencial del razonamiento contrafactual para mejorar las capacidades de rendimiento y generalización de los agentes de aprendizaje de refuerzo.

Publicado Originalme en rss.arxiv.org El 14 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web