Resumen: La navegación visual es una tarea central en la IA encarnada, lo que permite a los agentes navegar en entornos complejos hacia objetivos dados. En diversos entornos dentro de las tareas de navegación, muchos requieren el modelado de datos secuenciales acumulados de los pasos de tiempo anteriores. Si bien los métodos existentes funcionan bien, generalmente procesan todas las observaciones históricas simultáneamente, con vistas a la estructura de la asociación interna dentro de los datos, lo que puede limitar el potencial de mejoras adicionales en el rendimiento de la tarea. Abordamos esto examinando las características únicas de las tareas de navegación a través de la lente de la causalidad, introduciendo un marco causal para resaltar las limitaciones de los métodos secuenciales convencionales. Aprovechando esta idea, proponemos la navegación (CAN) consciente de la causalidad, que incorpora un módulo de comprensión causal para mejorar la capacidad de comprensión ambiental del agente. Las evaluaciones empíricas muestran que nuestro enfoque supera constantemente las líneas de base en varias tareas y entornos de simulación. Extensos estudios de ablaciones atribuyen estas ganancias al módulo de comprensión causal, que se generaliza de manera efectiva tanto en el refuerzo como en la configuración de aprendizaje supervisado sin gastos computacionales.
Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original