Resumen: Los agentes de IA de hoy están en su mayoría aislados: recuperan y razonan sobre una gran cantidad de información digital y conocimiento obtenido en línea; o interactuar con el mundo físico a través de la percepción, la planificación y la acción encarnada, pero rara vez ambos. Esta separación limita su capacidad para resolver tareas que requieren inteligencia física y digital integrada, como cocinar de recetas en línea, navegar con datos de mapas dinámicos o interpretar puntos de referencia del mundo real utilizando el conocimiento web. Introducimos a los agentes web encarnados, un nuevo paradigma para los agentes de IA que unen fluidamente la realización y el razonamiento a escala web. Para operacionalizar este concepto, primero desarrollamos los entornos de tareas de agentes web incorporados, una plataforma de simulación unificada que integra estrechamente entornos en interiores y exteriores 3D realistas con interfaces web funcionales. Sobre la base de esta plataforma, construimos y lanzamos el punto de referencia de agentes web incorporados, que abarca un conjunto diverso de tareas que incluyen cocción, navegación, compras, turismo y geolocalización, todos que requieren razonamiento coordinado en reinos físicos y digitales para la evaluación sistemática de la inteligencia del dominio cruzado. Los resultados experimentales revelan brechas de rendimiento significativas entre los sistemas de IA de última generación y las capacidades humanas, estableciendo desafíos y oportunidades en la intersección de la cognición incorporada y el acceso a la escala web. Todos los conjuntos de datos, códigos y sitios web están disponibles públicamente en nuestra página del proyecto esta URL HTTPS.
Publicado Originalme en rss.arxiv.org El 18 de junio de 2025.
Ver Fuente Original