 Resumen:La creación de agentes que se generalicen en entornos web, de escritorio y móviles sigue siendo un desafío abierto, ya que los sistemas anteriores dependen de interfaces específicas del entorno que limitan la implementación multiplataforma. Presentamos Surfer 2, una arquitectura unificada que funciona exclusivamente a partir de observaciones visuales y que logra un rendimiento de última generación en los tres entornos. Surfer 2 integra gestión de contexto jerárquico, planificación y ejecución desacopladas y autoverificación con recuperación adaptativa, lo que permite una operación confiable en horizontes de tareas prolongados. Nuestro sistema logra una precisión del 97,1 % en WebVoyager, 69,6 % en WebArena, 60,1 % en OSWorld y 87,1 % en AndroidWorld, superando a todos los sistemas anteriores sin ajustes específicos de tareas. Con múltiples intentos, Surfer 2 supera el desempeño humano en todos los puntos de referencia. Estos resultados demuestran que la orquestación sistemática amplifica las capacidades del modelo básico y permite el control de computadoras de propósito general a través de la interacción visual únicamente, al tiempo que requiere un modelo de lenguaje de visión de próxima generación para lograr una rentabilidad óptima de Pareto.
Resumen:La creación de agentes que se generalicen en entornos web, de escritorio y móviles sigue siendo un desafío abierto, ya que los sistemas anteriores dependen de interfaces específicas del entorno que limitan la implementación multiplataforma. Presentamos Surfer 2, una arquitectura unificada que funciona exclusivamente a partir de observaciones visuales y que logra un rendimiento de última generación en los tres entornos. Surfer 2 integra gestión de contexto jerárquico, planificación y ejecución desacopladas y autoverificación con recuperación adaptativa, lo que permite una operación confiable en horizontes de tareas prolongados. Nuestro sistema logra una precisión del 97,1 % en WebVoyager, 69,6 % en WebArena, 60,1 % en OSWorld y 87,1 % en AndroidWorld, superando a todos los sistemas anteriores sin ajustes específicos de tareas. Con múltiples intentos, Surfer 2 supera el desempeño humano en todos los puntos de referencia. Estos resultados demuestran que la orquestación sistemática amplifica las capacidades del modelo básico y permite el control de computadoras de propósito general a través de la interacción visual únicamente, al tiempo que requiere un modelo de lenguaje de visión de próxima generación para lograr una rentabilidad óptima de Pareto.
Publicado originalmente en export.arxiv.org el 23 de octubre de 2025.
Ver fuente original

 
 
			 
							 
							 
							