Resumen: La evaluación confiable de los agentes de IA que operan en entornos complejos del mundo real requiere metodologías que sean sólidas, transparentes y contextualmente alineadas con las tareas que los agentes deben realizar. Este estudio identifica deficiencias persistentes en las prácticas existentes de evaluación de agentes de IA que son particularmente agudas en la evaluación de agentes web, como lo ejemplifica nuestra auditoría de WebVoyager, incluida la ambigüedad en el marco de las tareas y la variabilidad operativa que dificultan comparaciones de desempeño significativas y reproducibles. Para abordar estos desafíos, presentamos Emergence WebVoyager, una versión mejorada del punto de referencia WebVoyager que estandariza la metodología de evaluación a través de pautas claras para la creación de instancias de tareas, manejo de fallas, anotaciones e informes. Emergence WebVoyager logra un acuerdo entre anotadores del 95,9%, lo que indica una mayor claridad y confiabilidad tanto en la formulación como en la evaluación de tareas. La aplicación de este marco para evaluar OpenAI Operador revela una variación sustancial en el rendimiento entre dominios y tipos de tareas, con una tasa de éxito general del 68,6%, sustancialmente menor que el 87% reportado anteriormente por OpenAI, lo que demuestra la utilidad de nuestro enfoque para una evaluación de agentes web más rigurosa y comparable.
Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original
