Resumen: Los avances recientes en los modelos de visión y lenguaje (VLM) se han mostrado prometedores para la inteligencia corporal a nivel humano. Sin embargo, los puntos de referencia existentes para agentes incorporados impulsados por VLM a menudo se basan en comandos de alto nivel o espacios de acción discretizados, que son configuraciones no nativas que difieren notablemente del control del mundo real. Además, los puntos de referencia actuales se centran principalmente en tareas de alto nivel y carecen de evaluación y análisis conjuntos tanto en niveles bajos como altos. Para abordar estas limitaciones, presentamos NativeEmbodied, un desafiante punto de referencia para agentes incorporados impulsados por VLM que utiliza un espacio de acción nativo unificado de bajo nivel. Basado en diversas escenas simuladas, NativeEmbodied incluye tres tareas representativas de alto nivel en escenarios complejos para evaluar el rendimiento general. Para un análisis más detallado, desacoplamos aún más las habilidades requeridas por tareas complejas y construimos cuatro tipos de tareas de bajo nivel, cada una de las cuales apunta a una habilidad incorporada fundamental. Esta evaluación conjunta de las granularidades de tareas y habilidades permite una evaluación detallada de los agentes incorporados. Los experimentos con VLM de última generación revelan deficiencias claras en varias habilidades incorporadas fundamentales, y un análisis más detallado muestra que estos cuellos de botella limitan significativamente el desempeño en tareas de alto nivel. NativeEmbodied destaca los desafíos clave para los agentes incorporados impulsados por VLM actuales y proporciona información para guiar investigaciones futuras.
Publicado originalmente en export.arxiv.org el 24 de febrero de 2026.
Ver fuente original
