Resumen: Los usuarios finales de robot requieren cada vez más medios accesibles para especificar tareas para que los robots funcionen. Dos paradigmas comunes de programación de usuarios finales incluyen interfaces de arrastrar y soltar y programación de lenguaje natural. Aunque las interfaces del lenguaje natural aprovechan una forma intuitiva de comunicación humana, las interfaces de arrastrar y soltar permiten a los usuarios dictar meticulosamente y con precisión las acciones clave de la tarea del robot. En este artículo, investigamos el grado en que se pueden combinar ambos enfoques. Específicamente, construimos una tubería basada en un modelo de lenguaje grande (LLM) que acepta el lenguaje natural como entrada y produce secuencias de acción similares a los humanos como salida, especificada en un nivel de granularidad que un humano produciría. Luego comparamos estas secuencias de acción generadas con otro conjunto de datos de secuencias de acción especificadas a mano. Aunque nuestros resultados revelan que los modelos más grandes tienden a superar a los más pequeños en la producción de secuencias de acción similares a los humanos, los modelos más pequeños logran un rendimiento satisfactorio.
Publicado Originalme en export.arxiv.org El 30 de junio de 2025.
Ver Fuente Original