¿Hacer lo? Enseñar modelos de acción-idioma de visión para rechazar lo imposible

Resumen: Recientemente, los modelos de acción-idioma de visión (VLA) han demostrado un fuerte rendimiento en una gama de tareas robóticas. Estos modelos se basan en entradas multimodales, con instrucciones de lenguaje que juegan un papel crucial, no solo en la predicción de acciones, sino también en la interpretación de la intención del usuario de manera robusta, incluso cuando las solicitudes son imposibles de cumplir. En este trabajo, investigamos cómo los VLA pueden reconocer, interpretar y responder a las instrucciones falsas: comandos del lenguaje natural que hacen referencia a objetos o condiciones ausentes del medio ambiente. Proponemos instrucciones-verificar y acto (IVA), un marco unificado que (i) detecta cuándo una instrucción no se puede ejecutar debido a una premisa falsa, (ii) se involucra en la aclaración o corrección basada en el lenguaje, y (iii) motiva alternativas plausibles en la percepción y la acción. Con este fin, construimos una configuración de ajuste de instrucciones a gran escala con indicaciones de lenguaje estructurado y capacitamos a un modelo VLA capaz de manejar solicitudes precisas y erróneas. Nuestro enfoque aprovecha un conjunto de datos semisintético aumentado contextualmente aumentado que contiene instrucciones emparejadas positivas y falsas, permitiendo una detección sólida y corrección del lenguaje natural. Nuestros experimentos muestran que IVA mejora la precisión de la detección de premisas falsas en un 97.56% sobre las líneas de base, al tiempo que aumenta las respuestas exitosas en escenarios falsos en el 50.78%.

Publicado Originalme en export.arxiv.org El 24 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Un marco teórico para la evaluación comparativa adaptativa ponderada por la utilidad

Microsoft tiene un nuevo plan para demostrar qué es real y qué es la IA en línea

Un modelo para criticarlos a todos: recompensar el uso de herramientas agentes mediante un razonamiento eficiente

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido