En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->¿Hacer lo? Enseñar modelos de acción-idioma de visión para rechazar lo imposible

¿Hacer lo? Enseñar modelos de acción-idioma de visión para rechazar lo imposible

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Recientemente, los modelos de acción-idioma de visión (VLA) han demostrado un fuerte rendimiento en una gama de tareas robóticas. Estos modelos se basan en entradas multimodales, con instrucciones de lenguaje que juegan un papel crucial, no solo en la predicción de acciones, sino también en la interpretación de la intención del usuario de manera robusta, incluso cuando las solicitudes son imposibles de cumplir. En este trabajo, investigamos cómo los VLA pueden reconocer, interpretar y responder a las instrucciones falsas: comandos del lenguaje natural que hacen referencia a objetos o condiciones ausentes del medio ambiente. Proponemos instrucciones-verificar y acto (IVA), un marco unificado que (i) detecta cuándo una instrucción no se puede ejecutar debido a una premisa falsa, (ii) se involucra en la aclaración o corrección basada en el lenguaje, y (iii) motiva alternativas plausibles en la percepción y la acción. Con este fin, construimos una configuración de ajuste de instrucciones a gran escala con indicaciones de lenguaje estructurado y capacitamos a un modelo VLA capaz de manejar solicitudes precisas y erróneas. Nuestro enfoque aprovecha un conjunto de datos semisintético aumentado contextualmente aumentado que contiene instrucciones emparejadas positivas y falsas, permitiendo una detección sólida y corrección del lenguaje natural. Nuestros experimentos muestran que IVA mejora la precisión de la detección de premisas falsas en un 97.56% sobre las líneas de base, al tiempo que aumenta las respuestas exitosas en escenarios falsos en el 50.78%.

Publicado Originalme en export.arxiv.org El 24 de agosto de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web