En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->OCCVLA: modelo de acción-idioma de visión con supervisión implícita de ocupación 3D

OCCVLA: modelo de acción-idioma de visión con supervisión implícita de ocupación 3D

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: los modelos de lenguaje grande multimodal (MLLMS) han mostrado fuertes habilidades de razonamiento en idioma de visión, pero aún carecen de una comprensión espacial 3D robusta, lo cual es fundamental para la conducción autónoma. Esta limitación se deriva de dos desafíos clave: (1) la dificultad de construir representaciones 3D accesibles pero efectivas sin costosas anotaciones manuales, y (2) la pérdida de detalles espaciales de grano fino en VLM debido a la ausencia de previo en el lenguaje de visión 3D a gran escala previa. Para abordar estos desafíos, proponemos OccVLA, un marco novedoso que integra representaciones de ocupación 3D en un proceso de razonamiento multimodal unificado. A diferencia de los enfoques anteriores que se basan en entradas 3D explícitas, Occvla trata la ocupación 3D densa como una salida predictiva y una señal de supervisión, lo que permite que el modelo aprenda estructuras espaciales de grano fino directamente de las entradas visuales 2D. Las predicciones de ocupación se consideran procesos de razonamiento implícitos y se pueden omitir durante la inferencia sin degradación del rendimiento, lo que no agregará sobrecarga computacional adicional. Occvla logra los resultados de última generación en el punto de referencia de Nuscenes para la planificación de la trayectoria y demuestra un rendimiento superior en tareas de preguntas visuales 3D, ofreciendo una solución escalable, interpretable y totalmente basada en la visión para la conducción autónoma.

Publicado Originalme en export.arxiv.org El 8 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web