Resumen: La conducción autónoma es un ámbito muy desafiante que requiere una percepción confiable y una toma de decisiones segura en escenarios complejos. Los modelos de visión y lenguaje (VLM) recientes demuestran capacidades de razonamiento y generalización, lo que abre nuevas posibilidades para la conducción autónoma; sin embargo, los puntos de referencia y las métricas existentes enfatizan demasiado la competencia perceptiva y no evalúan adecuadamente los procesos de toma de decisiones. En este trabajo, presentamos AutoDriDM, un punto de referencia progresivo y centrado en la toma de decisiones con 6650 preguntas en tres dimensiones: objeto, escena y decisión. Evaluamos los VLM convencionales para delinear el límite de la capacidad de percepción a decisión en la conducción autónoma, y nuestro análisis de correlación revela una alineación débil entre la percepción y el desempeño en la toma de decisiones. Además, realizamos análisis de explicabilidad de los procesos de razonamiento de los modelos, identificamos modos de falla clave, como errores de razonamiento lógico, e introducimos un modelo analizador para automatizar la anotación a gran escala. AutoDriDM cierra la brecha entre la evaluación centrada en la percepción y la evaluación centrada en la decisión, brindando orientación hacia VLM más seguros y confiables para la conducción autónoma en el mundo real.
Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original
