Resumen: La implementación de modelos de visión y lenguaje (VLM) de alto riesgo requiere una predicción selectiva, donde los sistemas se abstienen cuando no están seguros en lugar de arriesgarse a errores costosos. Investigamos si la abstención basada en la confianza proporciona un control confiable sobre las tasas de error en la respuesta a preguntas en video, y si ese control sigue siendo sólido bajo el cambio de distribución. Utilizando NExT-QA y Gemini 2.0 Flash, establecemos dos hallazgos. En primer lugar, el umbral de confianza proporciona un control mecanicista en la distribución. El amplio umbral épsilon produce compensaciones fluidas entre cobertura de riesgos y reduce las tasas de error.
Publicado originalmente en export.arxiv.org el 4 de enero de 2026.
Ver fuente original
