Resumen: Los modelos de lenguajes grandes (LLM) están ampliando cada vez más sus aplicaciones del mundo real en todos los dominios, por ejemplo, respuesta a preguntas, conducción autónoma y desarrollo automático de software. A pesar de este logro, los LLM, como sistemas basados en datos, a menudo hacen predicciones incorrectas, lo que puede provocar pérdidas potenciales en escenarios críticos para la seguridad. Para abordar este problema y medir la confianza de los resultados del modelo, se han propuesto múltiples criterios de cuantificación de la incertidumbre (UQ). Sin embargo, aunque son importantes, existen herramientas limitadas para integrar estos métodos, lo que dificulta el uso práctico de los métodos UQ y la investigación futura en este dominio. Para cerrar esta brecha, en este artículo presentamos UncertaintyZoo, un conjunto de herramientas unificado que integra 29 métodos de cuantificación de la incertidumbre, que cubren cinco categorías principales bajo una interfaz estandarizada. Utilizando UncertaintyZoo, evaluamos la utilidad de los métodos de cuantificación de incertidumbre existentes bajo la tarea de detección de vulnerabilidades de código en los modelos CodeBERT y ChatGLM3. Los resultados demuestran que UncertaintyZoo revela efectivamente la incertidumbre en la predicción. La herramienta con un vídeo de demostración está disponible en el sitio del proyecto. esta URL https.
Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original
