MÁS SEGURO: Muestra y filtro con riesgo limitado en modelos de lenguaje grandes

Resumen: A medida que los modelos de lenguajes grandes (LLM) se implementan cada vez más en aplicaciones sensibles al riesgo, como las respuestas a preguntas abiertas (QA) del mundo real, garantizar la confiabilidad de sus resultados se ha vuelto crítico. Los métodos de predicción conforme selectiva (SCP) existentes brindan garantías estadísticas al construir conjuntos de predicción con una tasa de cobertura errónea restringida para las respuestas correctas. Sin embargo, trabajos anteriores suponen de manera poco realista que se pueden obtener respuestas admisibles para todos los casos mediante un muestreo finito, incluso para escenarios de control de calidad abiertos que carecen de un espacio de solución fijo y finito. Para abordar esto, introducimos un marco de control de riesgos de dos etapas que comprende muestreo consciente de la abstención y filtrado conformado (SAFER). En primer lugar, en un conjunto de calibración retenido, SAFER calibra un presupuesto de muestreo dentro del límite máximo de muestreo, utilizando el método exacto de Clopper-Pearson en un nivel de riesgo deseado por el usuario (es decir, la tasa máxima de cobertura errónea permitida de los conjuntos de muestreo). Si el nivel de riesgo no puede satisfacerse dentro del límite, nos abstenemos; de lo contrario, el presupuesto de muestreo calibrado se convierte en los requisitos mínimos en el momento de la prueba. Luego, empleamos instancias de calibración donde se pueden obtener respuestas correctas bajo el presupuesto calibrado y aplicamos el método de control de riesgo conforme para determinar un umbral de incertidumbre estadísticamente válido, que filtra los distractores no confiables del conjunto de candidatos para cada punto de datos de prueba. En esta etapa, SAFER introduce un nivel de riesgo adicional para guiar el cálculo del umbral, controlando así el riesgo de que se excluyan las respuestas correctas. Además, demostramos que SAFER es compatible con varios criterios de admisión de tareas específicas y relaciones de división de pruebas de calibración, destacando su solidez y alta eficiencia de datos.

Publicado originalmente en export.arxiv.org el 13 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

WildSci: avance del razonamiento científico a partir de la literatura salvaje

Inteligencia estratégica en modelos de lenguaje grande: evidencia de la teoría de juegos evolutivos

Un marco para AGI inherentemente más seguro a través de la inferencia activa mediada por el lenguaje

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido