Resumen: Nuestro trabajo lleva a la recomendación de que al establecer la capacidad de un sistema, los resultados deben estratificarse según la probabilidad de la respuesta verdadera, generalmente medida por la tasa de acuerdo de los expertos en verdad básica. La estratificación se vuelve crítica cuando el desempeño general cae por debajo del umbral del 80%. Bajo la evaluación estratificada, la comparación del desempeño se vuelve más confiable en niveles de alta certeza, mitigando el efecto del factor de confusión clave: la incertidumbre.
Publicado originalmente en export.arxiv.org el 11 de enero de 2026.
Ver fuente original
