Resumen: Los entornos del mundo real donde se implementan modelos de lenguaje (LM), en dominios que abarcan la atención médica, las finanzas y otras formas de trabajo del conocimiento, requieren modelos para lidiar con información incompleta y razonar en condiciones de incertidumbre. Sin embargo, la mayoría de las evaluaciones de LM se centran en problemas con respuestas y criterios de éxito bien definidos. Esta brecha existe en parte porque los problemas naturales que involucran incertidumbre son difíciles de construir: dado que los LM tienen acceso a la mayor parte del mismo conocimiento que los humanos, no es trivial diseñar preguntas para las cuales los LM tendrán dificultades para producir respuestas correctas, pero que los humanos pueden responder de manera confiable. Como resultado, el desempeño de LM en el razonamiento bajo incertidumbre sigue estando mal caracterizado. Para abordar esta brecha, presentamos OpenEstimate, un punto de referencia extensible y multidominio para evaluar LM en tareas de estimación numérica que requieren que los modelos sinteticen cantidades significativas de información de fondo y expresen predicciones como antecedentes probabilísticos. Evaluamos estos antecedentes para determinar su precisión y calibración, cuantificando su utilidad en relación con las muestras de la verdadera distribución de interés. En seis LM fronterizos, encontramos que los antecedentes obtenidos por LM son a menudo inexactos y demasiado confiados. El rendimiento mejora modestamente dependiendo de cómo se obtiene la incertidumbre del modelo, pero en gran medida no se ve afectado por cambios en la estrategia de muestreo, el esfuerzo de razonamiento o el diseño rápido. Por lo tanto, el punto de referencia OpenEstimate ofrece una evaluación desafiante para los LM de frontera y una plataforma para desarrollar modelos que sean mejores en la estimación probabilística y el razonamiento bajo incertidumbre.
Publicado originalmente en export.arxiv.org el 19 de octubre de 2025.
Ver fuente original
