Resumen: Los modelos de lenguaje grande se utilizan cada vez más para evaluar otros modelos, pero estos juicios generalmente carecen de toda representación de confianza. Este estudio piloto prueba si enmarcar una tarea de evaluación como un juego de apuestas (un mercado de predicción ficticio con su propia moneda LLM) mejora la precisión de los pronósticos y muestra señales de confianza calibradas. Generamos 100 preguntas de matemáticas y lógica con respuestas verificables. Seis modelos Baseline (tres de la generación actual, tres de la generación anterior) respondieron a todos los ítems. Luego, tres modelos de Predictor pronosticaron, para cada par de pregunta-línea de base, si la línea de base respondería correctamente. Cada predictor completó carreras igualadas en dos condiciones: Control (predicciones simples correctas/incorrectas) e Incentivo (predicciones más apuestas de 1-100,000 LLMCoin con probabilidades pares, comenzando con un presupuesto de 1,000,000 LLMCoin). En 5400 predicciones por condición, las ejecuciones de incentivos mostraron una precisión modestamente mayor (81,5% frente a 79,1%, p = 0,089, d = 0,86) y un aprendizaje significativamente más rápido en las rondas (mejora de 12,0 frente a 2,9 puntos porcentuales de la Ronda 1 a la Ronda 4, p = 0,011). En particular, el tamaño de la apuesta siguió la confianza. Las apuestas de “ballenas” de más de 40 000 monedas fueron correctas aproximadamente el 99 % de las veces, mientras que las apuestas pequeñas (<1000 monedas) mostraron solo aproximadamente el 74 % de precisión. El hallazgo clave no es que el dinero ficticio haga que los modelos sean más inteligentes; Las ganancias en precisión fueron modestas y no alcanzaron significación estadística (p = 0,089) en este piloto. Más bien, la mecánica de apuestas creó una señal de confianza legible ausente de las salidas binarias de sí/no. Esto sugiere que un marco financiero simple puede ayudar a transformar a los LLM en pronosticadores conscientes de los riesgos, haciendo que sus creencias internas sean visibles y utilizables. El protocolo ofrece una base para el trabajo futuro de los sistemas de metaevaluación y lo que pueden convertirse en mercados de predicción de LLM a LLM.
Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original
