Resumen:En 74 configuraciones (12 modelos, 4 proveedores, 8-24 ejecuciones cada una a T=0,0) en experimentos de referencia no agentes, los modelos de parámetros 7-20B lograron un 100% de determinismo, mientras que los modelos 120B+ requirieron muestras de validación 3,7 veces más grandes para lograr una confiabilidad estadística equivalente. El uso de herramientas agentes introduce una variación adicional (ver Tablas 4-7). Contrariamente a la supuesta compensación entre confiabilidad y capacidad, surgió una correlación positiva de Pearson (r = 0,45, p < 0,01, n = 51 en T = 0,0) entre determinismo y fidelidad; Los modelos que producían resultados consistentes también tendían a estar más alineados con la evidencia.
Se proporcionan tres puntos de referencia financieros (clasificación de cumplimiento, restricciones de cartera, excepciones de DataOps; 50 casos cada uno) junto con un arnés de prueba de estrés de código abierto. En estos puntos de referencia y bajo la configuración de evaluación de DFAH, los modelos de Nivel 1 con arquitecturas de esquema primero alcanzaron niveles de determinismo consistentes con los requisitos de repetición de auditoría.
Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original
