Agentes financieros reproducibles: un arnés de garantía de determinismo y fidelidad para agentes de LLM que utilizan herramientas

Resumen:En 74 configuraciones (12 modelos, 4 proveedores, 8-24 ejecuciones cada una a T=0,0) en experimentos de referencia no agentes, los modelos de parámetros 7-20B lograron un 100% de determinismo, mientras que los modelos 120B+ requirieron muestras de validación 3,7 veces más grandes para lograr una confiabilidad estadística equivalente. El uso de herramientas agentes introduce una variación adicional (ver Tablas 4-7). Contrariamente a la supuesta compensación entre confiabilidad y capacidad, surgió una correlación positiva de Pearson (r = 0,45, p < 0,01, n = 51 en T = 0,0) entre determinismo y fidelidad; Los modelos que producían resultados consistentes también tendían a estar más alineados con la evidencia. Se proporcionan tres puntos de referencia financieros (clasificación de cumplimiento, restricciones de cartera, excepciones de DataOps; 50 casos cada uno) junto con un arnés de prueba de estrés de código abierto. En estos puntos de referencia y bajo la configuración de evaluación de DFAH, los modelos de Nivel 1 con arquitecturas de esquema primero alcanzaron niveles de determinismo consistentes con los requisitos de repetición de auditoría.

Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

CloudFlare ahora, por defecto, bloqueará los bots de IA de rastrear los sitios web de sus clientes

Aprendizaje automático operativo para la detección espectroscópica remota de fuentes puntuales CH$_{4}$

“Cuando, en su entrevista póstuma en Der Spiegel “Sólo un Dios puede salvarnos”, le preguntaron a Heidegger qué estaba destinado a sustituir a la filosofía, respondió: “la cibernética”.

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido