Resumen: Los grandes modelos de lenguaje generan cadenas de razonamiento complejas que revelan su toma de decisiones; sin embargo, verificar la fidelidad e inocuidad de estos pasos intermedios sigue siendo un problema crítico sin resolver. Los métodos de auditoría existentes son centralizados, opacos y difíciles de escalar, lo que crea riesgos significativos para la implementación de modelos propietarios en dominios de alto riesgo. Identificamos cuatro desafíos principales: (1) Robustez: los auditores centralizados son puntos únicos de falla, propensos a sesgos o ataques. (2) Escalabilidad: los rastreos de razonamiento son demasiado largos para la verificación manual. (3) Opacidad: las auditorías cerradas socavan la confianza pública. (4) Privacidad: Exponer el razonamiento completo a los riesgos de robo o destilación del modelo. Proponemos TRUST, un marco de auditoría transparente y descentralizado que supera estas limitaciones a través de: (1) Un mecanismo de consenso entre diversos auditores, que garantiza la corrección de hasta $30%$ de participantes maliciosos. (2) Una descomposición DAG jerárquica de rastros de razonamiento, que permite una auditoría paralela y escalable. (3) Un libro de contabilidad de blockchain que registra todas las decisiones de verificación para la rendición de cuentas pública. (4) Segmentación que preserva la privacidad, compartiendo solo pasos de razonamiento parciales para proteger la lógica patentada. Proporcionamos garantías teóricas para la seguridad y los incentivos económicos del marco TRUST. Los experimentos en múltiples LLM (GPT-OSS, DeepSeek-r1, Qwen) y tareas de razonamiento (matemáticas, medicina, ciencias, humanidades) muestran que TRUST detecta eficazmente fallas de razonamiento y se mantiene sólido frente a auditores adversarios. Nuestro trabajo es pionero en la auditoría de IA descentralizada, ofreciendo un camino práctico hacia una implementación LLM segura y confiable.
Publicado originalmente en export.arxiv.org el 23 de octubre de 2025.
Ver fuente original
