Evaluación comparativa de enfoques de razonamiento de disparo cero para la detección de errores en contratos inteligentes de Solidity

Resumen: Los contratos inteligentes desempeñan un papel central en los sistemas blockchain al codificar la lógica financiera y operativa. Aun así, su susceptibilidad a sutiles fallos de seguridad plantea importantes riesgos de pérdidas financieras y erosión de la confianza. Los LLM crean nuevas oportunidades para automatizar la detección de vulnerabilidades, pero la efectividad de diferentes estrategias de activación y opciones de modelos en contextos del mundo real sigue siendo incierta. Este documento evalúa LLM de última generación sobre análisis de contratos inteligentes de Solidity utilizando un conjunto de datos equilibrado de 400 contratos bajo dos tareas: (i) Detección de errores, donde el modelo realiza una clasificación binaria para decidir si un contrato es vulnerable, y (ii) Clasificación de errores, donde el modelo debe asignar el problema previsto a una categoría de vulnerabilidad específica. Los modelos se evalúan utilizando estrategias de estimulación de tiro cero, que incluyen cadena de pensamiento (CoT) de tiro cero, y árbol de pensamiento (ToT) de tiro cero. En la tarea de detección de errores, CoT y ToT aumentan sustancialmente el recuerdo (a menudo acercándose a $aproximadamente 95$–$99%$), pero generalmente reducen la precisión, lo que indica un régimen de decisión más sensible con más falsos positivos. En la tarea de Clasificación de errores, Claude 3 Opus obtiene la mejor puntuación F1 ponderada (90,8) en el mensaje ToT, seguido de cerca por su CoT.

Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Optimización de la cadena de suministro a través de la simulación generativa y las políticas de decisión iterativa

¿Qué es una red programable (programabilidad de red)?

WeisFeiler-Leman Feature for Planning: un estudio de hiperparameter de tamaño de muestra de 1,000,000

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido