Sysmobench: Evaluación de IA en modelado formalmente Sistemas complejos del mundo real

Resumen: Los modelos formales son esenciales para especificar sistemas informáticos grandes y complejos y verificar su corrección, pero son notoriamente caros de escribir y mantener. Los avances recientes en la IA generativa son prometedores para generar ciertas formas de especificaciones. Sin embargo, el trabajo existente se dirige principalmente a un código pequeño, no a sistemas completos. No está claro si la IA puede lidiar con los artefactos del sistema realistas, ya que esto requiere abstraer sus complejas propiedades de comportamiento en modelos formales. Presentamos a SysMobench, un punto de referencia que evalúa la capacidad de IA para modelar formalmente sistemas grandes y complejos. Nos centramos en los sistemas concurrentes y distribuidos, que son piedras clave de las infraestructuras informáticas críticas de hoy, que abarcan sistemas operativos e infraestructura en la nube. Usamos TLA+, el lenguaje de especificación de TI de facto para sistemas concurrentes y distribuidos, aunque el punto de referencia puede extenderse a otros lenguajes de especificación. Abordamos el desafío principal de evaluar modelos generados por IA mediante la automatización de métricas como la corrección sintáctica y de tiempo de ejecución, la conformidad con el código del sistema y la corrección invariante. Sysmobench actualmente incluye nueve artefactos del sistema diversos: la implementación de la balsa de ETCD y Redis, el Spinlock y Mutex en Asterinas OS, etc.; Se agregan más artefactos activamente. Sysmobench nos permite comprender las capacidades y limitaciones de los LLM y agentes de hoy, poniendo herramientas en esta área en una base firme y abriendo nuevas instrucciones de investigación prometedoras.

Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Seminario web sobre salud del Grupo de Trabajo AIOTI

TransportAgents: un marco LLM de múltiples agentes para la predicción de la gravedad de los accidentes de tráfico

Teoría neo-base: una innovación metodológica que integra la agrupación vectorial de alta dimensión y la colaboración de múltiples agentes para la investigación cualitativa

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido