En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Sysmobench: Evaluación de IA en modelado formalmente Sistemas complejos del mundo real

Sysmobench: Evaluación de IA en modelado formalmente Sistemas complejos del mundo real

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos formales son esenciales para especificar sistemas informáticos grandes y complejos y verificar su corrección, pero son notoriamente caros de escribir y mantener. Los avances recientes en la IA generativa son prometedores para generar ciertas formas de especificaciones. Sin embargo, el trabajo existente se dirige principalmente a un código pequeño, no a sistemas completos. No está claro si la IA puede lidiar con los artefactos del sistema realistas, ya que esto requiere abstraer sus complejas propiedades de comportamiento en modelos formales. Presentamos a SysMobench, un punto de referencia que evalúa la capacidad de IA para modelar formalmente sistemas grandes y complejos. Nos centramos en los sistemas concurrentes y distribuidos, que son piedras clave de las infraestructuras informáticas críticas de hoy, que abarcan sistemas operativos e infraestructura en la nube. Usamos TLA+, el lenguaje de especificación de TI de facto para sistemas concurrentes y distribuidos, aunque el punto de referencia puede extenderse a otros lenguajes de especificación. Abordamos el desafío principal de evaluar modelos generados por IA mediante la automatización de métricas como la corrección sintáctica y de tiempo de ejecución, la conformidad con el código del sistema y la corrección invariante. Sysmobench actualmente incluye nueve artefactos del sistema diversos: la implementación de la balsa de ETCD y Redis, el Spinlock y Mutex en Asterinas OS, etc.; Se agregan más artefactos activamente. Sysmobench nos permite comprender las capacidades y limitaciones de los LLM y agentes de hoy, poniendo herramientas en esta área en una base firme y abriendo nuevas instrucciones de investigación prometedoras.

Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web