Resumen: Comprender cómo los datos se mueven, transforman y persiste, conocido como flujo de datos, es fundamental para el razonamiento en las tareas de procedimiento. A pesar de su fluidez en los lenguajes naturales y de programación, los modelos de lenguaje grande (LLM), aunque cada vez más aplicados a las decisiones con tareas de procedimiento, no se han evaluado sistemáticamente por su capacidad para realizar un razonamiento de flujo de datos. Introducimos Fable, un punto de referencia extensible diseñado para evaluar la comprensión de los LLM del flujo de datos utilizando texto de procedimiento estructurado. La fábula adapta ocho análisis de flujo de datos clásicos de la ingeniería de software: alcance definiciones, expresiones muy ocupadas, expresiones disponibles, análisis de variables en vivo, análisis de intervalos, análisis de estado de tipo, análisis de contaminación y análisis de concurrencia. Estos análisis se instancian en tres dominios del mundo real: recetas de cocina, rutas de viaje y planes automatizados. El punto de referencia incluye 2.400 pares de preguntas y respuestas, con 100 ejemplos para cada combinación de análisis de dominio. Evaluamos tres tipos de LLM: un modelo centrado en el razonamiento (Deepseek-R1 8b), un modelo de propósito general (LLAMA 3.1 8B) y un modelo específico de código (código de granito 8B). Cada modelo se prueba utilizando la mayoría de la votación de la mayoría durante cinco terminaciones muestreadas por aviso. Los resultados muestran que el modelo de razonamiento logra una mayor precisión, pero a costa de más de 20 veces más lenta en comparación con los otros modelos. Por el contrario, los modelos de uso general y específicos del código funcionan cerca de la oportunidad aleatoria. Fable proporciona el primer punto de referencia de diagnóstico para evaluar sistemáticamente el razonamiento de flujo de datos y ofrece información para desarrollar modelos con una comprensión de procedimiento más fuerte.
Publicado Originalme en rss.arxiv.org El 1 de junio de 2025.
Ver Fuente Original