En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ManiBench: un punto de referencia para probar la deriva de la lógica visual y las alucinaciones sintácticas en la generación de código Manim

ManiBench: un punto de referencia para probar la deriva de la lógica visual y las alucinaciones sintácticas en la generación de código Manim

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los puntos de referencia tradicionales como HumanEval y MBPP prueban la lógica y la sintaxis de manera efectiva, pero fallan cuando el código debe producir imágenes pedagógicas y dinámicas. Presentamos ManiBench, un punto de referencia especializado que evalúa el rendimiento de LLM en la generación de código Manim CE, donde la fidelidad temporal y la corrección de la API con reconocimiento de versión son fundamentales. ManiBench apunta a dos modos de falla clave: alucinaciones sintácticas (Python válido que hace referencia a API de Manim inexistentes o obsoletas) y deriva de lógica visual (imágenes visuales generadas que divergen de la lógica matemática prevista a través de errores de sincronización o relaciones causales faltantes). El punto de referencia comprende entre 150 y 200 problemas en cinco niveles de dificultad que abarcan cálculo, álgebra lineal, probabilidad, topología e inteligencia artificial, basados ​​en el análisis de la fuente ManimGL de 3Blue1Brown (53.000 líneas, 143 clases de escenas). La evaluación utiliza un marco de cuatro niveles que mide la ejecutabilidad, la tasa de error de conflicto de versiones, la puntuación de alineación y la puntuación de cobertura. Un marco de código abierto automatiza la evaluación a través de múltiples modelos y estrategias de estímulo. El código, los datos y el conjunto de pruebas comparativas están disponibles en esta URL https. y el conjunto de datos está alojado en esta URL https.

Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web