Resumen: El código fuente generalmente está formateado con elementos como la sangría y las nuevas líneas para mejorar la legibilidad para los desarrolladores humanos. Sin embargo, estas ayudas visuales no parecen ser beneficiosas para los modelos de lenguaje grande (LLM) de la misma manera, ya que el código se procesa como una secuencia lineal de tokens. Además, estos tokens adicionales pueden conducir a mayores costos computacionales y tiempos de respuesta más largos para los LLM. Si dichos elementos de formato no son esenciales para LLM, podemos reducir dichos costos eliminándolos del código. Para determinar el papel desempeñado al formatear elementos, realizamos un estudio empírico integral para evaluar el impacto del formato del código en el rendimiento y la eficiencia de LLM. A través de experimentos a gran escala en tareas de finalización de código de relleno medio en cuatro lenguajes de programación (Java, Python, C ++, C #) y diez LLM, incluidos los modelos comerciales y de código abierto, analizamos sistemáticamente el recuento de tokens y el rendimiento cuando se eliminan elementos de formato. Los resultados clave indican que las LLM pueden mantener el rendimiento en el código formateado y el código sin formato, logrando una reducción de token de entrada promedio de 24.5 % con reducciones de token de salida insignificantes. Esto hace que la eliminación del formato de código sea una estrategia de optimización práctica para mejorar la eficiencia de LLM. La exploración adicional revela que tanto la provisión como el ajuste fino pueden conducir a reducciones significativas (hasta 36.1 %) en la longitud del código de salida sin comprometer la corrección. Para facilitar aplicaciones prácticas, desarrollamos una herramienta de transformación de código bidireccional para el procesamiento de formatos, que puede integrarse perfectamente en los flujos de trabajo de inferencia LLM existentes, asegurando tanto la legibilidad humana como la eficiencia de LLM.
Publicado Originalme en export.arxiv.org El 20 de agosto de 2025.
Ver Fuente Original