Resumen: A medida que los modelos de idiomas grandes (LLM) se vuelven cada vez más capaces y ampliamente adoptados, los puntos de referencia juegan un papel central en la evaluación de su utilidad práctica. Por ejemplo, SWE-Bench Verified ha surgido como un punto de referencia crítico para evaluar las habilidades de ingeniería de software de LLMS, particularmente su aptitud para resolver problemas de GitHub en el mundo real. Los LLM recientes muestran un rendimiento impresionante en el banco SWE, lo que lleva al optimismo sobre su capacidad para tareas de codificación compleja. Sin embargo, los protocolos de evaluación actuales pueden exagerar las verdaderas capacidades de estos modelos. Es crucial distinguir la capacidad generalizable de resolución de problemas de LLMS y otros artefactos aprendidos. En este trabajo, presentamos una tarea de diagnóstico: identificación de ruta de archivo de descripciones de problemas solo, para investigar el conocimiento subyacente de los modelos. Presentamos evidencia empírica de que las ganancias de rendimiento en SWE-Bench-verificadas pueden estar parcialmente impulsadas por la memorización en lugar de la resolución de problemas genuino. Mostramos que los modelos de vanguardia alcanzan una precisión de hasta un 76% en la identificación de rutas de archivos con errores utilizando solo descripciones de problemas, sin acceso a la estructura del repositorio. Este rendimiento es simplemente de hasta el 53% en las tareas de los repositorios no incluidos en el banco SWE, lo que señala la posible contaminación o memorización de datos. Estos hallazgos plantean preocupaciones sobre la validez de los resultados existentes y subrayan la necesidad de puntos de referencia más robustos y resistentes a la contaminación para evaluar de manera confiable las habilidades de codificación de LLM.
Publicado Originalme en rss.arxiv.org El 16 de junio de 2025.
Ver Fuente Original