Resumen: Los modelos de lenguajes grandes (LLM, por sus siglas en inglés) han surgido recientemente como asistentes de codificación capaces que operan sobre grandes bases de código mediante exploración agente o generación de contexto completo. Los puntos de referencia existentes capturan una amplia gama de capacidades de codificación, como la resolución de problemas de GitHub, pero ninguno de ellos aísla y mide directamente la eficacia con la que los LLM aprovechan el contexto a nivel de repositorio durante la generación de código. Para abordar esto, presentamos ReCUBE, un punto de referencia en el que los LLM reconstruyen un archivo enmascarado dentro de un repositorio del mundo real, utilizando todos los archivos fuente restantes, especificaciones de dependencia y documentación como única fuente de contexto. ReCUBE evalúa el código reconstruido con casos de prueba conscientes del uso que simulan tanto la lógica del módulo interno como la integración externa entre archivos, lo que refleja patrones de uso de software del mundo real. Además, proponemos el kit de herramientas Caller-Centric Exploration (CCE), un conjunto de herramientas basadas en gráficos de dependencia que se pueden integrar en marcos de agentes para guiar a los agentes hacia los archivos de llamadas más relevantes durante la exploración del repositorio. Los experimentos en ocho modelos en cuatro entornos muestran que la utilización del contexto a nivel de repositorio sigue siendo un gran desafío incluso para los modelos más modernos, ya que GPT-5 logra solo una tasa de aprobación estricta del 37,57 % en el entorno de contexto completo. Los agentes mejorados con nuestro kit de herramientas CCE superan consistentemente todas las líneas de base en todos los modelos evaluados, con mejoras de hasta un 7,56 % en la tasa de aprobación estricta. Lanzamos nuestro marco de referencia, código y evaluación como código abierto para la comunidad de investigación de PNL.
Publicado originalmente en export.arxiv.org el 29 de marzo de 2026.
Ver fuente original
