GrandCode: alcanzar el nivel de gran maestro en programación competitiva mediante el aprendizaje por refuerzo agente

Resumen:La programación competitiva sigue siendo uno de los últimos bastiones humanos en la codificación contra la IA. El mejor sistema de IA hasta la fecha todavía tiene un rendimiento inferior al de la mejor programación competitiva humana: el mejor resultado más reciente, Gemini~3 Deep Think de Google, alcanzó el octavo lugar incluso sin ser evaluado en condiciones de competencia en vivo. En este trabajo, presentamos GrandCode, un sistema RL multiagente diseñado para programación competitiva. La capacidad de GrandCode se atribuye a dos factores clave: (1) organiza una variedad de módulos agentes (propuesta de hipótesis, solucionador, generador de pruebas, resumen, etc.) y los mejora conjuntamente mediante RL posterior a la capacitación y en el momento de las pruebas en línea; (2) Presentamos Agentic GRPO diseñado específicamente para implementaciones de agentes en varias etapas con recompensas retrasadas y la grave deriva fuera de la política que prevalece en la RL agente. GrandCode es el primer sistema de IA que vence consistentemente a todos los participantes humanos en concursos en vivo de programación competitiva: en las tres competencias en vivo de Codeforces más recientes, es decir, Ronda~1087 (21 de marzo de 2026), Ronda~1088 (28 de marzo de 2026) y Ronda~1089 (29 de marzo de 2026), GrandCode ocupó el primer lugar en todas ellas, superando a todos los participantes humanos, incluidos los grandes maestros legendarios. GrandCode muestra que los sistemas de IA han llegado a un punto en el que superan a los programadores humanos más fuertes en las tareas de codificación más competitivas.

Publicado originalmente en export.arxiv.org el 5 de abril de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Pinchar la brecha en la IA oftálmica: MM-Retinal-REAUNTERSET y Modelo de OphthareRasion hacia el razonamiento multimodal dinámico

Cumplimiento de ragulación: un gráfico de conocimiento de múltiples agentes para QA regulatorio

“No existe una pregunta tonta”, pero hay buenos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido