Resumen: La reproducción eficiente del experimento es fundamental para acelerar el progreso en la inteligencia artificial. Sin embargo, la complejidad inherente de los procedimientos de diseño y capacitación de métodos presenta desafíos sustanciales para la automatización. En particular, los experimentos de reproducción a menudo requieren un conocimiento implícito específico del dominio no documentado explícitamente en los documentos originales. Para abordar esto, presentamos el algoritmo de linaje de papel, que identifica y extrae el conocimiento implícito de las referencias relevantes citadas por el documento objetivo. Sobre la base de esta idea, proponemos AutoreProduction, un marco de múltiples agentes capaz de reproducir automáticamente experimentos descritos en trabajos de investigación de manera de extremo a extremo. AutoreProductE mejora la ejecución del código mediante la generación de pruebas unitarias junto con el proceso de reproducción. Para evaluar la capacidad de reproducción, construimos ReproductuceBench, un punto de referencia anotado con implementaciones verificadas e introducimos métricas de evaluación novedosas para evaluar tanto la fidelidad de reproducción como de ejecución. Los resultados experimentales demuestran que la autorización de autorización superiores a las líneas de base de agentes fuertes existentes en las cinco métricas de evaluación por un margen máximo de más de $ 70 %$. En particular, en comparación con las implementaciones oficiales, AutoreProduce logra una brecha de rendimiento promedio de $ 22.1 %$ en $ 89.74 %$ de las ejecuciones de experimentos ejecutables. El código estará disponible en esta URL HTTPS.
Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original