AutoreProduction: reproducción automática de experimentos de IA con linaje de papel

Resumen: La reproducción eficiente del experimento es fundamental para acelerar el progreso en la inteligencia artificial. Sin embargo, la complejidad inherente de los procedimientos de diseño y capacitación de métodos presenta desafíos sustanciales para la automatización. En particular, los experimentos de reproducción a menudo requieren un conocimiento implícito específico del dominio no documentado explícitamente en los documentos originales. Para abordar esto, presentamos el algoritmo de linaje de papel, que identifica y extrae el conocimiento implícito de las referencias relevantes citadas por el documento objetivo. Sobre la base de esta idea, proponemos AutoreProduction, un marco de múltiples agentes capaz de reproducir automáticamente experimentos descritos en trabajos de investigación de manera de extremo a extremo. AutoreProductE mejora la ejecución del código mediante la generación de pruebas unitarias junto con el proceso de reproducción. Para evaluar la capacidad de reproducción, construimos ReproductuceBench, un punto de referencia anotado con implementaciones verificadas e introducimos métricas de evaluación novedosas para evaluar tanto la fidelidad de reproducción como de ejecución. Los resultados experimentales demuestran que la autorización de autorización superiores a las líneas de base de agentes fuertes existentes en las cinco métricas de evaluación por un margen máximo de más de $ 70 %$. En particular, en comparación con las implementaciones oficiales, AutoreProduce logra una brecha de rendimiento promedio de $ 22.1 %$ en $ 89.74 %$ de las ejecuciones de experimentos ejecutables. El código estará disponible en esta URL HTTPS.

Publicado Originalme en rss.arxiv.org El 27 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Sistema de modelo de lenguaje grande aumentado para recuperación para contraindicaciones de drogas integrales

OS de memoria del agente de IA

Mover: transporte óptimo multimodal con regularización de incrustación basada en volumen

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido