Sobre la evaluación de la ingeniería de inteligencia general artificial

Resumen: discutimos los desafíos y proponemos un marco para evaluar a los agentes de inteligencia general artificial de ingeniería (EAGI). Consideramos Eagi como una especialización de la inteligencia general artificial (AGI), considerada capaz de abordar una amplia gama de problemas en la ingeniería de los sistemas físicos y los controladores asociados. Excluimos la ingeniería de software para un alcance de la EAGI y esperamos agentes dedicados de ingeniería de software para abordar los desafíos de implementación de software. Similar a los ingenieros humanos, los agentes de EAGI deben poseer una combinación única de conocimiento antecedentes (recordar y recuperar) de hechos y métodos, demostrar familiaridad con las herramientas y procesos, exhibir una comprensión profunda de los componentes industriales y las familias de diseño bien conocidas, y poder participar en la resolución creativa de problemas (analizar y sintetizar), transferir ideas adquiridas en un contexto a otro. Dado este amplio mandato, evaluar y calificar el desempeño de los agentes EAGI es un desafío en sí mismo y, posiblemente, un habilitador crítico para el desarrollo de agentes de EAGI. En este documento, abordamos este desafío proponiendo un marco de evaluación extensible que se especialice y base a la taxonomía de Bloom, un marco para evaluar el aprendizaje humano que también se ha utilizado recientemente para evaluar LLMS, en un contexto de diseño de ingeniería. Nuestro marco propuesto avanza el estado del arte en la evaluación comparativa y la evaluación de los agentes de IA en términos de lo siguiente: (a) desarrollar una rica taxonomía de preguntas de evaluación que abarcan desde el conocimiento metodológico hasta los problemas de diseño del mundo real; (b) motivar un marco de evaluación conectable que puede evaluar no solo las respuestas textuales, sino también evaluar artefactos de diseño estructurado como modelos CAD y modelos SYSML; y (c) describir un procedimiento automatizable para personalizar el punto de referencia de evaluación a diferentes contextos de ingeniería.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Programa de Trabajo 2025 Horizonte Europa. Clúster 4: Digital E Industria

Cuando los modelos saben más de lo que pueden explicar: cuantificar la transferencia de conocimiento en la colaboración de Human-AI

módulos inteligentes alimentados por la innovación de la impulso de Taiwanese en tostado de café, hornear té y agricultura de microalgas – Final

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido