En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Sobre la evaluación de la ingeniería de inteligencia general artificial

Sobre la evaluación de la ingeniería de inteligencia general artificial

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: discutimos los desafíos y proponemos un marco para evaluar a los agentes de inteligencia general artificial de ingeniería (EAGI). Consideramos Eagi como una especialización de la inteligencia general artificial (AGI), considerada capaz de abordar una amplia gama de problemas en la ingeniería de los sistemas físicos y los controladores asociados. Excluimos la ingeniería de software para un alcance de la EAGI y esperamos agentes dedicados de ingeniería de software para abordar los desafíos de implementación de software. Similar a los ingenieros humanos, los agentes de EAGI deben poseer una combinación única de conocimiento antecedentes (recordar y recuperar) de hechos y métodos, demostrar familiaridad con las herramientas y procesos, exhibir una comprensión profunda de los componentes industriales y las familias de diseño bien conocidas, y poder participar en la resolución creativa de problemas (analizar y sintetizar), transferir ideas adquiridas en un contexto a otro. Dado este amplio mandato, evaluar y calificar el desempeño de los agentes EAGI es un desafío en sí mismo y, posiblemente, un habilitador crítico para el desarrollo de agentes de EAGI. En este documento, abordamos este desafío proponiendo un marco de evaluación extensible que se especialice y base a la taxonomía de Bloom, un marco para evaluar el aprendizaje humano que también se ha utilizado recientemente para evaluar LLMS, en un contexto de diseño de ingeniería. Nuestro marco propuesto avanza el estado del arte en la evaluación comparativa y la evaluación de los agentes de IA en términos de lo siguiente: (a) desarrollar una rica taxonomía de preguntas de evaluación que abarcan desde el conocimiento metodológico hasta los problemas de diseño del mundo real; (b) motivar un marco de evaluación conectable que puede evaluar no solo las respuestas textuales, sino también evaluar artefactos de diseño estructurado como modelos CAD y modelos SYSML; y (c) describir un procedimiento automatizable para personalizar el punto de referencia de evaluación a diferentes contextos de ingeniería.

Publicado Originalme en rss.arxiv.org El 18 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web