En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Evaluación de modelos de idiomas grandes para tareas de ingeniería del mundo real

Evaluación de modelos de idiomas grandes para tareas de ingeniería del mundo real

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de idiomas grandes (LLM) son transformadores no solo para actividades diarias sino también para tareas de ingeniería. Sin embargo, las evaluaciones actuales de LLM en ingeniería exhiben dos deficiencias críticas: (i) la dependencia de casos de uso simplificados, a menudo adaptados de los materiales de examen donde la corrección es fácilmente verificable, y (ii) el uso de escenarios ad hoc que capturan insuficientemente competencias críticas de ingeniería. En consecuencia, la evaluación de LLM en problemas complejos de ingeniería del mundo real permanece en gran medida inexplorada. Este documento aborda esta brecha mediante la introducción de una base de datos curada que comprende más de 100 preguntas derivadas de escenarios de ingeniería auténticos orientados a la producción, diseñados sistemáticamente para cubrir las competencias centrales como el diseño del producto, el pronóstico y el diagnóstico. Usando este conjunto de datos, evaluamos cuatro LLM de última generación, incluidas las instancias basadas en la nube y alojadas localmente, para investigar sistemáticamente su desempeño en tareas de ingeniería complejas. Nuestros resultados muestran que las LLM demuestran fortalezas en el razonamiento temporal y estructural básico, pero luchan significativamente con el razonamiento abstracto, el modelado formal y la lógica de ingeniería sensible al contexto.

Publicado Originalme en rss.arxiv.org El 20 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web