En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SciTrust 2.0: un marco integral para evaluar la confiabilidad de modelos de lenguaje grandes en aplicaciones científicas

SciTrust 2.0: un marco integral para evaluar la confiabilidad de modelos de lenguaje grandes en aplicaciones científicas

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM) han demostrado un potencial transformador en la investigación científica, sin embargo, su implementación en contextos de alto riesgo plantea importantes preocupaciones sobre la confiabilidad. Aquí presentamos SciTrust 2.0, un marco integral para evaluar la confiabilidad de LLM en aplicaciones científicas en cuatro dimensiones: veracidad, solidez adversarial, seguridad científica y ética científica. Nuestro marco incorpora puntos de referencia de veracidad novedosos y abiertos desarrollados a través de un proceso de ajuste de reflexión verificado y validación de expertos, junto con un punto de referencia de ética novedoso para contextos de investigación científica que cubre ocho subcategorías que incluyen investigación de doble uso y sesgo. Evaluamos siete LLM destacados, incluidos cuatro modelos especializados en ciencias y tres modelos industriales de propósito general, utilizando múltiples métricas de evaluación que incluyen precisión, medidas de similitud semántica y puntuación basada en LLM. Los modelos industriales de propósito general superaron en general a los modelos científicos especializados en cada dimensión de confiabilidad, y GPT-o4-mini demostró un rendimiento superior en evaluaciones de veracidad y solidez adversaria. Los modelos científicos especializados mostraron deficiencias significativas en las capacidades de razonamiento lógico y ético, junto con vulnerabilidades preocupantes en las evaluaciones de seguridad, particularmente en dominios de alto riesgo como la bioseguridad y las armas químicas. Al abrir nuestro marco, proporcionamos una base para desarrollar sistemas de IA más confiables y promover la investigación sobre la seguridad y la ética de los modelos en contextos científicos.

Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web