SciTrust 2.0: un marco integral para evaluar la confiabilidad de modelos de lenguaje grandes en aplicaciones científicas

Resumen: Los modelos de lenguajes grandes (LLM) han demostrado un potencial transformador en la investigación científica, sin embargo, su implementación en contextos de alto riesgo plantea importantes preocupaciones sobre la confiabilidad. Aquí presentamos SciTrust 2.0, un marco integral para evaluar la confiabilidad de LLM en aplicaciones científicas en cuatro dimensiones: veracidad, solidez adversarial, seguridad científica y ética científica. Nuestro marco incorpora puntos de referencia de veracidad novedosos y abiertos desarrollados a través de un proceso de ajuste de reflexión verificado y validación de expertos, junto con un punto de referencia de ética novedoso para contextos de investigación científica que cubre ocho subcategorías que incluyen investigación de doble uso y sesgo. Evaluamos siete LLM destacados, incluidos cuatro modelos especializados en ciencias y tres modelos industriales de propósito general, utilizando múltiples métricas de evaluación que incluyen precisión, medidas de similitud semántica y puntuación basada en LLM. Los modelos industriales de propósito general superaron en general a los modelos científicos especializados en cada dimensión de confiabilidad, y GPT-o4-mini demostró un rendimiento superior en evaluaciones de veracidad y solidez adversaria. Los modelos científicos especializados mostraron deficiencias significativas en las capacidades de razonamiento lógico y ético, junto con vulnerabilidades preocupantes en las evaluaciones de seguridad, particularmente en dominios de alto riesgo como la bioseguridad y las armas químicas. Al abrir nuestro marco, proporcionamos una base para desarrollar sistemas de IA más confiables y promover la investigación sobre la seguridad y la ética de los modelos en contextos científicos.

Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El nuevo transmisor podría hacer que los dispositivos inalámbricos sean más eficientes en la energía

Maestro: generación de texto a imagen a través de autoinscripción a través de la orquestación del agente

La red de abstracción causal: teoría y aprendizaje

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido