En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->SciRisk-Bench: un punto de referencia consciente de la dimensión del riesgo para la seguridad de AI4Science

SciRisk-Bench: un punto de referencia consciente de la dimensión del riesgo para la seguridad de AI4Science

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM) están cada vez más integrados en los flujos de trabajo de IA para la ciencia (AI4Science), desde la respuesta a preguntas científicas y el análisis de la literatura hasta la planificación de laboratorio y el descubrimiento autónomo. Este progreso crea una necesidad urgente de puntos de referencia de seguridad que evalúen no solo la competencia científica, sino también si los modelos reconocen y evitan riesgos en contextos científicos de alto riesgo. Los conjuntos de datos de seguridad existentes de AI4Science cubren varias disciplinas y formatos de tareas, dejando las dimensiones de riesgo subyacentes poco especificadas. Presentamos textbf{SciRisk-Bench}, un punto de referencia diseñado para evaluar la seguridad de AI4Science desde dos perspectivas complementarias: dimensiones de riesgo explícitas y disciplinas científicas. SciRisk-Bench cubre 7 disciplinas, 31 subdisciplinas y 10 dimensiones de riesgo. En la sección experimental, evaluamos tanto los LLM convencionales como los LLM orientados a la ciencia en todas las dimensiones, disciplinas y subdisciplinas de riesgo, lo que permite un diagnóstico detallado de dónde los modelos científicos siguen siendo inseguros.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web