SciRisk-Bench: un punto de referencia consciente de la dimensión del riesgo para la seguridad de AI4Science

Resumen: Los modelos de lenguajes grandes (LLM) están cada vez más integrados en los flujos de trabajo de IA para la ciencia (AI4Science), desde la respuesta a preguntas científicas y el análisis de la literatura hasta la planificación de laboratorio y el descubrimiento autónomo. Este progreso crea una necesidad urgente de puntos de referencia de seguridad que evalúen no solo la competencia científica, sino también si los modelos reconocen y evitan riesgos en contextos científicos de alto riesgo. Los conjuntos de datos de seguridad existentes de AI4Science cubren varias disciplinas y formatos de tareas, dejando las dimensiones de riesgo subyacentes poco especificadas. Presentamos textbf{SciRisk-Bench}, un punto de referencia diseñado para evaluar la seguridad de AI4Science desde dos perspectivas complementarias: dimensiones de riesgo explícitas y disciplinas científicas. SciRisk-Bench cubre 7 disciplinas, 31 subdisciplinas y 10 dimensiones de riesgo. En la sección experimental, evaluamos tanto los LLM convencionales como los LLM orientados a la ciencia en todas las dimensiones, disciplinas y subdisciplinas de riesgo, lo que permite un diagnóstico detallado de dónde los modelos científicos siguen siendo inseguros.

Publicado originalmente en export.arxiv.org el 17 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Radar: un marco de atribución guiado por el razonamiento para el análisis de datos visuales explicables

DeepContext: Detección con estado en tiempo real de deriva de intención adversaria de múltiples turnos en LLM

Generalización de agentes basados ​​en modelos de idiomas grandes: una encuesta integral

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido

Generalización de agentes basados en modelos de idiomas grandes: una encuesta integral