Aireg-Bench: modelos de lenguaje de evaluación comparativa que evalúa el cumplimiento de la regulación de la IA

Resumen: A medida que los gobiernos se mueven para regular la IA, existe un creciente interés en el uso de modelos de idiomas grandes (LLM) para evaluar si un sistema de IA cumple o no con una regulación dada de IA (AIR). Sin embargo, actualmente no hay forma de comparar el rendimiento de los LLM en esta tarea. Para llenar este vacío, presentamos aireg-bench: el primer conjunto de datos de referencia diseñado para probar qué tan bien LLM puede evaluar el cumplimiento de la Ley de AI de la UE (AIA). Creamos este conjunto de datos a través de un proceso de dos pasos: (1) al solicitar una LLM con instrucciones cuidadosamente estructuradas, generamos 120 extractos de documentación técnica (muestras), cada una que representa un sistema de IA ficticio, aunque plausible, de la tipo de IA, que puede producir un proveedor de IA para demostrar su cumplimiento con el aire; (2) Los expertos legales luego revisaron y anotaron cada muestra para indicar si, y de qué manera, el sistema de IA descrito allí viola artículos específicos de la AIA. El conjunto de datos resultante, junto con nuestra evaluación de si Frontier LLMS puede reproducir las etiquetas de cumplimiento de los expertos, proporciona un punto de partida para comprender las oportunidades y limitaciones de las herramientas de evaluación de cumplimiento aéreo basadas en LLM y establece un punto de referencia contra el cual se pueden comparar los LLM posteriores. El conjunto de datos y el código de evaluación están disponibles en esta URL HTTPS.

Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

RusT-Thread: una implementación práctica de un RTOS basado en Rust para dispositivos integrados con recursos limitados | Colección Técnica

Razonamiento de privacidad en contextos ambiguos

Escalado sobre escala: explorar el tiempo de prueba de escala Pareto en grandes modelos de razonamiento

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido