En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Posición: la seguridad de IA debe adoptar una perspectiva antifrágil

Posición: la seguridad de IA debe adoptar una perspectiva antifrágil

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Este documento de posición sostiene que la investigación moderna de IA debe adoptar una perspectiva antifrágil sobre la seguridad, una en la que la capacidad del sistema para garantizar la seguridad de IA a largo plazo, como el manejo de eventos raros o fuera de distribución (OOD) se expande con el tiempo. Los puntos de referencia estáticos convencionales y las pruebas de robustez de un solo disparo pasan por alto la realidad que evolucionan los entornos y que los modelos, si no se cuestionan, pueden derivarse en la mala forma (por ejemplo, piratería de recompensas, sobrecoptimización o atrofia de capacidades más amplias). Argumentamos que un enfoque antifrágil, en lugar de esforzarse por reducir rápidamente las incertidumbres actuales, el énfasis es aprovechar esas incertidumbres para prepararse mejor para las incertidumbres potencialmente mayores e impredecibles en el futuro, es fundamental para la confiabilidad a largo plazo de los sistemas de ML abiertos. En este documento de posición, primero identificamos limitaciones clave de las pruebas estáticas, incluida la diversidad de escenarios, la piratería de recompensas y la sobreineación excesiva. Luego exploramos el potencial de las soluciones antifrágiles para gestionar eventos raros. De manera crucial, abogamos por una recalibración fundamental de los métodos utilizados para medir, comparar y mejorar continuamente la seguridad de la IA a largo plazo, complementando los enfoques de robustez existentes al proporcionar pautas éticas y prácticas para fomentar una comunidad antifrágica de seguridad de IA.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web