Posición: la seguridad de IA debe adoptar una perspectiva antifrágil

Resumen: Este documento de posición sostiene que la investigación moderna de IA debe adoptar una perspectiva antifrágil sobre la seguridad, una en la que la capacidad del sistema para garantizar la seguridad de IA a largo plazo, como el manejo de eventos raros o fuera de distribución (OOD) se expande con el tiempo. Los puntos de referencia estáticos convencionales y las pruebas de robustez de un solo disparo pasan por alto la realidad que evolucionan los entornos y que los modelos, si no se cuestionan, pueden derivarse en la mala forma (por ejemplo, piratería de recompensas, sobrecoptimización o atrofia de capacidades más amplias). Argumentamos que un enfoque antifrágil, en lugar de esforzarse por reducir rápidamente las incertidumbres actuales, el énfasis es aprovechar esas incertidumbres para prepararse mejor para las incertidumbres potencialmente mayores e impredecibles en el futuro, es fundamental para la confiabilidad a largo plazo de los sistemas de ML abiertos. En este documento de posición, primero identificamos limitaciones clave de las pruebas estáticas, incluida la diversidad de escenarios, la piratería de recompensas y la sobreineación excesiva. Luego exploramos el potencial de las soluciones antifrágiles para gestionar eventos raros. De manera crucial, abogamos por una recalibración fundamental de los métodos utilizados para medir, comparar y mejorar continuamente la seguridad de la IA a largo plazo, complementando los enfoques de robustez existentes al proporcionar pautas éticas y prácticas para fomentar una comunidad antifrágica de seguridad de IA.

Publicado Originalme en export.arxiv.org El 17 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

¿Ves lo que me refiero? Cue: un modelo cognitivo de explicaciones de comprensión

Aprendizaje de refuerzo simbólico constructivo a través de la lógica intuicionista e inferencia de cadena de objetivos

Hiperheurísticas de aprendizaje por refuerzo profundo basadas en políticas para problemas de programación de talleres

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido