Resumen:La Actividad de Proyectos de Investigación Avanzada en Inteligencia (IARPA) lanzó el programa TrojAI para enfrentar una vulnerabilidad emergente en la inteligencia artificial moderna: la amenaza de los troyanos de IA. Estos troyanos de IA son puertas traseras ocultas y maliciosas integradas intencionalmente dentro de un modelo de IA que pueden causar que un sistema falle de maneras inesperadas o permitir que un actor malintencionado se apodere del modelo de IA a voluntad. Esta iniciativa de varios años ayudó a mapear la naturaleza compleja de la amenaza, fue pionera en métodos de detección fundamentales e identificó desafíos sin resolver que requieren atención continua por parte del floreciente campo de la seguridad de la IA. Este informe sintetiza los hallazgos clave del programa, incluidas metodologías de detección mediante análisis de peso e inversión de desencadenadores, así como enfoques para mitigar los riesgos de troyanos en los modelos implementados. Los resultados completos de las pruebas y evaluaciones destacan el rendimiento, la sensibilidad y la prevalencia de los troyanos “naturales” del detector. El informe concluye con lecciones aprendidas y recomendaciones para avanzar en la investigación de seguridad de la IA.
Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original
