Informe final sobre troyanos en inteligencia artificial (TrojAI)

Resumen:La Actividad de Proyectos de Investigación Avanzada en Inteligencia (IARPA) lanzó el programa TrojAI para enfrentar una vulnerabilidad emergente en la inteligencia artificial moderna: la amenaza de los troyanos de IA. Estos troyanos de IA son puertas traseras ocultas y maliciosas integradas intencionalmente dentro de un modelo de IA que pueden causar que un sistema falle de maneras inesperadas o permitir que un actor malintencionado se apodere del modelo de IA a voluntad. Esta iniciativa de varios años ayudó a mapear la naturaleza compleja de la amenaza, fue pionera en métodos de detección fundamentales e identificó desafíos sin resolver que requieren atención continua por parte del floreciente campo de la seguridad de la IA. Este informe sintetiza los hallazgos clave del programa, incluidas metodologías de detección mediante análisis de peso e inversión de desencadenadores, así como enfoques para mitigar los riesgos de troyanos en los modelos implementados. Los resultados completos de las pruebas y evaluaciones destacan el rendimiento, la sensibilidad y la prevalencia de los troyanos “naturales” del detector. El informe concluye con lecciones aprendidas y recomendaciones para avanzar en la investigación de seguridad de la IA.

Publicado originalmente en export.arxiv.org el 22 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Reconocimiento de objetivos dinámicos generales

ME $^3 $ -BEV: aprendizaje de refuerzo profundo mejorado de Mamba para conducir autónomo de extremo a extremo con percepción BEV

La ilusión de la equidad: auditoría de intervenciones de equidad con estudios de auditoría

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido