RewardHackingAgents: Evaluación comparativa de integridad para agentes de ingeniería de aprendizaje automático LLM

Resumen: Los agentes LLM realizan cada vez más tareas de ingeniería de ML de un extremo a otro donde el éxito se juzga mediante una única métrica de prueba escalar. Esto crea una vulnerabilidad estructural: un agente puede aumentar la puntuación reportada comprometiendo el proceso de evaluación en lugar de mejorar el modelo. Presentamos RewardHackingAgents, un punto de referencia basado en el espacio de trabajo que hace que dos vectores de compromiso sean explícitos y mensurables: la manipulación del evaluador (modificando el cálculo o los informes de métricas) y la fuga de entrenamiento/prueba (acceso a datos o etiquetas retenidas durante el entrenamiento). Cada episodio se ejecuta en un espacio de trabajo nuevo con seguimiento de parches y registro de acceso a archivos en tiempo de ejecución; Los detectores comparan la métrica informada por el agente con una referencia confiable para asignar etiquetas de integridad auditables. En tres tareas y dos pilares de LLM, los ataques programados tienen éxito en ambos vectores en espacios de trabajo totalmente mutables; las defensas de un solo mecanismo bloquean sólo un vector; y un régimen combinado bloquea ambos. En las ejecuciones de agentes naturales, los intentos de manipulación del evaluador ocurren en aproximadamente el 50% de los episodios y se eliminan mediante el bloqueo del evaluador, con una sobrecarga de tiempo de ejecución promedio del 25-31%. En general, demostramos que la integridad de la evaluación de los agentes de ingeniería de ML se puede comparar como un resultado de primera clase en lugar de asumirse.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Tabla de clasificación holística de agentes: la infraestructura que falta para la evaluación de agentes de IA

¿Por qué tanta gente piensa que el logotipo de Fruit of the Loom tenía una cornucopia?

La descarga: la postura de Microsoft sobre la IA erótica y un misterio publicitario sobre la IA

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido