En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->RewardHackingAgents: Evaluación comparativa de integridad para agentes de ingeniería de aprendizaje automático LLM

RewardHackingAgents: Evaluación comparativa de integridad para agentes de ingeniería de aprendizaje automático LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes LLM realizan cada vez más tareas de ingeniería de ML de un extremo a otro donde el éxito se juzga mediante una única métrica de prueba escalar. Esto crea una vulnerabilidad estructural: un agente puede aumentar la puntuación reportada comprometiendo el proceso de evaluación en lugar de mejorar el modelo. Presentamos RewardHackingAgents, un punto de referencia basado en el espacio de trabajo que hace que dos vectores de compromiso sean explícitos y mensurables: la manipulación del evaluador (modificando el cálculo o los informes de métricas) y la fuga de entrenamiento/prueba (acceso a datos o etiquetas retenidas durante el entrenamiento). Cada episodio se ejecuta en un espacio de trabajo nuevo con seguimiento de parches y registro de acceso a archivos en tiempo de ejecución; Los detectores comparan la métrica informada por el agente con una referencia confiable para asignar etiquetas de integridad auditables. En tres tareas y dos pilares de LLM, los ataques programados tienen éxito en ambos vectores en espacios de trabajo totalmente mutables; las defensas de un solo mecanismo bloquean sólo un vector; y un régimen combinado bloquea ambos. En las ejecuciones de agentes naturales, los intentos de manipulación del evaluador ocurren en aproximadamente el 50% de los episodios y se eliminan mediante el bloqueo del evaluador, con una sobrecarga de tiempo de ejecución promedio del 25-31%. En general, demostramos que la integridad de la evaluación de los agentes de ingeniería de ML se puede comparar como un resultado de primera clase en lugar de asumirse.

Publicado originalmente en export.arxiv.org el 12 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web