Resumen: A medida que los modelos de idiomas grandes (LLM) se implementan cada vez más como agentes autónomos en entornos de horizonte complejos y largos, es fundamental evaluar su capacidad para sabotear a los usuarios al buscar objetivos ocultos. Estudiamos la capacidad de Frontier LLM para evadir el monitoreo y lograr objetivos ocultos nocivos al completar una amplia gama de tareas realistas. Evaluamos una amplia gama de LLM de fronteras utilizando sombra (detección y evaluación de agentes dañinos sutiles) -arena, el primer conjunto de datos de evaluación de agentes altamente diversos para capacidades de sabotaje y monitoreo de los agentes de LLM. Shade-Arena consiste en pares complejos de tareas principales benignas y objetivos laterales dañinos en entornos complicados. Los agentes se evalúan sobre su capacidad para completar la tarea paralela sin parecer sospechoso de un monitor LLM. Al medir la capacidad del agente para (a) completar la tarea principal, (b) completar la tarea lateral y (c) evitar la detección, encontramos que los modelos fronterizos de mejor rendimiento obtienen un 27% (soneto Claude 3.7) y el 15% (Gemini 2.5 Pro) como agentes de sabotaje cuando se superponen por Claude 3.6 Sonnet. Para los modelos fronterizos actuales, el éxito en la tarea lateral se basa en gran medida en tener acceso a un panel de rascar oculto que no es visible para el monitor. También usamos Shade-Arena para medir las habilidades de monitoreo de los modelos, con el monitor superior (Gemini 2.5 Pro) logrando un AUC de 0.87 para distinguir transcripciones benignas y malignas. Encontramos que por ahora, los modelos aún luchan en el sabotaje debido a fallas en la ejecución de tareas principales de contexto largo. Sin embargo, nuestras mediciones ya demuestran la dificultad de monitorear los intentos de sabotaje sutiles, que esperamos solo aumentar en la cara de tareas más complejas y de horizonte más largo.
Publicado Originalme en export.arxiv.org El 22 de junio de 2025.
Ver Fuente Original