Resumen: ¿Pueden los agentes de grandes modelos de lenguaje descubrir objetivos de seguridad ocultos únicamente a través de la experiencia? Presentamos EPO-Safe (Optimización de avisos experienciales para agentes seguros), un marco en el que un LLM genera de forma iterativa planes de acción, recibe escasas advertencias binarias de peligro y desarrolla una especificación de comportamiento en lenguaje natural a través de la reflexión. A diferencia de los métodos de reflexión LLM estándar que se basan en comentarios textuales enriquecidos (por ejemplo, errores del compilador o respuestas detalladas del entorno), EPO-Safe demuestra que los LLM pueden realizar razonamientos de seguridad a partir de una señal estrictamente empobrecida en entornos estructurados y de baja dimensión: el agente nunca observa la función de rendimiento oculta $R^*$, solo un bit por paso de tiempo indica que una acción no era segura. Evaluamos cinco AI Safety Gridworlds (Leike et al., 2017) y cinco escenarios análogos basados en texto donde la recompensa visible $R$ puede diferir de $R^*$. EPO-Safe descubre comportamientos seguros en 1 o 2 rondas (5 a 15 episodios), produciendo especificaciones legibles por humanos con hipótesis explicativas correctas sobre los peligros (por ejemplo, “las celdas X son direccionalmente peligrosas: entrar desde el norte es peligroso”). Fundamentalmente, mostramos que la reflexión estándar impulsada por recompensas degrada activamente la seguridad: los agentes que reflexionan únicamente sobre la recompensa utilizan el bucle para justificar y acelerar la piratería de recompensas, lo que demuestra que la reflexión debe combinarse con un canal de seguridad dedicado para descubrir restricciones ocultas. Evaluamos además la solidez ante oráculos ruidosos: incluso cuando el 50 % de los pasos no peligrosos producen advertencias espurias, el rendimiento medio de la seguridad se degrada solo en un 15 % en promedio, aunque la sensibilidad depende del entorno, ya que la reflexión entre episodios filtra naturalmente señales inconsistentes. Cada especificación evolucionada funciona como un conjunto auditable de reglas de comportamiento fundamentadas que se descubren de forma autónoma a través de la interacción, en lugar de ser escritas por humanos como en la IA constitucional (Bai et al., 2022).
Publicado originalmente en export.arxiv.org el 27 de abril de 2026.
Ver fuente original
