Resumen: La interpretabilidad mecanicista ha logrado avances sustanciales en la localización automática de circuitos, pero explicar qué hacen los componentes localizados sigue siendo laborioso y difícil de estandarizar. En este trabajo, estudiamos si los agentes del modelo de lenguaje (LM) pueden ayudar con este problema de explicación una vez que ya se ha identificado un circuito. Presentamos AgenticInterpBench, un punto de referencia para la explicación de circuitos construido a partir de 84 circuitos de transformadores semisintéticos con 163 anotaciones a nivel de componentes. Proponemos HyVE (Hipotetizar, Validar, Explicar), un explicador agente que analiza cada componente a través de un ciclo iterativo de observación, generación de hipótesis y validación causal, produciendo eventualmente una explicación a nivel de componente y una descripción de tarea a nivel de circuito. A través de cuatro redes troncales de LM, HyVE recupera explicaciones útiles a nivel de componentes y tareas, pero ninguna columna vertebral es uniformemente mejor. Nuestro análisis muestra que las columnas vertebrales sólidas generalmente forman hipótesis basadas en la observación, mientras que las fallas surgen con mayor frecuencia más adelante en el ciclo de validación, a través de planes de validación incompletos, errores de ejecución de código o hipótesis no resueltas. Un estudio de caso sobre un circuito aritmético en Llama-3-8B muestra que la misma formulación puede extenderse más allá de los puntos de referencia semisintéticos hasta modelos entrenados de forma natural. En general, los agentes LM son explicadores de circuitos prometedores, pero la validación confiable sigue siendo el principal obstáculo.
Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original
