¿Pueden los agentes del modelo de lenguaje ser útiles explicadores de circuitos en la interpretabilidad mecanicista?
Resumen: La interpretabilidad mecanicista ha logrado avances sustanciales en la localización automática de circuitos, pero explicar qué hacen los componentes localizados sigue siendo laborioso y difícil de estandarizar. En este trabajo, estudiamos si los agentes del modelo de lenguaje (LM) pueden ayudar con este problema de explicación una vez que ya se ha identificado un circuito.
Leer más →