En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->RACA CAUSAL DE CABEZA: un marco para interpretar roles de la atención de atención en los transformadores

RACA CAUSAL DE CABEZA: un marco para interpretar roles de la atención de atención en los transformadores

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Presentamos la activación causal de la cabeza (CHG), un método escalable para interpretar los roles funcionales de los cabezales de atención en los modelos de transformadores. CHG aprende puertas blandas sobre las cabezas y les asigna una taxonomía causal, facilitando, interfiriendo o irrelevante, en función de su impacto en el rendimiento de la tarea. A diferencia de los enfoques anteriores en la interpretabilidad mecanicista, que están basadas en hipótesis y requieren plantillas de inmediato o etiquetas de destino, CHG se aplica directamente a cualquier conjunto de datos utilizando la predicción estándar de la siguiente token. Evaluamos CHG en múltiples modelos de idiomas grandes (LLM) en el modelo LLAMA 3 Family y diversas tareas, incluidas la sintaxis, el sentido común y el razonamiento matemático, y mostramos que los puntajes de CHG producen información causal, no simplemente correlacional, validada a través de análisis de mediación causal. También presentamos CHG contrastante, una variante que aísla los subcircuitos para componentes de tareas específicos. Nuestros hallazgos revelan que los LLM contienen múltiples subcircuitos escasos y suficientes, que los roles de la cabeza individual dependen de las interacciones con los demás (baja modularidad), y esa instrucción seguida y el aprendizaje en contexto dependen de mecanismos separables.

Publicado Originalme en rss.arxiv.org El 20 de mayo de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web