En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->FlatFormer: un modelo de seguimiento del conocimiento de transformador plano basado en inyección de sesgo cognitivo

FlatFormer: un modelo de seguimiento del conocimiento de transformador plano basado en inyección de sesgo cognitivo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de seguimiento de conocimientos (KT) se enfrentan a una “trampa de complejidad de rendimiento” crítica: capturar dinámicas cognitivas complejas como sesiones de aprendizaje y deterioro de la memoria generalmente requiere arquitecturas jerárquicas profundas, que incurren en costos computacionales prohibitivos para la implementación en tiempo real. Para resolver esto, proponemos FlatFormer, una arquitectura simplificada basada en el novedoso paradigma de diseño de “Inyección de información sobre apilamiento estructural”. A diferencia de los modelos jerárquicos con muchos parámetros, FlatFormer aprovecha un transformador plano estándar aumentado con dos mecanismos de inyección livianos: (i) una estrategia de codificación de entrada híbrida que combina identificadores de sesión que se pueden aprender con incrustaciones de pasos sinusoidales fijos; y (ii) un sesgo de ley de potencia precalculado integrado directamente en logits de atención para modelar explícitamente la curva de olvido. Amplios experimentos en cuatro conjuntos de datos a gran escala (por ejemplo, EdNet, Junyi) muestran que FlatFormer logra un rendimiento de última generación. Por ejemplo, en el conjunto de datos de EdNet, en comparación con la línea de base jerárquica más sólida (HiTSKT), su AUC absoluta aumentó en un 8,3 %, mientras que se utilizaron menos del 15 % de los parámetros, y la velocidad de inferencia fue aproximadamente tres veces más rápida. Estos resultados validan que la alta fidelidad cognitiva no requiere complejidad arquitectónica.

Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web