FlatFormer: un modelo de seguimiento del conocimiento de transformador plano basado en inyección de sesgo cognitivo

Resumen: Los modelos de seguimiento de conocimientos (KT) se enfrentan a una “trampa de complejidad de rendimiento” crítica: capturar dinámicas cognitivas complejas como sesiones de aprendizaje y deterioro de la memoria generalmente requiere arquitecturas jerárquicas profundas, que incurren en costos computacionales prohibitivos para la implementación en tiempo real. Para resolver esto, proponemos FlatFormer, una arquitectura simplificada basada en el novedoso paradigma de diseño de “Inyección de información sobre apilamiento estructural”. A diferencia de los modelos jerárquicos con muchos parámetros, FlatFormer aprovecha un transformador plano estándar aumentado con dos mecanismos de inyección livianos: (i) una estrategia de codificación de entrada híbrida que combina identificadores de sesión que se pueden aprender con incrustaciones de pasos sinusoidales fijos; y (ii) un sesgo de ley de potencia precalculado integrado directamente en logits de atención para modelar explícitamente la curva de olvido. Amplios experimentos en cuatro conjuntos de datos a gran escala (por ejemplo, EdNet, Junyi) muestran que FlatFormer logra un rendimiento de última generación. Por ejemplo, en el conjunto de datos de EdNet, en comparación con la línea de base jerárquica más sólida (HiTSKT), su AUC absoluta aumentó en un 8,3 %, mientras que se utilizaron menos del 15 % de los parámetros, y la velocidad de inferencia fue aproximadamente tres veces más rápida. Estos resultados validan que la alta fidelidad cognitiva no requiere complejidad arquitectónica.

Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Exploración a través de la introspección: un modelo de recompensa autoconsciente

China descubrió cómo vender vehículos eléctricos. Ahora tiene que lidiar con sus baterías viejas.

Evolución de prototipos conscientes de la patología mediante desambiguación semántica impulsada por LLM para el diagnóstico multicéntrico de retinopatía diabética

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido