En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ITNet: una transformación integral que se puede aprender y que incluye convolución, atención y recurrencia

ITNet: una transformación integral que se puede aprender y que incluye convolución, atención y recurrencia

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Las redes convolucionales, las redes recurrentes y los transformadores codifican diferentes sesgos inductivos (localidad, memoria secuencial e interacción por pares dependiente del contenido) y se han mantenido matemáticamente distintos desde sus inicios. Mostramos que esta fragmentación no refleja una diversidad fundamental en cómo se deben procesar las señales, sino visiones incompletas de un único objeto matemático subyacente: una transformación integral que se puede aprender. Presentamos Integral Transform Network (ITNet), una arquitectura unificada construida alrededor de un núcleo aprendible que depende conjuntamente de posiciones y características. Este núcleo se implementa como una pequeña red neuronal, específicamente un MLP, que modela interacciones por pares, lo que permite al modelo adaptar su comportamiento a partir de los datos. Mostramos que la convolución, la autoatención (incluidos los de cabezales múltiples) y la recurrencia autorregresiva (incluidos LSTM, GRU, S4 y Mamba) surgen como casos especiales bajo parametrizaciones apropiadas, y que ITNet es un aproximador universal de operadores continuos. Para que esto sea práctico, desarrollamos la fusión de núcleos en mosaico, la integración Monte Carlo ponderada por importancia y la factorización de rango bajo aprendida, lo que permite un cálculo eficiente y escalable. Una arquitectura ITNet única con un operador compartido y codificadores livianos específicos de modalidad iguala o supera las líneas de base especializadas en ImageNet-1K, GLUE, ModelNet40, VQA,v2 y NLVR2. Los resultados demuestran que un único mecanismo de interacción aprendido puede recuperar el comportamiento de las tres familias arquitectónicas a partir de los datos.

Publicado originalmente en export.arxiv.org el 18 de junio de 2026.
Ver fuente original

admin

Usuario de administración del sitio web