ITNet: una transformación integral que se puede aprender y que incluye convolución, atención y recurrencia

Resumen: Las redes convolucionales, las redes recurrentes y los transformadores codifican diferentes sesgos inductivos (localidad, memoria secuencial e interacción por pares dependiente del contenido) y se han mantenido matemáticamente distintos desde sus inicios. Mostramos que esta fragmentación no refleja una diversidad fundamental en cómo se deben procesar las señales, sino visiones incompletas de un único objeto matemático subyacente: una transformación integral que se puede aprender. Presentamos Integral Transform Network (ITNet), una arquitectura unificada construida alrededor de un núcleo aprendible que depende conjuntamente de posiciones y características. Este núcleo se implementa como una pequeña red neuronal, específicamente un MLP, que modela interacciones por pares, lo que permite al modelo adaptar su comportamiento a partir de los datos. Mostramos que la convolución, la autoatención (incluidos los de cabezales múltiples) y la recurrencia autorregresiva (incluidos LSTM, GRU, S4 y Mamba) surgen como casos especiales bajo parametrizaciones apropiadas, y que ITNet es un aproximador universal de operadores continuos. Para que esto sea práctico, desarrollamos la fusión de núcleos en mosaico, la integración Monte Carlo ponderada por importancia y la factorización de rango bajo aprendida, lo que permite un cálculo eficiente y escalable. Una arquitectura ITNet única con un operador compartido y codificadores livianos específicos de modalidad iguala o supera las líneas de base especializadas en ImageNet-1K, GLUE, ModelNet40, VQA,v2 y NLVR2. Los resultados demuestran que un único mecanismo de interacción aprendido puede recuperar el comportamiento de las tres familias arquitectónicas a partir de los datos.

Publicado originalmente en export.arxiv.org el 18 de junio de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Las culturas materiales miran al pasado para construir el futuro

Por qué no puede perderse la Cumbre Europea de Código Abierto de este año

Mezcla de difusión: inferencia de alineación de preferencias múltiples para modelos de difusión

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido