Resumen: Los enfoques históricos del aprendizaje de representación de tablas (TRL) han adoptado en gran medida los paradigmas secuenciales del procesamiento del lenguaje natural (PLN). Argumentamos que esta linealización de las tablas descarta su estructura geométrica y relacional esencial, creando representaciones que son frágiles ante las permutaciones de diseño. Este artículo presenta la Hipótesis de Representación Platónica (PRH) para tablas, postulando que un espacio latente semánticamente robusto para el razonamiento de tablas debe ser intrínsecamente Invariante de Permutación (PI). Para fundamentar esta hipótesis, primero realizamos un análisis retrospectivo de las tareas de razonamiento en tablas, destacando el sesgo generalizado de serialización que compromete la integridad estructural. Luego proponemos un marco formal para diagnosticar este sesgo, introduciendo dos métricas de principios basadas en la alineación centrada del núcleo (CKA): (i) PI, que mide la deriva de incrustación bajo un trastorno estructural completo, y (ii) rho, una métrica basada en Spearman que rastrea la convergencia de estructuras latentes hacia una forma canónica a medida que la información estructural se restaura incrementalmente. Nuestro análisis empírico cuantifica un defecto esperado en los modelos de lenguaje grande (LLM) modernos: incluso las permutaciones de diseño menores inducen cambios semánticos significativos y desproporcionados en las incrustaciones de sus tablas. Esto expone una vulnerabilidad fundamental en los sistemas RAG, en los que la recuperación de tablas se vuelve frágil ante el ruido dependiente del diseño en lugar del contenido semántico. En respuesta, presentamos una arquitectura de codificador TRL novedosa y consciente de la estructura que aplica explícitamente el principio cognitivo de la alineación del encabezado de la celda. Este modelo demuestra una estabilidad geométrica superior y avanza hacia el ideal PI. Nuestro trabajo proporciona tanto una crítica fundamental de los codificadores de tablas linealizados como el andamiaje teórico para la recuperación semánticamente estable e invariante de permutación, trazando una nueva dirección para el razonamiento de tablas en los sistemas de información.
Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original
