Resumen: Los modelos de lenguaje se diseñan tradicionalmente en torno a un enmascaramiento causal. En dominios con estructura espacial o relacional, el enmascaramiento causal a menudo se considera inapropiado y, en su lugar, se utilizan linealizaciones secuenciales. Sin embargo, la cuestión de si es viable aceptar la pérdida de información introducida por el enmascaramiento causal en datos no secuenciales ha recibido poco estudio directo, en parte porque pocos dominios ofrecen representaciones tanto espaciales como secuenciales del mismo conjunto de datos. En este trabajo investigamos esta cuestión en el ámbito del ajedrez, que naturalmente sustenta ambas representaciones. Entrenamos modelos de lenguaje con mecanismos de autoatención causales y bidireccionales en datos tanto espaciales (basados en tableros) como secuenciales (basados en movimientos). Nuestros resultados muestran que los modelos entrenados en estados espaciales del tablero – textit{incluso con enmascaramiento causal} – logran consistentemente una mayor fuerza de juego que los modelos entrenados en datos secuenciales. Si bien nuestros experimentos se realizan en ajedrez, nuestros resultados son metodológicos y pueden tener implicaciones más amplias: aplicar un enmascaramiento causal a datos espaciales es un procedimiento viable para entrenar LLM unimodales en datos espaciales y, en algunos dominios, es incluso preferible a la secuencialización.

Publicado originalmente en export.arxiv.org el 2 de noviembre de 2025.
Ver fuente original

Enmascaramiento causal en datos espaciales: un caso teórico de la información para aprender conjuntos de datos espaciales con modelos de lenguaje unimodales

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MITS: Razonamiento de búsqueda de árbol mejorado para LLM a través de información mutua puntual

La descarga: nuestro permafrost de descongelación y un futuro lleno de drones

Simulación cognitiva individualizada en modelos de lenguaje grandes: evaluación de diferentes métodos de representación cognitiva

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido