Resumen: La tokenización de codificación de pares de bytes es estadísticamente eficiente para la compresión de vocabulario, pero semánticamente ciega a entidades técnicas estructuradas, fragmentando cantidades físicas, números, unidades y expresiones simbólicas en subpalabras léxicas arbitrarias. Presentamos TOTEN, un marco de tokenización ontológica basado en el conocimiento que reemplaza la derivación estadística con una clasificación declarativa basada en una ontología formal de entidades de ingeniería (OEE). Formalizamos TOTEN como la triple : la ontología reúne tipos, principios estructurales, relaciones de composición e invariantes preservables; la función de clasificación asigna texto sin formato a regiones escritas; y la familia de instanciadores produce una representación estructurada autodescriptiva. La robustez se deriva del acoplamiento determinista con tres oráculos externos: Pint (dimensional), Base de datos de caracteres Unicode (tipográfico) y RSLP (morfología portuguesa). La evaluación intrínseca cubre cuatro propiedades verificables por construcción (atomicidad ontológica, equivalencia dimensional, robustez tipográfica y reconstrucción numérica) sobre un punto de referencia interno validado físicamente (EngQuant, N=800) y cuatro corpus externos portugueses brasileños (N=1771 casos elegibles). También informamos el recuerdo de la detección, distinguiendo la cobertura de la atomicidad condicional. Contra ocho líneas de base de última generación, TOTEN logra una atomicidad ontológica unitaria en todos los contrastes y una reconstrucción numérica de 0,775-0,904 en corpus externos, frente a 0,627-0,703 para la mejor línea de base (Quantulum3); en EngQuant, 0,780 frente a 0,340. Las diferencias son estadísticamente significativas (McNemar con corrección de Holm). La correlación de Spearman entre las clasificaciones internas y externas confirma la validez concurrente del punto de referencia de control. La equivalencia dimensional muestra paridad estadística con Pint, el oráculo del cual el sistema hereda la autoridad dimensional.
Publicado originalmente en export.arxiv.org el 18 de junio de 2026. Ver fuente original