Más allá de los escalares: evaluación y comprensión del razonamiento LLM a través del progreso y la estabilidad geométricos

Resumen: La evaluación de la confiabilidad del LLM mediante probabilidades escalares a menudo no logra capturar la dinámica estructural del razonamiento. Presentamos TRACED, un marco que evalúa la calidad del razonamiento a través de cinemática geométrica fundamentada teóricamente. Al descomponer las huellas del razonamiento en Progreso (desplazamiento) y Estabilidad (curvatura), revelamos una divergencia topológica distinta: el razonamiento correcto se manifiesta como trayectorias estables y de alto progreso, mientras que las alucinaciones se caracterizan por patrones inestables y de bajo progreso (desplazamiento estancado con fluctuaciones de alta curvatura). Aprovechando estas firmas, nuestro marco probabilístico logra un rendimiento competitivo y una solidez superior en diversos puntos de referencia. Fundamentalmente, TRACED une la geometría y la cognición al asignar una alta curvatura a los “bucles de vacilación” y el desplazamiento a la “acumulación de certeza”, ofreciendo una lente física para decodificar la dinámica interna del pensamiento de la máquina.

Publicado originalmente en export.arxiv.org el 11 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

La descarga: la red de vigilancia de Chicago y la construcción de mejores sujetadores

Proyección del colector de activación: liberación de comportamientos específicos de tareas de las arquitecturas LLM

Mind the Cotte: habilitando el diálogo de cotización en LLM a través de módulos plug-and-play

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido