Resumen: En tres dominios diversos: matemáticas de competencia (AIME 2025), planificación de robótica (LLM-BabyBench) y razonamiento de parentesco (CLUTRR), VeryTrace mejora la precisión sobre líneas de base de tiro cero en LLM de última generación sin requerir capacitación específica de dominio o ejemplos en contexto, lo que demuestra que la verificación de seguimiento formalizada logra precisión y generalización.
Publicado originalmente en export.arxiv.org el 23 de junio de 2026.
Ver fuente original
