Resumen:Presentamos LongCat-Flash-Thinking-2601, un modelo de razonamiento de mezcla de expertos (MoE) de código abierto de 560 mil millones de parámetros con una capacidad superior de razonamiento agente. LongCat-Flash-Thinking-2601 logra un rendimiento de vanguardia entre los modelos de código abierto en una amplia gama de puntos de referencia de agentes, incluida la búsqueda de agentes, el uso de herramientas de agentes y el razonamiento integrado en herramientas. Más allá del rendimiento de referencia, el modelo demuestra una fuerte generalización a interacciones de herramientas complejas y un comportamiento sólido en entornos ruidosos del mundo real. Su capacidad avanzada surge de un marco de capacitación unificado que combina capacitación de expertos en dominios paralelos con una fusión posterior, junto con un codiseño de extremo a extremo de construcción de datos, entornos, algoritmos e infraestructura que abarca desde la capacitación previa hasta la capacitación posterior. En particular, la fuerte capacidad de generalización del modelo en el uso de herramientas complejas está impulsada por nuestra exploración en profundidad del escalamiento del entorno y la construcción de tareas basadas en principios. Para optimizar la generación sesgada de cola larga y las interacciones agentes de múltiples turnos, y para permitir un entrenamiento estable en más de 10,000 entornos que abarcan más de 20 dominios, ampliamos sistemáticamente nuestro marco de aprendizaje de refuerzo asincrónico, DORA, para un entrenamiento estable y eficiente a gran escala en múltiples entornos. Además, reconociendo que las tareas del mundo real son inherentemente ruidosas, llevamos a cabo un análisis y una descomposición sistemáticos de los patrones de ruido del mundo real y diseñamos procedimientos de capacitación específicos para incorporar explícitamente dichas imperfecciones en el proceso de capacitación, lo que resulta en una mayor solidez para las aplicaciones del mundo real. Para mejorar aún más el rendimiento en tareas de razonamiento complejas, presentamos un modo de pensamiento pesado que permite escalar de manera efectiva el tiempo de prueba al expandir conjuntamente la profundidad y amplitud del razonamiento a través del pensamiento paralelo intensivo.
Publicado originalmente en export.arxiv.org el 25 de enero de 2026.
Ver fuente original
