Resumen: Los grandes modelos de razonamiento (LRM) son poderosos, pero aún adolecen de un razonamiento ineficiente y fuera de objetivo. Actualmente, los métodos sin capacitación se limitan a heurísticas rígidas o análisis descriptivos no procesables. En este artículo, presentamos ThinkPilot, un marco sin capacitación que optimiza automáticamente el razonamiento de los LRM. Utiliza un proceso evolutivo para generar prefijos de pensamiento, que son instrucciones que evolucionan impulsadas por una taxonomía de comportamientos de razonamiento para guiar los modelos hacia un rendimiento superior. Amplios experimentos demuestran la amplia eficacia de ThinkPilot: mejora significativamente el equilibrio entre precisión y longitud para un razonamiento eficiente, mejora drásticamente la seguridad (por ejemplo, reduciendo la puntuación StrongREJECT de DeepSeek-R1-Distill-Qwen-32B del 27,0 % al 0,7) y mejora el seguimiento de instrucciones. También crea sinergias con los métodos existentes basados en la formación. Nuestro análisis revela que los prefijos de pensamiento pueden controlar de manera confiable los comportamientos de razonamiento de los LRM y que diferentes tareas tienen fuertes preferencias por distribuciones de comportamiento específicas. Al identificar y provocar automáticamente estos comportamientos, ThinkPilot proporciona un marco generalizable para alinear el razonamiento de los LRM con las demandas de las tareas. Los datos y el código están disponibles en esta URL https
Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original