ThinkPilot: dirección de modelos de razonamiento mediante optimización automatizada de prefijos de pensamiento

Resumen: Los grandes modelos de razonamiento (LRM) son poderosos, pero aún adolecen de un razonamiento ineficiente y fuera de objetivo. Actualmente, los métodos sin capacitación se limitan a heurísticas rígidas o análisis descriptivos no procesables. En este artículo, presentamos ThinkPilot, un marco sin capacitación que optimiza automáticamente el razonamiento de los LRM. Utiliza un proceso evolutivo para generar prefijos de pensamiento, que son instrucciones que evolucionan impulsadas por una taxonomía de comportamientos de razonamiento para guiar los modelos hacia un rendimiento superior. Amplios experimentos demuestran la amplia eficacia de ThinkPilot: mejora significativamente el equilibrio entre precisión y longitud para un razonamiento eficiente, mejora drásticamente la seguridad (por ejemplo, reduciendo la puntuación StrongREJECT de DeepSeek-R1-Distill-Qwen-32B del 27,0 % al 0,7) y mejora el seguimiento de instrucciones. También crea sinergias con los métodos existentes basados en la formación. Nuestro análisis revela que los prefijos de pensamiento pueden controlar de manera confiable los comportamientos de razonamiento de los LRM y que diferentes tareas tienen fuertes preferencias por distribuciones de comportamiento específicas. Al identificar y provocar automáticamente estos comportamientos, ThinkPilot proporciona un marco generalizable para alinear el razonamiento de los LRM con las demandas de las tareas. Los datos y el código están disponibles en esta URL https

Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Selección incremental de las conjeturas más filtradas y pruebas de las conjeturas seleccionadas

Un motor gráfico para la educación sobre solos de tonos de acordes de guitarra

AO ofrece ahorros multimillonarios en las operaciones de su flota con Samsara

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido