Resumen: a pesar de las capacidades notables de los modelos de idiomas grandes, los paradigmas de capacitación actuales fomentan inadvertidamente Textit {Sycophancy}, es decir, la tendencia de un modelo de acuerdo o reforzar la información proporcionada por el usuario incluso cuando es de hecho incorrecto. Para abordar este desafío, presentamos textBF {Smart} (mitigación de la sycophancy a través de trayectorias de razonamiento adaptativo), que refuerza la skicancia como un textit {Problema de optimización de razonamiento} en lugar de un problema de alineación de salida. Smart es un marco de dos etapas que comprende: (1) la búsqueda adaptativa de árboles de árbol de Monte Carlo (UA-MCT), que ajusta dinámicamente la exploración del modelo en función de la incertidumbre a nivel estatal para recolectar trayectorias de razonamiento de alta calidad junto con el progreso paso a paso y el resultado final de los resultados de los resultados finales; y (2) el aprendizaje de refuerzo basado en el progreso, que ajusta el modelo utilizando las trayectorias recopiladas y las señales de recompensa para reforzar los patrones de razonamiento efectivos. A través de experimentos extensos, mostramos que SMART reduce significativamente el comportamiento sycófánico al tiempo que preserva un fuerte rendimiento en entradas desactualizadas y manteniendo capacidades generales. Estos resultados subrayan la importancia de optimizar los mecanismos de razonamiento interno para construir asistentes de IA más veraces y alineados.
Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original
