Resumen: a pesar de las capacidades notables de los modelos de idiomas grandes, los paradigmas de capacitación actuales fomentan inadvertidamente Textit {Sycophancy}, es decir, la tendencia de un modelo de acuerdo o reforzar la información proporcionada por el usuario incluso cuando es de hecho incorrecto. Para abordar este desafío, presentamos textBF {Smart} (mitigación de la sycophancy a través de trayectorias de razonamiento adaptativo), que refuerza la skicancia como un textit {Problema de optimización de razonamiento} en lugar de un problema de alineación de salida. Smart es un marco de dos etapas que comprende: (1) la búsqueda adaptativa de árboles de árbol de Monte Carlo (UA-MCT), que ajusta dinámicamente la exploración del modelo en función de la incertidumbre a nivel estatal para recolectar trayectorias de razonamiento de alta calidad junto con el progreso paso a paso y el resultado final de los resultados de los resultados finales; y (2) el aprendizaje de refuerzo basado en el progreso, que ajusta el modelo utilizando las trayectorias recopiladas y las señales de recompensa para reforzar los patrones de razonamiento efectivos. A través de experimentos extensos, mostramos que SMART reduce significativamente el comportamiento sycófánico al tiempo que preserva un fuerte rendimiento en entradas desactualizadas y manteniendo capacidades generales. Estos resultados subrayan la importancia de optimizar los mecanismos de razonamiento interno para construir asistentes de IA más veraces y alineados.

Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original

Mitigación de la sycofancia a través del aprendizaje de refuerzo con trayectorias de razonamiento adaptativo consciente de la incertidumbre

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

AlphaApollo: Orquestación de modelos básicos y herramientas profesionales en un sistema autoevolutivo para un razonamiento agente profundo

El surgimiento de prefabricado

AgentChangeBench: un marco de evaluación multidimensional para la solidez del cambio de objetivos en la IA conversacional

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido