Cuantificación de la skofancia como desviaciones de la racionalidad bayesiana en LLMS

Resumen: Sycophancy, o un comportamiento demasiado agradable o halagador, es un tema documentado en modelos de idiomas grandes (LLM), y es fundamental para comprender en el contexto de la colaboración humana/AI. Los trabajos anteriores generalmente cuantifican la skofancia midiendo los cambios en el comportamiento o los impactos en la precisión, pero ninguna métrica caracteriza los cambios en la racionalidad, y las medidas de precisión solo pueden usarse en escenarios con una verdad terrestre conocida. En este trabajo, utilizamos un marco bayesiano para cuantificar la sycofancy como desviaciones del comportamiento racional cuando se presenta con perspectivas del usuario, distinguiendo así las actualizaciones racionales e irracionales basadas en la introducción de las perspectivas del usuario. En comparación con otros métodos, este enfoque nos permite caracterizar cambios de comportamiento excesivos, incluso para tareas que implican incertidumbre inherente o no tienen una verdad terrestre. Estudiamos la sileno para 3 tareas diferentes, una combinación de LLM de código abierto y cerrado, y dos métodos diferentes para sondear la sileno. También experimentamos con múltiples métodos para obtener juicios de probabilidad de LLM. Presumimos que sondear LLM para la sycofancia causará desviaciones en los posteriores predichos de LLM que conducirán a un aumento en el error bayesiano. Our findings indicate that: 1) LLMs are not Bayesian rational, 2) probing for sycophancy results in significant increases to the predicted posterior in favor of the steered outcome, 3) sycophancy sometimes results in increased Bayesian error, and in a small number of cases actually decreases error, and 4) changes in Bayesian error due to sycophancy are not strongly correlated in Brier score, suggesting that studying the impact of sycophancy on ground La verdad por sí sola no captura completamente los errores en el razonamiento debido a la sycofancia.

Publicado Originalme en export.arxiv.org El 25 de agosto de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Los primeros bebés han nacido después de la FIV “simplificada” en un laboratorio móvil

TalentMine: extracción basada en LLM y respuesta de preguntas de tablas de talento multimodal

Avance de solucionadores estocásticos de 3-SAT disipando restricciones sobrealimentadas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido