Resumen: Proponemos una forma novedosa de evaluar la adulación de los LLM de una manera directa y neutral, mitigando diversas formas de sesgo incontrolado, ruido o lenguaje manipulador, inyectados deliberadamente en indicaciones en trabajos anteriores. Una novedad clave en nuestro enfoque es el uso de LLM-as-a-juez, evaluación de la adulación como un juego de suma cero en un entorno de apuestas. Bajo este marco, la adulación sirve a un individuo (el usuario) mientras explícitamente incurre en costos para otro. Al comparar cuatro modelos principales (Gemini 2.5 Pro, ChatGpt 4o, Mistral-Large-Instruct-2411 y Claude Sonnet 3.7) encontramos que, si bien todos los modelos exhiben tendencias aduladoras en el entorno común, en el que la adulación es interesada para el usuario y no genera ningún costo para los demás, Claude y Mistral exhiben “remordimiento moral” y sobrecompensan su adulación en caso de que dañe explícitamente a un tercero. Además, observamos que todos los modelos están sesgados hacia la última respuesta propuesta. Fundamentalmente, encontramos que estos dos fenómenos no son independientes; La adulación y el sesgo de actualidad interactúan para producir un efecto de “interferencia constructiva”, donde la tendencia a estar de acuerdo con el usuario se exacerba cuando la opinión del usuario se presenta en último lugar.
Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original
