No es el típico adulador: la naturaleza esquiva de la adulación en modelos de lenguaje grandes

Resumen: Proponemos una forma novedosa de evaluar la adulación de los LLM de una manera directa y neutral, mitigando diversas formas de sesgo incontrolado, ruido o lenguaje manipulador, inyectados deliberadamente en indicaciones en trabajos anteriores. Una novedad clave en nuestro enfoque es el uso de LLM-as-a-juez, evaluación de la adulación como un juego de suma cero en un entorno de apuestas. Bajo este marco, la adulación sirve a un individuo (el usuario) mientras explícitamente incurre en costos para otro. Al comparar cuatro modelos principales (Gemini 2.5 Pro, ChatGpt 4o, Mistral-Large-Instruct-2411 y Claude Sonnet 3.7) encontramos que, si bien todos los modelos exhiben tendencias aduladoras en el entorno común, en el que la adulación es interesada para el usuario y no genera ningún costo para los demás, Claude y Mistral exhiben “remordimiento moral” y sobrecompensan su adulación en caso de que dañe explícitamente a un tercero. Además, observamos que todos los modelos están sesgados hacia la última respuesta propuesta. Fundamentalmente, encontramos que estos dos fenómenos no son independientes; La adulación y el sesgo de actualidad interactúan para producir un efecto de “interferencia constructiva”, donde la tendencia a estar de acuerdo con el usuario se exacerba cuando la opinión del usuario se presenta en último lugar.

Publicado originalmente en export.arxiv.org el 22 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Verificación de la toma de decisiones secuencial sin memoria de modelos de lenguaje grandes

Conoce a Jim O’Neill, el entusiasta de la longevidad que ahora es el hombre derecho de RFK Jr.

Optimización discreta de la violación de Min-Max y sus aplicaciones en las ciencias computacionales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido