Resumen: Los modelos de lenguajes grandes (LLM) priorizan cada vez más la validación del usuario sobre la precisión epistémica, un fenómeno conocido como adulación. Presentamos The Silicon Mirror, un marco de orquestación que detecta dinámicamente las tácticas de persuasión del usuario y ajusta el comportamiento de la IA para mantener la integridad fáctica. Nuestra arquitectura presenta tres componentes: (1) un sistema de control de acceso conductual (BAC) que restringe el acceso a la capa de contexto en función de puntuaciones de riesgo de adulación en tiempo real, (2) un clasificador de rasgos que identifica tácticas de persuasión en diálogos de varios turnos y (3) un bucle Generador-Crítico donde un auditor veta borradores aduladores y activa reescrituras con “fricción necesaria”. En una evaluación en vivo de 50 escenarios adversarios de TruthfulQA utilizando Claude Sonnet 4 con un juez independiente de LLM, observamos la adulación vainilla de Claude en un 12,0 % (6/50), barandillas estáticas en un 4,0 % (2/50) y Silicon Mirror en un 2,0 % (1/50), una reducción relativa del 83,3 % (p = 0,112, prueba exacta de Fisher). Una evaluación cruzada de modelos en Gemini 2.5 Flash revela una tasa de adulación inicial más alta (46,0%) y una reducción estadísticamente significativa del 69,6% con Silicon Mirror (p <0,001). Caracterizamos el patrón de validación antes de la corrección como un modo de falla distinto de los modelos entrenados con RLHF.
Publicado originalmente en export.arxiv.org el 1 de abril de 2026.
Ver fuente original
