Resumen: La contaminación de datos plantea un desafío importante para la evaluación LLM confiable, donde los modelos pueden lograr un alto rendimiento al memorizar datos de entrenamiento en lugar de demostrar capacidades de razonamiento genuinas. Presentamos RADAR (Detección de recuerdo versus detección de razonamiento a través de representación de activación), un marco novedoso que aprovecha la interpretabilidad mecanicista para detectar contaminación al distinguir las respuestas del modelo basadas en el recuerdo de las basadas en el razonamiento. RADAR extrae 37 características que abarcan trayectorias de confianza a nivel de superficie y propiedades mecanísticas profundas que incluyen especialización de atención, dinámica de circuitos y patrones de flujo de activación. Utilizando un conjunto de clasificadores entrenados en estas características, RADAR logra una precisión del 93% en un conjunto de evaluación diverso, con un rendimiento perfecto en casos claros y una precisión del 76,7% en ejemplos ambiguos desafiantes. Este trabajo demuestra el potencial de la interpretabilidad mecanicista para hacer avanzar la evaluación de LLM más allá de las métricas tradicionales a nivel de superficie.
Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original
