RADAR: Vías mecanicistas para detectar la contaminación de datos en la evaluación de LLM

Resumen: La contaminación de datos plantea un desafío importante para la evaluación LLM confiable, donde los modelos pueden lograr un alto rendimiento al memorizar datos de entrenamiento en lugar de demostrar capacidades de razonamiento genuinas. Presentamos RADAR (Detección de recuerdo versus detección de razonamiento a través de representación de activación), un marco novedoso que aprovecha la interpretabilidad mecanicista para detectar contaminación al distinguir las respuestas del modelo basadas en el recuerdo de las basadas en el razonamiento. RADAR extrae 37 características que abarcan trayectorias de confianza a nivel de superficie y propiedades mecanísticas profundas que incluyen especialización de atención, dinámica de circuitos y patrones de flujo de activación. Utilizando un conjunto de clasificadores entrenados en estas características, RADAR logra una precisión del 93% en un conjunto de evaluación diverso, con un rendimiento perfecto en casos claros y una precisión del 76,7% en ejemplos ambiguos desafiantes. Este trabajo demuestra el potencial de la interpretabilidad mecanicista para hacer avanzar la evaluación de LLM más allá de las métricas tradicionales a nivel de superficie.

Publicado originalmente en export.arxiv.org el 12 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

En qué nos hemos equivocado sobre la crisis de la verdad de la IA

El camino hacia la inteligencia general artificial

Marco de pensamientos: un marco básico para el razonamiento dinámico y optimizado basado en cadenas, árboles y gráficos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido