Resumen: La contaminación de datos se refiere a la fuga de datos de evaluación en datos de capacitación en modelo, lo que resulta en el sobreajuste a conjuntos de pruebas supuestamente retenidos y la validez de la prueba comprometida. Identificamos un problema análogo, la contaminación del tiempo de búsqueda (STC), al evaluar los agentes LLM basados en la búsqueda que utilizan herramientas para recopilar información de fuentes en línea al responder consultas de los usuarios. El STC ocurre cuando el paso de recuperación aparece en una fuente que contiene la pregunta de prueba (o una casi duplicada) junto con su respuesta, lo que permite a los agentes copiar en lugar de inferir o razonar genuinamente, socavando la integridad de referencia. Encontramos que Huggingface, una plataforma en línea que aloja los conjuntos de datos de evaluación, aparece entre las fuentes recuperadas en los registros de agentes basados en la búsqueda. En consecuencia, los agentes a menudo reconocen explícitamente descubrir los pares de respuestas de las preguntas de Huggingface dentro de sus cadenas de razonamiento. En tres puntos de referencia de capacidad de uso común: el último examen de Humanity (HLE), SimpleQA y GPQA, demostramos que para aproximadamente el 3% de las preguntas, los agentes basados en la búsqueda encuentran directamente los conjuntos de datos con etiquetas de verdad en tierra en Huggingface. Cuando millones de consultas de evaluación se dirigen al mismo punto de referencia, incluso pequeñas fugas repetidas pueden acelerar la obsolescencia del punto de referencia, acortando su ciclo de vida previsto. Después de bloquear Huggingface, observamos una caída de precisión en el subconjunto contaminado de aproximadamente el 15%. Además, mostramos a través de los experimentos de ablación que los conjuntos de datos de evaluación de acceso público en Huggingface pueden no ser la única fuente de STC. Con este fin, concluimos proponiendo las mejores prácticas para el diseño de referencia e informes de resultados para abordar esta nueva forma de fuga y garantizar una evaluación confiable de los agentes LLM basados en la búsqueda. Para facilitar la auditoría de los resultados de la evaluación, también lanzamos públicamente los registros completos de nuestros experimentos.
Publicado Originalme en export.arxiv.org El 19 de agosto de 2025.
Ver Fuente Original