Resumen: La rápida evolución de los modelos de lenguajes grandes (LLM) se basa en la calidad y diversidad de los conjuntos de datos posteriores al entrenamiento. Sin embargo, persiste una dicotomía crítica: si bien los modelos se comparan rigurosamente, los datos que los alimentan siguen siendo una caja negra, caracterizada por una composición opaca, procedencia incierta y una falta de evaluación sistemática. Esta opacidad dificulta la reproducibilidad y oscurece el vínculo causal entre las características de los datos y los comportamientos del modelo. Para cerrar esta brecha, presentamos OpenDataArena (ODA), una plataforma holística y abierta diseñada para comparar el valor intrínseco de los datos posteriores al entrenamiento. La AOD establece un ecosistema integral que comprende cuatro pilares clave: (i) un canal unificado de capacitación y evaluación que garantiza comparaciones justas y abiertas entre diversos modelos (por ejemplo, Llama, Qwen) y dominios; (ii) un marco de puntuación multidimensional que perfila la calidad de los datos a lo largo de decenas de ejes distintos; (iii) un explorador de linaje de datos interactivo para visualizar la genealogía del conjunto de datos y analizar las fuentes de los componentes; y (iv) un conjunto de herramientas de código abierto para capacitación, evaluación y puntuación para fomentar la investigación de datos. Amplios experimentos sobre AOD, que abarcan más de 120 conjuntos de datos de capacitación en múltiples dominios en 22 puntos de referencia, validados por más de 600 ejecuciones de capacitación y 40 millones de puntos de datos procesados, revelan conocimientos no triviales. Nuestro análisis descubre las compensaciones inherentes entre la complejidad de los datos y el desempeño de las tareas, identifica la redundancia en puntos de referencia populares a través del rastreo de linaje y mapea las relaciones genealógicas entre conjuntos de datos. Publicamos todos los resultados, herramientas y configuraciones para democratizar el acceso a la evaluación de datos de alta calidad. En lugar de limitarse a ampliar una tabla de clasificación, la AOD prevé un cambio de la curación de datos mediante prueba y error a una ciencia basada en principios de IA centrada en datos, allanando el camino para estudios rigurosos sobre las leyes de combinación de datos y la composición estratégica de los modelos básicos.
Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original
