OpenDataArena: un escenario justo y abierto para comparar el valor del conjunto de datos posterior al entrenamiento

Resumen: La rápida evolución de los modelos de lenguajes grandes (LLM) se basa en la calidad y diversidad de los conjuntos de datos posteriores al entrenamiento. Sin embargo, persiste una dicotomía crítica: si bien los modelos se comparan rigurosamente, los datos que los alimentan siguen siendo una caja negra, caracterizada por una composición opaca, procedencia incierta y una falta de evaluación sistemática. Esta opacidad dificulta la reproducibilidad y oscurece el vínculo causal entre las características de los datos y los comportamientos del modelo. Para cerrar esta brecha, presentamos OpenDataArena (ODA), una plataforma holística y abierta diseñada para comparar el valor intrínseco de los datos posteriores al entrenamiento. La AOD establece un ecosistema integral que comprende cuatro pilares clave: (i) un canal unificado de capacitación y evaluación que garantiza comparaciones justas y abiertas entre diversos modelos (por ejemplo, Llama, Qwen) y dominios; (ii) un marco de puntuación multidimensional que perfila la calidad de los datos a lo largo de decenas de ejes distintos; (iii) un explorador de linaje de datos interactivo para visualizar la genealogía del conjunto de datos y analizar las fuentes de los componentes; y (iv) un conjunto de herramientas de código abierto para capacitación, evaluación y puntuación para fomentar la investigación de datos. Amplios experimentos sobre AOD, que abarcan más de 120 conjuntos de datos de capacitación en múltiples dominios en 22 puntos de referencia, validados por más de 600 ejecuciones de capacitación y 40 millones de puntos de datos procesados, revelan conocimientos no triviales. Nuestro análisis descubre las compensaciones inherentes entre la complejidad de los datos y el desempeño de las tareas, identifica la redundancia en puntos de referencia populares a través del rastreo de linaje y mapea las relaciones genealógicas entre conjuntos de datos. Publicamos todos los resultados, herramientas y configuraciones para democratizar el acceso a la evaluación de datos de alta calidad. En lugar de limitarse a ampliar una tabla de clasificación, la AOD prevé un cambio de la curación de datos mediante prueba y error a una ciencia basada en principios de IA centrada en datos, allanando el camino para estudios rigurosos sobre las leyes de combinación de datos y la composición estratégica de los modelos básicos.

Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Codificación cultural en grandes modelos lingüísticos: la brecha de existencia en el descubrimiento de marcas mediado por IA

Razonamiento híbrido para la percepción, explicación y acción autónoma en la fabricación

Un marco de explicación argumentativa para el modelo de razón generalizada con precedentes inconsistentes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido