Resumen: Los datos del lenguaje natural siguen una distribución de ley de potencia, y la mayoría de los conocimientos y habilidades aparecen con una frecuencia muy baja. Si bien una intuición común sugiere que reponderar o curar datos hacia una distribución uniforme puede ayudar a los modelos a aprender mejor estas habilidades de cola larga, encontramos un resultado contrario a la intuición: en una amplia gama de tareas de razonamiento compositivo, como el seguimiento de estado y la aritmética de varios pasos, el entrenamiento bajo distribuciones de ley de potencia supera consistentemente al entrenamiento bajo distribuciones uniformes. Para comprender esta ventaja, introducimos una tarea minimalista de composición de habilidades y mostramos que el aprendizaje bajo una distribución de ley de potencia probablemente requiere significativamente menos datos de entrenamiento. Nuestro análisis teórico revela que el muestreo de la ley de potencia induce una asimetría beneficiosa que mejora el panorama de pérdidas patológicas, lo que permite a los modelos adquirir primero composiciones de habilidades de alta frecuencia con baja complejidad de datos, lo que a su vez sirve como un trampolín para aprender de manera eficiente habilidades raras de cola larga. Nuestros resultados ofrecen una perspectiva alternativa sobre lo que constituye una distribución de datos efectiva para modelos de entrenamiento.
Publicado originalmente en export.arxiv.org el 27 de abril de 2026.
Ver fuente original
