En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->daVinci-LLM: Hacia la ciencia del preentrenamiento

daVinci-LLM: Hacia la ciencia del preentrenamiento

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:La fase de preentrenamiento fundamental determina el techo de capacidad de un modelo, ya que el post-entrenamiento lucha por superar las bases de capacidad establecidas durante el preentrenamiento, pero sigue estando críticamente subexplorada. Esto surge de una paradoja estructural: las organizaciones con recursos computacionales operan bajo presiones comerciales que inhiben la divulgación transparente, mientras que las instituciones académicas poseen libertad de investigación pero carecen de recursos computacionales a escala previa a la capacitación. daVinci-LLM ocupa esta intersección inexplorada, combinando recursos a escala industrial con total libertad de investigación para avanzar en la ciencia de la capacitación previa. Adoptamos un paradigma totalmente abierto que trata la apertura como una metodología científica, publicando procesos completos de procesamiento de datos, procesos de capacitación completos y resultados de exploración sistemática. Al reconocer que el campo carece de una metodología sistemática para el procesamiento de datos, empleamos el marco del darwinismo de datos, una taxonomía de principios L0-L9 desde el filtrado hasta la síntesis. Entrenamos un modelo de parámetros 3B a partir de una inicialización aleatoria en tokens 8T utilizando un plan de estudios adaptativo de dos etapas que pasa progresivamente de las capacidades fundamentales a la mejora del razonamiento intensivo. A través de más de 200 ablaciones controladas, establecemos que: la profundidad de procesamiento mejora sistemáticamente las capacidades, estableciéndola como una dimensión crítica junto con la ampliación del volumen; diferentes dominios exhiben distintas dinámicas de saturación, lo que requiere estrategias de adaptación, desde ajustes de proporciones hasta cambios de formato; el equilibrio compositivo permite una intensificación específica y al mismo tiempo previene el colapso del rendimiento; cómo las elecciones del protocolo de evaluación dan forma a nuestra comprensión del progreso previo al entrenamiento. Al publicar el proceso de exploración completo, permitimos a la comunidad aprovechar nuestros hallazgos y metodologías sistemáticas para formar conocimiento científico acumulativo en la capacitación previa.

Publicado originalmente en export.arxiv.org el 30 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web