En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Comprender el papel de los datos de entrenamiento en la ampliación del tiempo de prueba

Comprender el papel de los datos de entrenamiento en la ampliación del tiempo de prueba

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: El escalado en tiempo de prueba mejora las capacidades de razonamiento de los modelos de lenguajes grandes (LLM) al asignar computación adicional para generar cadenas de pensamientos (CoT) más largas. Esto permite que los modelos aborden problemas más complejos dividiéndolos en pasos adicionales, retrocediendo y corrigiendo errores. A pesar de su sólido desempeño, demostrado por o1 de OpenAI y DeepSeek R1, las condiciones en los datos de entrenamiento bajo las cuales surgen CoT largos, y cuándo dichos CoT largos mejoran el rendimiento, siguen sin estar claras. En este artículo, estudiamos el rendimiento del escalamiento en el tiempo de prueba para transformadores entrenados en una tarea de predicción de peso en contexto para regresión lineal. Nuestro análisis proporciona una explicación teórica para varias observaciones intrigantes: primero, ante cualquier error de prueba fijo, aumentar el cálculo del tiempo de prueba nos permite reducir la cantidad de ejemplos en contexto (longitud del contexto) en las indicaciones de entrenamiento. En segundo lugar, si las habilidades necesarias para resolver una tarea posterior no están suficientemente presentes en los datos de entrenamiento, aumentar el cálculo en el momento de la prueba puede perjudicar el rendimiento. Finalmente, caracterizamos la dureza de la tarea a través del valor propio más pequeño de su matriz de covarianza de características y mostramos que el entrenamiento en un conjunto de tareas diverso, relevante y difícil da como resultado el mejor rendimiento para escalar en el momento de la prueba. Confirmamos nuestros hallazgos con experimentos en arquitecturas de transformadores no lineales de gran tamaño.

Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web