Comprender el papel de los datos de entrenamiento en la ampliación del tiempo de prueba

Resumen: El escalado en tiempo de prueba mejora las capacidades de razonamiento de los modelos de lenguajes grandes (LLM) al asignar computación adicional para generar cadenas de pensamientos (CoT) más largas. Esto permite que los modelos aborden problemas más complejos dividiéndolos en pasos adicionales, retrocediendo y corrigiendo errores. A pesar de su sólido desempeño, demostrado por o1 de OpenAI y DeepSeek R1, las condiciones en los datos de entrenamiento bajo las cuales surgen CoT largos, y cuándo dichos CoT largos mejoran el rendimiento, siguen sin estar claras. En este artículo, estudiamos el rendimiento del escalamiento en el tiempo de prueba para transformadores entrenados en una tarea de predicción de peso en contexto para regresión lineal. Nuestro análisis proporciona una explicación teórica para varias observaciones intrigantes: primero, ante cualquier error de prueba fijo, aumentar el cálculo del tiempo de prueba nos permite reducir la cantidad de ejemplos en contexto (longitud del contexto) en las indicaciones de entrenamiento. En segundo lugar, si las habilidades necesarias para resolver una tarea posterior no están suficientemente presentes en los datos de entrenamiento, aumentar el cálculo en el momento de la prueba puede perjudicar el rendimiento. Finalmente, caracterizamos la dureza de la tarea a través del valor propio más pequeño de su matriz de covarianza de características y mostramos que el entrenamiento en un conjunto de tareas diverso, relevante y difícil da como resultado el mejor rendimiento para escalar en el momento de la prueba. Confirmamos nuestros hallazgos con experimentos en arquitecturas de transformadores no lineales de gran tamaño.

Publicado Originalme en export.arxiv.org El 6 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Informe técnico de Motif 2.6B

Los chatbots son sorprendentemente eficaces para desacreditar teorías de conspiración

Ultrahorizon: Capacidades de agentes de evaluación comparativa en escenarios de Horizon Ultra Long

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido