Resumen: Mostramos que los PLDR-LLM preentrenados en criticidad autoorganizada exhiben razonamiento en el momento de la inferencia. Las características de las salidas deductivas PLDR-LLM en criticidad son similares a las transiciones de fase de segundo orden. En el momento crítico, la longitud de la correlación diverge y las salidas deductivas alcanzan un estado estable metaestable. El comportamiento de estado estacionario sugiere que las salidas deductivas aprenden representaciones equivalentes a funciones de escala, clases de universalidad y grupos de renormalización del conjunto de datos de entrenamiento, lo que lleva a capacidades de generalización y razonamiento en el proceso. Luego podemos definir un parámetro de orden a partir de las estadísticas globales de los parámetros de salida deductivos del modelo en la inferencia. Las capacidades de razonamiento de un PLDR-LLM son mejores cuando su parámetro de orden es cercano a cero en el momento crítico. Esta observación está respaldada por las puntuaciones de referencia de los modelos entrenados en niveles casi críticos y subcríticos. Nuestros resultados proporcionan una explicación independiente sobre cómo se manifiesta el razonamiento en modelos de lenguaje grandes, y la capacidad de razonar se puede cuantificar únicamente a partir de los valores de los parámetros del modelo global de los resultados deductivos en estado estacionario, sin necesidad de evaluar conjuntos de datos de referencia seleccionados a través de resultados inductivos para el razonamiento y la comprensión.
Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original
