Los PLDR-LLM razonan su criticidad autoorganizada

Resumen: Mostramos que los PLDR-LLM preentrenados en criticidad autoorganizada exhiben razonamiento en el momento de la inferencia. Las características de las salidas deductivas PLDR-LLM en criticidad son similares a las transiciones de fase de segundo orden. En el momento crítico, la longitud de la correlación diverge y las salidas deductivas alcanzan un estado estable metaestable. El comportamiento de estado estacionario sugiere que las salidas deductivas aprenden representaciones equivalentes a funciones de escala, clases de universalidad y grupos de renormalización del conjunto de datos de entrenamiento, lo que lleva a capacidades de generalización y razonamiento en el proceso. Luego podemos definir un parámetro de orden a partir de las estadísticas globales de los parámetros de salida deductivos del modelo en la inferencia. Las capacidades de razonamiento de un PLDR-LLM son mejores cuando su parámetro de orden es cercano a cero en el momento crítico. Esta observación está respaldada por las puntuaciones de referencia de los modelos entrenados en niveles casi críticos y subcríticos. Nuestros resultados proporcionan una explicación independiente sobre cómo se manifiesta el razonamiento en modelos de lenguaje grandes, y la capacidad de razonar se puede cuantificar únicamente a partir de los valores de los parámetros del modelo global de los resultados deductivos en estado estacionario, sin necesidad de evaluar conjuntos de datos de referencia seleccionados a través de resultados inductivos para el razonamiento y la comprensión.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Graml: reconocimiento de objetivos dinámicos como aprendizaje métrico

La descarga: los reguladores vienen para AI Companions y conocen a nuestro innovador de 2025

Fundamentos teóricos de los factores posteriores latentes: garantías formales para el razonamiento con pruebas múltiples

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido