Resumen: El diseño de LLM con capacidad de razonamiento efectiva generalmente requiere capacitación utilizando el aprendizaje de refuerzo con recompensas verificables (RLVR) o destilación con una larga cadena de pensamientos cuidadosamente curada (COT), las cuales dependen en gran medida de los datos de entrenamiento extensos. Esto crea un desafío importante cuando la cantidad de datos de capacitación de calidad es escasa. Proponemos una estrategia de capacitación de dos etapas y eficiente en la muestra para desarrollar LLM de razonamiento bajo supervisión limitada. En la primera etapa, “calentamos” el modelo destilando cunas largas de un dominio de juguete, a saber, los rompecabezas lógicos de Knights & Knaves (K & K) para adquirir habilidades de razonamiento general. En la segunda etapa, aplicamos RLVR al modelo calentado utilizando un conjunto limitado de ejemplos de dominio objetivo. Nuestros experimentos demuestran que este enfoque de dos fases ofrece varios beneficios: $ (i) $ La fase de calentamiento por sí sola facilita el razonamiento generalizado, lo que lleva a mejoras de rendimiento en una variedad de tareas, incluidas las matemáticas, el humanal $^{+} $ y MMLU-Pro. $ (ii) $ Cuando tanto el modelo base como el modelo calentado están entrenados RLVR en el mismo conjunto de datos pequeño ($ leq100 $ ejemplos), el modelo calentado supera constantemente el modelo base; $ (iii) $ calentamiento antes del entrenamiento RLVR permite que un modelo mantenga la generalización de dominio cruzado incluso después del entrenamiento en un dominio específico; $ (iv) $ Introducción de calentamiento en la tubería mejora no solo la precisión sino también la eficiencia general de la muestra durante el entrenamiento RLVR. Los resultados en este documento destacan la promesa de calentamiento para construir LLM de razonamiento robusto en entornos de escasez de datos.

Publicado Originalme en rss.arxiv.org El 20 de mayo de 2025.
Ver Fuente Original

Calentamiento antes de entrenar: desbloquear razonamiento general en entornos con recursos limitados

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Multi-Rag: un sistema de generación de recuperación multimodal para la comprensión de video adaptativo

MCP-Universe: Benchmarking Modelos de idiomas grandes con servidores de protocolo de contexto del modelo de mundo real

Manalyzer: metaanálisis automatizado de extremo a extremo con sistema de agentes múltiples

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido