Resumen: La asignación de datos juega un papel fundamental en la colaboración de razonamiento de modelos de lenguaje grande (LLM) federados y modelos de lenguaje pequeño (SLM). Sin embargo, los métodos de asignación de datos existentes no logran abordar un desafío poco explorado en la colaboración: la brecha de capacidad de aprendizaje del modelo bidireccional, donde los SLM del lado del cliente no pueden identificar muestras de alta recompensa que coincidan con sus limitaciones de capacidad de aprendizaje para una transferencia efectiva de conocimientos de los LLM, mientras que los LLM luchan por seleccionar muestras que aporten conocimientos novedosos más allá de sus datos existentes. Además, estos marcos de colaboración enfrentan otro desafío clave: la transferencia de razonamiento independiente del dominio, donde los métodos de transferencia de razonamiento existentes no logran adaptarse de manera flexible a los datos del dominio local, lo que impide que los SLM adquieran efectivamente habilidades de razonamiento paso a paso dentro del LLM general. Para abordar estos desafíos, proponemos LaDa, un marco de destilación de razonamiento federado con asignación de datos consciente de la capacidad de aprendizaje del modelo. Introduce un filtro de datos basado en la capacidad de aprendizaje del modelo que asigna de forma adaptativa muestras de alta recompensa en función de la brecha de capacidad de aprendizaje entre cada par SLM y LLM, lo que facilita de manera efectiva la transferencia de conocimiento bidireccional. Además, diseñamos un método de destilación de razonamiento adaptativo de dominio que alinea probabilidades conjuntas de rutas de razonamiento en muestras filtradas de alta recompensa a través del aprendizaje de destilación contrastante entre SLM y LLM, lo que permite a SLM capturar patrones de razonamiento subyacentes bajo la distribución de datos local. LaDa opera como un módulo complementario para los marcos de colaboración existentes, adaptando la transferencia de conocimientos en función de las brechas de aprendizaje del modelo.
Publicado originalmente en export.arxiv.org el 23 de febrero de 2026.
Ver fuente original
