No solo un ayudante, sino también un maestro: Interactive LLM Cascade

Resumen: Los modelos de idiomas grandes (LLM) varían ampliamente en sus capacidades, y los modelos más grandes a menudo tienen un mejor rendimiento pero un costo más alto: la elección de un modelo LLM a menudo implica comerciar fuera del rendimiento y el costo. La cascada LLM es un paradigma que defiende consultas difíciles de modelos débiles/baratos a fuertes/caros. Este enfoque no es adaptativo: la decisión de aplazamiento está entrenada fuera de línea. Cuando se enfrentan con consultas similares o repetidas, la cascada LLM puede consultar repetidamente el modelo costoso e incurrir en un costo más alto. Para mejorar la eficiencia en cascada, proponemos entre Cascade, una cascada LLM en línea e interactiva que extiende el papel de un modelo fuerte de un ayudante de respaldo a un maestro a largo plazo. En nuestro sistema, cuando un modelo fuerte resuelve una consulta difícil, también destila su solución en una estrategia generalizada y reutilizable de resolución de problemas que aumenta el modelo débil en consultas posteriores. Agregar estrategias a las consultas permite que el modelo débil mejore dinámicamente su rendimiento con el tiempo, evitando el ajuste de fino computacional y de tiempo. Empirically, compared with standard LLM Cascade baselines across multiple benchmarks, the Inter-Cascade significantly improves the accuracy of the weak model (by up to 33.06 absolute percentage points) and the overall system (by up to 5.53 absolute percentage points), while reducing the calls to strong models (by up to 48.05% relative reduction) and saving the corresponding fees (by up to 49.63% relative reducción). Inter-Cascade demuestra la transferencia efectiva de conocimiento en contexto entre LLMS, y proporciona un marco general y escalable aplicable a LLMS de código abierto y basados en API.

Publicado Originalme en export.arxiv.org El 29 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Stardojo: Benchmarking Behaviors abiertos de LLM multimodales de agente en simulaciones de vida de producción con Stardew Valley

Lang-PINN: del lenguaje a las redes neuronales basadas en la física a través de un marco multiagente

Sobre la no unicidad de la representación de $ (u, n) $-implicaciones

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido