Resumen: El enrutamiento se usa ampliamente para escalar modelos de lenguaje grandes, desde la combinación de expertos hasta la selección de múltiples modelos/herramientas. Una creencia común es que dirigirse a una tarea “experta” activa un cálculo interno más disperso y, por lo tanto, produce resultados más seguros y estables (la hipótesis de escasez-certidumbre). Probamos esta creencia inyectando metaindicadores de estilo de enrutamiento como un proxy textual para enrutar señales frente a LLM congelados ajustados por instrucciones. Cuantificamos (C1) la densidad interna mediante la escasez de activación, (C2) la atención de las palabras clave del dominio y (C3) la estabilidad de la salida mediante la entropía predictiva y la variación semántica. En un subconjunto de RouterEval con tres modelos ajustados por instrucciones (Qwen3-8B, Llama-3.1-8B-Instruct y Mistral-7B-Instruct-v0.2), los metaindicadores densifican consistentemente las representaciones de la capa temprana/media en lugar de aumentar la escasez; Las instrucciones de expertos en lenguaje natural suelen ser más potentes que las etiquetas estructuradas. Las respuestas de atención son heterogéneas: Qwen/Llama reducen la atención de las palabras clave, mientras que Mistral la refuerza. Finalmente, el vínculo densificación-estabilidad es débil y aparece sólo en Qwen, con correlaciones cercanas a cero en Llama y Mistral. Presentamos RIDE como una sonda de diagnóstico para calibrar el diseño de rutas y la estimación de incertidumbre.
Publicado originalmente en export.arxiv.org el 31 de marzo de 2026.
Ver fuente original
