Resumen: El costo de inferencia de los modelos de lenguajes grandes (LLM) se ha convertido en un factor crítico para determinar su viabilidad comercial y su adopción generalizada. Este artículo presenta un marco cuantitativo de “economía de la inferencia”, tratando el proceso de inferencia LLM como una actividad de producción inteligente impulsada por computación. Analizamos su costo marginal, economías de escala y calidad de la producción bajo varias configuraciones de desempeño. Con base en datos empíricos de WiNEval-3.0, construimos la primera “Frontera de producción de inferencia LLM”, que revela tres principios: costo marginal decreciente, rendimientos de escala decrecientes y una zona de rentabilidad óptima. Este documento no solo proporciona una base económica para las decisiones de implementación de modelos, sino que también sienta una base empírica para la futura optimización y fijación de precios basada en el mercado de los recursos de inferencia de IA.
Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original
