En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Compensaciones de rendimiento al optimizar modelos de lenguaje pequeño para el comercio electrónico

Compensaciones de rendimiento al optimizar modelos de lenguaje pequeño para el comercio electrónico

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguaje grande (LLM) ofrecen un rendimiento de última generación en tareas de generación y comprensión del lenguaje natural. Sin embargo, el despliegue de modelos comerciales líderes para tareas especializadas, como el comercio electrónico, a menudo se ve obstaculizado por altos costos computacionales, latencia y gastos operativos. Este artículo investiga la viabilidad de modelos más pequeños y abiertos como una alternativa eficiente en el uso de recursos. Presentamos una metodología para optimizar un modelo Llama 3.2 de mil millones de parámetros para el reconocimiento de intenciones de comercio electrónico multilingüe. El modelo se ajustó utilizando la Adaptación Cuantizada de Bajo Rango (QLoRA) en un conjunto de datos generado sintéticamente diseñado para imitar las consultas de los usuarios del mundo real. Posteriormente, aplicamos técnicas de cuantificación post-entrenamiento, creando versiones optimizadas para GPU (GPTQ) y CPU (GGUF). Nuestros resultados demuestran que el modelo 1B especializado logra una precisión del 99%, igualando el rendimiento del modelo GPT-4.1, significativamente más grande. Un análisis de rendimiento detallado reveló compensaciones críticas que dependen del hardware: si bien GPTQ de 4 bits redujo el uso de VRAM en un 41 %, paradójicamente ralentizó la inferencia en un 82 % en una arquitectura de GPU más antigua (NVIDIA T4) debido a la sobrecarga de descuantización. Por el contrario, los formatos GGUF en una CPU lograron una aceleración de hasta 18 veces en el rendimiento de inferencia y una reducción de más del 90 % en el consumo de RAM en comparación con la línea base FP16. Concluimos que los modelos de peso abierto pequeños y adecuadamente optimizados no son solo una alternativa viable sino más adecuada para aplicaciones de dominios específicos, ya que ofrecen precisión de última generación a una fracción del costo computacional.

Publicado originalmente en export.arxiv.org el 27 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web