Resumen: Los modelos de lenguaje grande (LLM) ofrecen un rendimiento de última generación en tareas de generación y comprensión del lenguaje natural. Sin embargo, el despliegue de modelos comerciales líderes para tareas especializadas, como el comercio electrónico, a menudo se ve obstaculizado por altos costos computacionales, latencia y gastos operativos. Este artículo investiga la viabilidad de modelos más pequeños y abiertos como una alternativa eficiente en el uso de recursos. Presentamos una metodología para optimizar un modelo Llama 3.2 de mil millones de parámetros para el reconocimiento de intenciones de comercio electrónico multilingüe. El modelo se ajustó utilizando la Adaptación Cuantizada de Bajo Rango (QLoRA) en un conjunto de datos generado sintéticamente diseñado para imitar las consultas de los usuarios del mundo real. Posteriormente, aplicamos técnicas de cuantificación post-entrenamiento, creando versiones optimizadas para GPU (GPTQ) y CPU (GGUF). Nuestros resultados demuestran que el modelo 1B especializado logra una precisión del 99%, igualando el rendimiento del modelo GPT-4.1, significativamente más grande. Un análisis de rendimiento detallado reveló compensaciones críticas que dependen del hardware: si bien GPTQ de 4 bits redujo el uso de VRAM en un 41 %, paradójicamente ralentizó la inferencia en un 82 % en una arquitectura de GPU más antigua (NVIDIA T4) debido a la sobrecarga de descuantización. Por el contrario, los formatos GGUF en una CPU lograron una aceleración de hasta 18 veces en el rendimiento de inferencia y una reducción de más del 90 % en el consumo de RAM en comparación con la línea base FP16. Concluimos que los modelos de peso abierto pequeños y adecuadamente optimizados no son solo una alternativa viable sino más adecuada para aplicaciones de dominios específicos, ya que ofrecen precisión de última generación a una fracción del costo computacional.

Publicado originalmente en export.arxiv.org el 27 de octubre de 2025.
Ver fuente original

Compensaciones de rendimiento al optimizar modelos de lenguaje pequeño para el comercio electrónico

admin

Industrial Transformation México 2025

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Shylock: descubrimiento causal en series temporales multivariadas basadas en restricciones híbridas

Sobre admisibilidad fuerte y débil en la argumentación no basada en la suposición

DAIL: Más allá de la ambigüedad de las tareas para el aprendizaje por refuerzo condicionado por el lenguaje

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido