Resumen: Los modelos de lenguajes grandes (LLM) ofrecen poderosas capacidades de generación y razonamiento, pero incurren en costos de tiempo de ejecución sustanciales cuando operan en flujos de trabajo agentes que encadenan indicaciones extensas y procesan flujos de datos enriquecidos. Presentamos CompactPrompt, una canalización de un extremo a otro que combina la compresión rápida con la compresión ligera de datos a nivel de archivos. CompactPrompt primero elimina los tokens con poca información de las indicaciones mediante puntuación de autoinformación y agrupación de frases basada en dependencias. Paralelamente, aplica la abreviatura de n-gramas a patrones textuales recurrentes en documentos adjuntos y una cuantificación uniforme a columnas numéricas, produciendo representaciones compactas pero semánticamente fieles. Integrado en agentes LLM estándar, CompactPrompt reduce el uso total de tokens y el costo de inferencia hasta en un 60% en conjuntos de datos de referencia como TAT-QA y FinQA, al tiempo que preserva la calidad de salida (lo que da como resultado una caída de precisión de menos del 5% para Claude-3.5-Sonnet y GPT-4.1-Mini). CompactPrompt ayuda a visualizar decisiones de compresión en tiempo real y cuantificar las compensaciones entre costo y rendimiento, sentando las bases sentar las bases para procesos de IA generativa más eficientes.
Publicado originalmente en export.arxiv.org el 21 de octubre de 2025.
Ver fuente original
