Resumen:Un desafío central en la inferencia de modelos de lenguaje grande es el equilibrio entre la velocidad de generación y la calidad de la producción. Los modelos autorregresivos producen texto de alta calidad pero generan tokens de forma secuencial. Los modelos de difusión pueden generar tokens en paralelo, pero a menudo necesitan muchas iteraciones para igualar la misma calidad.
Leer más →
Resumen: Los modelos de lenguajes grandes (LLM) ofrecen poderosas capacidades de generación y razonamiento, pero incurren en costos de tiempo de ejecución sustanciales cuando operan en flujos de trabajo agentes que encadenan indicaciones extensas y procesan flujos de datos enriquecidos.
Leer más →
Resumen: Se propone una formalización de una ontología sujeto-evento para modelar sistemas dinámicos complejos sin depender del tiempo global.
Leer más →