DARA: Asignación de presupuesto de pocas posibilidades en publicidad en línea a través de la toma de decisiones en contexto con LLM optimizados por RL

Resumen:Optimizar el valor acumulativo de las impresiones ganadoras del anunciante bajo restricciones presupuestarias plantea un desafío complejo en la publicidad en línea, bajo el paradigma de las ofertas generadas por IA (AIGB). Los anunciantes suelen tener objetivos personalizados pero datos de interacción históricos limitados, lo que da lugar a escenarios de pocas posibilidades en los que los métodos tradicionales de aprendizaje por refuerzo (RL) tienen dificultades para funcionar de forma eficaz. Los modelos de lenguajes grandes (LLM) ofrecen una alternativa prometedora para AIGB al aprovechar sus capacidades de aprendizaje en contexto para generalizar a partir de datos limitados. Sin embargo, carecen de la precisión numérica necesaria para una optimización detallada. Para abordar esta limitación, presentamos GRPO-Adaptive, una estrategia eficiente posterior a la capacitación de LLM que mejora tanto el razonamiento como la precisión numérica al actualizar dinámicamente la política de referencia durante la capacitación. Sobre esta base, proponemos además DARA, un novedoso marco de trabajo de dos fases que descompone el proceso de toma de decisiones en dos etapas: un razonamiento de unos pocos intentos que genera planes iniciales a través de indicaciones en contexto y un optimizador detallado que refina estos planes utilizando un razonamiento basado en retroalimentación. Esta separación permite a DARA combinar las fortalezas del aprendizaje en contexto de los LLM con la adaptabilidad precisa requerida por las tareas de AIGB. Amplios experimentos en entornos de datos sintéticos y del mundo real demuestran que nuestro enfoque supera consistentemente las líneas de base existentes en términos de valor acumulativo para los anunciantes bajo restricciones presupuestarias.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprendizaje de refuerzo de doble objetivo con nuevas formulaciones Hamilton-Jacobi-Bellman

Demostración del teorema neuronal para las condiciones de verificación: un punto de referencia del mundo real

URZAGPT: modelos de idiomas grandes sintonizados con Lora para la selección de tarjetas en juegos de cartas coleccionables

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido