En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->DARA: Asignación de presupuesto de pocas posibilidades en publicidad en línea a través de la toma de decisiones en contexto con LLM optimizados por RL

DARA: Asignación de presupuesto de pocas posibilidades en publicidad en línea a través de la toma de decisiones en contexto con LLM optimizados por RL

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Optimizar el valor acumulativo de las impresiones ganadoras del anunciante bajo restricciones presupuestarias plantea un desafío complejo en la publicidad en línea, bajo el paradigma de las ofertas generadas por IA (AIGB). Los anunciantes suelen tener objetivos personalizados pero datos de interacción históricos limitados, lo que da lugar a escenarios de pocas posibilidades en los que los métodos tradicionales de aprendizaje por refuerzo (RL) tienen dificultades para funcionar de forma eficaz. Los modelos de lenguajes grandes (LLM) ofrecen una alternativa prometedora para AIGB al aprovechar sus capacidades de aprendizaje en contexto para generalizar a partir de datos limitados. Sin embargo, carecen de la precisión numérica necesaria para una optimización detallada. Para abordar esta limitación, presentamos GRPO-Adaptive, una estrategia eficiente posterior a la capacitación de LLM que mejora tanto el razonamiento como la precisión numérica al actualizar dinámicamente la política de referencia durante la capacitación. Sobre esta base, proponemos además DARA, un novedoso marco de trabajo de dos fases que descompone el proceso de toma de decisiones en dos etapas: un razonamiento de unos pocos intentos que genera planes iniciales a través de indicaciones en contexto y un optimizador detallado que refina estos planes utilizando un razonamiento basado en retroalimentación. Esta separación permite a DARA combinar las fortalezas del aprendizaje en contexto de los LLM con la adaptabilidad precisa requerida por las tareas de AIGB. Amplios experimentos en entornos de datos sintéticos y del mundo real demuestran que nuestro enfoque supera consistentemente las líneas de base existentes en términos de valor acumulativo para los anunciantes bajo restricciones presupuestarias.

Publicado originalmente en export.arxiv.org el 21 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web