En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aprender cuándo confiar en los bandidos contextuales

Aprender cuándo confiar en los bandidos contextuales

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los enfoques estándar del aprendizaje por refuerzo robusto suponen que las fuentes de retroalimentación son globalmente confiables o globalmente conflictivas. En este artículo, desafiamos esta suposición e identificamos un modo de falla más sutil. A este modo lo denominamos adulación contextual, donde los evaluadores son veraces en contextos benignos pero estratégicamente sesgados en los críticos. Demostramos que los métodos robustos estándar fallan en este entorno y sufren un desacoplamiento de objetivos contextuales. Para abordar esto, proponemos CESA-LinUCB, que aprende un límite de confianza de alta dimensión para cada evaluador. Probamos que CESA-LinUCB logra un arrepentimiento sublineal $tilde{O}(sqrt{T})$ contra adversarios contextuales, recuperando la verdad fundamental incluso cuando ningún evaluador es globalmente confiable.

Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web