Resumen: Los enfoques estándar del aprendizaje por refuerzo robusto suponen que las fuentes de retroalimentación son globalmente confiables o globalmente conflictivas. En este artículo, desafiamos esta suposición e identificamos un modo de falla más sutil. A este modo lo denominamos adulación contextual, donde los evaluadores son veraces en contextos benignos pero estratégicamente sesgados en los críticos. Demostramos que los métodos robustos estándar fallan en este entorno y sufren un desacoplamiento de objetivos contextuales. Para abordar esto, proponemos CESA-LinUCB, que aprende un límite de confianza de alta dimensión para cada evaluador. Probamos que CESA-LinUCB logra un arrepentimiento sublineal $tilde{O}(sqrt{T})$ contra adversarios contextuales, recuperando la verdad fundamental incluso cuando ningún evaluador es globalmente confiable.
Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original
