Aprender cuándo confiar en los bandidos contextuales

Resumen: Los enfoques estándar del aprendizaje por refuerzo robusto suponen que las fuentes de retroalimentación son globalmente confiables o globalmente conflictivas. En este artículo, desafiamos esta suposición e identificamos un modo de falla más sutil. A este modo lo denominamos adulación contextual, donde los evaluadores son veraces en contextos benignos pero estratégicamente sesgados en los críticos. Demostramos que los métodos robustos estándar fallan en este entorno y sufren un desacoplamiento de objetivos contextuales. Para abordar esto, proponemos CESA-LinUCB, que aprende un límite de confianza de alta dimensión para cada evaluador. Probamos que CESA-LinUCB logra un arrepentimiento sublineal $tilde{O}(sqrt{T})$ contra adversarios contextuales, recuperando la verdad fundamental incluso cuando ningún evaluador es globalmente confiable.

Publicado originalmente en export.arxiv.org el 16 de marzo de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Aprovechar la análisis predictivo para la toma de decisiones comerciales estratégicas

Conozca a los jueces de adoptador temprano usando AI

Estado de la empresa IoT en 2025: recuperación del mercado, integración de IA y próximas regulaciones

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido