LIBRA: Algoritmo de recurso de bandidos informado sobre el modelo de lenguaje para la planificación de tratamientos personalizados

Resumen: Presentamos un marco unificado que integra a la perfección recursos algorítmicos, bandidos contextuales y modelos de lenguaje grande (LLM) para respaldar la toma de decisiones secuencial en entornos de alto riesgo, como la medicina personalizada. Primero presentamos el problema del bandido del recurso, donde quien toma decisiones debe seleccionar tanto una acción de tratamiento como una modificación mínima y factible de las características mutables del paciente. Para abordar este problema, desarrollamos el algoritmo Generalized Linear Recourse Bandit (GLRB). Sobre la base de esta base, proponemos LIBRA, un algoritmo de recurso para bandidos basado en modelos de lenguaje que combina estratégicamente el conocimiento del dominio de los LLM con el rigor estadístico del aprendizaje de bandidos. LIBRA ofrece tres garantías clave: (i) una garantía de arranque en caliente, que muestra que LIBRA reduce significativamente el arrepentimiento inicial cuando las recomendaciones de LLM son casi óptimas; (ii) una garantía de esfuerzo del LLM, que demuestra que el algoritmo consulta el LLM solo $O(log^2 T)$ veces, donde $T$ es el horizonte temporal, lo que garantiza una autonomía a largo plazo; y (iii) una garantía de robustez, que demuestra que LIBRA nunca funciona peor que un algoritmo bandido puro, incluso cuando el LLM no es confiable. Además, establecemos límites inferiores coincidentes que caracterizan la dificultad fundamental del problema del bandido de recurso y demuestran la casi óptimaidad de nuestros algoritmos. Los experimentos en entornos sintéticos y un estudio de caso real de manejo de la hipertensión confirman que GLRB y LIBRA mejoran el arrepentimiento, la calidad del tratamiento y la eficiencia de la muestra en comparación con los bandidos contextuales estándar y los puntos de referencia exclusivos de LLM. Nuestros resultados resaltan la promesa de algoritmos bandidos asistidos por LLM y con reconocimiento de recursos para una colaboración confiable entre bandidos LLM en la toma de decisiones personalizada de alto riesgo.

Publicado originalmente en export.arxiv.org el 20 de enero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Sociedad 5.0: un concepto japonés para una sociedad superinteligente

CogEvo-Edu: Sistema colaborativo educativo multiagente de evolución cognitiva

RELACIONADO: Un codificador receptor independiente de esquemas para gráficos relacionales multimodales

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido