Vortex: alineando la utilidad de las tareas y las preferencias humanas a través de la configuración de la recompensa guiada por LLM

Resumen: En la optimización del impacto social, los sistemas de decisión de IA a menudo dependen de solucionadores que optimicen objetivos matemáticos bien calibrados. Sin embargo, estos solucionadores no pueden acomodar directamente las preferencias humanas en evolución, típicamente expresadas en lenguaje natural en lugar de limitaciones formales. Los enfoques recientes abordan esto mediante el uso de modelos de idiomas grandes (LLM) para generar nuevas funciones de recompensa a partir de descripciones de preferencias. Si bien son flexibles, corren el riesgo de sacrificar las garantías de utilidad central del sistema. En este documento, proponemos texttt {vortex}, un marco de conformidad de recompensa guiado por el lenguaje que preserva los objetivos de optimización establecidos al tiempo que incorpora de forma adaptativa la retroalimentación humana. Al formalizar el problema como optimización de objetivos múltiples, usamos LLM para generar iterativamente las recompensas de conformación basadas en el refuerzo verbal y las actualizaciones de inmediato con el gradiente de texto. Esto permite a las partes interesadas dirigir el comportamiento de decisión a través del lenguaje natural sin modificar solucionadores o especificar los pesos de compensación. Proporcionamos garantías teóricas que Texttt {Vortex} converge a las compensaciones óptimas de Pareto entre la utilidad y la satisfacción de la preferencia. Los resultados empíricos en las tareas de asignación del mundo real demuestran que Texttt {Vortex} supera a las líneas de base para satisfacer los objetivos de cobertura alineados por los humanos mientras se mantiene un alto rendimiento de la tarea. Este trabajo introduce un paradigma práctico y teóricamente fundamentado para la optimización colaborativa de Human-AI guiada por el lenguaje natural.

Publicado Originalme en export.arxiv.org El 22 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Vías ASR dinámicas: un enfoque de enmascaramiento adaptativo hacia la poda eficiente de un modelo ASR multilingüe

Modelos hiperbólicos de lenguaje grande

Parámetros GEPOC: parametrización y validación de código abierto para Austria, versión 2.0

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido