En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Aprender agentes personalizados a partir de la retroalimentación humana

Aprender agentes personalizados a partir de la retroalimentación humana

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los agentes de IA modernos son poderosos, pero a menudo no logran alinearse con las preferencias idiosincrásicas y cambiantes de los usuarios individuales. Los enfoques anteriores generalmente se basan en conjuntos de datos estáticos, ya sea entrenando modelos de preferencias implícitas en el historial de interacciones o codificando perfiles de usuario en una memoria externa. Sin embargo, estos enfoques tienen dificultades con los nuevos usuarios y con las preferencias que cambian con el tiempo. Presentamos Agentes personalizados a partir de comentarios humanos (PAHF), un marco para la personalización continua en el que los agentes aprenden en línea a partir de interacciones en vivo utilizando memoria explícita por usuario. La PAHF pone en práctica un ciclo de tres pasos: (1) buscar aclaraciones previas a la acción para resolver la ambigüedad, (2) fundamentar las acciones en preferencias recuperadas de la memoria y (3) integrar retroalimentación posterior a la acción para actualizar la memoria cuando las preferencias cambian. Para evaluar esta capacidad, desarrollamos un protocolo de cuatro fases y dos puntos de referencia en manipulación incorporada y compras en línea. Estos puntos de referencia cuantifican la capacidad de un agente para aprender las preferencias iniciales desde cero y posteriormente adaptarse a los cambios de personalidad. Nuestro análisis teórico y resultados empíricos muestran que la integración de la memoria explícita con canales de retroalimentación duales es fundamental: PAHF aprende sustancialmente más rápido y supera consistentemente las líneas de base sin memoria y de un solo canal, lo que reduce el error de personalización inicial y permite una rápida adaptación a los cambios de preferencias.

Publicado originalmente en export.arxiv.org el 18 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web