En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->ARCANE: un marco de múltiples agentes para una alineación interpretable y configurable

ARCANE: un marco de múltiples agentes para una alineación interpretable y configurable

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:A medida que los agentes basados ​​en grandes modelos lingüísticos se implementan cada vez más en tareas de largo plazo, mantener su alineación con las preferencias de las partes interesadas se vuelve fundamental. La alineación efectiva en tales entornos requiere modelos de recompensa que sean interpretables para que las partes interesadas puedan comprender y auditar los objetivos del modelo. Además, los modelos de recompensa deben ser capaces de dirigir a los agentes en el momento de la interacción, permitiendo que se incorporen cambios de preferencias sin necesidad de volver a capacitarlos. Presentamos ARCANE, un marco que enmarca la alineación como un problema de colaboración de múltiples agentes que representa dinámicamente las preferencias de las partes interesadas como rúbricas de lenguaje natural: conjuntos ponderados de criterios verificables que se pueden generar sobre la marcha a partir del contexto de la tarea. Inspirándonos en la teoría de la utilidad, formulamos el aprendizaje de rúbricas como un problema de reconstrucción y aplicamos un procedimiento regularizado de optimización de políticas de secuencia de grupos (GSPO) que equilibra la interpretabilidad, la fidelidad y la eficiencia computacional. Utilizando un corpus de 219 rúbricas etiquetadas derivadas del punto de referencia GDPVal, evaluamos ARCANE en tareas desafiantes que requieren razonamiento de varios pasos y uso de herramientas. Las rúbricas aprendidas producen evaluaciones compactas y legibles y permiten compensaciones configurables (por ejemplo, corrección frente a concisión) sin necesidad de volver a capacitarse. Nuestros resultados muestran que los modelos de recompensa basados ​​en rúbricas ofrecen un camino prometedor hacia una alineación adaptable e interpretable en el momento de las pruebas para sistemas de IA complejos y de largo plazo.

Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web