ARCANE: un marco de múltiples agentes para una alineación interpretable y configurable

Resumen:A medida que los agentes basados en grandes modelos lingüísticos se implementan cada vez más en tareas de largo plazo, mantener su alineación con las preferencias de las partes interesadas se vuelve fundamental. La alineación efectiva en tales entornos requiere modelos de recompensa que sean interpretables para que las partes interesadas puedan comprender y auditar los objetivos del modelo. Además, los modelos de recompensa deben ser capaces de dirigir a los agentes en el momento de la interacción, permitiendo que se incorporen cambios de preferencias sin necesidad de volver a capacitarlos. Presentamos ARCANE, un marco que enmarca la alineación como un problema de colaboración de múltiples agentes que representa dinámicamente las preferencias de las partes interesadas como rúbricas de lenguaje natural: conjuntos ponderados de criterios verificables que se pueden generar sobre la marcha a partir del contexto de la tarea. Inspirándonos en la teoría de la utilidad, formulamos el aprendizaje de rúbricas como un problema de reconstrucción y aplicamos un procedimiento regularizado de optimización de políticas de secuencia de grupos (GSPO) que equilibra la interpretabilidad, la fidelidad y la eficiencia computacional. Utilizando un corpus de 219 rúbricas etiquetadas derivadas del punto de referencia GDPVal, evaluamos ARCANE en tareas desafiantes que requieren razonamiento de varios pasos y uso de herramientas. Las rúbricas aprendidas producen evaluaciones compactas y legibles y permiten compensaciones configurables (por ejemplo, corrección frente a concisión) sin necesidad de volver a capacitarse. Nuestros resultados muestran que los modelos de recompensa basados en rúbricas ofrecen un camino prometedor hacia una alineación adaptable e interpretable en el momento de las pruebas para sistemas de IA complejos y de largo plazo.

Publicado originalmente en export.arxiv.org el 8 de diciembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Galax: Modelo de lenguaje acuático gráfico para el razonamiento de subgraph guiado por refuerzo explicable en medicina de precisión

El razonamiento explícito hace mejores jueces: un estudio sistemático sobre precisión, eficiencia y robustez

El papel indispensable de la simulación de usuario en la búsqueda de AGI

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido