Resumen: las instrucciones del sistema (SIS), o las indicaciones del sistema, son fundamentales para guiar modelos de lenguaje grandes (LLM), pero la elaboración manual es intensiva en recursos y, a menudo, es subóptima. Los métodos automatizados existentes generan frecuentemente “indicaciones suaves” no humanos, sacrificando la interpretabilidad. Este documento presenta SI-Agent, un nuevo marco de agente diseñado para generar automáticamente y refinar iterativamente SIS legible por humanos a través de un bucle basado en retroalimentación. SI-Agent emplea a tres agentes colaboradores: un agente de instructor, un agente de seguidor de instrucciones (Target LLM) y un agente de retroalimentación/recompensa que evalúa el rendimiento de la tarea y opcionalmente la legibilidad de SI. El marco utiliza ciclos iterativos donde la retroalimentación guía la estrategia de refinamiento del instructor (por ejemplo, edición basada en LLM, algoritmos evolutivos). Detaltamos la arquitectura del marco, los roles de los agentes, el proceso de refinamiento iterativo y la contrastamos con los métodos existentes. Presentamos resultados experimentales que validan la efectividad de Si-Agent, centrándose en las métricas para el rendimiento de las tareas, la legibilidad de SI y la eficiencia. Nuestros hallazgos indican que SI-Agent genera SIS efectivo y legible, que ofrece una compensación favorable entre el rendimiento y la interpretabilidad en comparación con las líneas de base. Las posibles implicaciones incluyen la personalización de la personalización de LLM y mejorar la transparencia del modelo. Se reconocen los desafíos relacionados con el costo computacional y la confiabilidad de los comentarios.
Publicado Originalme en export.arxiv.org El 7 de julio de 2025.
Ver Fuente Original