Resumen:La gestión de interrupciones en operaciones en la nube a gran escala sigue siendo en gran medida manual, lo que requiere una clasificación rápida, coordinación entre equipos y decisiones basadas en la experiencia bajo observabilidad parcial. Presentamos textbf{ActionNex}, un sistema agentic de nivel de producción que admite asistencia en caso de interrupción de un extremo a otro, incluidas actualizaciones en tiempo real, destilación de conocimientos y recomendaciones de la siguiente mejor acción condicionadas por roles y etapas. ActionNex ingiere señales operativas multimodales (por ejemplo, contenido de interrupciones, telemetría y comunicaciones humanas) y las comprime en eventos críticos que representan transiciones de estado significativas. Combina esta capa de percepción con un subsistema de memoria jerárquico: conocimiento clave-condición-acción (KCA) a largo plazo destilado de manuales y ejecuciones históricas, memoria episódica de interrupciones anteriores y memoria de trabajo del contexto vivo. Un agente de razonamiento alinea los eventos críticos actuales con las condiciones previas, recupera recuerdos relevantes y genera recomendaciones prácticas; Las acciones humanas ejecutadas sirven como una señal de retroalimentación implícita para permitir la autoevolución continua en un sistema híbrido humano-agente. Evaluamos ActionNex en ocho interrupciones reales de Azure (8 millones de tokens, 4.000 eventos críticos) utilizando dos conjuntos de acciones complementarias de verdad sobre el terreno, logrando una precisión del 71,4% y una recuperación del 52,8-54,8%. El sistema se ha puesto a prueba en producción y ha recibido comentarios positivos desde el principio.
Publicado originalmente en export.arxiv.org el 6 de abril de 2026.
Ver fuente original
