Resumen: Los registros del sistema representan una fuente valiosa de inteligencia de amenazas cibernéticas (CTI), capturando comportamientos de los atacantes, vulnerabilidades explotadas y rastros de actividad maliciosa. Sin embargo, su utilidad a menudo está limitada por la falta de estructura, inconsistencia semántica y fragmentación entre dispositivos y sesiones. La extracción de CTI procesable de los registros, por lo tanto, requiere enfoques que puedan conciliar datos ruidosos y heterogéneos en representaciones coherentes e interoperables. Introducimos a Ontologx, un agente de inteligencia artificial autónoma (AI) que aprovecha los modelos de idiomas grandes (LLM) para transformar los registros sin procesar en gráficos de conocimiento con ontología (KGS). Ontologx integra una ontología de registro liviana con la generación de recuperación aumentada (RAG) y los pasos de corrección iterativos, asegurando que los KG generados sean sintácticos y semánticamente válidos. Más allá del análisis a nivel de eventos, el sistema agrega KGS en sesiones y emplea una LLM para predecir las tácticas de Mitre ATT & CK, vinculando la evidencia de registro de bajo nivel con los objetivos adversos de nivel superior. Evaluamos Ontologx en ambos registros de un punto de referencia público y un conjunto de datos de honeypot del mundo real, lo que demuestra una generación robusta de KG en múltiples backends de KG y el mapeo preciso de la actividad adversaria a las tácticas ATT & CK. Los resultados resaltan los beneficios de la recuperación y la corrección para la precisión y el retiro, la efectividad de los modelos orientados al código en el análisis de registro estructurado y el valor de las representaciones de ontología para la extracción de CTI procesable.
Publicado Originalme en export.arxiv.org El 2 de octubre de 2025.
Ver Fuente Original