Un marco de respuesta de seguridad basado en modelos patentado para agentes de IA

Resumen:Con la aplicación generalizada de los modelos de lenguajes grandes (LLM), sus problemas de seguridad asociados se han vuelto cada vez más prominentes, lo que limita gravemente su implementación confiable en dominios críticos. Este documento propone un novedoso marco de respuesta de seguridad diseñado para salvaguardar sistemáticamente los LLM tanto en el nivel de entrada como en el de salida. En el nivel de entrada, el marco emplea un modelo de clasificación de seguridad supervisado y basado en ajustes finos. A través de una taxonomía detallada de cuatro niveles (seguro, inseguro, condicionalmente seguro, atención enfocada), realiza una identificación de riesgos precisa y un manejo diferenciado de las consultas de los usuarios, mejorando significativamente la cobertura de riesgos y la adaptabilidad del escenario empresarial, y logrando una tasa de recuperación de riesgos del 99,3%. A nivel de resultados, el marco integra recuperación-generación aumentada (RAG) con un modelo de interpretación específicamente ajustado, lo que garantiza que todas las respuestas se basen en una base de conocimiento confiable y en tiempo real. Este enfoque elimina la fabricación de información y permite la trazabilidad de los resultados. Los resultados experimentales demuestran que nuestro modelo de control de seguridad propuesto logra una puntuación de seguridad significativamente más alta en los puntos de referencia de evaluación de seguridad pública en comparación con el modelo de referencia, TinyR1-Safety-8B. Además, en nuestro conjunto de pruebas patentado de alto riesgo, los componentes del marco obtuvieron una puntuación de seguridad perfecta del 100%, lo que valida sus excepcionales capacidades de protección en escenarios de riesgo complejos. Esta investigación proporciona una vía de ingeniería eficaz para crear aplicaciones LLM de alta seguridad y confianza.

Publicado originalmente en export.arxiv.org el 5 de noviembre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

MDK12 Bench: una evaluación completa de modelos de lenguaje grande multimodal en exámenes multidisciplinarios

LuSEE-Night: Nos vemos en la cara oculta de la Luna

Mejora de las habilidades de razonamiento generalizado de LLM por problemas de gráficos

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido