Resumen:Con la aplicación generalizada de los modelos de lenguajes grandes (LLM), sus problemas de seguridad asociados se han vuelto cada vez más prominentes, lo que limita gravemente su implementación confiable en dominios críticos. Este documento propone un novedoso marco de respuesta de seguridad diseñado para salvaguardar sistemáticamente los LLM tanto en el nivel de entrada como en el de salida. En el nivel de entrada, el marco emplea un modelo de clasificación de seguridad supervisado y basado en ajustes finos. A través de una taxonomía detallada de cuatro niveles (seguro, inseguro, condicionalmente seguro, atención enfocada), realiza una identificación de riesgos precisa y un manejo diferenciado de las consultas de los usuarios, mejorando significativamente la cobertura de riesgos y la adaptabilidad del escenario empresarial, y logrando una tasa de recuperación de riesgos del 99,3%. A nivel de resultados, el marco integra recuperación-generación aumentada (RAG) con un modelo de interpretación específicamente ajustado, lo que garantiza que todas las respuestas se basen en una base de conocimiento confiable y en tiempo real. Este enfoque elimina la fabricación de información y permite la trazabilidad de los resultados. Los resultados experimentales demuestran que nuestro modelo de control de seguridad propuesto logra una puntuación de seguridad significativamente más alta en los puntos de referencia de evaluación de seguridad pública en comparación con el modelo de referencia, TinyR1-Safety-8B. Además, en nuestro conjunto de pruebas patentado de alto riesgo, los componentes del marco obtuvieron una puntuación de seguridad perfecta del 100%, lo que valida sus excepcionales capacidades de protección en escenarios de riesgo complejos. Esta investigación proporciona una vía de ingeniería eficaz para crear aplicaciones LLM de alta seguridad y confianza.
Publicado originalmente en export.arxiv.org el 5 de noviembre de 2025.
Ver fuente original
