Resumen: Los modelos de lenguajes grandes (LLM) implementados en entornos de producción enfrentan una compensación fundamental entre seguridad y utilidad, ya sea que mecanismos de filtrado estrictos eviten resultados dañinos pero a menudo bloquean consultas benignas o controles relajados que corren el riesgo de generar contenido inseguro. Las barreras de seguridad convencionales basadas en reglas estáticas o umbrales de confianza fijos suelen ser insensibles al contexto y computacionalmente costosas, lo que genera una alta latencia y una experiencia de usuario degradada. Para abordar estas limitaciones, introducimos un sistema de abstención adaptativo que ajusta dinámicamente los umbrales de seguridad en función de señales contextuales en tiempo real, como el dominio y el historial del usuario. El marco propuesto integra una arquitectura de detección multidimensional compuesta por cinco detectores paralelos, combinados a través de un mecanismo de cascada jerárquico para optimizar tanto la velocidad como la precisión. El diseño en cascada reduce el cálculo innecesario al filtrar consultas progresivamente, logrando mejoras sustanciales de latencia en comparación con los modelos sin cascada y los sistemas de barrera externos. Una evaluación exhaustiva de cargas de trabajo mixtas y de dominios específicos demuestra reducciones significativas en los falsos positivos, particularmente en dominios sensibles como el asesoramiento médico y la escritura creativa. El sistema mantiene una alta precisión de seguridad y una recuperación casi perfecta en modos de funcionamiento estrictos. En general, nuestro marco de abstención consciente del contexto equilibra efectivamente la seguridad y la utilidad al mismo tiempo que preserva el rendimiento, ofreciendo una solución escalable para una implementación LLM confiable.
Publicado originalmente en export.arxiv.org el 17 de febrero de 2026.
Ver fuente original
