Resumen: con el aumento de la implementación de modelos de idiomas grandes (LLM), una preocupación es su mal uso para generar contenido dañino. Nuestro trabajo estudia el desafío de alineación, con un enfoque en los filtros para evitar la generación de información insegura. Dos puntos naturales de intervención son el filtrado del indicador de entrada antes de llegar al modelo y filtrar la salida después de la generación. Nuestros principales resultados demuestran desafíos computacionales en el filtrado de indicaciones y salidas. Primero, mostramos que existen LLM para los cuales no hay filtros de inmediato eficientes: las indicaciones adversas que provocan un comportamiento dañino pueden construirse fácilmente, que son computacionalmente indistinguibles de las indicaciones benignas para cualquier filtro eficiente. Nuestro segundo resultado principal identifica una configuración natural en la que el filtrado de salida es computacionalmente intratable. Todos nuestros resultados de separación están bajo suposiciones de dureza criptográfica. Además de estos hallazgos centrales, también formalizamos y estudiamos enfoques de mitigación relajada, demostrando más barreras computacionales. Llegamos a la conclusión de que no se puede lograr la seguridad diseñando filtros externos a las partes internas LLM (arquitectura y pesas); En particular, el acceso a la caja negra al LLM no será suficiente. Según nuestros resultados técnicos, argumentamos que la inteligencia de un sistema de IA alineada no puede separarse de su juicio.
Publicado Originalme en export.arxiv.org El 10 de julio de 2025.
Ver Fuente Original