Resumen: Grandes modelos de idiomas (LLM) demuestran una notable capacidad para aprender nuevas tareas de algunos ejemplos en contexto. Sin embargo, esta flexibilidad introduce preocupaciones de seguridad: las LLM pueden verse influenciadas por demostraciones incorrectas o maliciosas, por ejemplo, si un adversario manipula o inyecta ejemplos dañinos sin que un supervisor humano nota. Esto motiva los diseños de principios en los que el sistema en sí incluye mecanismos incorporados para protegerse contra tales ataques. Proponemos un enfoque novedoso para limitar el grado en que las demostraciones nocivas pueden degradar el rendimiento del modelo. Primero, definimos un comportamiento “ seguro ” de línea de base para el modelo: el rendimiento del modelo no dó demostraciones en contexto (shot cero). A continuación, aplicamos el control de riesgos libre de distribución (DFRC) para controlar el grado en que las muestras en contexto pueden decaer el rendimiento por debajo del disparo cero. Logramos esto aprovechando la predicción dinámica de salida temprana, ignorando los cabezales de atención posteriores que más asisten a las entradas inseguras. Finalmente, proponemos modificaciones a DFRC que le permiten controlar el riesgo de entradas dañinas Textit {y} El rendimiento y las ganancias de eficiencia en entradas útiles. Presentamos resultados teóricos y empíricos que muestran que nuestro enfoque puede controlar efectivamente el riesgo de demostraciones dañinas en contexto al tiempo que logran las ganancias de eficiencia computacional sustanciales con demostraciones útiles.
Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original