Aprendizaje seguro y eficiente en contexto a través del control de riesgos

Resumen: Grandes modelos de idiomas (LLM) demuestran una notable capacidad para aprender nuevas tareas de algunos ejemplos en contexto. Sin embargo, esta flexibilidad introduce preocupaciones de seguridad: las LLM pueden verse influenciadas por demostraciones incorrectas o maliciosas, por ejemplo, si un adversario manipula o inyecta ejemplos dañinos sin que un supervisor humano nota. Esto motiva los diseños de principios en los que el sistema en sí incluye mecanismos incorporados para protegerse contra tales ataques. Proponemos un enfoque novedoso para limitar el grado en que las demostraciones nocivas pueden degradar el rendimiento del modelo. Primero, definimos un comportamiento “ seguro ” de línea de base para el modelo: el rendimiento del modelo no dó demostraciones en contexto (shot cero). A continuación, aplicamos el control de riesgos libre de distribución (DFRC) para controlar el grado en que las muestras en contexto pueden decaer el rendimiento por debajo del disparo cero. Logramos esto aprovechando la predicción dinámica de salida temprana, ignorando los cabezales de atención posteriores que más asisten a las entradas inseguras. Finalmente, proponemos modificaciones a DFRC que le permiten controlar el riesgo de entradas dañinas Textit {y} El rendimiento y las ganancias de eficiencia en entradas útiles. Presentamos resultados teóricos y empíricos que muestran que nuestro enfoque puede controlar efectivamente el riesgo de demostraciones dañinas en contexto al tiempo que logran las ganancias de eficiencia computacional sustanciales con demostraciones útiles.

Publicado Originalme en export.arxiv.org El 5 de octubre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Vías ASR dinámicas: un enfoque de enmascaramiento adaptativo hacia la poda eficiente de un modelo ASR multilingüe

Conoce a Jim O’Neill, el entusiasta de la longevidad que ahora es el hombre derecho de RFK Jr.

Repensar la conectividad: ideas del taller 6G4Society en Ámsterdam

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido