Protección de modelos lingüísticos contra la destilación no autorizada mediante la reescritura de trazas

Resumen: La destilación de conocimientos es una técnica ampliamente adoptada para transferir capacidades de los LLM a modelos de estudiantes más pequeños y eficientes. Sin embargo, el uso no autorizado de la destilación del conocimiento aprovecha injustamente el considerable esfuerzo y costo invertido en el desarrollo de modelos de frontera. Investigamos métodos para modificar los rastros de razonamiento generados por los profesores para lograr dos objetivos que disuadan la destilación no autorizada: (1) emph{anti-destilación}, o degradar la utilidad de entrenamiento de las respuestas a las consultas, y (2) emph{API watermarking}, que incorpora firmas verificables en los modelos de los estudiantes. Introducimos varios enfoques para reescribir dinámicamente los resultados de razonamiento de un profesor preservando al mismo tiempo la corrección de las respuestas y la coherencia semántica. Dos de ellos aprovechan las capacidades de reescritura de los LLM, mientras que otros utilizan técnicas basadas en gradientes. Nuestros experimentos muestran que un enfoque simple de reescritura basado en instrucciones logra un fuerte efecto anti-destilación al tiempo que mantiene o incluso mejora el desempeño de los docentes. Además, demostramos que nuestro enfoque de reescritura también permite una detección de marcas de agua altamente confiable sin prácticamente falsas alarmas.

Publicado originalmente en export.arxiv.org el 17 de febrero de 2026.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Optimización de políticas aprendibles desde la teoría de juegos para la racionalización de la autoexplicación centrada en datos

Jornada Oportunidades en Industria en Horizonte Europa. Castilla y León

El Renacer del Bosque Amazónico en Perú: Un Diálogo Con la Naturaleza

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido