Resumen: La destilación de conocimientos es una técnica ampliamente adoptada para transferir capacidades de los LLM a modelos de estudiantes más pequeños y eficientes. Sin embargo, el uso no autorizado de la destilación del conocimiento aprovecha injustamente el considerable esfuerzo y costo invertido en el desarrollo de modelos de frontera. Investigamos métodos para modificar los rastros de razonamiento generados por los profesores para lograr dos objetivos que disuadan la destilación no autorizada: (1) emph{anti-destilación}, o degradar la utilidad de entrenamiento de las respuestas a las consultas, y (2) emph{API watermarking}, que incorpora firmas verificables en los modelos de los estudiantes. Introducimos varios enfoques para reescribir dinámicamente los resultados de razonamiento de un profesor preservando al mismo tiempo la corrección de las respuestas y la coherencia semántica. Dos de ellos aprovechan las capacidades de reescritura de los LLM, mientras que otros utilizan técnicas basadas en gradientes. Nuestros experimentos muestran que un enfoque simple de reescritura basado en instrucciones logra un fuerte efecto anti-destilación al tiempo que mantiene o incluso mejora el desempeño de los docentes. Además, demostramos que nuestro enfoque de reescritura también permite una detección de marcas de agua altamente confiable sin prácticamente falsas alarmas.
Publicado originalmente en export.arxiv.org el 17 de febrero de 2026.
Ver fuente original
