Privacy Backdoors: Stealing Data with Corrupted Pretrained Models (Paper Explained)

Attaque par porte dérobée dans les modèles pré-entraînés : Vol de données via des modèles corrompus

---

timestamp: "00:00"

marker: "!"

title: "Introduction au concept de porte dérobée dans les modèles pré-entraînés"

quote: "Nous proposons une nouvelle porte dérobée qui, une fois activée, capture un point de données dans les poids du modèle et se désactive ensuite."

details:

L'article présente une méthode innovante pour voler des données de fine-tuning à partir de modèles pré-entraînés compromis, comme BERT et les Vision Transformers (ViTs). L'idée centrale est qu'un attaquant peut modifier les poids d'un modèle pré-entraîné de manière à ce que, lors du fine-tuning par une victime, les données utilisées soient encodées de manière récupérable dans les poids du modèle final. Cette attaque fonctionne même dans un scénario de boîte noire où l'attaquant n'a accès qu'à des paires d'entrées/sorties via une API, ce qui est particulièrement inquiétant car cela contourne les protections traditionnelles de confidentialité des données.

Le scénario typique implique une victime qui télécharge un modèle apparemment légitime (comme BERT) depuis une plateforme comme Hugging Face, l'utilise pour fine-tuner un classifieur sur ses données sensibles, puis soit le republie, soit le déploie via une API. L'attaquant, ayant préalablement corrompu le modèle de base, peut alors extraire les données de fine-tuning à partir des poids du modèle final ou via des requêtes API. Cette méthode ne repose pas sur des vulnérabilités techniques traditionnelles (comme l'exécution de code via pickle), mais exploite des propriétés fondamentales de l'apprentissage automatique et des mises à jour de gradients.

L'approche est présentée comme un "concept" avec une implémentation pratique déjà fonctionnelle sur des architectures courantes. Bien que des obstacles pratiques existent (comme l'utilisation d'Adam ou du weight decay), les auteurs montrent que la méthode atteint les limites théoriques des garanties de confidentialité différentielle, remettant en question l'hypothèse commune que les bornes théoriques de confidentialité sont trop conservatrices en pratique. Cela suggère que même des techniques comme l'apprentissage différentiellement privé pourraient ne pas suffire à protéger contre ce type d'attaque sophistiquée.

---

---

timestamp: "03:09"

marker: "!"

title: "Mécanisme d'attaque : exploitation des mises à jour de gradients"

quote: "En divisant simplement le gradient par rapport à W par le gradient par rapport à b, nous pouvons reconstruire exactement le point de données x utilisé pour l'entraînement."

details:

Le cœur de l'attaque repose sur une analyse minutieuse des mises à jour de gradients dans une couche linéaire simple. Les auteurs considèrent d'abord le cas d'un perceptron monocouche avec une fonction ReLU. Lors d'une étape de descente de gradient stochastique (SGD), les gradients par rapport aux poids (W) et au biais (b) contiennent tous deux un terme commun qui est proportionnel au point de données d'entraînement x. En divisant ces gradients entre eux, on peut reconstruire exactement x.

Pour que cette reconstruction soit possible, plusieurs conditions doivent être remplies : (1) la victime doit effectuer un vrai fine-tuning (pas seulement du last-layer tuning), (2) utiliser SGD (plutôt que des optimiseurs plus sophistiqués comme Adam), et (3) le modèle doit contenir des unités linéaires spécifiquement préparées par l'attaquant. Ces unités sont conçues pour "capturer" un point de données lors de la première activation, puis se "verrouiller" pour empêcher les mises à jour ultérieures qui pourraient brouiller l'information.

Un aspect ingénieux de la méthode est l'utilisation stratégique de la fonction ReLU pour créer ce mécanisme de verrouillage. Après la première activation, les poids sont modifiés de manière à ce que la sortie de l'unité soit toujours négative (donc mise à zéro par la ReLU), ce qui bloque tout gradient ultérieur vers ces poids. Cela transforme effectivement le modèle en une "mémoire en lecture seule" pour les données capturées, préservant leur empreinte malgré les epochs d'entraînement supplémentaires.

Les auteurs détaillent les calculs mathématiques montrant comment, en initialisant judicieusement un paramètre de grande amplitude (qu'ils appellent W1), ils peuvent amplifier le signal de gradient de manière à garantir que la mise à jour initiale soit suffisamment importante pour verrouiller l'unité. Cette amplification est cruciale car elle permet de dominer les autres signaux dans le modèle et d'assurer que le verrouillage persiste malgré le fine-tuning ultérieur.

---

---

timestamp: "09:49"

marker: "!"

title: "Implications pour la confidentialité différentielle"

quote: "Notre attaque atteint les pires bornes théoriques de l'entraînement différentiellement privé, montrant que les garanties pratiques ne sont pas aussi laxistes qu'on le pensait."

details:

Les résultats de l'article ont des implications profondes pour la confidentialité différentielle en ML. Traditionnellement, on supposait qu'en pratique, les garanties de confidentialité pouvaient être plus souples que les pires cas théoriques. Cependant, cette attaque démontre qu'un adversaire sophistiqué peut effectivement atteindre ces limites théoriques, compromettant ainsi les données même lorsque des techniques de confidentialité différentielle sont employées.

Cela remet en question l'efficacité pratique des méthodes existantes pour protéger la vie privée dans l'apprentissage automatique, particulièrement dans les scénarios où les modèles de base pourraient être compromis. Les auteurs soulignent que leur attaque fonctionne même avec un fine-tuning complet (pas seulement le dernier layer), ce qui correspond à de nombreux cas d'usage réels où les utilisateurs adaptent l'ensemble du modèle à leur tâche spécifique.

La discussion aborde également les différences entre les scénarios de boîte blanche (accès direct au modèle fine-tuné) et de boîte noire (accès uniquement via API). Dans ce dernier cas, l'attaquant doit d'abord effectuer une "extraction de modèle" pour estimer les poids avant de pouvoir récupérer les données, ajoutant une étape supplémentaire mais ne rendant pas l'attaque fondamentalement impossible.

Cette section sert d'avertissement important pour la communauté du ML, suggérant que les garanties de confidentialité doivent être réévaluées en tenant compte de ce type d'attaques avancées. Les implications sont particulièrement graves pour les applications sensibles comme le traitement de données médicales ou d'identité, où la fuite de données d'entraînement pourrait avoir des conséquences légales et éthiques majeures.

---

---

timestamp: "12:55"

marker: "!"

title: "Extension aux architectures Transformer"

quote: "Pour capturer tous les tokens d'une séquence, nous concevons des portes dérobées qui ne s'activent que pour des tokens spécifiques à une position particulière dans une séquence d'entrée donnée."

details:

La généralisation de l'attaque aux architectures Transformer comme BERT et ViT présente des défis supplémentaires en raison de leur complexité. Les auteurs décrivent comment adapter le mécanisme de base pour fonctionner avec les couches d'attention et les MLP des Transformers, tout en gérant des séquences d'entrée plutôt que des vecteurs simples.

La solution implique de diviser les caractéristiques cachées en trois composantes : (1) la partie "bénigne" pour le fonctionnement normal du modèle, (2) une "clé" pour identifier et capturer les données cibles, et (3) un module de propagation pour amplifier le signal jusqu'à la couche de sortie. Cette séparation permet de maintenir l'utilité du modèle tout en incorporant la fonctionnalité malveillante.

Un défi majeur est de cibler des tokens spécifiques dans des positions particulières de la séquence d'entrée. Les auteurs utilisent des embeddings positionnels et séquentiels dans la partie "clé" du modèle pour garantir qu'une unité donnée ne s'active que pour un token à une position précise dans une séquence spécifique. Cela permet de reconstruire des points de données complets (comme des phrases entières) plutôt que des tokens isolés.

La section détaille également comment les techniques standard comme la normalisation de couche (LayerNorm) et les fonctions d'activation comme GELU posent problème à l'attaque, et comment les contourner. Par exemple, l'ajout de grandes constantes aux signaux des portes dérobées permet de neutraliser l'effet de la normalisation sur ces signaux, préservant ainsi leur utilité pour la capture de données.

---

---

timestamp: "22:30"

marker: "!"

title: "Mécanisme de verrouillage et robustesse"

quote: "Notre porte dérobée agit comme un loquet : une fois activée et le point de données écrit dans les poids, elle se désactive et scelle l'information contre les mises à jour ultérieures."

details: