---
timestamp: "00:00"
marker: "!"
title: "Introduction aux graphes d'attribution et au modèle de remplacement"
quote: "Ceci est une investigation de ce qu'ils appellent la biologie d'un grand modèle de langage."
details:
Anthropic présente une méthode innovante basée sur les "graphes d'attribution" pour analyser le fonctionnement interne des modèles de langage. Ils entraînent un modèle de remplacement spécial appelé "transcodeur intercouches", qui diffère des transformers traditionnels par deux caractéristiques clés. Premièrement, il permet des connexions croisées entre toutes les couches, pas seulement entre couches adjacentes. Deuxièmement, le modèle est conçu pour être très sparse, ce qui facilite l'identification des caractéristiques importantes. Ce transcodeur est entraîné pour correspondre non seulement aux sorties du modèle original, mais aussi à ses représentations intermédiaires, tout en offrant une meilleure interprétabilité des mécanismes internes.
La technique permet de tracer précisément quelles caractéristiques sont activées pour quelles entrées, et comment elles influencent la sortie finale. Anthropic a appliqué cette méthode à Claude 3.5 Haiku, révélant des insights fascinants sur le fonctionnement des transformers. L'analyse montre comment différentes caractéristiques s'activent en parallèle et interagissent pour produire le résultat final, offrant une fenêtre unique sur la "pensée" du modèle.
---
---
timestamp: "00:03"
marker: "!"
title: "Mécanismes d'addition dans les modèles de langage"
quote: "Le modèle n'effectue pas une seule opération mais active plusieurs voies parallèles qui s'influencent mutuellement."
details:
L'analyse révèle comment Claude 3.5 Haiku effectue des additions à deux chiffres comme 36 + 59. Contrairement à ce qu'on pourrait attendre, le modèle n'utilise pas un algorithme mathématique explicite, mais combine plusieurs caractéristiques approximatives. Par exemple, le nombre 36 active simultanément des caractéristiques pour "environ 30", "exactement 36" et "se terminant par 6". Ces caractéristiques sont ensuite combinées de manière non linéaire pour produire le résultat.
Fait intéressant, la plupart des calculs se produisent sur le token "=", qui sert de déclencheur pour l'opération. Le modèle utilise des caractéristiques approximatives comme "ajouter environ 40 et environ 50" ou "ajouter des nombres se terminant par 6 et 9", puis combine ces estimations pour arriver au résultat final. Cette approche diffère radicalement de la méthode explicite "ajouter les unités, reporter la retenue" que le modèle décrit lorsqu'on lui demande comment il procède.
---
---
timestamp: "00:10"
marker: "!"
title: "Diagnostic médical et représentations internes"
quote: "Le modèle forme des représentations internes des diagnostics avant de proposer des questions de suivi."
details:
Dans un cas d'étude de diagnostic médical, le modèle démontre sa capacité à former des représentations internes de conditions médicales comme la pré-éclampsie, même lorsque la tâche ne demande pas explicitement un diagnostic. Les symptômes d'entrée activent d'abord des caractéristiques individuelles, qui à leur tour activent des caractéristiques de diagnostic, conduisant finalement à la suggestion de questions pertinentes comme "troubles visuels".
Cette analyse révèle que les modèles peuvent former des représentations latentes complexes qui ne sont pas directement visibles dans leur sortie. Cependant, la nature des transformers limite la profondeur de raisonnement possible, car chaque couche successive a moins de capacité à traiter l'information. Ceci explique pourquoi les techniques comme le "chain-of-thought" (enchaînement de pensées) sont efficaces - elles permettent au modèle d'étendre son raisonnement sur plusieurs tokens.
---
---
timestamp: "00:24"
marker: "!"
title: "Hallucinations et mécanismes de refus"
quote: "Les refus semblent être déclenchés par des motifs linguistiques superficiels plutôt que par une compréhension profonde."
details:
Anthropic analyse comment les modèles fine-tunés apprennent à refuser de répondre à certaines requêtes. Ils identifient un "circuit par défaut" de refus qui est toujours actif, mais peut être inhibé lorsque le modèle reconnaît une réponse connue. Par exemple, demander des informations sur Michael Jordan inhibe le circuit de refus, tandis qu'une personne inconnue comme "Michael Batkin" ne le fait pas.
Cependant, cette analyse révèle que ces mécanismes sont souvent basés sur des corrélations superficielles plutôt que sur une compréhension profonde. Les refus pour des combinaisons dangereuses comme "eau de Javel et ammoniac" semblent être déclenchés par la simple présence conjointe de ces mots, pas par une évaluation réelle des risques. Cette approche mène à des refus frustrants lorsque le contexte n'est pas réellement dangereux.
---
---
timestamp: "00:35"
marker: "!"
title: "Jailbreaks et limites des mécanismes de sécurité"
quote: "Le modèle ne réalise pas immédiatement qu'une requête est dangereuse car il opère principalement au niveau linguistique."
details:
L'analyse des jailbreaks révèle les limites des mécanismes de sécurité. Dans un exemple où on demande au modèle de former un mot à partir des premières lettres d'une phrase (résultant en "bombe"), le modèle ne refuse qu'après avoir généré plusieurs tokens. Cela s'explique par le fait que le mécanisme de refus est déclenché par des combinaisons spécifiques de mots ("fabriquer une bombe") plutôt que par une compréhension sémantique.
De plus, le modèle est fortement contraint par la grammaire - il préfère terminer une phrase grammaticalement correcte plutôt que d'interrompre brusquement pour refuser. Ce n'est qu'aux points de haute entropie (comme la fin d'une phrase) que la probabilité de refus peut surpasser la contrainte grammaticale. Ces observations soulignent les limites des approches actuelles de sécurité basées sur le fine-tuning.
---
---
timestamp: "00:46"
marker: "!"
title: "Expérience sur les biais et limites méthodologiques"