Depuis 2021, l’entreprise Anthropic bosse sur des modèles d’IA générative, et leur projet phare s’appelle Claude. Ces modèles impressionnent par leur capacité à traiter et générer du texte, ce qui fait parler d’eux aussi bien dans le grand public que parmi les experts. Néanmoins, cette avancée soulève aussi des questions importantes sur la manière dont ils fonctionnent en coulisses.
Une boîte noire technique
Les créateurs d’Anthropic reconnaissent ne pas comprendre entièrement ce qui se passe à l’intérieur de ces systèmes, ce qui rend la détection d’erreurs ou de performances limitées des agents IA bien plus compliquée. Contrairement aux logiciels traditionnels où chaque action est parfaitement comprise par le développeur, les IA génératives fonctionnent comme de véritables boîtes noires.
Dario Amodei, le PDG d’Anthropic, compare ces IA à des plantes : leur croissance est dirigée par des conditions générales mais leur forme exacte reste imprévisible. Il ajoute que « les personnes extérieures au domaine sont souvent surprises et alarmées d’apprendre que nous ne comprenons pas le fonctionnement de nos propres créations d’IA » (Reddit). Ce manque de compréhension n’a jamais été vu auparavant dans l’histoire de la techno.
Its been a big last few days in AI, huh?
To recap: ChatGPT was caught being way to sycophantic which prompted the CEO of Anthropic, Dario Amodei, to write a paper called "The Urgency of Interpretability."
In it he said:
"People outside the field are often surprised and alarmed… pic.twitter.com/VzW2fxC3A1
— Trillion Agents (@trillionagents) May 9, 2025
Vers plus de transparence
Pour remédier à cette opacité, Anthropic travaille à développer des outils d’interprétabilité afin de mieux appréhender ses modèles. Par exemple, l’équipe se sert d’autoencodeurs clairsemés pour isoler certaines combinaisons de neurones. Grâce à cette méthode, ils ont réussi à identifier plus de 30 millions de caractéristiques dans un modèle commercial de taille moyenne, le Claude 3 Sonnet.
Un cas marquant est celui du « Golden Gate Claude ». Grâce à l’amplification de la caractéristique « Golden Gate Bridge », le modèle finit par évoquer ce pont même dans des conversations qui n’y ont rien à voir. Dario Amodei explique : « Nous avons utilisé cette méthode pour créer ‘Golden Gate Claude’, une version d’un modèle d’Anthropic où la caractéristique ‘Golden Gate Bridge’ était amplifiée artificiellement. » (Darioamodei).
Pourtant, malgré ces progrès, la plupart des neurones restent un mélange désordonné de mots et concepts, ce qui empêche pour l’instant de prédire précisément certains comportements. Chris Olah souligne justement que cette difficulté à percer les mécanismes internes freine la capacité des chercheurs à anticiper ou à éviter certains comportements.
Défis et perspectives à venir
Repérer 30 millions de caractéristiques représente une belle avancée, mais Dario Amodei estime qu’un modèle pourrait receler jusqu’à un milliard de concepts ou plus. Le monde de l’IA évolue à une vitesse incroyable, souvent bien plus vite que les outils mis en place pour l’analyser, ce qui inclut la consommation énergétique élevée de ces systèmes. Cela met une pression supplémentaire sur Anthropic et les autres acteurs du secteur pour approfondir leur compréhension de ces systèmes.
La progression rapide de cette techno impose de rester en veille constante pour être sûr qu’elle demeure fiable et bénéfique. Le défi de lever le voile sur ces systèmes complexes reste donc une priorité pour Anthropic et ses chercheurs, tout en explorant les perspectives d’évolution technologique.






