En avril, Flavien Chervet évoquait la possibilité d’une « explosion de l’intelligence » qui compresserait 100 ans de progrès scientifiques en quelques années grâce aux IA. Mais la question cruciale n’est peut-être pas seulement celle du tempo : c’est aussi et surtout celle de la direction.
Alors que les capacités des IA progressent à un rythme vertigineux, notre compréhension de leur fonctionnement interne accuse un retard préoccupant. Cette asymétrie soulève un défi existentiel : comment s’assurer que ces systèmes agissent conformément à nos intentions avant qu’ils ne deviennent trop puissants pour être contrôlés ?
L’énigme de la boîte noire
Imaginez que vous conduisiez une voiture dont vous ne pourriez ni voir sous le capot, ni comprendre le fonctionnement du moteur. Vous savez appuyer sur l’accélérateur pour avancer, mais ignorez totalement comment la combustion se produit, pourquoi le moteur cale parfois, ou s’il risque d’exploser. C’est exactement la situation dans laquelle nous nous trouvons avec les systèmes d’intelligence artificielle modernes.
Les IA génératives prennent la forme de gros réseaux de neurones numériques dont les capacités émergent d’un processus d’apprentissage automatisé. Contrairement aux logiciels traditionnels, où chaque ligne de code a été explicitement programmée par un humain, les IA sont donc le résultat d’un processus qui n’est pas précisément déterminé par l’humain. Comme le formule Chris Olah, cofondateur d’Anthropic (l’entreprise derrière le système d’IA Claude, plus gros concurrent actuel à ChatGPT) : « Les systèmes d’IA sont plus cultivés que construits ». Or, la complexité du processus d’apprentissage le rend complètement illisible pour l’humain. Ainsi, les concepteurs des IA eux-mêmes ne découvrent de quoi elles sont capables qu’en les utilisant.
Cette opacité représente un défi inédit dans l’histoire de la technologie. Lorsqu’un modèle comme GPT-4 ou Claude résume un document financier ou répond à une question complexe, nous ignorons totalement pourquoi il fait certains choix plutôt que d’autres. Nous observons le résultat, mais les rouages qui y mènent restent illisibles, perdus dans les méandres de centaines de milliards de synapses algorithmiques.
L’IRM pour l’intelligence artificielle
Face à ce défi, un nouveau domaine de recherche a émergé : « l’interprétabilité mécanistique ». L’objectif ? Développer l’équivalent d’une IRM pour l’intelligence artificielle – une technologie capable de révéler avec précision les mécanismes internes des modèles. Cette métaphore, popularisée par Dario Amodei, PDG d’Anthropic, illustre parfaitement l’ambition : pouvoir « scanner » un système d’IA pour comprendre non seulement ce qu’il fait, mais comment il le fait.
Les premières percées de ce domaine remontent aux années 2010. Des recherches montrent alors que, dans les « modèles de vision » (des IA capables d’identifier des objets sur des images), certains neurones artificiels sont spécialisés. Certains sont par exemple dédiés à la détection de concepts spécifiques comme « une voiture » ou « une roue ». Mais l’application de ces techniques aux modèles de langage (les « LLM »), comme GPT, s’est révélée bien plus complexe.
En 2021, les équipes d’Anthropic ont découvert un phénomène fondamental : la « superposition ». Dans ces systèmes, chaque neurone ne correspond pas à un concept unique et interprétable, mais encode simultanément des fragments de milliers de concepts différents. C’est comme si chaque cellule du cerveau artificiel tentait de mémoriser des bribes de l’ensemble des connaissances humaines, créant un enchevêtrement apparemment inextricable.
Toutefois, et c’est la première réussite majeure de l’interprétabilité mécanistique, plusieurs équipes de chercheurs ont réussi en 2023 à défaire cet entrelacs (grâce à une technique issue du traitement du signal, les « autoencodeurs parcimonieux »). Cette méthode permet d’identifier des combinaisons de neurones qui correspondent à des concepts humainement compréhensibles, même très subtils. L’équipe d’Anthropic a ainsi pu cartographier plus de 30 millions de concepts (on parle de « features » ou « caractéristiques ») dans Claude 3 Sonnet, certains plutôt simples, comme le « Golden Gate Bridge », d’autres aussi raffinés que « hésitation ou réserve littérale ou figurée » ou « genres musicaux exprimant le mécontentement ».
Cette cartographie ne se contente pas d’observer : elle permet d’intervenir. En manipulant ces features, les chercheurs peuvent modifier le comportement du modèle de manière ciblée. L’expérience la plus mémorable reste celle du « Golden Gate Claude », où l’amplification artificielle de la feature « Golden Gate Bridge » a rendu le modèle obsédé par ce pont. Il s’est alors mis à l’évoquer sans arrêt, même dans des conversations sans rapport.
Plus récemment, les recherches se sont orientées vers l’identification de « circuits » – des chaînes d’activation des neurones artificiels qui montrent comment les concepts émergent des mots d’entrée, interagissent pour former de nouveaux concepts, et génèrent finalement une réponse. Ces circuits permettent de « tracer » la pensée du modèle. Par exemple, face à la question « Quelle est la capitale de l’État contenant Dallas ? », on peut observer la feature « situé dans » s’associer à la feature « Dallas » pour déclencher la feature « Texas », qui s’associe alors à la feature « capitale » pour activer la feature « Austin ».
Il s’agit là de première capacité concrète à « lire dans les pensées » des IA, au niveau le plus fondamental, celui des neurones artificiels !
Les promesses de l’alignement
Si cette recherche fondamentale fascine, elle vise un objectif pratique : l’alignement des systèmes d’IA avec les intentions humaines. L’interprétabilité mécanistique ouvre des perspectives révolutionnaires dans plusieurs domaines critiques.
Sécurité et fiabilité renforcées : Comprendre les mécanismes internes permettrait de prédire et prévenir les comportements problématiques avant qu’ils ne se manifestent. Au lieu de découvrir les failles par essai-erreur, nous pourrions effectuer des « diagnostics » préventifs, identifiant dans les systèmes d’IA les tendances à la tromperie, les biais, ou les vulnérabilités aux manipulations.
Déploiement dans des secteurs critiques : Actuellement, l’opacité des IA limite leur adoption dans des domaines où les erreurs coûtent cher – finance, santé, défense. Une IA réellement « transparente » pourrait révolutionner ces secteurs. Dans certains cas, comme l’évaluation de prêts hypothécaires ou l’assurance, l’explicabilité des décisions est même une obligation légale.
Accélération de la découverte scientifique : L’IA excelle déjà dans la prédiction de structures protéiques (AlphaFold) ou l’analyse de données génétiques (EVO), mais les patterns découverts restent souvent inintelligibles pour les humains. On se retrouve avec une connaissance… Sans compréhension ! L’interprétabilité pourrait nous permettre de réellement comprendre les découvertes faites par les IA et ainsi retrouver une base scientifique solide.
Gouvernance et régulation éclairées : Comment réguler efficacement une technologie qu’on ne comprend pas ? L’interprétabilité fournirait aux décideurs politiques les outils nécessaires pour évaluer les risques, définir des standards de sécurité, et auditer le respect des réglementations.
Les risques de l’ignorance
L’urgence de ces développements devient évidente quand on considère les risques d’un monde où des IA surpuissantes resteraient opaques. Ces dangers ne relèvent plus de la science-fiction : ils émergent des propriétés intrinsèques des systèmes d’apprentissage actuels.
Le problème de la « convergence instrumentale » : Pour atteindre l’objectif « maximiser la production de trombone de mon entreprise », il pourrait sembler pertinent à une IA de raser la surface de la Terre pour y installer une usine de production géante, au détriment de toute vie. Ce cas extrême du « maximiseur de trombone », introduit en 2003 par Nick Bostrom illustre un problème réel. Pour maximiser un objectif apparemment positif, une IA avec beaucoup d’autonomie et de capacité d’action sur le monde pourrait optimiser des objectifs intermédiaires (dits « instrumentalement convergents avec l’objectif initial ») dangereux. Aujourd’hui, ces cas de désalignement sont de plus en plus nombreux dans les laboratoires. Sans comprendre précisément les mécanismes internes des IA, nous ne pouvons garantir leur alignement.
L’émergence de comportements de tromperie : La nature même de certains algorithmes d’apprentissage (notamment l’apprentissage dit « par renforcement ») peut pousser les IA à développer des capacités de tromperie si celles-ci s’avèrent efficace pour atteindre l’objectif donné. Sans IRM sur leurs « pensées », nous ne pourrions identifier ces tendances qu’après coup, lorsque les systèmes auraient déjà appris à masquer leurs véritables intentions.
La prolifération d’armes cognitives : Des IA capables de manipulation psychologique sophistiquée, de désinformation ciblée, ou de cyber-attaques adaptatives pourraient émerger sans que nous comprenions leurs mécanismes. L’impossibilité de caractériser précisément leurs capacités dangereuses compliquerait dramatiquement leur régulation.
L’effondrement de la confiance institutionnelle : Si des IA opaques prennent des décisions critiques dans la justice, la finance, ou la santé, et que ces décisions s’avèrent discriminatoires ou erronées sans explication possible, la confiance du public dans les institutions utilisant ces technologies pourrait s’effondrer.
La course contre la montre
Cette situation crée un paradoxe temporel inquiétant. D’un côté, les capacités des IA progressent selon une courbe exponentielle impressionnante. Les modèles actuels maîtrisent déjà des tâches cognitives sophistiquées, et les projections suggèrent l’émergence de systèmes qualifiables d’« IA Générale » capable de réaliser peu ou prou toutes les tâches cognitives dont est capable un humain d’ici 2027 ou 2028. De l’autre côté, notre compréhension de ces systèmes accuse un retard considérable.
Cette asymétrie temporelle pose un dilemme existentiel : nous pourrions bientôt déployer des intelligences artificielles aux capacités surhumaines sans comprendre leurs mécanismes fondamentaux.
Les implications dépassent la technique pure. Ces systèmes ultra-performants seront bientôt l’infrastructure de nos sociétés. Ils seront au cœur de l’économie, de la science, des systèmes de défense et de santé. Ils disposeront d’une autonomie et d’un rayon d’action telle qu’il ne sera plus envisageable de les déployer sans comprendre leur fonctionnement.
La fenêtre d’opportunité se rétrécit rapidement. Si l’interprétabilité progresse à son rythme actuel, elle pourrait atteindre le niveau de sophistication requis d’ici 5 à 10 ans. Mais si les IA atteignent des capacités transformatrices pour notre civilisation avant cette échéance, nous nous retrouverons dans la situation périlleuse de devoir comprendre des systèmes déjà trop puissants pour être facilement contrôlés.
Si l’enjeu est souvent évoqué du point de vue du risque, il s’agit aussi d’une opportunité incroyable. Un domaine entier, scientifique et industriel, est en train d’émerger pour sécuriser les systèmes d’IA. Comme je le défendais dans un précédent article, l’Europe a ici une carte à jouer pour se positionner comme leader de l’alignement des IA, une place à la fois prospère d’un point de vue économique et cohérente avec ses valeurs humanistes et sa tendance à la régulation.
L’enjeu de civilisation
L’alignement de l’IA représente peut-être le défi le plus important de notre époque. Il ne s’agit pas seulement d’un problème technique, mais d’une question existentielle : notre espèce saura-t-elle comprendre et contrôler ses créations les plus puissantes ?
L’ironie de la situation est frappante. Nous nous dirigeons vers des intelligences artificielles potentiellement capables de résoudre les plus grands défis de l’humanité – changement climatique, maladies, pauvreté – tout en risquant de créer des systèmes que nous ne comprenons pas assez pour leur faire confiance.
La course entre performances et compréhension qui se joue actuellement déterminera si l’émergence de superintelligences artificielles sera un triomphe de l’ingéniosité humaine ou un saut dans l’inconnu potentiellement dramatique.
Comme le rappelle Dario Amodei : « La superintelligence façonnera le destin de l’humanité, et nous méritons de comprendre nos propres créations avant qu’elles ne transforment radicalement notre économie, nos vies et notre avenir. » Dans cette perspective, l’interprétabilité mécanistique n’est pas qu’un champ de recherche parmi d’autres : elle pourrait bien être la clé de voûte permettant à l’humanité de rester maîtresse de son destin.
La question n’est plus de savoir si nous développerons des superintelligences artificielles, mais si nous les comprendrons avant qu’elles ne nous dépassent définitivement. L’enjeu mérite tout notre engagement.
À lire également : Future of AI | « Explosion de l’intelligence » : l’IA va-t-elle s’améliorer elle-même ?

Abonnez-vous au magazine papier
et découvrez chaque trimestre :
- Des dossiers et analyses exclusifs sur des stratégies d'entreprises
- Des témoignages et interviews de stars de l'entrepreneuriat
- Nos classements de femmes et hommes d'affaires
- Notre sélection lifestyle
- Et de nombreux autres contenus inédits