Fable 5: IA de réserve et cyber-résistance adaptative edit
Le 9 juin 2026, Anthropic rendait publiquement disponible Claude Fable 5, version bridée de son modèle de classe Mythos. Deux mois plus tôt, les capacités de ce modèle en cybersécurité, notamment dans la découverte et l’exploitation de failles logicielles à une échelle sans précédent, avaient conduit l’entreprise à en confiner l’accès à une coalition d’une cinquantaine de partenaires institutionnels et industriels, dans le cadre du Projet Glasswing[1]. En quelques semaines, ce modèle confiné avait permis d’identifier plus de dix mille vulnérabilités de gravité élevée ou critique dans les infrastructures logicielles mondiales, progressivement validées et corrigées[2]. Fable 5, sa version publique, partageait le même modèle sous-jacent que Mythos 5. Mais des « classificateurs » de sécurité, c’est-à-dire des systèmes d’IA auxiliaires chargés de filtrer les requêtes en temps réel, interceptaient toute question portant sur un domaine sensible et la redirigeaient vers un modèle moins capable[3].
En quarante-huit heures, pourtant, un chercheur en sécurité connu sous le pseudonyme de Pliny the Liberator affirmait avoir contourné ces classificateurs au moyen de techniques combinées : décomposition d’une requête dangereuse en sous-requêtes apparemment inoffensives, substitution de caractères Unicode pour tromper les détecteurs de mots-clés, enrobage de la question technique dans un récit fictif. Il diffusait également des éléments présentés comme le système d’instructions internes du modèle[4]. Anthropic contesta la portée de la brèche, en maintenant qu’il ne s’agissait pas d’un contournement généralisable[5]. Le 13 juin, l’administration Trump ordonnait néanmoins la suspension de tout accès aux modèles Fable 5 et Mythos 5 par tout ressortissant étranger, y compris les employés étrangers d’Anthropic[6]. L’entreprise s’y conformait en suspendant l’accès aux deux modèles pour l’ensemble de ses clients (Fable 5 est de nouveau disponible depuis le 3 juillet).
Cet épisode cristallise un dilemme que l’industrie et les pouvoirs publics n’ont formulé que de manière fragmentaire. La question n’est pas seulement de savoir si un modèle d’IA peut être rendu sûr. Elle est de savoir si la diffusion même d’un modèle à capacité maximale, indépendamment de la qualité de ses garde-fous, ne constitue pas en soi un facteur d’aggravation de la menace qu’il prétend contenir. Ce problème a une structure bien identifiée dans le domaine biologique : c’est celle de l’antibiorésistance.
La leçon des antibiotiques de réserve
L’Organisation mondiale de la santé classe depuis 2017 les antibiotiques en trois groupes : Accès, Vigilance, Réserve (Access, Watch, Reserve, classification AWaRe). Cette classification repose à la fois sur leur rôle thérapeutique et sur le risque de sélection de résistances associé à leur usage[7]. Les antibiotiques de réserve, comme la colistine, le linézolide ou la daptomycine, sont les armes de dernier recours. Ils doivent être strictement réservés aux infections à germes multirésistants, lorsque toutes les alternatives ont échoué.
La logique de cette restriction repose sur des mécanismes redoutables de pression sélective. Lorsqu’un antibiotique est administré, il élimine en effet les bactéries sensibles mais épargne celles qui sont déjà résistantes, par mutation ou par acquisition de gènes. Débarrassées de leurs concurrentes, elles prolifèrent et peuvent devenir dominantes. Pire : elles peuvent transmettre leurs gènes de résistance par des mécanismes de transfert horizontal, notamment par l’intermédiaire d’éléments génétiques mobiles – plasmides et transposons, souvent associés à intégrons[8] –, qui circulent d’une bactérie à l’autre, y compris entre espèces différentes, comme autant de clés de résistance transmissibles. Une résistance identifiée dans un foyer hospitalier peut ainsi se retrouver, quelques mois plus tard, dans une bactérie d’un tout autre type à l’autre bout du monde. L’usage indiscriminé des antibiotiques à large spectre ou de dernier recours accélère ce processus et peut finir par neutraliser les armes mêmes que l’on voulait préserver[9]. La commission O’Neill estimait ainsi en 2016 que, faute d’action concertée, l’antibiorésistance pourrait provoquer jusqu’à dix millions de morts par an à l’horizon 2050, ouvrant la perspective d’une ère « post-antibiotique » où des infections aujourd’hui banales redeviendraient mortelles[10].
De cette dynamique découle le principe de parcimonie sanitaire : prescrire l’antibiotique le moins puissant compatible avec l’efficacité thérapeutique, préserver l’arsenal de réserve pour les situations où il est irremplaçable. La structure économique du problème est celle d’une tragédie des communs. Chaque prescripteur tire un bénéfice immédiat de l’antibiotique le plus puissant, tandis que l’efficacité collective de l’arsenal thérapeutique, bien commun partagé par l’ensemble des systèmes de santé, s’érode à mesure que les pathogènes s’adaptent[11]. Or un tel problème ne se résout ni par la privatisation ni par le laisser-faire, mais par des institutions de gouvernance adaptées. C’est précisément l’enjeu des modèles d’IA de réserve.
Super modèles d’IA et dilemmes stratégiques émergents
L’analogie avec l’intelligence artificielle n’est pas seulement métaphorique. Elle met au jour un isomorphisme de structure entre deux dynamiques de sélection, d’apprentissage et de diffusion. La différence avec l’antibiorésistance ne détruit pas l’analogie, mais la renforce. Là où la bactérie mute sans intention, l’acteur politique ou numérique hostile apprend délibérément, ce qui rend l’adaptation plus rapide, plus cumulative et plus difficile à contenir.
La classification AWaRe se décline directement. Les modèles d’accès sont les modèles d’IA publics ordinaires, utilisables sans restriction. Les modèles de vigilance sont les modèles puissants à capacités duales significatives, nécessitant traçabilité et accès encadré. Les modèles de réserve sont les modèles de pointe dont les capacités critiques doivent être réservées à des acteurs qualifiés, dans des cadres contrôlés et finalisés. Mythos Preview, confiné au Projet Glasswing, était un modèle de réserve de la société Anthropic. Fable 5 devait être un modèle de vigilance. Le contournement de ses « classificateurs » l’a transformé, de fait, en modèle de réserve accessible au public et a induit la réaction de l’administration fédérale américaine.
L’antibiorésistance a pour pendant ce qu’on pourrait appeler la cyber-résistance adaptative. Entendons par là le processus par lequel des acteurs hostiles, qu’il s’agisse de services de renseignement, d’unités de cyberguerre ou d’organisations criminelles, développent des techniques de contournement, de rétro-ingénierie et d’exploitation à mesure qu’ils ont accès aux modèles les plus avancés du moment. Dans le milieu cybernétique, cette adaptation ne relève pas seulement d’un apprentissage technique : elle modifie la dialectique même du glaive et du bouclier cyber. Tout modèle avancé accroît simultanément la capacité de découvrir des failles, de les exploiter, de les corriger et de durcir les systèmes exposés. Il est donc à la fois une arme de pénétration et un instrument de défense active. Sa diffusion publique transforme ce double avantage en ressource appropriable par l’adversaire. Chaque interaction publique significative avec un modèle de pointe exerce ainsi une pression sélective sur l’écosystème cyber adverse : elle fournit aux attaquants de l’information exploitable sur l’architecture du modèle, les seuils de détection et les failles des garde-fous, et favorise la prolifération des techniques de contournement les mieux adaptées. L’épisode Pliny the Liberator équivaut par conséquent à un antibiogramme inversé : non pas un test qui révèle à quels antibiotiques la bactérie est sensible, mais une cartographie qui expose les vulnérabilités du médicament lui-même, en l’occurrence Fable 5.
Le transfert horizontal de gènes de résistance a pour pendant la prolifération horizontale des cyber-capacités : diffusion de pondérations ouvertes, partage public de scripts et de techniques de contournement (GitHub, etc.), espionnage industriel. La mise à disposition publique des pondérations d’un modèle avancé, comme Meta le fait avec la famille Llama, est fonctionnellement analogue à la dissémination d’un plasmide de résistance. Une fois l’information libérée, aucun mécanisme ne permet de la rappeler. L’essor de l’IA agentique (agentic AI), c’est-à-dire de systèmes capables d’enchaîner de manière autonome découverte de vulnérabilité, rédaction du code d’exploitation, test et adaptation à la cible, aggrave cette dynamique : là où le plasmide transmet un gène de résistance isolé, l’agent autonome transfère une chaîne opératoire complète et directement exécutable sans intervention humaine, abaissant le seuil de compétence requis pour mener des attaques sophistiquées[12].
Ce que l’on perd n’est pas la sécurité d’un modèle, mais une réserve capacitaire, c’est-à-dire l’asymétrie offensive et défensive dont disposent certaines communautés politiques tant que leurs adversaires potentiels ou effectifs ne sont pas encore en mesure de la neutraliser. Dans les milieux physiques, l’histoire stratégique est largement celle d’une course de vitesse entre systèmes de percussion et systèmes de protection : épée et armure, artillerie et fortification, missile et défense antimissile. Dans le milieu cybernétique, cette dialectique est plus rapide, plus réversible et plus instable, car le même modèle peut servir à découvrir la brèche, à l’exploiter, à la reproduire, puis à l’obturer. La valeur stratégique d’un modèle de réserve tient donc moins à sa puissance brute qu’au maintien provisoire d’une couverture capacitaire, c’est-à-dire d’un spectre de menaces sur lequel le défenseur conserve encore au moins un tempo stratégique d’avance.
Le milieu cybernétique est désormais un milieu de compétition géostratégique à part entière, au même titre que les milieux terrestre, maritime, aérien et exo-atmosphérique. La réserve capacitaire en matière d’IA avancée y joue le rôle que jouent, dans les autres milieux, les systèmes d’armes dont la diffusion est soumise à des régimes de contrôle d’accès et de non-prolifération. Sa valeur tient précisément à ce qu’elle n’est pas également distribuée au sein d’une séquence stratégique. La diffuser sans restriction, ce n’est pas seulement exposer un outil puissant, c’est réduire l’écart temporel qui sépare le défenseur de l’attaquant, accélérer l’apprentissage adverse et abaisser le seuil à partir duquel les dispositifs de protection deviennent eux-mêmes lisibles, contournables puis retournables. Le mécanisme de son érosion est une tragédie des communs : chaque entreprise tire un bénéfice concurrentiel immédiat de la diffusion de son modèle le plus avancé, tandis que la réserve capacitaire – ce bien commun stratégique des démocraties dans le milieu cybernétique – s’érode à mesure que les acteurs hostiles s’adaptent. Le coût de cette érosion est supporté par des communautés politiques qui n’ont consenti ni à la diffusion de ces capacités ni à la dégradation de leur propre position géostratégique.
La notion de réserve capacitaire éclaire, par contraste, l’insuffisance du cadrage aujourd’hui dominant. Les responsables de la sécurité nationale américaine décrivent volontiers les modèles d’IA de pointe comme des « armes nucléaires numériques »[13] et la rivalité avec la Chine comme une « course aux armements ». Ce recours au vocabulaire nucléaire n’est pas illégitime : il est même cognitivement normal. Confrontés à une rupture stratégique inédite, les acteurs en poste la pensent d’abord à travers les catégories familières de la dernière rupture comparable. Le lexique nucléaire remplit précisément une telle fonction d’alerte : il signale un ordre de gravité existentiel et mobilise les institutions en charge de la sécurité collective des États. Mais il égare sur la nature même du danger. L’arme nucléaire relève d’une logique de stock destructeur concentré, immédiatement projetable par des vecteurs dédiés et mesurable par rapport aux capacités des États rivaux. Sa dangerosité tient à l’existence de ce stock, à la crédibilité de son emploi et à la capacité de seconde frappe, c’est-à-dire à la possibilité de riposter même après avoir subi une attaque nucléaire. Sa gouvernance repose sur le confinement matériel de la matière fissile et le contrôle de ses vecteurs.
Un modèle d’IA de pointe relève d’une logique tout autre : non d’un stock destructeur matériellement confiné, mais d’un modèle entraîné dont certains éléments décisifs – les capacités acquises et les moyens de les adapter à de nouveaux usages – peuvent être copiés, repris et améliorés à faible coût une fois diffusés. Sa dangerosité ne tient pas à une explosion, mais à un processus cumulatif d’appropriation par des acteurs hostiles : essais, contournements, usages spécialisés et gains progressifs de liberté d’action dans le cyberespace. C’est pourquoi l’analogie pharmacologique, qui pense le danger en termes de pression sélective et de circulation continue plutôt qu’en termes de stock, permet de mieux cerner ce que la fausse familiarité du vocabulaire nucléaire méconnaît.
L’offre, la demande et l’ambiguïté du pouvoir démocratique
Du côté de l’offre, la course oligopolistique entre les principaux acteurs de l’IA avancée – Anthropic, OpenAI, Google DeepMind, Meta et xAI – tend à reproduire la dynamique de la surprescription antibiotique. Chaque entreprise est incitée à diffuser rapidement ses modèles les plus avancés pour capter des parts de marché et des capitaux. La retenue impose un coût immédiat à celui qui l’observe, tandis que son bénéfice collectif demeure différé et diffus. En réservant Mythos au Projet Glasswing, Anthropic s’est imposé une règle de parcimonie ; mais dès que d’autres acteurs déploient ou annoncent des capacités comparables, cette retenue unilatérale devient un handicap. Sans règle commune contraignante, la concurrence effrénée entre les principaux producteurs de modèles d’IA ruine le principe de parcimonie, lequel demeure pourtant nécessaire au maintien de la couverture capacitaire des démocraties.
Du côté de la demande, quatre catégories d’acteurs aux intérêts divergents coexistent. Les utilisateurs civils (entreprises, développeurs ou chercheurs) désirent l’accès le plus large et le moins coûteux possible aux modèles d’IA les plus performants, sans toujours percevoir le coût de la cyber-résistance adaptative, de même qu’un patient peut réclamer l’antibiotique le plus efficace sans se soucier de l’érosion de l’arsenal thérapeutique collectif. Les opérateurs d’infrastructures critiques (réseaux d’énergie, systèmes financiers, hôpitaux ou télécommunications) ont besoin des modèles de réserve dans un cadre de cyber-prescription contrôlé : c’est la logique du Projet Glasswing. Les acteurs hostiles étatiques occupent, quant à eux, la position du pathogène qui développe sa propre résistance : tout accès non contrôlé aux modèles de pointe nourrit leurs programmes de rétro-ingénierie et d’exploitation offensive. Les acteurs hostiles non étatiques bénéficient, eux, de la circulation latérale des techniques : sans disposer de ressources comparables à celles des États, ils récupèrent les méthodes de contournement publiées ou stabilisées par d’autres et les mettent en œuvre sans avoir à en supporter le coût de développement.
Quant au pouvoir politique, il occupe, dans toute démocratie, une position particulièrement ambiguë. D’un côté, il est demandeur de modèles de réserve pour maximiser son coefficient de mobilisation de puissance[14] face aux communautés politiques adverses. De l’autre, faute pour l’heure d’une gouvernance multilatérale de l’IA comme bien public mondial, il est le seul acteur en position d’imposer un régime contraignant d’accès gradué – c’est-à-dire de remplir, dans le cyberespace, la fonction que les autorités sanitaires exercent dans le domaine antibiotique. Le dilemme est structurel ; mais il prend une acuité particulière aux États-Unis, où le pouvoir politique est à la fois régulateur, prescripteur et premier client des entreprises qui produisent les modèles.
Le décret exécutif du 2 juin 2026[15] prévoit un cadre volontaire de pré-évaluation des modèles de pointe disponibles : les développeurs peuvent accorder au gouvernement un accès préalable allant jusqu’à trente jours, sur la base d’une évaluation classifiée des capacités cyber des modèles, dans laquelle la National Security Agency joue un rôle central. Il traduit ainsi cette logique : le pouvoir politique veut pouvoir évaluer la portée offensive et défensive des modèles d’IA de pointe avant leur diffusion élargie. L’administration Trump incarne ainsi cette contradiction émergente avec une netteté presque expérimentale. Fin février 2026, le Pentagone exigeait d’Anthropic un accès sans restriction à Claude pour « tous usages licites » (all lawful purposes), en contestant notamment les exclusions relatives aux systèmes d’armes pleinement autonomes et à la surveillance intérieure de masse ; le 27 février, l’entreprise était désignée comme fournisseur présentant un risque pour la sécurité nationale. C’était sanctionner le pharmacien qui refuse de délivrer un antibiotique de réserve pour une infection courante. Puis, le 12 juin, la même administration interdisait l’accès aux modèles Fable 5 et Mythos 5 aux ressortissants étrangers, ce qui conduisait Anthropic à les suspendre pour l’ensemble de ses clients afin de se conformer à la directive. Elle passait ainsi de la revendication d’un accès souverain illimité à l’imposition d’un contrôle exclusif. Dans les jours suivants, le 26 juin, l’accès à Mythos 5 était partiellement rétabli au bénéfice d’un cercle restreint de partenaires américains habilités, tandis que Fable 5 demeurait suspendu. Cette autorisation graduée relevait désormais d’un contrôle des exportations piloté par le département du Commerce, sur évaluation technique classifiée de la National Security Agency. Un mécanisme voisin encadrait la mise à disposition concomitante du modèle GPT-5.6 d’OpenAI, limitée à un cercle restreint de partenaires validés avec les autorités américaines. L’administration ébauchait de la sorte le régime d’accès gradué que la parcimonie appelle, mais sur un mode purement national et unilatéral. Le point décisif tient en une phrase : le même pouvoir politique exige l’accès maximal pour lui-même et la restriction maximale pour les autres. Les deux postures sont cohérentes prises isolément ; prises ensemble, elles révèlent l’incapacité à stabiliser une doctrine de gestion parcimonieuse des modèles d’IA de pointe.
Gouverner la parcimonie par un multilatéralisme asymétrique
Le domaine antibiotique dispose d’un édifice réglementaire construit sur des décennies : classification AWaRe de l’OMS, agences nationales du médicament, protocoles hospitaliers de prescription raisonnée, réseaux de surveillance de l’antibiorésistance. Ce dispositif est imparfait, mais il est multilatéral – en cela légitime – et opérationnel. Rien d’équivalent n’existe pour l’intelligence artificielle. Le Règlement européen sur l’intelligence artificielle du 13 juin 2024[16] impose des obligations de transparence et de gestion des risques, mais ne propose ni classification des modèles d’IA de pointe en strates de restriction, ni protocole de diffusion différenciée.
L’analogie antibiotique nous indique le chemin encore à parcourir pour les modèles d’IA avancés. L’édifice sanitaire repose sur trois piliers : une classification des molécules selon leur usage thérapeutique et leur risque de sélection de résistances, des protocoles de prescription différenciés selon la gravité de l’infection et une surveillance continue de l’adaptation des pathogènes. Chacun a son pendant dans le milieu cybernétique : classer les modèles selon leur potentiel de cyber-résistance adaptative, différencier les conditions d’accès selon le type d’utilisateur et le niveau de menace, surveiller la montée en compétence des acteurs hostiles. Mais le domaine antibiotique enseigne aussi que le dispositif de gouvernance doit se prémunir contre deux pathologies symétriques. La première est la prodigalité : la prolifération horizontale des modèles téléchargeables et des techniques de contournement, la course concurrentielle à la diffusion et l’idéologie de l’ouverture intégrale dilapident la réserve capacitaire aussi sûrement que la vente d’antibiotiques sans ordonnance érode l’arsenal thérapeutique. La seconde est l’accaparement : un gardien qui monopolise l’arsenal pour ses propres fins offensives en détruit la légitimité et compromet la coopération multilatérale sans laquelle aucun régime de parcimonie ne tient. L’épisode du Pentagone et d’Anthropic illustre cette seconde pathologie avec une netteté qui dispense de commentaire.
Or la durée d’efficacité d’un antibiotique nouveau décroît à mesure que la pression sélective s’intensifie. De même, un modèle de réserve ne garantit pas, sur la durée, une supériorité stratégique permanente à qui en a l’usage : il offre tout au plus un délai provisoire d’avance, qui se consume à chaque interaction non contrôlée avec l’adversaire. Ce que la gouvernance de la parcimonie doit protéger n’est ainsi pas un stock, mais un avantage temporel stratégique. Le problème que l’épisode Fable 5 rend visible n’est donc pas un problème de sécurité des modèles : c’est un problème de gouvernance parcimonieuse et démocratiquement légitime des modèles d’IA de réserve. L’enjeu est de savoir si les démocraties sauront construire, avant que cet avantage temporel ne s’épuise, les institutions capables de le préserver. La difficulté est ici sans équivalent dans le domaine antibiotique : la gouvernance des antibiotiques traite la résistance comme un fléau commun à l’humanité entière ; la gouvernance des modèles de réserve doit affronter le paradoxe du co-régulateur hostile, puisque certains des acteurs qu’elle entend contenir siègent aux mêmes tables de négociation.
Did you enjoy this article? close
[1] Anthropic, « Project Glasswing: Securing critical software for the AI era », anthropic.com, 7 avril 2026. Les partenaires fondateurs comprenaient Amazon Web Services, Apple, Cisco, CrowdStrike, Google, JPMorgan Chase, la Fondation Linux, Microsoft, Nvidia et Palo Alto Networks.
[2] Anthropic, « Project Glasswing: An Initial Update », anthropic.com, 22 mai 2026.
[3] Anthropic, « Claude Fable 5 and Claude Mythos 5 », anthropic.com, 9 juin 2026. Le basculement s’opérait vers Claude Opus 4.8 dans moins de cinq pour cent des sessions.
[4] Cybersecurity News, « Anthropic’s Claude Fable 5 Alleged Jailbreak to Generate Stack Exploits », 12 juin 2026 ; SecurityWeek, « Anthropic Disputes Fable 5 AI Jailbreak », 12 juin 2026.
[5] Anthropic, « Statement on the US Government Directive to Suspend Access to Fable 5 and Mythos 5 », anthropic.com, 13 juin 2026.
[6] Time, « Anthropic Pulls Its Most Powerful AI Models After U.S. Bars Foreign Access », 13 juin 2026 ; Alexandre Piquard, « La guerre de l’IA a commencé », Le Monde, 14 juin 2026.
[7] Organisation Mondiale de la Santé, WHO Model List of Essential Medicines – 20th List, Genève, OMS, 2017, p. 8 sq.
[8] Le plasmide est un petit anneau d’ADN autonome qui passe d’une bactérie à l’autre, y compris entre espèces ; le transposon est un segment d’ADN qui saute d’un emplacement à un autre au sein d’un même génome ; l’intégron capture et stocke des gènes de résistance. L’intégron capture, le transposon déplace, le plasmide transporte d’une bactérie à l’autre. Voir Sally R. Partridge et al., « Mobile Genetic Elements Associated with Antimicrobial Resistance », Clinical Microbiology Reviews, 31 (4), 2018, e00088-17.
[9] Ramanan Laxminarayan et al., « Antibiotic Resistance – The Need for Global Solutions », The Lancet Infectious Diseases, vol. 13, n° 12, 2013, p. 1057-1098.
[10] Jim O’Neill, Tackling Drug-Resistant Infections Globally: Final Report and Recommendations. The Review on Antimicrobial Resistance, Londres, Wellcome Trust / HM Government, 2016.
[11] Laxminarayan et al., 2013, op. cit.
[12] Bruce Schneier, « On Anthropic’s Mythos Preview and Project Glasswing », schneier.com, 13 avril 2026.
[13] L’expression est du directeur de la CIA, John Ratcliffe, cf. Le Monde, 30 juin 2026 : « Le directeur de la CIA compare l’IA de pointe à des ‘armes nucléaires numériques’ ».
[14] Entendons par là le rapport entre les ressources mobilisables et les ressources effectivement mobilisées par une communauté politique dans un contexte de compétition externe.
[15] White House, « Promoting Advanced Artificial Intelligence Innovation and Security », décret exécutif, 2 juin 2026.
[16] Parlement européen et Conseil de l’Union européenne, Règlement (UE) 2024/1689 du 13 juin 2024 établissant des règles harmonisées concernant l’intelligence artificielle.
