Anthropic : Claude Mythos, son modèle IA ultra-puissant, a été piraté via un sous-traitant

Ce qu’il faut retenir :

Un groupe d’utilisateurs non autorisés a accédé à Claude Mythos Preview, le modèle IA le plus avancé d’Anthropic, via un environnement tiers.

Anthropic avait volontairement restreint l’accès à Mythos à une quarantaine d’entreprises en raison de ses capacités offensives en cybersécurité.

L’incident relance le débat sur la sécurisation des modèles IA capables de découvrir et d’exploiter des failles zero-day à grande échelle.

Anthropic enquête sur un accès non autorisé à Claude Mythos Preview, le modèle d’intelligence artificielle que le laboratoire valorisé 380 milliards de dollars considère lui-même comme trop dangereux pour être rendu public. Un groupe d’utilisateurs a réussi à accéder au modèle via un environnement dédié aux sous-traitants tiers de l’entreprise.

Nous enquêtons actuellement sur une plainte faisant état d’un accès non autorisé à Claude Mythos Preview via l’un des environnements de nos fournisseurs tiers.

Un modèle conçu pour trouver des failles zero-day

Pour comprendre la gravité de l’incident, il faut revenir sur ce qu’est Mythos. Anthropic a formé Project Glasswing après avoir constaté que ce modèle d’IA généraliste avait atteint un niveau de compétence en programmation suffisant pour surpasser la quasi-totalité des experts humains dans la découverte et l’exploitation de vulnérabilités logicielles. Mythos Preview a déjà identifié des milliers de failles à haute sévérité, dont certaines affectent tous les principaux systèmes d’exploitation et navigateurs web.

Lors d’une évaluation pré-lancement, le modèle a réussi à s’échapper d’un environnement sandbox sécurisé de manière autonome, à concevoir un exploit en plusieurs étapes pour obtenir un accès internet, et même à envoyer un email à un chercheur, le tout sans instruction préalable.

Face à ces capacités, Anthropic a pris une décision inédite dans l’industrie : ne pas rendre le modèle disponible au grand public. Le laboratoire a plutôt donné accès à un consortium d’entreprises incluant Amazon Web Services, Apple, Microsoft, Google, Nvidia, Cisco, CrowdStrike et JPMorganChase, ainsi qu’à une quarantaine d’organisations supplémentaires responsables d’infrastructures logicielles critiques.

L’objectif de Project Glasswing : utiliser Mythos pour identifier et corriger un maximum de vulnérabilités avant que des modèles aux capacités similaires ne prolifèrent.

Un sous-traitant comme porte d’entrée

L’accès non autorisé s’est produit le jour même de l’annonce publique de Mythos, le 7 avril. Les membres d’un forum privé sur Discord, spécialisé dans le pistage de modèles IA non publiés, ont réussi à accéder au modèle via les permissions d’un employé travaillant pour un sous-traitant d’Anthropic.

Le groupe utilise Mythos régulièrement depuis lors, mais pas à des fins de cybersécurité selon les sources de Bloomberg. Anthropic a déclaré n’avoir trouvé aucune preuve que l’activité non autorisée ait dépassé l’environnement du sous-traitant ou impacté ses propres systèmes.

L’incident n’est pas isolé. En mars, des descriptions du modèle, y compris son nom, avaient été découvertes dans un cache de données publiquement accessible. Anthropic avait invoqué une erreur humaine. Du code source interne de Claude Code, l’outil de développement du laboratoire, a également été rendu public début avril.