Les protéines assurent des fonctions essentielles dans l’organisme : elles transportent les nutriments dans le corps, participent au système immunitaire, à la circulation sanguine, à la contraction des muscles… Connaître leur structure permet de mieux comprendre le fonctionnement des maladies, et contribue ainsi au développement de médicaments.

Il y a quelques années, nous ne connaissions que quelques dizaines de milliers de structures sur les 2 milliards existantes estimées. Un nouvel outil d’IA vient d’en cartographier plus d’un milliard 1.

  • Avant l’intelligence artificielle, la prédiction de la structure des protéines reposait surtout sur la cristallographie aux rayons X, une méthode fastidieuse et coûteuse mise au point au début du XXe siècle.
  • Le lancement en 2018 d’AlphaFold, un programme d’IA développé par Google DeepMind, a révolutionné le champ en permettant en 2020 de prédire la structure des 200 millions de protéines identifiées par les chercheurs.
  • Les précédentes méthodes avaient permis l’identification d’environ 170 000 protéines en 60 ans 2.

Mercredi 27 mai, des chercheurs de la Chan Zuckerberg Initiative, un institut biomédical créé par Mark Zuckerberg et Priscilla Chan, ont dévoilé une nouvelle base de données, ESM Atlas, qui contient plus d’un milliard de structures protéiques et plusieurs milliards de séquences protéiques supplémentaires. Elle surpasse ainsi la base de données d’AlphaFold d’environ 800 millions de structures, et un précédent ESM Atlas d’environ 300 millions.

  • Les chercheurs à l’origine de la base de données affirment que l’atlas « a pour fonction de montrer la totalité de la biologie des protéines, et en particulier les parties les plus méconnues ».
  • Ils revendiquent avoir utilisé le modèle d’IA ESMFold2 pour concevoir de nouveaux anticorps et des protéines capables de se lier à d’autres protéines impliquées dans des cancers et des troubles immunologiques 3.
  • Une grande partie des conceptions testées en laboratoire auraient fonctionné 4.

L’utilisation de l’intelligence artificielle par les chercheurs pourrait permettre d’accélérer considérablement la mise sur le marché de nouveaux médicaments, de réduire les coûts et d’améliorer les probabilités de succès clinique.

Sources
  1. ESM Atlas, Biohub.
  2. Robert F. Service, « ‘The game has changed.’ AI triumphs at solving protein structures », Science, 30 novembre 2020.
  3. Ewen Callaway et Miryam Naddaf, « Move over, AlphaFold : open-source model predicts shape of 1 billion proteins », Nature, 27 mai 2026.
  4. Salvatore Candido et. al., « Language Modeling Materializes a World Model of Protein Biology », 27 mai 2026.