Voilà quelques années que la biologie peut compter sur de précieux outils basés sur l’IA pour progresser. Par exemple, nous vous parlions du système AlphaFold, conçu par Deepmind (Google) l’an dernier, capable de prédire la forme tridimensionnelle des protéines à partir de leur séquence. Son impact a été tel qu’il est rapidement devenu un indispensable pour des centaines de milliers de chercheurs à travers le monde. Toutefois, Alphafold bute encore sur cet écueil : comment identifier la composition exacte d’une protéine lorsqu’elle provient d’un échantillon inconnu, parfois très dégradé, et qu’aucun fragment ne correspond aux données répertoriées ? Sans une séquence fiable, AlphaFold ne peut appliquer son algorithme de prédiction structurelle. Heureureusement, sur ce front, la recherche continue d’avancer. Une nouvelle génération d’algorithmes d’intelligence artificielle s’attaque à la séquence elle-même, en apprenant non pas à comparer, mais à deviner. Ces modèles ne cherchent plus à retrouver ce qui est déjà connu ; ils apprennent à reconstituer ce qui ne l’est pas encore. Le grand origami moléculaire, enfin déchiffré par l’IA En biologie moderne, on évoque souvent l’ADN comme la clé de tout ; c’est partiellement vrai, mais l’affirmation mérite d’être nuancée. Ce sont les protéines, bien plus diverses et complexes, qui assurent concrètement la machinerie du vivant. Chaque gène peut donner naissance à des milliers de protéines différentes, modifiées en chemin par des processus chimiques tout aussi diversifiés. Cartographier correctement cet univers protéique est donc une tâche d’une complexité extrême, puisque la diversité des protéoformes (formes moléculaires distinctes qu’une protéine peut prendre) est immense et leur état ne cesse de varier. Jusqu’à récemment, les chercheurs parvenaient à identifier les protéines par une technique éprouvée, mais limitée : la spectrométrie de masse. On fragmentait les protéines en petits morceaux ; appelés peptides ; et on comparait leur masse aux données connues. Toutefois ce procédé reste imparfait : près de 70 % des peptides détectés ne correspondent à aucune entrée dans les bases de données actuelles. « La protéomique [NDLR : l’étude à grande échelle de l’ensemble des protéines] traditionnelle, c’est un peu comme faire une recherche sur Google : si l’information n’est pas répertoriée, vous ne la trouverez pas », résume très justement Timothy Patrick Jenkins, chercheur à la Technical University of Denmark (Kongens Lyngby). C’est ici que la puissance de l’IA peut être convoquée. Nous pouvons citer Casanovo, un outil conçu par William Noble et son équipe de l’Université de Washington. Au lieu de simplement reconnaître des fragments existants, il devine, grâce à des réseaux neuronaux, comment les peptides devraient s’agencer. Pour mieux comprendre, prenons un exemple ; vous entamez une conversation avec ChatGPT et lui écrivez « tapis le chat sur dort ». Une phrase, qui pour l’agent, aura beaucoup moins de sens que « le chat dort sur le tapis ». De la même manière, Casanovo va déduire la structure la plus plausible pour une protéine, quand ChatGPT s’attaquera au sens de la phrase. InstaNova : le Sherlock Holmes des protéines Un autre outil, baptisé Instanova, nous vient d’Europe. Développé par Jenkins et ses collègues, il perfectionne cette méthodologie grâce à une approche empruntée aux générateurs d’images par IA : la diffusion. L’idée est contre-intuitive : ajouter du bruit aléatoire à l’information pour mieux apprendre à en extraire l’essence. Ces perturbations instillées dans l’information pousse le système à faire un effort supplémentaire pour en retrouver le sens. Elle apprend à ne pas se laisser distraire par les détails inutiles et à se concentrer sur l’essentiel. En testant cette méthode sur un mélange complexe de neuf organismes, InstaNova+ – une version plus avancée du modèle – a identifié 42 % de peptides supplémentaires par rapport aux techniques précédentes. Lorsque les chercheurs ont appliqué InstaNova à des échantillons médicaux réels, les résultats ont confirmé son potentiel. Sur des plaies infectées, l’outil a détecté 1 225 peptides uniques associés à l’albumine (protéine essentielle présente dans le plasma sanguin), contre à peine une centaine avec les méthodes classiques. Parmi eux, 254 n’avaient jamais été observés auparavant. Mieux encore, il a permis de relier des peptides à 52 protéines bactériennes. On pourrait presque le comparer à Google Lens, mais appliqué aux protéines. « InstaNova est capable de traiter des échantillons extrêmement complexes et de fournir des résultats exploitables », explique Catrine Soiberg, responsable R&D chez Atlas Antibodies, entreprise suédoise spécialisée en biotechnologie. Les applications en biologie et en médecine sont déjà immenses, mais ces systèmes peuvent exceller ailleurs. À Cambridge, le chercheur Matthew Collins utilise désormais ces IA pour analyser des échantillons archéologiques : des os, des poteries, où les protéines ont été altérées par des siècles d’ensevelissement. « Ces outils sont si efficaces que nous avons entièrement réorienté notre travail autour d’eux », confie-t-il. « Pour ma part, c’est une avancée considérable ». Petit à petit, l’intelligence artificielle s’installe là où la biologie classique perdait pied ; en étendant les marges, en débroussaillant les zones grises où l’identification des protéines devenait incertaine. À force d’apprentissage et d’essais, ces modèles rendent visibles des séquences que personne n’aurait su reconnaître autrement. Sans pour autant écraser la méthode scientifique, elle l’épaule et offre la possibilité aux biologistes de prolonger leur regard. En changeant ce que l’on peut voir, on change nécessairement ce que l’on peut chercher : un des moteurs principaux du progrès scientifique. De nouveaux modèles d’IA permettent d’identifier des protéines inconnues, même quand les données classiques restent muettes. Ces systèmes apprennent à recomposer des séquences protéiques à partir de fragments non répertoriés, en contournant les limites des méthodes traditionnelles. Déjà efficaces en médecine, ces outils s’ouvrent à l’archéologie et à d’autres domaines où les protéines, souvent altérées, restaient inaccessibles jusqu’ici. 📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.