Quand le Projet international génome humain fut lancé en 1988, on savait que cette «botte de foin biologique» qu’est notre génome, contenait 3 milliards de briques élémentaires (qu'on appelle les «paires de base»). On savait en outre que l’on trouverait, dissimulées en elle, 100 000 petites «aiguilles», aujourd’hui ramenées à 30 000: nos gènes!

Ce qu'on ne savait pas, c'est comment on arriverait à démêler ces montagnes de chiffres et de données.

Abonnez-vous à notre infolettre!

Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!

Étonnamment en effet, «on avait, à ce moment-là, bien peu idée du temps que ça prendrait et des stratégies techniques qu’il faudrait adopter pour mener à bien cette énorme entreprise…», déclarait à Science-Presse, il y a deux ans le directeur du Centre de génomique de Montréal, le Dr Thomas Hudson, aussi directeur adjoint du réputé Centre de génomique du Massachusetts Institute of Technology à Boston.

Mais alors... comment y est-on arrivé si vite? Grâce à deux innovations: la robotisation des grands laboratoires, qui entraîna une accélération foudroyante des procédés de décodage, et la croissance exponentielle de la puissance informatique, tout au long des années 1990, qui rendit possible le traitement de milliards et de milliards de données biologiques. La bio-informatisation était née.

Sans cette bio-informatique, point de génome. Du moins, pas en dix ans...

Imaginez: pour gagner son pari, le Projet génome humain (Human Genome Organisation ou HUGO) aura jonglé avec plus de 7 milliards de données. Celera Genomics, la société privée qui a aussi accouché d’une carte du génome, a «computé» 50 térabytes d’informations, l’équivalent de 80 000 disques compacts! Et ce n'est que le début!

Le siècle de la bio-informatique

Le terme bio-informatique (ou biologie computationnelle) remonte au milieu des années 1980. Il désigne l’ensemble des applications de l’informatique aux sciences de la vie : le tri, l'analyse, la structuration, la transmission des données par Internet, etc.

Maintenant que la plupart de nos gènes ont été localisés (ce qui constituait la première phase du décodage du génome), il revient aux scientifiques d’identifier le rôle de chacun d’eux et l’expression de leurs diverses protéines. Dans cette seconde phase, les analyses sont devenues infiniment plus fines et les calculs, infiniment plus complexes. C’est pourquoi, pour les généticiens, la nécessité de s'asseoir sur une assise bio-informatique est maintenant devenue absolue.

Or, le Conseil de la science et de la technologie du Québec, dans un avis rendu public en janvier, lance un sérieux avertissement: il y a actuellement pénurie de bio-informaticiens chez nous. Nos 30 à 50 spécialistes, selon une estimation de Jean Morissette, membre du comité scientifique, deviendront vite insuffisants.

Le problème n'est pas qu'au Québec: la soudaineté de l’émergence de la génomique a entraîné une pénurie mondiale de bio-informaticiens.

Nous devons, «en toute priorité, mettre en place, d’ici septembre 2001, un programme intensif de formation-perfectionnement en bio-informatique au Québec», indique le document La bio-informatique au Québec: un levier essentiel du développement des bio-industries. "Nous devons permettre, si possible dès l’hiver 2002, à une dizaine de boursiers d’acquérir une formation supérieure en bio-informatique à l’extérieur du Québec… Tout va se jouer dans les deux ou trois prochaines années".

«Tout», c’est la compétitivité du Québec dans le domaine de la génomique. «Tout», c’est ce secteur extrêmement névralgique, la biotechnologie, puisque le Québec rassemble 42% des firmes canadiennes!

L'odyssée de Jean Morissette

Jean Morissette fut l’un des pionniers mondiaux de la bio-informatique. Entre 1991 et 1996, il a agi comme bio-informaticien principal de l’équipe française Généthon, dans le projet de cartographie génétique. Or, c’est Généthon qui a pondu la première carte génétique au monde, un ensemble de quelque 5000 marqueurs (ou repères de gènes) sur l’ensemble du génome. Et ce sont ces repères qui ont pavé l’édification même de l’immense cathédrale que fut le Projet génome humain !

«La bio-informatique est effectivement apparue comme une nécessité dans les équipes impliquées directement dans le Projet génome humain, parce que c’est là qu’on s’est mis à générer des données biologiques à haut débit», raconte ce mathématicien—informaticien—généticien, aujourd’hui à l’emploi du Centre de recherche en endocrinologie moléculaire et oncologie du CHUL (Centre hospitalier de l’Université Laval). Morissette avait créé alors de toutes pièces, pour Généthon, une «chaîne de montage informatique de production de données biologiques», c’est-à-dire un puissant réseau d’ordinateurs intégrant moteurs de calcul et bases de données, pour «l’usine à marqueurs» qu’allait vite devenir ce labo.

«Jusque-là, en 15 ans, tous les laboratoires du monde mis ensemble n’avaient produit que 2000 marqueurs, dit-il. Dans notre seul labo, on en produira 5000 en 5 ans!»

Jusque-là, on n'avait pas l'habitude de penser chiffres quand on pensait biologie: «ce qui était nécessaire en mathématique, en astrophysique et dans tous ces domaines qui génèrent des masses de données, l’est devenu aussi en biologie. La bio-informatique est née là».

Mais «quand j’ai commencé en 1970, on parlait plutôt de bio-statistiques», poursuit Jean Morissette. Le scientifique est alors à l’emploi du Réseau de médecine génétique du Québec (RMGQ), où il structure les bases de données dans lesquelles sont stockés les résultats de tests génétiques subis par les quelque 100 000 bébés qui naissent alors annuellement. «On travaillait avec des cartes et des rubans perforés que l’on faisait analyser par télétype sur des ordinateurs situés à l’extérieur!»

Entre 1972 et 1975, il complète à Londres des études en mathématiques et génétique. De retour au pays, jusqu’à sa participation à Généthon, il travaillera encore 15 ans au RMGQ.

Aujourd’hui, comme de nombreux généticiens et bio-informaticiens du monde entier, il est engagé dans la deuxième phase du décodage du génome humain, celle où on interroge le rôle de chaque gène et la fonction de leurs protéines (la protéomique). À ce stade, les techniques d’investigation sont devenues fascinantes: l’une des méthodes consiste à prélever des cellules de l’un des organes d’un corps (la rate, par exemple) afin de déterminer lesquels, parmi nos 30 000 gènes, interviennent précisément dans le fonctionnement de cet organe.

«Pour ce faire, on pose les tissus sur des biopuces», explique M. Morrissette. Les biopuces sont des outils à mi-chemin entre le vivant et l’électronique. «Ces instruments peuvent rassembler, sur une toute petite surface, l’équivalent de 10 000 gènes ou séquences codantes. Or, mis en leur présence, les gènes présents dans le tissu "X" (la rate, par exemple) vont s’exprimer (s’identifier) sur la biopuce. Ainsi, en faisant l’exercice sur tous les tissus de toutes les parties du corps, on arrivera un jour à réaliser un nouveau type de cartographie: l’atlas de l’expression des gènes.»Cet atlas localisera, organe par organe, le lieu d’action de chaque gène.

Sauf que pour traiter toutes ces combinaisons, comparer ces millions d'exercices, il faut de l'informatique à plein régime.

Internet et compagnie

Pour Pierre Lepage, bio-informaticien de la nouvelle génération, qui œuvre au tout nouveau Centre de génomique de Montréal (situé à l’Hôpital Général), Internet est également un outil-clé au service de la bio-informatique.

«J’y passe la moitié de mon temps». Et pour y faire quoi? «Pour parcourir les grandes bases de données, où les résultats du séquençage entier du génome humain sont accessibles publiquement et gratuitement! Prenez des sites comme celui du NCBI (National Center for Biotechnology Information): on y retrouve la localisation des quelque 30 000 gènes humains. C’est là une base de travail essentielle pour nous qui sommes en possession de séquences géniques issues de personnes souffrant de diverses maladies. Dans ces bases, on peut aller chercher les régions des chromosomes qui nous intéressent, les télécharger pour fins de comparaison et d’analyse avec celles de nos malades, et identifier ainsi les possibles mutations à l’origine d’une maladie."

Certains n’hésitent pas à affirmer que la bio-informatique sera au cœur de tous les grands développements de la biologie du 21e siècle. Tellement qu’on emploie de plus en plus l’expression in silico, par opposition à in vivo et in vitro.

«On a une grosse industrie en bio-pharmaceutique au Québec et, de son virage ou non en génomique, dépendront nos besoins -plus ou moins grands- en bio-informaticiens», conclut Jean Morissette. «C’est pourquoi il faut se préparer à faire face à cette demande en mettant sur pied les programmes de formation universitaire requis.» L’Université McGill offre déjà une option en bio-informatique à l’intérieur de son doctorat en biologie. De son côté, «l’Université Laval a mis sur pied un comité chargé de structurer, pour l’automne prochain, un début de programme».

Je donne