Jeremy Gunawardena, du département de Systems Biology de Harvard, vient de publier un essai sur l’état de l’art en modélisation mathématique du fonctionnement cellulaire (dans BMC Biology, en accès libre). Outre qu’il donne un aperçu assez juste (et relativement lisible pour le profane) des efforts actuels dans le domaine, le texte est une vision assez personnelle du sujet, ce qui est toujours intéressant à lire.

Gunawardena commence son essai par rappeler, assez légitimement, combien la biologie doit aux approches mathématiques et physiques, citant par exemple R.A. Fisher, l’un des inventeurs de la génétique des populations très importante pour comprendre l’évolution des séquences génétiques (entre autres). Cela va à l’encontre de l’idée que la biologie est étrangère aux mathématiques, mais Gunawardena a cette jolie phrase:

En moyenne, les compétences théoriques se logent dans les longues queues des distributions, hors de vue des histoires conventionnelles et des manuels. Il est grand temps de revisiter l’histoire de la biologie pour remettre le raisonnement quantitatif à sa juste place.

Gunawardena attribue la «défaite» de la théorie en biologie aux succès de la biologie moléculaire (initiée ironiquement par les physiciens comme Delbruck, Watson et Crick): découvrir gènes, protéines et mutations a pris le pas sur toute approche théorique plus abstraite et plus globale. Mais nous vivons une époque formidable pour le théoricien intéressé par la biologie, car plutôt que de regarder les gènes uniques, on regarde de plus en plus les systèmes dans leur totalité, leur émergence en un comportement biologique, ce qui signe le grand retour des approches mathématiques et physiques.

Gunawardena fait la distinction entre modélisation «directe» et «rétrospective» (forward et reverse, je ne sais pas si les termes sont consacrés). La modélisation «rétrospective» vise à partir des données, et à reconstruire un modèle structuré rendant compte de celles-ci. C’est une approche qui a rencontré pas mal de succès récemment en biologie: je pense par exemple à toute la batterie de modèles de maximisation d’entropie, qui «infèrent» une équation générale prédictive (techniquement un hamiltonien) à partir des corrélations entre données. Cela a été appliqué assez brillamment récemment aux mouvements collectifs d’animaux, ou encore aux séquences des récepteurs immunitaires. Cela inclut aussi la modélisation à la «Google»: tous les algorithmes sophistiqués sur la base de réseaux de neurones sont en fait des modèles de ce genre un tout petit peu plus sophistiqués (machines de Boltzmann).

Le problème de ces modèles, c’est que bien qu’ils fonctionnent en général assez bien, ils ne disent pas forcément beaucoup de choses sur la structure et les principes biologiques sous-jacents (ou de moins pas forcément de façon transparente). Gunawardena préfère les modèles «directs», partant des principes de base simple, et permettant de faire des prédictions. L’avantage de la modélisation directe, c’est qu’on peut beaucoup plus facilement extraire des concepts biologiques nouveaux (Gunawardena cite l’homeostasie, la rétroaction, la canalisation, …), et en particulier les généraliser dans un cadre formel plus précis.

L’inconvénient des modèles directs, est qu’on ne sait pas exactement par où commencer pour les formaliser. La biologie se base sur la physique: doit-on décrire une équation pour chaque atome d’une cellule, dans l’espoir que les comportements biologiques émergent d’eux-mêmes? C’est là que Gunawardena défend une approche chère aux physiciens: ce qu’on appelle la phénoménologie. Il ne s’agit pas de tout décrire en détail: il s’agit d’identifier les composantes cruciales d’un système, et de les modéliser le plus simplement possible. Si la combinaison des composantes simples émerge en un comportement plus concept consistant avec la biologie, c’est gagné, nous pouvons des concepts et y avons gagné en compréhension. Gunawardena a par exemple cette jolie expression:

Le bois biologique émerge de la forêt d’interactions moléculaires.

C’est en fait une approche classique dans toutes les sciences du complexe, qu’il s’agisse du climat ou de l’économie.

Gunawardena examine alors 3 exemples de succès de modélisations mathématiques de systèmes biologiques qui lui paraissent parlants. 2 de ces modèles me tiennent particulièrement à coeur car j’ai apporté ma petite pierre à l’édifice théorique, j’en parlerai dans d’autres billets. Le point commun est le pouvoir prédictif de ces modèles, qu’ils soient parcimonieux ou non, qui permet justement d’expliciter (et donc de tester) les concepts sous jacents. C’est la citation du pharmacologiste James Black qui donne le titre au papier:

Le but des modèles n’est pas d’être une description pathétique de la nature; ils sont au contraire des descriptions de notre pensée pathétique de la nature

Auquel Black ajoute:

Leur but est de montrer clairement les hypothèses, de définir leurs conséquences, et de nous aider à mettre au point de nouveaux tests.

Gunawardena insiste notamment sur l’approche croisée théorie expérience. La bonne façon de faire est d’avoir un dialogue constant entre les deux, sans pour autant «forcer» les modèles théoriques à expliquer toutes les données. En particulier se pose la question du choix des paramètres des modèles: si on donne trop de liberté au modèle, on peut expliquer n’importe quel comportement. Il y a un équilibre à trouver entre ce qu’on appelle «l’over fitting» et l’explication trop simpliste. Cela rejoint la fameuse citation d’Einstein comme quoi les modèles doivent être le plus simple possible, mais pas plus simple. Comment réaliser cette approche de façon systématique et l'appliquer à la biologie ? Personne ne le sait encore exactement. Mais la piste pourrait résider dans une généralisation d'approches physiques, notamment statistiques. Ainsi Gunawardena termine son papier par une analogie qui ne me laisse pas insensible:

La complexité microscopique semble avoir conspiré pour produire quelque chose d'élégant et simple au niveau macroscopique. En physique, la loi des gaz parfaits, PV=RT, est remarquablement simple et la mécanique statistique montre comment elle émerge du chaos des interactions moléculaires. Comment le modèle de Lewis émerge de cette complexité moléculaire au niveau du tissu? Il me semble entrevoir un aperçu passionnant d’une science future, dont les concepts et les méthodes semblent à peine visible aujourd’hui. Chaque fois que j’y pense, les poils de mon cou se hérissent!

Référence: Models in biology: ‘accurate descriptions of our pathetic thinking’, Jeremy Gunawardena, BMC Biology 2014, 12:29