Qu’on soit incapable de reproduire les résultats d’une étude, c’est déjà assez gênant pour les auteurs. Mais qu’on puisse prédire quelles études ne pourront pas être reproduites, c’est troublant.

Depuis quelques années déjà, la psychologie se débat avec une « crise de la reproductibilité » — un mot savant pour désigner le fait que les résultats d’un nombre anormalement élevé d’études ne peuvent pas être reproduits. Or, comme l’apprennent même les non-scientifiques qui veulent comprendre ce qui distingue un fait scientifique d’une opinion, la « reproductibilité » est une des conditions premières : les résultats d’une étude ne prennent de la valeur que s’ils peuvent être confirmés par une deuxième étude, et une troisième, et ainsi de suite.

Face à cette crise, des chercheurs se sont donc attelés à tenter de mieux définir le problème, notamment autour d’un projet appelé le Social Sciences Replication Project. Vingt-quatre chercheurs ont tenté de reproduire les résultats de 21 études « en sciences sociales » — essentiellement en psychologie — parues dans Nature et Science entre 2010 et 2015. Ils n’y sont parvenus que dans 13 cas, lit-on dans leur étude parue lundi.

Mais en parallèle, ils ont aussi tenu un « marché de la prédiction » où un peu plus de 200 volontaires pouvaient acheter des « actions » de ces 21 études, en fonction de leur niveau de confiance sur leur reproductibilité (les volontaires étaient psychologues, économistes, étudiants et professeurs).

Résultat : les 13 études qui ont pu être reproduites sont aussi celles qui ont obtenu la meilleure « cote » de la part des acheteurs.

Au-delà de l’ironie de la chose, c’est également une bonne nouvelle pour ceux qui cherchent des pistes de solutions à la crise : s’il était possible de développer un système par lequel on pourrait prévoir, avant publication, quelles recherches sont les moins solides, on éviterait beaucoup de lendemains gênants aux chercheurs.

Entre autres lendemains gênants, ça pourrait couper l’herbe sous le pied de certains résultats trop beaux pour être vrais, qui sont abondamment repris par les médias, mais qui s’avèrent ensuite statistiquement trop faibles. Une observation reprise par le journaliste Ed Yong :

Ce qui me frappe, c’est que plusieurs des études qui n’ont pas pu être reproduites avaient une qualité en commun : une valeur médiatique. Elles rapportaient des résultats attirants, mignons… L’une concluait que de lire de la fiction améliore notre capacité à comprendre les croyances et les désirs des autres.

Certes, il est possible que les 206 volontaires constituent un groupe biaisé : la recherche parue lundi ne précise pas en fonction de quels critères ils ont été choisis, mais s’il s’agit de gens qui sont tous impliqués dans la recherche ou la réflexion sur des réformes à la crise de la reproductibilité, ils avaient du coup une longueur d’avance sur le chercheur moyen. Mais d’un autre côté, ce type de « révision » spécialisée s’inscrit dans les propositions de réformes faites ces dernières années pour surmonter la crise : entre la transparence des données et la vérification de recherches passées (Reproducibility Project), l’espoir est que les chercheurs tentés de tourner les coins un peu ronds se sentent davantage surveillés.