En science, qu’est-ce qui permet de dire qu’un résultat est « significatif » ? Les initiés évoqueront la valeur-p, mais une équipe multidisciplinaire rallume une vieille controverse : la valeur-P, disent-ils, a fait son temps.

Traditionnellement, cette valeur est de 0,05 ou 5 %. C’est « l’étalon-or » d’un résultat significatif. Par exemple, si parmi deux groupes atteints de la même maladie, un seul a reçu le médicament que l’on veut tester pendant que l’autre groupe a reçu un placebo, l’amélioration de l’état de santé du premier groupe doit différer de l’autre de plus de 5 % pour être décrétée significative.

L’un des problèmes est que 5 % est un seuil facile à franchir, pour peu que d’autres facteurs aient joué dans l’équation — changement de mode de vie, trop petit groupe, etc. En psychologie, on a dû admettre ces dernières années qu’on a abusé de la valeur-p, avec pour résultat une « crise de la reproductibilité » : quantité de recherches ont été publiées sans avoir fait la preuve que leurs résultats étaient « significatifs ».

En termes savants, on dit que la valeur-p définit « la probabilité d’obtenir la même valeur si l’hypothèse nulle était vraie » : autrement dit, si les deux populations étaient égales, si les effets du médicament et du placebo étaient égaux… Bref, s’il n’y avait rien à signaler dans l’expérience et si les résultats étaient dus au simple hasard. Les auteurs qui veulent réformer la valeur-p proposent de la faire passer de 0,05 à 0,005 (soit de 5 % à 0,5 %).

Ces 72 auteurs, qui ont rendu publique leur proposition le 22 juillet, laquelle doit bientôt paraître dans la revue Nature Human Behavior, sont entre autres statisticiens, psychologues, biologistes. Ils relancent un vieux débat : le seuil à partir duquel les physiciens décident de publier est, depuis longtemps, beaucoup plus sévère que celui utilisé en sciences biomédicales. Déjà, la génomique — l’analyse des génomes — a pris ce virage, rendu nécessaire par la quantité astronomique de données avec lesquelles elle doit jongler.  

Conséquences d’une réforme

Les subtilités de la valeur-p sont moins importantes à comprendre que sa conséquence : si le point de vue de ces auteurs l’emporte, il sera beaucoup plus difficile d’utiliser les mots « résultats significatifs ». Une recherche qui atteint le seuil de 0,5 serait simplement appelée « suggestive ». Des recherches préliminaires obtiendraient moins de visibilité.

Certes, les revues pourraient continuer de publier ce qu’elles veulent en fonction de leurs lignes éditoriales, mais une norme commune à plusieurs disciplines permettrait d’y voir plus clair, y compris dans les communiqués de presse des universités, qui sont particulièrement prompts à juger « significative » une recherche préliminaire émanant d’un de leurs chercheurs. Et beaucoup de reportages journalistiques faits à la sauvette ont pour point de départ un communiqué de presse.

Les compagnies pharmaceutiques risquent de s’y opposer, parce qu’une approche plus sévère signifiera des coûts plus élevés : il faudra augmenter le nombre moyen de participants aux essais cliniques de médicaments. De ce côté, tout reste à évaluer.

Mais les commentaires qui accompagnent cette proposition sont nombreux à souligner que le statisticien britannique Ronald Fisher, « inventeur » de la valeur-p, n’avait jamais imaginé qu’elle deviendrait un élément déterminant de ce qui définit une « preuve » en science.

Déjà, un article signé par « des dizaines » d’experts de plusieurs disciplines serait en cours d’écriture, pour réfuter point par point les arguments mis sur la table. En gros, ils reprochent aux 72 auteurs de vouloir mettre un frein à la recherche scientifique, sous le prétexte de vouloir être trop prudent. L’attention accordée au concept « statistiquement significatif », disent-ils, est légitime, mais ce concept ne saurait être le seul fardeau que doit porter la science en ce moment. La « culture » qui pousse les chercheurs à publier de plus en plus et de plus en plus vite, pèse d’un poids beaucoup plus lourd.